專利智能全文檢索系統是拓爾思具有自主知識產權的智能全文檢索引擎系統。他采用了自然語言處理與智能檢索技術,實現了結構化與非結構化數據的統一管理、實時動態索引、中文字詞混合索引、分布式與負載均衡和快速返回結果等,可滿足海量專利和非專利文獻復雜檢索需求的智能全文檢索引擎系統。
主要特點
1) 全方位檢索手段:提供了多達40多種檢索運算符。包括外部特征與文本內容的各種邏輯組合檢索、位置檢索、二次檢索(檢索歷史引用)、詞根檢索、大小寫敏感檢索。
2) 多種檢索入口:屬性字段檢索(如分類檢索)、關鍵詞檢索、位置檢索(如同段檢索)、多字段“與或非”組合檢索、二次檢索(漸進檢索)、大小寫敏感檢索、中文簡繁體擴展檢索、支持超長檢索表達式等。
3) 知識擴展檢索:檢索時能夠應用同義詞典、反義詞典和主題詞典進行自動或函數式的擴展檢索。
4) 基于成本優化的查詢算法:高效的索引壓縮技術、SKIP索引跳躍式掃描技術、多庫并行檢索技術、表達式優化技術、結果共享技術、CACHE技術。CACHE技術支持更多的并發用戶訪問,大大提高了綜合查詢速度。
5) 支持對檢索結果的各種排序:檢索結果與檢索詞的相關度排序;基于字段的排序;后進先出的快速排序。同時對多庫檢索結果可以進行混排。LIFO(后進先出的快速排序)對實際運行系統的性能提高有很大作用。TOP N排序可通過結果記錄數的裁減以減少檢索歷史的存儲來提高檢索速度。
6) 支持檢索結果的分類統計,支持用正則表達式來篩選分類統計的目標字段值,并支持抽取部分子串組成新的類別。
7) 支持短語級別(INCLUDE函數)和詞級別(LIKE函數)的“相似性”檢索,INCLUDE函數支持CHAR字段的運算。支持英文的同根詞檢索。在沒有詞根索引的情況下,也能檢索與輸入的詞具有相同詞根的其它詞。支持拼寫組合的檢索,允許基于“連接規則”、“排除規則”與“選擇規則”的三種拼寫組合。
8) 支持基于BIT字段的虛擬邏輯字段的檢索,并支持其實體字段之間的邏輯關系與排序加權。
9) 實現 “同字段”的限定運算,支持復雜條件下的檢索需求。
TRS Image Retrieval System (TRS IRS) 是由拓爾思推出的新一代圖像檢索系統,實現了圖像數據的有效管理,提供基于內容的圖像檢索功能,實現基于顏色、紋理、形狀、結構、圖元等底層特征的圖像檢索,同時結合SQL檢索,實現了元數據和圖像數據的統一管理,結合了傳統基于文本檢索和目前基于內容檢索的優勢:
1) 高智能性:多種特征自由組合,適用不同場景;
2) 高命中率:一次檢索范圍內90%相同相似圖像出現在結果集的前15%中;
3) 大數據量:單臺檢索引擎可裝載億級的圖像數據;
4) 并行計算:具有并行計算能力,充分利用多核CPU資源;
5) 易擴展性:具有易擴展的體系架構設計,可滿足大數據量及用戶的處理
6) 快速響應:99%的檢索請求都可以在2秒內完成;
給定檢索圖像,最理想的檢索結果是滿足要求的對比設計在所有圖像中與檢索圖像的相似度最高,但是由于圖像屬性的復雜性,這種理想的結果往往不能實現,因此,準確性主要反映在對比設計出現在相似度排序的位置占所有圖像的比例。衡量該比例有兩個因素,一個是平均值,另一個是方差。平均值反映排序的精度,方差反映不同檢索圖像的檢索精度的穩定性。另外,由于用戶可以對部分檢索結果進行正負樣本標定,系統可以根據標定結果進行重排序,重排序后是否能夠對系統性能帶來改善也是準確性的指標之一。目前,系統可以保證90%的對比文件出現在檢索結果的前15%。
計算機在執行檢索,實際上就是圖像特征相似度的計算。因此圖像特征能否準確表征圖像,就成為影響圖像檢索準確性的關鍵。TRS IRS擁有完善的特征算法庫,包括:
1) 顏色特征可以描述圖像的顏色構成及其分布,在所有的特征中具有最優的魯棒性;
2) 紋理特征反映圖像中同質現象的視覺特征,與物體的位置,走向尺寸和形狀有關;
3) 形狀特征以圖像中物體或區域的外輪廓為基礎,滿足對旋轉和縮放的無關性;
4) 結構特征反映的是圖像的輪廓分布情況,與輪廓中填充的顏色無關;
5) 圖元特征是一種基于圖像分割思想的圖像描述算法。顏色、紋理、形狀、結構特征屬于圖像的全局特征,基于圖像的整體來描述圖像,無法滿足圖像局部細節檢索的要求,圖元特征則能很好的解決這一問題。
6) 語義特征由圖像的語義標簽生成,也就是以關鍵詞作為語義特征,它可以充分利用傳統的圖像檢索系統的標注信息;
7) 深度特征是基于深度卷積神經網絡(CNN)訓練出來的特征,由于CNN具有良好的跨域特性(或通用性),從預訓練的CNN提取的特征可以被廣泛應用到各個領域的各種數據集。基于卷積神經網絡的深度學習得到的特征不僅保持了一定的不變性,而且還包含了更多的高層語義信息,可以有效地縮小底層特征與高層語義之間的鴻溝。
TRS深度文本挖掘軟件是基于深度神經網絡技術的新一代文本挖掘軟件,集成了開源深度神經網絡框架TensorFlow,通過對行業大數據的深度學習,實現自動分類、語義相似度計算、文本摘要、自動校對、詞典挖掘等功能的優化。
DL-CKM使用的深度模型包括卷積神經網絡(CNN)、長短時記憶網絡(LSTM)、詞嵌入(Word Embedding)、循環神經網絡(RNN)等。
主要特點
1) 融合了自然語言處理、機器學習、數據挖掘、深度神經網絡等技術,并持續追蹤最新的前沿技術,不斷更新產品。
2) 豐富的語言學知識,包含分詞詞典、多行業主題詞詞典、語義詞典、多語翻譯詞典等多種詞典。
3) 完備的文本挖掘功能模塊:包括文本分類、文本聚類、文本摘要、相似文本檢索、信息抽取、語義關系抽取、情感分析、智能問答、機器新聞寫作、熱點發現、文種識別、拼音檢索、相關短語檢索、(政治)常識校對 、數據比對、高速串匹配、跨語言查詢翻譯、語義詞典挖掘、新聞短標題生成等功能。
4) 高效的文本處理速度:對多數功能模塊而言,單文本挖掘服務器平均能達到每秒幾百條文本的處理能力。
5) 支持Kubernetes集群,提供docker部署,保證集群以高可用的、可伸縮和容錯的方式進行部署和運行。
6) 提供國產化介質,支持Intel、NV、飛騰和龍芯等不同體系結構的國產化硬件環境。
TRS企業搜索應用適配器(TRS Search Adapter)軟件是一款由TRS自主設計研發,具有強大數據集成能力的數據集成平臺。TRS Search Adapter能幫助企業修正數據質量、匯集多數據源、轉換數據形態,提升數據的利用價值。
主要特點
降低成本
1) 統一數據處理框架適應任意數據處理需求
2) 強大的數據處理能力
提高效率
1) 基于圖形化的數據流程定義
2) 支持多線程數據處理
擴展性高
1) 可擴展遠程執行引擎實現多機部署
2) 插件式數據處理節點可以適應多種數據集成背景
專利智能全文檢索系統是拓爾思具有自主知識產權的智能全文檢索引擎系統。他采用了自然語言處理與智能檢索技術,實現了結構化與非結構化數據的統一管理、實時動態索引、中文字詞混合索引、分布式與負載均衡和快速返回結果等,可滿足海量專利和非專利文獻復雜檢索需求的智能全文檢索引擎系統。
主要特點
1) 全方位檢索手段:提供了多達40多種檢索運算符。包括外部特征與文本內容的各種邏輯組合檢索、位置檢索、二次檢索(檢索歷史引用)、詞根檢索、大小寫敏感檢索。
2) 多種檢索入口:屬性字段檢索(如分類檢索)、關鍵詞檢索、位置檢索(如同段檢索)、多字段“與或非”組合檢索、二次檢索(漸進檢索)、大小寫敏感檢索、中文簡繁體擴展檢索、支持超長檢索表達式等。
3) 知識擴展檢索:檢索時能夠應用同義詞典、反義詞典和主題詞典進行自動或函數式的擴展檢索。
4) 基于成本優化的查詢算法:高效的索引壓縮技術、SKIP索引跳躍式掃描技術、多庫并行檢索技術、表達式優化技術、結果共享技術、CACHE技術。CACHE技術支持更多的并發用戶訪問,大大提高了綜合查詢速度。
5) 支持對檢索結果的各種排序:檢索結果與檢索詞的相關度排序;基于字段的排序;后進先出的快速排序。同時對多庫檢索結果可以進行混排。LIFO(后進先出的快速排序)對實際運行系統的性能提高有很大作用。TOP N排序可通過結果記錄數的裁減以減少檢索歷史的存儲來提高檢索速度。
6) 支持檢索結果的分類統計,支持用正則表達式來篩選分類統計的目標字段值,并支持抽取部分子串組成新的類別。
7) 支持短語級別(INCLUDE函數)和詞級別(LIKE函數)的“相似性”檢索,INCLUDE函數支持CHAR字段的運算。支持英文的同根詞檢索。在沒有詞根索引的情況下,也能檢索與輸入的詞具有相同詞根的其它詞。支持拼寫組合的檢索,允許基于“連接規則”、“排除規則”與“選擇規則”的三種拼寫組合。
8) 支持基于BIT字段的虛擬邏輯字段的檢索,并支持其實體字段之間的邏輯關系與排序加權。
9) 實現 “同字段”的限定運算,支持復雜條件下的檢索需求。
TRS Image Retrieval System (TRS IRS) 是由拓爾思推出的新一代圖像檢索系統,實現了圖像數據的有效管理,提供基于內容的圖像檢索功能,實現基于顏色、紋理、形狀、結構、圖元等底層特征的圖像檢索,同時結合SQL檢索,實現了元數據和圖像數據的統一管理,結合了傳統基于文本檢索和目前基于內容檢索的優勢:
1) 高智能性:多種特征自由組合,適用不同場景;
2) 高命中率:一次檢索范圍內90%相同相似圖像出現在結果集的前15%中;
3) 大數據量:單臺檢索引擎可裝載億級的圖像數據;
4) 并行計算:具有并行計算能力,充分利用多核CPU資源;
5) 易擴展性:具有易擴展的體系架構設計,可滿足大數據量及用戶的處理
6) 快速響應:99%的檢索請求都可以在2秒內完成;
給定檢索圖像,最理想的檢索結果是滿足要求的對比設計在所有圖像中與檢索圖像的相似度最高,但是由于圖像屬性的復雜性,這種理想的結果往往不能實現,因此,準確性主要反映在對比設計出現在相似度排序的位置占所有圖像的比例。衡量該比例有兩個因素,一個是平均值,另一個是方差。平均值反映排序的精度,方差反映不同檢索圖像的檢索精度的穩定性。另外,由于用戶可以對部分檢索結果進行正負樣本標定,系統可以根據標定結果進行重排序,重排序后是否能夠對系統性能帶來改善也是準確性的指標之一。目前,系統可以保證90%的對比文件出現在檢索結果的前15%。
計算機在執行檢索,實際上就是圖像特征相似度的計算。因此圖像特征能否準確表征圖像,就成為影響圖像檢索準確性的關鍵。TRS IRS擁有完善的特征算法庫,包括:
1) 顏色特征可以描述圖像的顏色構成及其分布,在所有的特征中具有最優的魯棒性;
2) 紋理特征反映圖像中同質現象的視覺特征,與物體的位置,走向尺寸和形狀有關;
3) 形狀特征以圖像中物體或區域的外輪廓為基礎,滿足對旋轉和縮放的無關性;
4) 結構特征反映的是圖像的輪廓分布情況,與輪廓中填充的顏色無關;
5) 圖元特征是一種基于圖像分割思想的圖像描述算法。顏色、紋理、形狀、結構特征屬于圖像的全局特征,基于圖像的整體來描述圖像,無法滿足圖像局部細節檢索的要求,圖元特征則能很好的解決這一問題。
6) 語義特征由圖像的語義標簽生成,也就是以關鍵詞作為語義特征,它可以充分利用傳統的圖像檢索系統的標注信息;
7) 深度特征是基于深度卷積神經網絡(CNN)訓練出來的特征,由于CNN具有良好的跨域特性(或通用性),從預訓練的CNN提取的特征可以被廣泛應用到各個領域的各種數據集。基于卷積神經網絡的深度學習得到的特征不僅保持了一定的不變性,而且還包含了更多的高層語義信息,可以有效地縮小底層特征與高層語義之間的鴻溝。
TRS深度文本挖掘軟件是基于深度神經網絡技術的新一代文本挖掘軟件,集成了開源深度神經網絡框架TensorFlow,通過對行業大數據的深度學習,實現自動分類、語義相似度計算、文本摘要、自動校對、詞典挖掘等功能的優化。
DL-CKM使用的深度模型包括卷積神經網絡(CNN)、長短時記憶網絡(LSTM)、詞嵌入(Word Embedding)、循環神經網絡(RNN)等。
主要特點
1) 融合了自然語言處理、機器學習、數據挖掘、深度神經網絡等技術,并持續追蹤最新的前沿技術,不斷更新產品。
2) 豐富的語言學知識,包含分詞詞典、多行業主題詞詞典、語義詞典、多語翻譯詞典等多種詞典。
3) 完備的文本挖掘功能模塊:包括文本分類、文本聚類、文本摘要、相似文本檢索、信息抽取、語義關系抽取、情感分析、智能問答、機器新聞寫作、熱點發現、文種識別、拼音檢索、相關短語檢索、(政治)常識校對 、數據比對、高速串匹配、跨語言查詢翻譯、語義詞典挖掘、新聞短標題生成等功能。
4) 高效的文本處理速度:對多數功能模塊而言,單文本挖掘服務器平均能達到每秒幾百條文本的處理能力。
5) 支持Kubernetes集群,提供docker部署,保證集群以高可用的、可伸縮和容錯的方式進行部署和運行。
6) 提供國產化介質,支持Intel、NV、飛騰和龍芯等不同體系結構的國產化硬件環境。
TRS企業搜索應用適配器(TRS Search Adapter)軟件是一款由TRS自主設計研發,具有強大數據集成能力的數據集成平臺。TRS Search Adapter能幫助企業修正數據質量、匯集多數據源、轉換數據形態,提升數據的利用價值。
主要特點
降低成本
1) 統一數據處理框架適應任意數據處理需求
2) 強大的數據處理能力
提高效率
1) 基于圖形化的數據流程定義
2) 支持多線程數據處理
擴展性高
1) 可擴展遠程執行引擎實現多機部署
2) 插件式數據處理節點可以適應多種數據集成背景
TRS檢索引擎作為S系統的發動機,提供專利各類數據的索引和檢索服務,包括專利分類號、公告日、申請人、設計人等結構化數據的元數據檢索,以及專利名稱、摘要、權利要求書、說明書等非結構化數據的全文檢索。
搜索引擎功能實現了91個索引庫、23.1億條索引記錄、超20T的數據量,日均訪問量2500萬次,總請求平均響應時間低于60毫秒,記錄讀取平均響應時間低于50毫秒。
特點:
支持跨語言檢索
支持數值范圍檢索
提供查詢和統計分析功能
支持文本搜索,支持機械附圖搜索
支持關鍵詞檢索,支持語義檢索
目前,已經處理了近大幾百萬件實用新型申請。其中有10%左右的申請被判定為存在高相似度(四五星)文獻,高相似度文獻識別的準確率基本是100%。
發明機檢報告系統也已經上線,累計已處理發明申請幾百萬萬件(含歷史申請),其中有超過10%以上的申請被判定為四五級,即確定為抄襲。四五級識別的準確率基本是100%。
| 時間 | 申請件數(萬件) | 四五星文獻檢出量(件) | 四五星文獻檢出率 |
| 2013 | 83 | 72464 | 8.7% |
| 2014 | 101 | 48147 | 4.8% |
| 2015 | 109 | 121993 | 11% |
| 2016 | 138 | 247962 | 17% |
| 2017 | 157 | 118115 | 7.5% |
| 2018.1~11 | 198 | 275844 | 13.8% |
機檢報告系統為專利審查工作提供了強有力的智能支持,降低審查開銷,促進審查資源的有效利用,切實推動專利審查質量的提升。
D系統基于計算機圖形圖像識別與檢索技術,依據一定的規則通過對外觀設計專利的圖形圖像進行自動識別和基本判斷,快速做出相同/相近似的初步判斷,準確過濾無價值的設計,將有價值的檢出對象框定在最小范圍內,使審查員對檢索系統檢出的有限數目對象進行相同/相近似的人工判斷。
外觀設計專利數據具有數據量大,數據類型復雜、圖像沒有統一標準等特征,因此在外觀設計專利數據上進行圖像檢索有很大的技術難度。D系統二期雖具備圖形檢索的功能,但存在檢索效率慢、檢索規模受限和檢索效果欠佳等問題。
拓爾思經過多年的研究實踐,實現前沿的圖形比對和圖像檢索技術,通過基于圖形內容的檢索,滿足了審查用戶對檢索效率和準確率需求;結合審查員檢索報告的匯總、分析和總結,形成了新的檢索模式進而提高檢索效率;并集成同近義詞擴展、跨語言擴展等輔助技術,進一步提升了檢索體驗。目前圖像檢索系統的D系統三期,支持包括中國、美國、日本、韓國、德國、WIPO、中國香港、中國澳門、中國臺灣等十多個國家、組織和地區的外觀設計專利數據檢索。
圖像檢索系統中在庫專利文獻數超過900萬件,視圖數量在4500萬幅以上,數據容量達5T以上,實現了“90%的圖形檢索任務都在5秒內完成檢索響應”的性能指標,超越了“90%以上的對比文件出現在檢索結果的前15%”的準確率指標。
DI Inspiro充分借鑒了國內外著名信息檢索系統的先進功能,并且針對國內用戶的使用習慣進行了改良性設計。具有數據全面可靠、功能專業、檢索效率高、用戶界面友好等特點,是企事業單位研發工程師、專利管理人員和專利咨詢師等相關人員進行技術調研、競爭性分析和法律風險預警的有力工具。
DI Inspiro提供了快捷檢索、表格檢索、號單檢索、可視化檢索、化學結構檢索和生物序列檢索等多種檢索方式。此外,DI Inspiro還配備了功能強大的輔助查詢工具,可實現IPC、專利權人、同義詞、國別代碼、省市代碼、號碼等字段的擴展檢索。用戶可以對檢索結果進行導出、收藏、統計篩選和在線分析,還可以對檢索策略和結果在線自建數據庫導航樹,實現保存和預警。
系統主要提供如下服務:
近似檢索:在申請商標前,檢索被申請商標是否有相同近似,避免申請人的時間和經濟損失;
綜合檢索:用戶檢索商標的基本信息及其他業務信息;
狀態檢索:檢索商標的業務流程;
公告檢索:檢索公告信息;
錯誤反饋:如果發現商標信息有誤,可以通過填寫反饋單,商標局進行核實后會進行更正。
商標網上檢索自動化系統提供五種檢索服務及錯誤信息反饋功能,檢索服務包括:商標近似檢索、商標綜合信息檢索、商標狀態檢索、商標公告檢索和商品/服務項目檢索。
商標網上檢索系統將采用國產化、自主化為主的可擴展、動態配置技術路線。
專利導航分析系統實現了專利信息資源整合,依據規則粗加工和自動標引,從產業發展方向、城市產業定位、產業發展路徑三個維度提供決策參考。專利導航分析系統主要由數據交換系統、智能輔助標引系統和導航分析系統構成。
數據交換系統通過WEB Service接口定期從國家平臺獲取中外文專利題錄文摘數據,同時調用智能輔助標引系統獲取技術分支,根據來源EXCEL歷史標引數據標引技術分支,以及提取城市、發明人等導航分析關鍵屬性后,寫入發布分析庫,完成數據交換。智能輔助標引系統在基于規則(檢索表達式),完成技術分支標引;
導航分析系統基于現有專利數據分析,分析維度為技術分支表、IPC分類、城市、申請人等相關屬性。
導航分析分為產業發展方向、城市產業定位、產業發展路徑三大模塊。每個模塊細分為若干子分析,分別生成圖表及表格。用戶可以對相應的分析進行單項及多項下載操作。