300229 拓爾思
方案內容
專利智能全文檢索引擎系統
圖像檢索系統
TRS深度文本挖掘軟件
TRS企業搜索應用適配器軟件

專利智能全文檢索系統是拓爾思具有自主知識產權的智能全文檢索引擎系統。他采用了自然語言處理與智能檢索技術,實現了結構化與非結構化數據的統一管理、實時動態索引、中文字詞混合索引、分布式與負載均衡和快速返回結果等,可滿足海量專利和非專利文獻復雜檢索需求的智能全文檢索引擎系統。

主要特點

1) 全方位檢索手段:提供了多達40多種檢索運算符。包括外部特征與文本內容的各種邏輯組合檢索、位置檢索、二次檢索(檢索歷史引用)、詞根檢索、大小寫敏感檢索。

2) 多種檢索入口:屬性字段檢索(如分類檢索)、關鍵詞檢索、位置檢索(如同段檢索)、多字段“與或非”組合檢索、二次檢索(漸進檢索)、大小寫敏感檢索、中文簡繁體擴展檢索、支持超長檢索表達式等。

3) 知識擴展檢索:檢索時能夠應用同義詞典、反義詞典和主題詞典進行自動或函數式的擴展檢索。

4) 基于成本優化的查詢算法:高效的索引壓縮技術、SKIP索引跳躍式掃描技術、多庫并行檢索技術、表達式優化技術、結果共享技術、CACHE技術。CACHE技術支持更多的并發用戶訪問,大大提高了綜合查詢速度。

5) 支持對檢索結果的各種排序:檢索結果與檢索詞的相關度排序;基于字段的排序;后進先出的快速排序。同時對多庫檢索結果可以進行混排。LIFO(后進先出的快速排序)對實際運行系統的性能提高有很大作用。TOP N排序可通過結果記錄數的裁減以減少檢索歷史的存儲來提高檢索速度。

6) 支持檢索結果的分類統計,支持用正則表達式來篩選分類統計的目標字段值,并支持抽取部分子串組成新的類別。

7) 支持短語級別(INCLUDE函數)和詞級別(LIKE函數)的“相似性”檢索,INCLUDE函數支持CHAR字段的運算。支持英文的同根詞檢索。在沒有詞根索引的情況下,也能檢索與輸入的詞具有相同詞根的其它詞。支持拼寫組合的檢索,允許基于“連接規則”、“排除規則”與“選擇規則”的三種拼寫組合。

8) 支持基于BIT字段的虛擬邏輯字段的檢索,并支持其實體字段之間的邏輯關系與排序加權。

9) 實現 “同字段”的限定運算,支持復雜條件下的檢索需求。

TRS Image Retrieval System (TRS IRS) 是由拓爾思推出的新一代圖像檢索系統,實現了圖像數據的有效管理,提供基于內容的圖像檢索功能,實現基于顏色、紋理、形狀、結構、圖元等底層特征的圖像檢索,同時結合SQL檢索,實現了元數據和圖像數據的統一管理,結合了傳統基于文本檢索和目前基于內容檢索的優勢:

1) 高智能性:多種特征自由組合,適用不同場景;

2) 高命中率:一次檢索范圍內90%相同相似圖像出現在結果集的前15%中;

3) 大數據量:單臺檢索引擎可裝載億級的圖像數據;

4) 并行計算:具有并行計算能力,充分利用多核CPU資源;

5) 易擴展性:具有易擴展的體系架構設計,可滿足大數據量及用戶的處理

6) 快速響應:99%的檢索請求都可以在2秒內完成;

給定檢索圖像,最理想的檢索結果是滿足要求的對比設計在所有圖像中與檢索圖像的相似度最高,但是由于圖像屬性的復雜性,這種理想的結果往往不能實現,因此,準確性主要反映在對比設計出現在相似度排序的位置占所有圖像的比例。衡量該比例有兩個因素,一個是平均值,另一個是方差。平均值反映排序的精度,方差反映不同檢索圖像的檢索精度的穩定性。另外,由于用戶可以對部分檢索結果進行正負樣本標定,系統可以根據標定結果進行重排序,重排序后是否能夠對系統性能帶來改善也是準確性的指標之一。目前,系統可以保證90%的對比文件出現在檢索結果的前15%。

計算機在執行檢索,實際上就是圖像特征相似度的計算。因此圖像特征能否準確表征圖像,就成為影響圖像檢索準確性的關鍵。TRS IRS擁有完善的特征算法庫,包括:

1) 顏色特征可以描述圖像的顏色構成及其分布,在所有的特征中具有最優的魯棒性;

2) 紋理特征反映圖像中同質現象的視覺特征,與物體的位置,走向尺寸和形狀有關;

3) 形狀特征以圖像中物體或區域的外輪廓為基礎,滿足對旋轉和縮放的無關性;

4) 結構特征反映的是圖像的輪廓分布情況,與輪廓中填充的顏色無關;

5) 圖元特征是一種基于圖像分割思想的圖像描述算法。顏色、紋理、形狀、結構特征屬于圖像的全局特征,基于圖像的整體來描述圖像,無法滿足圖像局部細節檢索的要求,圖元特征則能很好的解決這一問題。

6) 語義特征由圖像的語義標簽生成,也就是以關鍵詞作為語義特征,它可以充分利用傳統的圖像檢索系統的標注信息;

7) 深度特征是基于深度卷積神經網絡(CNN)訓練出來的特征,由于CNN具有良好的跨域特性(或通用性),從預訓練的CNN提取的特征可以被廣泛應用到各個領域的各種數據集?;诰矸e神經網絡的深度學習得到的特征不僅保持了一定的不變性,而且還包含了更多的高層語義信息,可以有效地縮小底層特征與高層語義之間的鴻溝。

TRS深度文本挖掘軟件是基于深度神經網絡技術的新一代文本挖掘軟件,集成了開源深度神經網絡框架TensorFlow,通過對行業大數據的深度學習,實現自動分類、語義相似度計算、文本摘要、自動校對、詞典挖掘等功能的優化。

DL-CKM使用的深度模型包括卷積神經網絡(CNN)、長短時記憶網絡(LSTM)、詞嵌入(Word Embedding)、循環神經網絡(RNN)等。

主要特點

1) 融合了自然語言處理、機器學習、數據挖掘、深度神經網絡等技術,并持續追蹤最新的前沿技術,不斷更新產品。

2) 豐富的語言學知識,包含分詞詞典、多行業主題詞詞典、語義詞典、多語翻譯詞典等多種詞典。

3) 完備的文本挖掘功能模塊:包括文本分類、文本聚類、文本摘要、相似文本檢索、信息抽取、語義關系抽取、情感分析、智能問答、機器新聞寫作、熱點發現、文種識別、拼音檢索、相關短語檢索、(政治)常識校對 、數據比對、高速串匹配、跨語言查詢翻譯、語義詞典挖掘、新聞短標題生成等功能。

4) 高效的文本處理速度:對多數功能模塊而言,單文本挖掘服務器平均能達到每秒幾百條文本的處理能力。

5) 支持Kubernetes集群,提供docker部署,保證集群以高可用的、可伸縮和容錯的方式進行部署和運行。

6) 提供國產化介質,支持Intel、NV、飛騰和龍芯等不同體系結構的國產化硬件環境。

TRS企業搜索應用適配器(TRS Search Adapter)軟件是一款由TRS自主設計研發,具有強大數據集成能力的數據集成平臺。TRS Search Adapter能幫助企業修正數據質量、匯集多數據源、轉換數據形態,提升數據的利用價值。

主要特點

降低成本

1) 統一數據處理框架適應任意數據處理需求

2) 強大的數據處理能力

提高效率

1) 基于圖形化的數據流程定義

2) 支持多線程數據處理

擴展性高

1) 可擴展遠程執行引擎實現多機部署

2) 插件式數據處理節點可以適應多種數據集成背景

專利智能全文檢索引擎系統

專利智能全文檢索系統是拓爾思具有自主知識產權的智能全文檢索引擎系統。他采用了自然語言處理與智能檢索技術,實現了結構化與非結構化數據的統一管理、實時動態索引、中文字詞混合索引、分布式與負載均衡和快速返回結果等,可滿足海量專利和非專利文獻復雜檢索需求的智能全文檢索引擎系統。

主要特點

1) 全方位檢索手段:提供了多達40多種檢索運算符。包括外部特征與文本內容的各種邏輯組合檢索、位置檢索、二次檢索(檢索歷史引用)、詞根檢索、大小寫敏感檢索。

2) 多種檢索入口:屬性字段檢索(如分類檢索)、關鍵詞檢索、位置檢索(如同段檢索)、多字段“與或非”組合檢索、二次檢索(漸進檢索)、大小寫敏感檢索、中文簡繁體擴展檢索、支持超長檢索表達式等。

3) 知識擴展檢索:檢索時能夠應用同義詞典、反義詞典和主題詞典進行自動或函數式的擴展檢索。

4) 基于成本優化的查詢算法:高效的索引壓縮技術、SKIP索引跳躍式掃描技術、多庫并行檢索技術、表達式優化技術、結果共享技術、CACHE技術。CACHE技術支持更多的并發用戶訪問,大大提高了綜合查詢速度。

5) 支持對檢索結果的各種排序:檢索結果與檢索詞的相關度排序;基于字段的排序;后進先出的快速排序。同時對多庫檢索結果可以進行混排。LIFO(后進先出的快速排序)對實際運行系統的性能提高有很大作用。TOP N排序可通過結果記錄數的裁減以減少檢索歷史的存儲來提高檢索速度。

6) 支持檢索結果的分類統計,支持用正則表達式來篩選分類統計的目標字段值,并支持抽取部分子串組成新的類別。

7) 支持短語級別(INCLUDE函數)和詞級別(LIKE函數)的“相似性”檢索,INCLUDE函數支持CHAR字段的運算。支持英文的同根詞檢索。在沒有詞根索引的情況下,也能檢索與輸入的詞具有相同詞根的其它詞。支持拼寫組合的檢索,允許基于“連接規則”、“排除規則”與“選擇規則”的三種拼寫組合。

8) 支持基于BIT字段的虛擬邏輯字段的檢索,并支持其實體字段之間的邏輯關系與排序加權。

9) 實現 “同字段”的限定運算,支持復雜條件下的檢索需求。

圖像檢索系統

TRS Image Retrieval System (TRS IRS) 是由拓爾思推出的新一代圖像檢索系統,實現了圖像數據的有效管理,提供基于內容的圖像檢索功能,實現基于顏色、紋理、形狀、結構、圖元等底層特征的圖像檢索,同時結合SQL檢索,實現了元數據和圖像數據的統一管理,結合了傳統基于文本檢索和目前基于內容檢索的優勢:

1) 高智能性:多種特征自由組合,適用不同場景;

2) 高命中率:一次檢索范圍內90%相同相似圖像出現在結果集的前15%中;

3) 大數據量:單臺檢索引擎可裝載億級的圖像數據;

4) 并行計算:具有并行計算能力,充分利用多核CPU資源;

5) 易擴展性:具有易擴展的體系架構設計,可滿足大數據量及用戶的處理

6) 快速響應:99%的檢索請求都可以在2秒內完成;

給定檢索圖像,最理想的檢索結果是滿足要求的對比設計在所有圖像中與檢索圖像的相似度最高,但是由于圖像屬性的復雜性,這種理想的結果往往不能實現,因此,準確性主要反映在對比設計出現在相似度排序的位置占所有圖像的比例。衡量該比例有兩個因素,一個是平均值,另一個是方差。平均值反映排序的精度,方差反映不同檢索圖像的檢索精度的穩定性。另外,由于用戶可以對部分檢索結果進行正負樣本標定,系統可以根據標定結果進行重排序,重排序后是否能夠對系統性能帶來改善也是準確性的指標之一。目前,系統可以保證90%的對比文件出現在檢索結果的前15%。

計算機在執行檢索,實際上就是圖像特征相似度的計算。因此圖像特征能否準確表征圖像,就成為影響圖像檢索準確性的關鍵。TRS IRS擁有完善的特征算法庫,包括:

1) 顏色特征可以描述圖像的顏色構成及其分布,在所有的特征中具有最優的魯棒性;

2) 紋理特征反映圖像中同質現象的視覺特征,與物體的位置,走向尺寸和形狀有關;

3) 形狀特征以圖像中物體或區域的外輪廓為基礎,滿足對旋轉和縮放的無關性;

4) 結構特征反映的是圖像的輪廓分布情況,與輪廓中填充的顏色無關;

5) 圖元特征是一種基于圖像分割思想的圖像描述算法。顏色、紋理、形狀、結構特征屬于圖像的全局特征,基于圖像的整體來描述圖像,無法滿足圖像局部細節檢索的要求,圖元特征則能很好的解決這一問題。

6) 語義特征由圖像的語義標簽生成,也就是以關鍵詞作為語義特征,它可以充分利用傳統的圖像檢索系統的標注信息;

7) 深度特征是基于深度卷積神經網絡(CNN)訓練出來的特征,由于CNN具有良好的跨域特性(或通用性),從預訓練的CNN提取的特征可以被廣泛應用到各個領域的各種數據集?;诰矸e神經網絡的深度學習得到的特征不僅保持了一定的不變性,而且還包含了更多的高層語義信息,可以有效地縮小底層特征與高層語義之間的鴻溝。

TRS深度文本挖掘軟件

TRS深度文本挖掘軟件是基于深度神經網絡技術的新一代文本挖掘軟件,集成了開源深度神經網絡框架TensorFlow,通過對行業大數據的深度學習,實現自動分類、語義相似度計算、文本摘要、自動校對、詞典挖掘等功能的優化。

DL-CKM使用的深度模型包括卷積神經網絡(CNN)、長短時記憶網絡(LSTM)、詞嵌入(Word Embedding)、循環神經網絡(RNN)等。

主要特點

1) 融合了自然語言處理、機器學習、數據挖掘、深度神經網絡等技術,并持續追蹤最新的前沿技術,不斷更新產品。

2) 豐富的語言學知識,包含分詞詞典、多行業主題詞詞典、語義詞典、多語翻譯詞典等多種詞典。

3) 完備的文本挖掘功能模塊:包括文本分類、文本聚類、文本摘要、相似文本檢索、信息抽取、語義關系抽取、情感分析、智能問答、機器新聞寫作、熱點發現、文種識別、拼音檢索、相關短語檢索、(政治)常識校對 、數據比對、高速串匹配、跨語言查詢翻譯、語義詞典挖掘、新聞短標題生成等功能。

4) 高效的文本處理速度:對多數功能模塊而言,單文本挖掘服務器平均能達到每秒幾百條文本的處理能力。

5) 支持Kubernetes集群,提供docker部署,保證集群以高可用的、可伸縮和容錯的方式進行部署和運行。

6) 提供國產化介質,支持Intel、NV、飛騰和龍芯等不同體系結構的國產化硬件環境。

TRS企業搜索應用適配器軟件

TRS企業搜索應用適配器(TRS Search Adapter)軟件是一款由TRS自主設計研發,具有強大數據集成能力的數據集成平臺。TRS Search Adapter能幫助企業修正數據質量、匯集多數據源、轉換數據形態,提升數據的利用價值。

主要特點

降低成本

1) 統一數據處理框架適應任意數據處理需求

2) 強大的數據處理能力

提高效率

1) 基于圖形化的數據流程定義

2) 支持多線程數據處理

擴展性高

1) 可擴展遠程執行引擎實現多機部署

2) 插件式數據處理節點可以適應多種數據集成背景

應用場景
專利檢索與服務系統
機檢報告系統
中國外觀設計智能檢索系統
中國知識產權大數據與智慧服務系統
商標網上檢索系統
專利導航分析系統
專利檢索與服務系統(Patent search and service system),以下簡稱S系統,是專利局信息化建設十一五規劃中的重大建設項目之一。S系統的系統架構設計是基于B/S架構進行開發設計的。審查員在確定檢索詞或檢索式后,點擊“檢索”向服務器(à檢索WEB服務器à檢索應用服務器)發送請求,服務器在接收到該請求之后,會調用檢索引擎的檢索接口進行檢索并將檢索式注冊到應用數據庫中,然后返回檢索結果。
TRS檢索引擎作為S系統的發動機,提供專利各類數據的索引和檢索服務,包括專利分類號、公告日、申請人、設計人等結構化數據的元數據檢索,以及專利名稱、摘要、權利要求書、說明書等非結構化數據的全文檢索。
搜索引擎功能實現了91個索引庫、23.1億條索引記錄、超20T的數據量,日均訪問量2500萬次,總請求平均響應時間低于60毫秒,記錄讀取平均響應時間低于50毫秒。
特點:
支持跨語言檢索
支持數值范圍檢索
提供查詢和統計分析功能
支持文本搜索,支持機械附圖搜索
支持關鍵詞檢索,支持語義檢索
隨著我國從“中國制造”市場向“中國設計”市場轉型,國家大力推動各個重大領域的技術創新,我國的專利申請數量在快速上升,每年的專利申請數量已居國際前列。隨著申請量的飛速增長,惡意抄襲、低質量申請等問題在專利申請中層出不窮。龐大的專利申請對審查員的日常審查業務造成了巨大的壓力,為了減輕審查員的工作負擔,提高專利審查質量和公信度,國家知識產權局于2013年上線了實用新型機檢報告推送項目。經過幾年的努力,已經建成一體化的機檢報告生成系統,將申請接收、機檢報告生成、機檢報告結果推送等功能緊密結合,實現機檢報告業務的全流程服務。
目前,已經處理了近大幾百萬件實用新型申請。其中有10%左右的申請被判定為存在高相似度(四五星)文獻,高相似度文獻識別的準確率基本是100%。
發明機檢報告系統也已經上線,累計已處理發明申請幾百萬萬件(含歷史申請),其中有超過10%以上的申請被判定為四五級,即確定為抄襲。四五級識別的準確率基本是100%。
時間 申請件數(萬件) 四五星文獻檢出量(件) 四五星文獻檢出率
2013 83 72464 8.7%
2014 101 48147 4.8%
2015 109 121993 11%
2016 138 247962 17%
2017 157 118115 7.5%
2018.1~11 198 275844 13.8%
機檢報告系統總體運行穩定,能夠有效地識別出權利書、說明書、附圖明顯抄襲的申請。
機檢報告系統為專利審查工作提供了強有力的智能支持,降低審查開銷,促進審查資源的有效利用,切實推動專利審查質量的提升。
中國外觀設計智能檢索(以下簡稱D系統)具有智能化自動識別功能、高效準確的外觀設計專利圖形圖像計算機檢索系統, 是支撐國家知識產權局專利局審查工作的核心業務系統之一。
D系統基于計算機圖形圖像識別與檢索技術,依據一定的規則通過對外觀設計專利的圖形圖像進行自動識別和基本判斷,快速做出相同/相近似的初步判斷,準確過濾無價值的設計,將有價值的檢出對象框定在最小范圍內,使審查員對檢索系統檢出的有限數目對象進行相同/相近似的人工判斷。
外觀設計專利數據具有數據量大,數據類型復雜、圖像沒有統一標準等特征,因此在外觀設計專利數據上進行圖像檢索有很大的技術難度。D系統二期雖具備圖形檢索的功能,但存在檢索效率慢、檢索規模受限和檢索效果欠佳等問題。
拓爾思經過多年的研究實踐,實現前沿的圖形比對和圖像檢索技術,通過基于圖形內容的檢索,滿足了審查用戶對檢索效率和準確率需求;結合審查員檢索報告的匯總、分析和總結,形成了新的檢索模式進而提高檢索效率;并集成同近義詞擴展、跨語言擴展等輔助技術,進一步提升了檢索體驗。目前圖像檢索系統的D系統三期,支持包括中國、美國、日本、韓國、德國、WIPO、中國香港、中國澳門、中國臺灣等十多個國家、組織和地區的外觀設計專利數據檢索。
圖像檢索系統中在庫專利文獻數超過900萬件,視圖數量在4500萬幅以上,數據容量達5T以上,實現了“90%的圖形檢索任務都在5秒內完成檢索響應”的性能指標,超越了“90%以上的對比文件出現在檢索結果的前15%”的準確率指標。
DI inspiro系統是由知識產權出版社有限責任公司開發建設的新一代知識產權服務系統,是中國首家知識產權大數據與智慧服務的信息化應用工具,聚集了專利、商標、標準、期刊和法律文書等各類知識產權數據??蓪崿F用戶對知識產權相關數據的同步檢索獲取、快捷統計分析和項目即時預警;滿足用戶對知識產權數據的個性化加工、項目的自主分級管理,以及集團內的信息共享;實現用戶的特定需求,如生物序列檢索、化學結構檢索、可視化檢索、侵權分析、聚類分析、關聯分析、預警設置和項目管理等。
DI Inspiro充分借鑒了國內外著名信息檢索系統的先進功能,并且針對國內用戶的使用習慣進行了改良性設計。具有數據全面可靠、功能專業、檢索效率高、用戶界面友好等特點,是企事業單位研發工程師、專利管理人員和專利咨詢師等相關人員進行技術調研、競爭性分析和法律風險預警的有力工具。
DI Inspiro提供了快捷檢索、表格檢索、號單檢索、可視化檢索、化學結構檢索和生物序列檢索等多種檢索方式。此外,DI Inspiro還配備了功能強大的輔助查詢工具,可實現IPC、專利權人、同義詞、國別代碼、省市代碼、號碼等字段的擴展檢索。用戶可以對檢索結果進行導出、收藏、統計篩選和在線分析,還可以對檢索策略和結果在線自建數據庫導航樹,實現保存和預警。
為了滿足商標申請用戶和社會公眾對商標數據信息的檢索需求,國家工商總局于2004年建立了商標網上檢索系統,為用戶免費提供商標注冊信息檢索服務。
系統主要提供如下服務:
近似檢索:在申請商標前,檢索被申請商標是否有相同近似,避免申請人的時間和經濟損失;
綜合檢索:用戶檢索商標的基本信息及其他業務信息;
狀態檢索:檢索商標的業務流程;
公告檢索:檢索公告信息;
錯誤反饋:如果發現商標信息有誤,可以通過填寫反饋單,商標局進行核實后會進行更正。
商標網上檢索自動化系統提供五種檢索服務及錯誤信息反饋功能,檢索服務包括:商標近似檢索、商標綜合信息檢索、商標狀態檢索、商標公告檢索和商品/服務項目檢索。
商標網上檢索系統將采用國產化、自主化為主的可擴展、動態配置技術路線。
專利導航,以專利信息資源利用和專利分析為基礎,把專利運用嵌入產業技術創新、產品創新、組織創新和商業模式創新之中,是引導和支撐產業科學發展的一項探索性工作。專利導航的主要目的是探索建立專利信息分析與產業運行決策深度融合、專利創造與產業創新能力高度匹配、專利布局對產業競爭地位保障有力、專利價值實現對產業運行效益有效支撐的工作機制,推動產業的專利協同運用,培育形成專利導航產業發展新模式。
專利導航分析系統實現了專利信息資源整合,依據規則粗加工和自動標引,從產業發展方向、城市產業定位、產業發展路徑三個維度提供決策參考。專利導航分析系統主要由數據交換系統、智能輔助標引系統和導航分析系統構成。
數據交換系統通過WEB Service接口定期從國家平臺獲取中外文專利題錄文摘數據,同時調用智能輔助標引系統獲取技術分支,根據來源EXCEL歷史標引數據標引技術分支,以及提取城市、發明人等導航分析關鍵屬性后,寫入發布分析庫,完成數據交換。
智能輔助標引系統在基于規則(檢索表達式),完成技術分支標引;
導航分析系統基于現有專利數據分析,分析維度為技術分支表、IPC分類、城市、申請人等相關屬性。
導航分析分為產業發展方向、城市產業定位、產業發展路徑三大模塊。每個模塊細分為若干子分析,分別生成圖表及表格。用戶可以對相應的分析進行單項及多項下載操作。
最佳實踐
國家知識產權局
知識產權出版社