300229 拓爾思
產品功能

智語自然語言處理引擎V9是一款支持云計算架構的自然語言處理引擎,主要提供以下三大類功能:

非結構化數據結構化
賦能語義智能分析
支持構建知識圖譜或本體知識庫

對大數據文本進行智能分析和深度語義處理,通過分類、聚類、關鍵詞抽取、摘要、信息抽取等技術,將非結構化文本數據轉化、提取和標注為半結構化或結構化的多種類型數據。

提供情感分析、文本比對、信息過濾、智能檢索、深度語義比對、智能問答、自動寫作、人物畫像、新聞專題分析等基于語義智能的大數據分析能力。

提供實體識別、關系及事件自動抽取、實體消岐與對齊、屬性抽取與消岐對齊、融合與推理等功能,為各種行業知識圖譜應用提供自動構建服務;自動提煉知識概念及層次關系,輔助人工實現快速建模。

非結構化數據結構化

對大數據文本進行智能分析和深度語義處理,通過分類、聚類、關鍵詞抽取、摘要、信息抽取等技術,將非結構化文本數據轉化、提取和標注為半結構化或結構化的多種類型數據。

賦能語義智能分析

提供情感分析、文本比對、信息過濾、智能檢索、深度語義比對、智能問答、自動寫作、人物畫像、新聞專題分析等基于語義智能的大數據分析能力。

支持構建知識圖譜或本體知識庫

提供實體識別、關系及事件自動抽取、實體消岐與對齊、屬性抽取與消岐對齊、融合與推理等功能,為各種行業知識圖譜應用提供自動構建服務;自動提煉知識概念及層次關系,輔助人工實現快速建模。

>
產品優勢
功能更加完備,應用效果顯著
目前,TRS DL- CKM V9已提供數十個功能組件、數百個調用接口,具備了較為完整的NLP服務能力,基于深度學習模型的應用效果顯著提升。 新增功能主要包括:新增多語種實體識別、實體鏈接、句法分析、事件抽取、機器翻譯等功能接口。 功能升級方面,新增了一批基于深度學習的接口,主要包括:自動分類、情感分析、文本糾錯、自動摘要、深度特征提取、短文本相似度、文本改寫等。并通過引入Bert等預訓練模型以及知識圖譜的融合等技術,應用效果比對應的機器學習接口均有不同程度的提升。
接口易用性與吞吐量大幅提升
TRS DL- CKM V9的接口由SOAP接口升級為RESTful接口,只需通過標準的HTTP客戶端即可調用,且自帶web版演示程序,安裝后即可通過瀏覽器進行測試和使用,方便用戶使用。新升級的Rest服務器接口性能有了較大提升,多并發吞吐量比V8版本平均提升50%以上。
快速實現行業化、個性化的人工智能模型開發和構建
作為構建在TRS智拓語義智能技術平臺上的核心組件,“智語”可以幫助用戶快速實現行業化、個性化的人工智能模型開發和構建。其自帶一批預訓練AI模型,包括基于BERT、GPT等預訓練模型,CNN、RNN、LSTM、Transformer、GCN等神經網絡模型……用戶可直接使用;若用戶需要基于自有數據進行AI模型的定制開發,還可利用“智拓”平臺中的智能數據標注服務來構建個性化數據標注集,使用“智拓”平臺中的模型訓練服務進行AI模型訓練,并將定制模型布署到TRS DL-CKM V9上運行。與智拓平臺的無縫集成,使”智語”具備了完整的NLP AI開發和服務能力。
實現知識驅動的語義智能
智語”的知識驅動體現在兩方面: 1)融入行業語義知識,將行業知識圖譜等語義知識應用于深度學習中,包括融合知識圖譜的預訓練語言模型、基于知識圖譜的圖神經網絡模型、基于知識圖譜的圖表學習模型等,通過知識驅動+大數據驅動,實現AI學習效果提升。 2)在支持知識圖譜自動構建基礎上,提供基于知識圖譜的智能搜索、自動寫作、智能問答、語義比對等語義智能功能,實現從大數據到知識圖譜再到智能化業務的應用閉環。
快速構建和管理知識圖譜
“智語”能夠基于行業大數據快速構建和管理知識圖譜,具體包括: 動態本體智能構建工具:基于信息抽取、關系發現、數據聚合、短標題生成等技術,自動提煉知識概念及層次關系,輔助人工實現快速建模,動態跟蹤本體語義變化,并主要對標開源本體構建工具Protégé。 知識圖譜構建工具:以NLP技術為基礎,通過優化提升實體識別、關系及事件自動抽取、實體消岐與對齊、屬性抽取與消岐對齊、融合與推理等技術,為各種行業知識圖譜應用提供自動構建服務。尤其是事件分析方面,研發了獨具特色的事件分析與挖掘工具,并主要對標全球事件庫Gdelt。
多模態融合的深度語義匹配
“智語”可與拓爾思自主研發的視頻檢索系統配合使用,實現圖像與文本的多模態融合的深度語義匹配。具體包括: 1)基于深度學習、NLP、圖像處理等技術,應用Bert、GCN、Resnet等算法模型,對文本及視頻建立深度語義索引,實現了OCR識別、以圖搜文、以文搜圖等功能,實現圖像與文本之間的跨模態語義檢索。 2)提供深度語義索引的高效編碼與索引計算技術,實現知識圖譜與深度語義索引的融合。提供基于深度語義索引并融合知識圖譜的新一代語義檢索服務,進一步提升語義檢索效果。
提升多語言分析質量,更好服務于多語言信息處理應用
“智語”在多語言分析技術方面取得了長足的進展,支持常用多語種及特定小語種的分析技術,實現實體識別、信息抽取、語義計算、機器翻譯等功能,有效地提升多語言分析的質量,更好地服務于多語言信息處理應用。
應用場景
南方電網:人工智能平臺+NLP AI組件,賦能自有AI開發
中國日報:多模態AI交互的智能問答機器人
國家知識產權局:多模態特征編碼與深度語義比對,提升專利申請質量
TRS CKM V9為南方電網提供基于深度學習框架的NLP多模型訓練工具,和一站式模型訓練及研發能力,解決了南方電網以往人工智能應用算力資源缺乏、算法積累不足、數據樣本分散等問題。建設內容主要包括,應用數十個核心NLP組件提供智能數據分析服務;構建面向電力行業的語義模型定制優化平臺,通過智能數據標注工具構建自有的行業標注數據和NLP模型智能訓練服務實現自有AI模型的開發。
項目基于已有的政務大數據平臺的資源和成果,設計交互服務場景,通過引入人工智能技術,主動感知用戶需求;基于語音、圖像和文本的智能識別,以及智能語義分析技術實現多種政務服務交互方式,進一步提高政府信息化服務工作效率,加快推進對外政務服務體系建設。建設內容主要包括:政務服務場景設計、數據資源整合和補充、政務服務知識庫建設、政務服務智能分析引擎建設、政務服務應用開發和集成、智能問答模型構建及訓練等。
為解決專利申請中存在的惡意抄襲、低質量申請等問題,提高專利審查質量和公信度,國家知識產權局上線了機檢報告推送項目,在審查員介入審查階段之前,應用智能分析技術自動發現存在明顯瑕疵的專利,并自動推送給審查員。 該項目采用語義智能技術,具體包括深度文本相似度計算、圖像特征檢索、以文搜圖等功能,通過機器自動比對,識別不具備新穎性的專利申請,并生成機器檢索報告,有效地提升專利申請質量。系統每年處理發明和實用新型申請300萬件,約5%專利被識別為抄襲,涉嫌抄襲申請識別準確率超過99%。