300229 拓爾思
產品功能
全語種分詞器
用戶隔離
冷熱分區
鏡像數據庫
深度檢索

海貝自帶的TRS分詞器,不僅可以支持中日韓等方塊文字,也能處理英法德等拉丁語系,還可以處理藏文、蒙文、維文等少數民族語言,真正可以做到單一分詞器處理全部語種,大大簡化了系統的開發和運維工作。

海貝還具有其他同類產品不具備的用戶隔離安全特性,系統支持用戶數據的物理隔離和邏輯隔離,如圖所示,模式1與模式2實現邏輯隔離,模式1與模式3實現物理隔離,這樣既可以解決多租戶之間的訪問安全,又可以防止用戶之間的相互影響,提高系統的可用性。

海貝自帶的分時歸檔視圖,不僅可以實現冷熱數據自動分區,同時還支持多種存儲混合使用以提供高效的檢索服務。

用戶可以通過簡單的配置實現讀寫分離、大小庫以及訪問隔離等,大大降低了數據加工和查詢之間的CPU、內存、IO等沖突,避免了數據入庫導致的檢索卡頓問題。

隨著互聯網審查的愈發嚴格,一些不法分子經常將一些敏感詞轉成同音詞或者同義詞進行發布,或將非法文章通過圖片的形式對外發布,企圖躲避監管。針對這種情況,海貝集成了深度學習引擎,支持以文搜圖、以圖搜圖、圖文融合搜索,可以對圖像中的文字進行OCR識別,也可以提取圖像或者文本的特征數據,通過基因編碼存儲到海貝數據庫里,成功實現圖像相似性檢索功能,并配合拼音檢索、同音詞檢索等功能,讓不法分子無處遁形。

全語種分詞器

海貝自帶的TRS分詞器,不僅可以支持中日韓等方塊文字,也能處理英法德等拉丁語系,還可以處理藏文、蒙文、維文等少數民族語言,真正可以做到單一分詞器處理全部語種,大大簡化了系統的開發和運維工作。

用戶隔離

海貝還具有其他同類產品不具備的用戶隔離安全特性,系統支持用戶數據的物理隔離和邏輯隔離,如圖所示,模式1與模式2實現邏輯隔離,模式1與模式3實現物理隔離,這樣既可以解決多租戶之間的訪問安全,又可以防止用戶之間的相互影響,提高系統的可用性。

冷熱分區

海貝自帶的分時歸檔視圖,不僅可以實現冷熱數據自動分區,同時還支持多種存儲混合使用以提供高效的檢索服務。

鏡像數據庫

用戶可以通過簡單的配置實現讀寫分離、大小庫以及訪問隔離等,大大降低了數據加工和查詢之間的CPU、內存、IO等沖突,避免了數據入庫導致的檢索卡頓問題。

深度檢索

隨著互聯網審查的愈發嚴格,一些不法分子經常將一些敏感詞轉成同音詞或者同義詞進行發布,或將非法文章通過圖片的形式對外發布,企圖躲避監管。針對這種情況,海貝集成了深度學習引擎,支持以文搜圖、以圖搜圖、圖文融合搜索,可以對圖像中的文字進行OCR識別,也可以提取圖像或者文本的特征數據,通過基因編碼存儲到海貝數據庫里,成功實現圖像相似性檢索功能,并配合拼音檢索、同音詞檢索等功能,讓不法分子無處遁形。

產品優勢
自主可控
目前,國內廠商基本上都以開源的ElasticSearch作為他們的搜索引擎數據庫;還有一小部分廠商在開源Lucene引擎的基礎上進行封裝;而海貝搜索數據庫是目前國內唯一一款從底層分詞算法,到核心引擎以及上層系統都完全自研的純國產搜索引擎數據庫。系統已完成與龍芯、海光、飛騰、鯤鵬等國產芯片以及中標麒麟、統信UOS等國產操作系統的適配工作。
數據安全
系統采用多副本機制解決數據的可用性問題,通過數據校驗以及WAL技術解決數據的完整性問題,通過完善的權限管理機制、HTTPS、加密存儲等機制解決數據訪問和數據存儲的機密性問題。作為自主可控的國產化加密數據引擎,海貝支持數據與索引的完全加密。加密算法方面采用了更加安全的國產加密算法,更可以配合國產加密卡可以達到金融級數據安全。另外,海貝還具有其他同類產品不具備的獨有安全特性,如黑白名單、用戶隔離、刪除保護等機制。
高性能檢索
海貝不僅能夠做到全字段索引,支持任意維度的組合查詢,在數據查詢和分析的效率上,大大高于其他的大數據管理系統。同時,海貝引入了內存索引、列存儲、索引分片等技術,進一步提高了數據存儲、檢索和分析的效率。海貝自帶的分時歸檔視圖,不僅可以實現冷熱數據自動分區,同時還支持多種存儲混合使用以提供高效的檢索服務;通過鏡像數據庫,用戶可以通過簡單的配置就實現讀寫分離、大小庫以及訪問隔離等;通過超大規模集群建設,降低系統架構資源消耗;通過對各類型服務器硬件的匹配支持,能夠充分發揮出硬件的優良性能。
易用性
全中文可視化系統管理臺,支持自動化部署和自動化更新。
聚焦生態鏈
海貝可以與拓爾思的各款產品進行深度應用集成,打造強大的數據服務能力。如在數據導入方面,對接TRS 海聚數據融合平臺、結合TRS人工智能平臺是數據加工流轉利器;數據展現方面,對接TRS API Gateway,可以實現快速發布數據,Restful接口、權限管理和流量控制;全新的數據監控系統,可以進行數據監控、進程監控、服務監控、日志分析、安裝部署等;數據分析方面,對接TRS水晶球分析師平臺、TRS網察大數據分析平臺和TRS數家媒體大數據平臺,提供行業應用解決方案,為用戶提供便捷高效的在線服務。
兼容性
目前,海貝搜索引擎數據庫已經完成ElasticSearch絕大部分功能的支持,并且在API訪問上做了兼容性處理,用戶僅需對系統進行少量的改動,即可遷移到海貝搜索引擎數據庫中來,為國產替代掃清了最后一道障礙。
應用行業
公共安全
政務公開
媒體融合
該系統廣泛應用公共安全大數據行業,比如公安、軍工等用戶,數據量大、實時更新各類信息,提供一鍵搜索、數據分析等功能,提高工作效率。
面向政府網站,比如海關總署、工商總局、專利局、商標局等。利用單一分詞器處理全語種數據,大大簡化了系統的構建,提供跨語種檢索服務。
面向媒體網站,比如新華社、浙報、重報等。支撐高并發檢索。
最佳實踐
信用中國
信用中國”網站由國家發展改革委、人民銀行指導,國家信息中心主辦,百度公司提供技術支持和運維,是政府褒揚誠信、懲戒失信的總窗口。網站提供全國企業信用信息、信用代碼、以及相關站內文章的公開查詢服務。2018年底“信用中國”網站從百度云遷移部署到國家電子政務外網機房,將原來由ElasticSearch提供搜索的服務,開始遷移到TRS海貝搜索數據庫。系統采用12臺高配PC服務器搭建檢索集群,平均每秒提供約1.2W次檢索服務,日均檢索量突破10億。
中國知識產權大數據與智慧服務系統
中國知識產權大數據與智慧服務系統(DI Inspiro?)是由知識產權出版社有限責任公司開發建設的國內第一個知識產權大數據應用服務系統。DI Inspiro?已經整合了國內外專利、商標、法律文書、標準和科技期刊等知識產權數據資源,實現了數據檢索、分析、關聯、預警和項目管理等多種功能。該系統充分利用了TRS海貝搜索數據庫在多語言處理方面的優勢,實現了中、英、日之間多語種無差別、無障礙的智能擴展檢索和及時統計分析。