TRS海贝搜索数据库

TRS海贝搜索数据库是市场上极少数同时符合搜索数据库标准和向量数据库标准的纯国产自研软件之一。该系统在倒排索引的基础上,引入了高性能的HNSW向量索引,不仅支持文本检索、拼音检索、同义词检索等,还可以搭配大模型实现语义、图片、跨模态以及融合搜索等,可广泛用于企业搜索、检索增强生成(RAG)以及智能问答等应用场景。
申请使用

产品名称:

TRS海贝搜索数据库

 

产品简介:

TRS海贝搜索数据库是市场上极少数同时符合搜索数据库标准和向量数据库标准的纯国产自研软件之一。该系统在倒排索引的基础上,引入了高性能的HNSW向量索引,不仅支持文本检索、拼音检索、同义词检索等,还可以搭配大模型实现语义、图片、跨模态以及融合搜索等,可广泛用于企业搜索、检索增强生成(RAG)以及智能问答等应用场景。

 

产品定位:

TRS海贝搜索数据库是一款从内核到系统完全国产自研的搜索引擎数据库,其定位为大数据应用支撑软件,为大数据应用提供高效的数据存储、融合检索、检索增强生成等数据管理服务,支持几乎所有类型的数据,包括文本、数字、地理空间、图片、向量等各种结构化、半结构化和非结构化数据。

 

产品说明:

D:/source/[公司产品]/hybase/海贝宣传资料/信通院/图片/海贝搜索数据库产品说明.png海贝搜索数据库产品说明

 

产品特点:

自主可控:目前,国内厂商基本上都以开源的ElasticSearch作为他们的搜索引擎数据库;还有一小部分厂商在开源Lucene引擎的基础上进行封装;而海贝搜索引擎数据库是目前国内唯一一款从底层分词算法,到核心引擎以及上层系统都完全自研的纯国产搜索引擎数据库。系统已完成与龙芯、海光、飞腾、鲲鹏等国产芯片以及中标麒麟、统信UOS等国产操作系统的适配工作。

数据安全:海贝搜索数据库采用多副本机制解决数据的可用性问题,通过数据校验以及WAL技术解决数据的完整性问题,通过完善的权限管理机制、HTTPS、加密存储等机制解决数据访问和数据存储的机密性问题。作为自主可控的国产化加密数据引擎,支持数据与索引的完全加密。在加密算法方面,该系统采用更加安全的国产加密算法,并且可以结合国产加密卡,达到金融级数据安全。

高性能:海贝搜索数据库引入了内存索引、列存储、索引分片等技术,进一步提高了数据存储、检索和分析的效率。自带的分时归档视图,不仅可以实现冷热数据自动分区,同时还支持多种存储混合使用以提供高效的检索服务;通过使用镜像数据库,用户进行简单的配置,就可以实现读写分离、大小库以及访问隔离等;通过对各类型服务器硬件的匹配支持,能够充分发挥出硬件的优良性能。

融合检索:TRS海贝搜索数据库采用全文索引和向量索引融合的方式提供检索服务,融合检索的好处是显而易见的。一方面,这种融合使得搜索结果更加准确和全面。全文检索技术提高了搜索的召回率,而向量检索技术则提高了搜索的精确度,两者相结合能够为用户提供更加全面和准确的搜索结果。另一方面,融合了两种检索技术也提高了搜索的效率。通过全文检索技术,在最初阶段就过滤掉大量无关的数据,从而减小了向量检索的搜索空间,大大提升了整体搜索的效率和性能。

 

详细功能:

1.  全语种分词器:支持中日等方块文字,也支持英法等拉丁语系和藏蒙等少数民族语言,实现全语种数据统一处理。

2.  访问隔离:支持用户数据的物理隔离和逻辑隔离,既解决多租户之间的访问安全,又防止用户之间的相互影响。

3.  冷热分区:海贝自带的分时归档视图,不仅实现冷热数据自动分区,还支持多种混合存储以提供高效的检索服务。

4.  读写分离:通过使用镜像数据库,用户进行简单的配置,就可以实现读写分离、大小库以及访问隔离等。

5.  图文检索:海贝集成了深度学习引擎,支持以文搜图、以图搜图、图文融合搜索。

6.  相似性检索:海贝集成了深度学习引擎,对文本抽取对应的特征向量,并对特征向量构建索引,实现相似性检索。

7.  拼音检索:根据海贝分词索引的特点,将倒排索引表中的关键词冗余一份对应的拼音码进行索引,实现拼音检索。

8.  同义词检索:通过集成同义词词典,实现同义词检索。

9.  向量检索:通过引入高性能的HNSW向量索引,实现语义检索、图片检索和跨模态搜索等向量检索。

10. 国产加密引擎:该系统采用更加安全的国产加密算法,并可以结合国产加密卡,达到金融级数据安全。

 

产品核心功能:

a)  全语种分词器:支持中日等方块文字,也支持英法等拉丁语系和藏蒙等少数民族语言,实现全语种数据统一处理。

b)  用户隔离:支持用户数据的物理隔离和逻辑隔离,既解决多租户之间的访问安全,又防止用户之间的相互影响。

c)   冷热分区:海贝自带的分时归档视图,不仅实现冷热数据自动分区,还支持多种混合存储以提供高效的检索服务。

d)  读写分离:通过使用镜像数据库,用户进行简单的配置,就可以实现读写分离、大小库 以及访问隔离等。

e)   图文检索:海贝集成了深度学习引擎,支持以文搜图、以图搜图、图文融合搜索。

f)   OCR识别:集成OCR识别技术,对存储的图像进行文本识别,将识别得到的文本字段存储到冗余字段中。

g)   相似性检索:海贝集成了深度学习引擎,对文本抽取对应的特征向量,并对特征向量构建索引,实现相似性检索。

h)   拼音检索:根据海贝分词索引的特点,将倒排索引表中的关键词冗余一份对应的拼音码进行索引,实现拼音检索。

i)    同义词检索:通过集成同义词词典,实现同义词检索。

j)   向量检索:通过引入高性能的HNSW向量索引,实现语义检索、图片检索和跨模态搜索等向量检索。

k)  国产加密引擎:该系统采用更加安全的国产加密算法,并可以结合国产加密卡,达到金融级数据安全。

 

产品亮点:

a) 融合检索:采用全文索引和向量索引融合方式提供检索服务,提高搜索结果的准确性和全面性以及搜索的效率。

b) 高性能:海贝搜索数据库引入内存索引、列存储、索引分片等技术,进一步提高了数据存储、检索和分析的效率。

c)  自主可控:一款从底层分词算法,到核心引擎以及上层系统都完全自研的纯国产搜索引擎数据库。

d)  信创适配:系统已完成与龙芯、海光、飞腾、鲲鹏等国产芯片以及中标麒麟、统信UOS等国产操作系统的适配工作。

e)  索引优化:实行内存索引和磁盘索引相结合模式,提高索引的查询速度、存储容量和持久性,发挥它们的优势。

 

产品参数:

产品版本:V10.0

操作系统:CentOS Enterprise Linux v6.5或更高版本v7.1和RedHat Enterprise Linux v6.5或更高版本v7.1

所属类别:

上架时间:

 

适用场景:

a)  公共安全:面相公共安全,比如公安、军工等用户,数据量大、实时更新信息,提供一键搜索、数据分析等功能。

b)  政务公开:面向政府网站,比如海关总署、专利局等。利用单一分词器处理全语种数据,提供跨语种检索服务。

c)  媒体融合:面向媒体网站,比如新华社、浙报、重报等。支撑高并发检索。

 

产品优势:

a)  可用性:海贝搜索数据库采用多副本机制解决数据的可用性问题。

b)  完整性:通过数据校验、HTTPS以及WAL技术解决数据的完整性问题。

c)  访问控制:通过完善的权限管理机制,IP黑白名单设置,实现访问控制。

d)  保密性:采用国产加密技术,解决数据访问和数据存储的机密性问题。

e)  数据加密:作为自主可控的国产化加密数据引擎,支持数据与索引的完全加密。

f)   兼容性:海贝搜索引擎数据库已经完成ElasticSearch绝大部分功能的支持,并且在API访问上做了兼容性处理。

g)  易用性:全中文可视化系统管理台,支持自动化部署和自动化更新。

h)  聚焦生态链:海贝可以与拓尔思的各款产品进行深度应用集成,打造强大的数据服务能力。

 

产品规格:

a)   产品名称:TRS海贝搜索数据库

b)   产品类型:搜索型数据库

c)    版本信息:TRSHybaseV10.0(vector)和TRSHybaseV10.0(pro)

d)    公司:拓尔思信息技术股份有限公司

e)    发布日期:2024年4月29日

f)    系统要求:安装海贝搜索数据库的操作系统为Linux 64位(2.6.x内核或更高版本);硬件要求为CPU:Intel Xeon E5-2643 v3 CPU*2 3.3GHZ【2颗】,内存:256G,硬盘:4块800GB的SSD硬盘,4块4TBSATA硬盘,支持RAID0,RAID10,RAID5。

 

 

产品详情

首页    技术开发    TRS海贝搜索数据库