首家!腾讯云向量数据库完成中国信通院向量数据库产品测试

时间: 2024-11-30 20:47:51 |   作者: 大气常压等离子清洗机

产品介绍

  文本、图像、音视频等海量的非结构化数据占数据总量一直上升,预计2025年,将达到八成以上。这一些数据由于结构不统一,所以在计算机中通常以向量形式进行特征提取后,再进行存储、计算、应用。未解决海量数据场景下,向量的存储、计算问题,向量数据库应运而生,其通过数据算法和计算机工程,将向量特征进行分组和索引,以实现高效的相似性搜索。《数据库发展研究报告(2023年)》显示,向量数据库作为12个数据库技术发展的新趋势之一,其使用场景十分广泛,包括但不限于支撑文本翻译、产品推荐、语义搜索、图像搜索、视频推荐、异常检测、欺诈检测、人脸识别等应用。

  近日,在中国信通院首批“可信数据库”向量数据库产品测试中,腾讯云计算(北京)有限责任公司(简称:腾讯云)向量数据库Tencent Cloud VectorDB产品顺利完成首个向量数据库产品基础能力评测。测试过程依据标准在基本功能、运维管理、安全性、兼容性、扩展性、高可用以及工具生态七大能力域的有关要求。测试根据结果得出,该产品在向量数据库的功能完备性、易用性、通用性等方面均符合规定标准要求。

  《向量数据库技术方面的要求》是中国信通院云计算与大数据研究所依托中国通信标准化协会大数据技术标准推进委员会(CCSA TC601)和中国信通院数据库应用创新实验室(CAICT DBL),联合超过50家企业专家参与编制的技术标准,腾讯云为核心参编单位之一。其包含基本功能、运维管理、安全性、兼容性、扩展性、高可用以及工具生态七大能力域共47个测试项,其中分为27个必选项和20个可选项。作为业内首个向量数据库技术标准,可为向量数据库的研发、测试以及选型提供参考。

  腾讯云向量数据库(Tencent Cloud VectorDB)是腾讯自研的、源自腾讯内部多年运营积累的分布式向量数据库。目前,该数据库被大范围的应用于大模型的训练、推理和知识库补充等场景。

  ·一站式向量检索方案:Embedding+检索集成方案,数据嵌入AI效率提升10倍

  ·集团大规模运营积累:日均处理万亿次请求,现网运营可用性指标达到99.99%

  腾讯云向量数据库(Tencent Cloud VectorDB)重新定义了AI Native的开发范式。比如,在接入层,支持自然语言文本的输入,同时采用“标量+向量”的查询方式,支持全内存索引,最高支持每秒百万的查询量(QPS);在计算层,AI Native开发范式能实现全量数据AI计算,一站式解决企业在搭建私域知识库时的文本切分(segment)、向量化(embedding)等难题;在存储层,腾讯云向量数据库支持数据智能存储分布,助力企业存储成本降低50%。

  在许多AI和机器学习任务中,数据需要转换为向量形式,以便模型能够理解和处理。在自然语言处理任务中,文本数据能够最终靠词嵌入(word embedding)等方法转换为向量。向量数据库可以存储这些向量表示,为大模型提供可用的知识和信息。

  向量数据库具有高效的查询和相似性搜索能力,这使得大模型能够迅速地从数据库中检索相关的知识和信息。例如,在问答系统中,大模型能够准确的通过输入问题的向量表示,在向量数据库中查找与问题相关的答案或信息。向量数据库还可当作大模型训练过程中的数据来源。在训练过程中,大模型需要从数据库中抽取大量的向量数据来进行学习。向量数据库的高效查询能力能加速训练过程,提高模型的学习效率。

  大模型的存储空间存在限制,目前的大模型都是预训练模型,对于训练截止日之后发生的事情一无所知。向量数据库能够最终靠存储最新信息后给大模型访问弥补这点不足。此外,通过向量数据的本地存储,向量数据库能帮助解决目前企业界最担忧的大模型泄露隐私的问题。向量数据库还自带多模态功能。对于模型搜索后的结果,也具备实时保存和更新的功能。

  算法和模型无法突破数据在时空维度的限制,LLM+外部知识库是必然的架构,在相似性检索方案中,向量检索是目前成熟和有效的方案。腾讯云向量数据库(Tencent Cloud VectorDB)源自腾讯内部技术沉淀,日均处理向量检索千亿次。同时,支持标量+向量的混合检索方式,具有高性能、大容量等特点,支持全内存索引。腾讯云向量数据库提供一站式向量检索集成方案,数据接入AI效率提升10倍。让企业原先花一个月时间才能搞定的大模型接入,缩短到三天时间。

  腾讯云向量数据库基于腾讯集团每日处理千亿次检索的向量引擎(OLAMA),经过腾讯内部海量场景的实践,数据接入AI的效率也比传统方案提升10倍,运行稳定性高达99.99%,目前已经应用在了qq视频、QQ浏览器、等30多款国民级产品中。

  中国信通院开展的“可信数据库”系列测试是国内面向数据库产品及周边工具、数据库服务商和应用侧为评价目标的权威测试体系,已见证国内数据库产品由弱变强、服务能力逐渐完备、生态逐渐丰富的过程,圈定了国内数据库产品和服务商第一梯队,成为厂商产品研制和用户采购选型的风向标。目前,向量数据库测试项目真正开始启动,欢迎相关单位积极报名参与!