新闻资讯

一文秒懂向量数据库

日期: 2024-01-10
浏览次数: 14
向量数据库
的崛起

向量数据库最初是为了解决大规模数据的相似性搜索和推荐问题而设计的,比较著名的有Annoy和FAISS等。随着互联网时代海量数据的爆炸式增长,传统搜索引擎在处理这些数据时显得力不从心,而向量数据库凭借其高效的数据表达和检索能力迅速成为推荐系统的核心引擎。

在大语言模型兴起之前,向量数据库已经被广泛应用于搜索和推荐场景。它通过将数据向量化,实现对语义级别的理解和匹配。然而,随着ChatGPT等大型模型的出现,人工智能产业正在经历重塑,同时也凸显了向量数据库的优势。

大语言模型虽然在知识广度方面具有优势,但对于领域知识却有一定的局限性。而集成向量数据库的语义搜索和分析能力,则能够弥补这一缺陷,提升大语言模型的知识应用能力。当前,向量数据库正在加速演进,有望使大语言模型在实际场景中发挥更大的价值。


一文秒懂向量数据库

图1 向量数据库应用流程
图源:https://www.pinecone.io/learn/vector-database/


向量数据库的定义


向量数据库是一类专门存储向量数据的数据库。所谓的向量数据是由数值向量组成的数据集合,每个向量由一组有序的数值组成,这些数值可以是实数或离散值。可以将其简单地理解为一个矩阵,这些向量通常来源于各类数据的转换,如语音、文字、图片等。


在向量数据库中,主要存储的是向量数据。然而,具体包含哪些数据类型还取决于数据库的设计。例如,Milvus不仅仅存储向量数据,还可以存储大部分关系型数据库中的数据内容。在人工智能领域,只有将现实世界中的事物转化为向量,才能进行计算,一切皆可向量化。举个例子,“我爱学习”可以被转化为向量表示:


我:[0.2,0.35,0.26,...,0.36,0.38,0.53]

爱:[0.7,0.935,0.526,...,0.346,0.238,0.653]

学习:[0.42,0.635,0.226,...,0.436,0.838,0.053]


通常使用预训练模型将图片、语音、文字等转化为向量。不同的应用场景选择不同的模型,例如文本可以使用M3e模型,图片可以采用CLIP模型。这些预训练模型可以看作是复杂的函数,输入模型的变量后,可以得到对应的输出向量。这些向量经过一定的技术存储到向量数据库中(如图1所示),用户就可以进行快速检索了。当然,用户的输入可能是图片或文字等,查询的前提是需要将其转化为向量。为了采用统一的标准表达数据,通常会使用相同的预训练模型进行向量转化。

一文秒懂向量数据库

图2 向量数据的组织方式图解


向量数据库与传统数据库的不同之处在于,我们通常在搜索中使用关键字搜索和全文搜索,搜索结果一定是满足查询条件的。然而,向量数据库的查询结果不一定完全符合条件,而是相对符合条件的。具体来说,当搜索内容是“小明的生日是什么时候”时,查询的结果可能是“小明是1992年11月1日出生”,这可能是数据库中最符合条件的查询结果,因此可以认为该查询是近似最相邻的。


向量数据库的应用场景


● 非结构数据的搜索(语义化搜索引擎)


过去,当我们忘记了一个文件的名称,只记得大致内容时,很难找到该文件。然而,向量数据库的出现解决了这个问题。我们可以将文件、图片、语音等非结构化数据存储到向量数据库中,通过文字、语音、图片等作为查询条件,可以根据查询内容而不是文件名来搜索最符合条件的结果。这就是向量数据库的魅力,而传统数据库无法实现这一点。


● 推荐系统


电商应用通常利用用户的历史行为数据生成用户向量,通过计算这些用户向量之间的相似度,实现个性化商品推荐。我们经常能感受到这种推荐,比如在浏览某个商品后,电商会向我们推荐类似的物品。类似地,短视频应用也使用相同的方法,向用户推荐视频。这些背后都是将数据转化为向量,存储到向量数据库中,以便后续的查询和推荐。


● 人脸验证


人脸图像经过向量化处理后,可以快速计算两张人脸图像向量的相似度,以辅助识别是否为同一人。例如,银行应用使用摄像头采集客户的人脸图像,通过运算提取面部特征并完成向量化。随后,与存储在数据库中的人脸向量进行比对,判断是否为同一人,实现快速验证。


● 社交媒体分析


向量数据库在社交媒体分析领域支持相似性查询和聚合操作,能够快速识别和提取社交媒体数据中的模式和趋势,包括情感分析、主题建模和社区发现等。


● 与大模型的结合

向量数据库的兴起依赖于大模型的发展,那么如何将它们结合起来解决大模型的知识缺乏问题呢?

首先,可以将行业内的非结构化知识(例如长文本)进行分段处理,然后使用预训练模型生成相应的向量,并将其存储在向量数据库中,从而构建外部知识库。

在使用大模型进行行业问题回答时,可以快速加载和查询向量数据库中的文本向量数据,这些数据可以作为大模型的外部知识输入。简单来说,当你获取到某个知识,比如'小明是一个程序员',你可以将这个知识存储在向量数据库中,然后再问大模型,'小明是做什么的?',它肯定会回答'小明是程序员'。

向量数据库的出现为非结构化数据的搜索提供了新的解决方案,同时与大模型的结合也为解决大模型知识缺乏问题提供了有效手段。

一文秒懂向量数据库

图3 向量数据库与大模型结合的流程图
(图片来源于网络)



典型向量数据库介绍


根据 VectorDBBench.com 的数据,在2023年7月的国产向量数据库排行榜中,排名前十的向量数据库分别为:Milvus、Milvus Cloud、Tencent Cloud VectorDB、Zilliz Cloud、TensorDB、cVector、Om-iBASE、Vearch、Transwarp Hippo 和 Proxima。它们的具体得分如下表所示:

表1  2023年7月国产向量数据库排行榜

一文秒懂向量数据库

● Milvus是国内首个支持海量向量数据存储和查询的开源向量数据库,具有高性能、高扩展性和易用性强的特点。

● Milvus Cloud是Milvus的云服务版本,提供了云端向量数据库服务,可以快速搭建云端向量数据库平台,支持多种数据源接入和多种查询语言,同时还提供了可视化界面和API接口,方便用户进行数据管理和查询。

● Tencent Cloud VectorDB是腾讯云推出的向量数据库产品,具有高性能、高扩展性和高安全性的特点,支持多种数据类型和多种查询语言。

● Zilliz Cloud是一个向量数据库云平台,支持多种数据类型和多种查询语言,具有高性能、高扩展性和高安全性的特点。

● TensorDB是一个分布式向量数据库系统,具有高性能、高扩展性和易用性强的特点,支持多种数据类型和多种查询语言。

数据库的发展经历了从文件系统到关系数据库再到分布式数据库和NoSQL数据库的演变,不断提高了数据管理和处理的效率及可靠性。这为各行业的信息化建设提供了强有力的支持。作为一种新兴的数据库技术,向量数据库带来了革命性的改进,为数据存储和检索提供了更高效、更强大、更灵活的能力。

向量数据库具备快速存储和检索大规模向量的能力,加速了复杂数据的查询和匹配过程。它还支持高级的数据分析和挖掘功能,可以进行相似性搜索、聚类分析等复杂操作。此外,向量数据库具有良好的数据存储和扩展性,可以应对快速增长的数据量和需求变化。


综上,向量数据库作为一种创新的数据库技术,具有许多优势和广泛的应用前景。它将进一步推动数据管理和分析的发展,助力各行业实现更高效、更智能的信息化建设。


相关内容
  • 热点
  • 最新
  • 媒体
向量数据库的崛起向量数据库最初是为了解决大规模数据的相似性搜索和推荐问题而设计的,比较著名的有Annoy和FAISS等。随着互联网时代海量数据的爆炸式增长,传统搜索引擎在处理这些数据时显得力不从心,而向量数据库凭借其高效的数据表达和检索能力迅速成为推荐系统的核心引擎。在大语言模型兴起之前,向量数据库已经被广泛应用于搜索和推荐场景。它通过将数据向量化,实现对语义级别的理解和匹配。然而,随着ChatG...
2024 - 01 - 10
数据作为新型生产要素,是数字化、网络化、智能化的基础,已快速融入生产、分配、流通、消费和社会服务管理等各环节,深刻改变着生产、生活和社会治理方式。早在2020年,《中共中央 国务院印发关于构建更加完善的要素市场化配置体制机制的意见》就已将数据要素与土地、劳动力、资本、技术四大要素并列,成为第五大生产要素。土地要素是一切生产经营活动不可或缺的基本要素,是人类一切生产经营活动的空间载体。土地交易市场数...
2024 - 01 - 10
一、整治内容  全域土地综合整治涵盖农用地整理、建设用地整理、乡村生态保护修复、乡村历史文化保护、产业布局和引入等五种类型子项目。  1、农用地整理  农用地综合整治整理,就是我们通常说的土地整理项目。包括高标准农田建设、“旱改水”、宜林地和园地整治、污染土壤修复等。  2、建设用地整理  包括闲置农村宅基地、土坯房、历史遗留工矿废弃地、其他闲置低效建设用地整治,优化用地结构布局,拓展建设发展空间...
2024 - 01 - 10
一、什么是全域土地综合整治全域土地综合整治是在一定区域内,以“全地域、全要素、全周期、全链条”为理念和方法,坚持“内涵综合、目标综合、手段综合、效益综合”,以国土空间规划为引领,整体推进农用地整治、建设用地整治、人居环境改善、生态保护修复、特色资源保护与开发、乡村产业发展,优化生产、生活、生态格局,强化要素保障,支撑城乡高质量发展和区域协调发展。二、发展历程·2003年6月,时任浙江省委...
2023 - 12 - 06
引言为加快推进生态文明和美丽中国建设,国家全面推行了以保护发展森林草原资源为目标,以压实地方党政领导干部责任为核心,以制度体系建设为保障,以监督考核为手段的林长制。图片来源于网络概述林长制数字化管理平台是林长制工作的重要支撑手段。通过构建林业立体感知、管理协同高效、生态价值凸显、服务内外一体的林长制数字化管理平台,结合林草资源全方位监管体系,实现“网上查”、“网上考”、“网上调”一体化服务,提升林...
2023 - 12 - 06
网站地图 Copyright ©2018 - 2023 河南数慧信息技术有限公司
犀牛云提供企业云服务
关注微信
24小时热线电话
18603719319    
在线客服
服务时段 : 8:30-22:00
 
X
返回顶部
3

SKYPE 设置

4

阿里旺旺设置

5

电话号码管理

  • 18603719319
  • 0371-61177851
  • 18603719319
6

二维码管理

展开