开启左侧

向量数据库详解

[复制链接]
qianguihua 发表于 5 小时前 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题
作者:CSDN博客
向量数据库详解-1.png


一、定义与核心概念

向量是基于不同特征或属性来描述对象的数据表示。每个向量代表一个单独的数据点,例如一个词或一张图片,由描述其许多特性的值的集合组成。这些变量有时被称为“特征”或“维度”。例如,一张图片可以表示为像素值的向量,整个句子也可以表示为单词嵌入的向量。
一些常用的数据向量如下:
◆图像向量,通过深度学习模型提取的图像特征向量,这些特征向量捕捉了图像的重要信息,如颜色、形状、纹理等,可以用于图像识别、检索等任务;
◆文本向量,通过词嵌入技术如Word2Vec、BERT等生成的文本特征向量,这些向量包含了文本的语义信息,可以用于文本分类、情感分析等任务;
◆语音向量,通过声学模型从声音信号中提取的特征向量,这些向量捕捉了声音的重要特性,如音调、节奏、音色等,可以用于语音识别、声纹识别等任务。
向量数据库是一种将数据存储为高维向量的数据库,高维向量是特征或属性的数学表示。每个向量都有一定数量的维度,根据数据的复杂性和粒度,维度可以从几十到几千不等。向量通常是通过对原始数据(如文本、图像、音频、视频等)应用某种变换或嵌入函数来生成的。嵌入函数可以基于各种方法,例如机器学习模型、单词嵌入、特征提取算法。向量数据库采用索引策略来简化向量相似的特定查询。这在机器学习应用程序中特别有用,因为相似性搜索经常用于发现可比较的数据点或生成建议。
向量数据库详解-2.png


向量数据库的主要功能包括:
管理:向量数据库以原始数据形式处理数据,能够有效地组织和管理数据,便于AI模型应用。
存储:能够存储向量数据,包括各种AI模型需要使用到的高维数据。
检索:向量数据库特别擅长高效地检索数据,这一个特点能够确保AI模型在需要的时候快速获得所需的数据。这也是向量数据库能够在一些推荐系统或者检索系统中得到应用的重要原因。
其核心特点包括:
高维性:向量维度通常高达数百甚至数千。
稀疏性:向量中多数元素接近零。
动态性:数据可能随时间变化(如用户行为向量)。
传统数据库靠的是精确查找,擅长找一模一样的数据,而且它的索引和算法都很成熟。向量数据库呢,是近似查找,它不是找一模一样的,而是找“差不多”的东西。理论上,只要我们把对象的特征维度搞得足够细,它也能做到非常精确的查找。通俗解释:向量数据库是一种专门用来存储和查询“向量”数据的数据库。向量可以理解为一串数字,比如 [0.1, 0.5, -0.3, 0.8],这些数字代表了某种复杂信息(比如一段文字、一张图片或一段音频)的数学表达。
嵌入模型会将各种数据 (例如文本、图像、图表和视频) 转换为数值向量,以便捕捉其在多维向量空间中的含义和细微差别。通俗解释:嵌入模型是一种将复杂信息(如文字、图片)转换成向量的工具。比如,你可以把一句话“我喜欢吃苹果”通过嵌入模型转换成向量 [0.1, 0.5, -0.3, 0.8]。这个向量捕捉了这句话的语义信息。
类比关系型数据库:在关系型数据库中,我们通过字段(如“姓名”、“年龄”)来描述数据。而在嵌入模型中,我们通过向量来描述数据,向量中的每个数字代表了某种特征(比如语义、颜色、形状等)。
二、应用场景

场景
说明
推荐系统
存储用户和商品向量,通过相似性搜索实现个性化推荐。
图像检索
将图像特征向量化,支持以图搜图(如电商、医学影像分析)。
自然语言处理(NLP)
语义搜索、问答系统、文本聚类(基于词/句向量)。

原文地址:https://blog.csdn.net/zyf1203/article/details/145978235
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

发布主题
阅读排行更多+

Powered by Discuz! X3.4© 2001-2013 Discuz Team.( 京ICP备17022993号-3 )