AI创想

标题: LLM-向量数据库中的索引算法总结 [打印本页]

作者: 爱爱尔尔兰    时间: 前天 08:08
标题: LLM-向量数据库中的索引算法总结
作者:一切如来心秘密
文章目录


前言

向量数据库是当今大模型知识库检索落地实践的核心组件,下图是构建知识库检索的架构图:

(, 下载次数: 0)


向量查询的数据与 query 的相似度,直接影响到 prompt 的好坏,本文将对市面上已有的向量数据库进行简单介绍,然后会对其使用到的索引方法进行说明,包括倒排索引,KNN,Approximate KNN, Product Quantization, HSNW 等,会对这些算法的设计理念和方法进行说明。

向量数据库介绍

(, 下载次数: 0)

目前开源的比较火的三大向量数据库为 Chroma, Milvus, Weaviate,关于他们的介绍与区别这篇文章我觉得讲的不错,感兴趣的可以看下:三大开源向量数据库大比拼。
下边是开源向量数据库的发展历程:

(, 下载次数: 0)

它们用到的索引方法如下:

(, 下载次数: 0)


索引方法

倒排索引

(, 下载次数: 0)

假如现在我有一个使用倒排索引的数据库,其中存储了10的12次方个索引数据,我们在往数据库中存储数据的时候,会将数据切分,然后记录被切分后的单词对应的索引位置有哪些, 因为不同句子可能会出现相同的单词,因此每个单词对应的是一个索引集合:

原文地址:https://blog.csdn.net/qq_42586468/article/details/140368129




欢迎光临 AI创想 (https://llms-ai.com/) Powered by Discuz! X3.4