AI创想

标题: LLM-向量数据库中的索引算法总结 [打印本页]

作者: 爱爱尔尔兰 时间: 2026-4-26 08:08
标题: LLM-向量数据库中的索引算法总结
作者：一切如来心秘密
文章目录

前言

向量数据库是当今大模型知识库检索落地实践的核心组件，下图是构建知识库检索的架构图：

(, 下载次数: 32)

向量查询的数据与 query 的相似度，直接影响到 prompt 的好坏，本文将对市面上已有的向量数据库进行简单介绍，然后会对其使用到的索引方法进行说明，包括倒排索引，KNN，Approximate KNN, Product Quantization, HSNW 等，会对这些算法的设计理念和方法进行说明。

向量数据库介绍

(, 下载次数: 32)

目前开源的比较火的三大向量数据库为 Chroma, Milvus, Weaviate，关于他们的介绍与区别这篇文章我觉得讲的不错，感兴趣的可以看下：三大开源向量数据库大比拼。
下边是开源向量数据库的发展历程：

(, 下载次数: 34)

它们用到的索引方法如下：

(, 下载次数: 35)

索引方法

倒排索引

(, 下载次数: 33)

假如现在我有一个使用倒排索引的数据库，其中存储了10的12次方个索引数据，我们在往数据库中存储数据的时候，会将数据切分，然后记录被切分后的单词对应的索引位置有哪些, 因为不同句子可能会出现相同的单词，因此每个单词对应的是一个索引集合：

原文地址：https://blog.csdn.net/qq_42586468/article/details/140368129

欢迎光临 AI创想 (https://llms-ai.com/)