| 技术类型 | 代表算法/结构 | 特点 | 算法原理 | 时间复杂度 | 优缺点 | 适用场景 |
| 树结构 | KD-Tree, Ball-Tree | 基于空间划分,结构直观,支持精确搜索 | 递归划分空间(KD-Tree按坐标轴划分,Ball-Tree按超球体划分) | O(N log N) | ✅ 低维精确搜索快 ❌ 高维性能急剧下降(维度灾难) | 维度<20的结构化数据检索 |
| 哈希方法 | LSH (局部敏感哈希) | 牺牲精度换速度,哈希碰撞可控 | 设计哈希函数使相似向量映射到相同桶的概率更高 | O(N) | ✅ 速度快、内存低 ❌ 精度与哈希函数设计强相关 | 快速去重、近似搜索初筛 |
| 图索引 | HNSW, NSG | 小世界网络优化,层级化搜索路径 | 构建多层概率图结构,通过邻居跳转实现高效近邻搜索 | O(log N) | ✅ 高召回率、支持动态更新 ❌ 内存消耗较大 | 大规模高维数据(图像/文本) |
| 量化方法 | PQ (乘积量化), SQ (标量量化) | 有损压缩,向量维度解耦计算 | 将高维向量分解为子空间并分别量化,降低存储和计算复杂度 | O(N) | ✅ 内存占用降低80%+ ❌ 量化误差导致精度损失 | 十亿级向量内存优化场景 |
| 倒排索引 | IVF (倒排文件系统) | 粗粒度筛选+细粒度比较 | 先聚类(如K-means),搜索时仅扫描最近簇的向量 | O(√N) | ✅ 搜索速度提升显著 ❌ 需预训练聚类中心 | 配合PQ量化加速搜索 |
| 混合结构 | DiskANN | 磁盘-内存分级存储,减少IO瓶颈 | 基于SSD优化存储,结合图索引与量化技术 | O(log N) | ✅ 支持TB级数据 ❌ 需要SSD硬件配合 | 超大规模磁盘存储场景 |
| 深度学习驱动 | Learned Index | 数据分布自适应性,端到端优化 | 使用神经网络预测向量分布,优化索引构建 | 训练后O(1) | ✅ 自适应数据分布 ❌ 需要大量训练数据 | 数据分布规律的专用场景 |
| 对比维度 | 传统数据库 | 向量数据库 |
| 核心数据类型 | 结构化数据(表格、字段) | 非结构化数据的向量化表示(高维数值) |
| 主要查询方式 | 精确匹配(SQL条件查询) | 相似性搜索(Top-K最近邻,ANN算法) |
| 索引结构 | B树、哈希索引 | HNSW图、IVF倒排索引、LSH哈希等 |
| 性能瓶颈 | 复杂JOIN、事务锁竞争 | 高维向量计算效率与内存占用 |
| 典型应用场景 | 金融交易、用户管理等结构化业务 | 图像/文本检索、推荐系统、语义搜索 |
| 扩展性 | 垂直扩展(硬件升级)为主 | 分布式架构,天然支持水平扩展 |
| 处理规模 | 百万~十亿级结构化记录 | 十亿~万亿级高维向量 |
| 查询延迟 | 毫秒~秒级(依赖索引优化) | 亚毫秒~百毫秒级(ANN加速) |
| 数据一致性 | 强一致性(ACID) | 最终一致性为主(分布式场景) |
| 代表系统 | MySQL, PostgreSQL, Oracle | Milvus, Pinecone, Faiss, Qdrant |
| 名称 | 开源 | 云服务 | 主要特点 | 优点 | 缺点 | 使用场景 |
| FAISS | 是 | 否 | 专注高性能向量检索,需搭配其他存储使用 | 速度快,支持大规模高维数据,适合研究场景 | 无持久化存储,需自行处理数据管理 | 研究项目、离线大规模相似性搜索(如推荐系统原型) |
| Pinecone | 否 | 是 | 全托管云服务,开箱即用 | 简单易用,自动扩展,低运维成本 | 价格高,灵活性低,仅支持云服务 | 商业应用快速部署(如实时推荐、语义搜索) |
| Milvus | 是 | 是 | 分布式架构,支持海量数据,多索引类型 | 扩展性强,功能全面,社区活跃 | 自托管部署复杂,资源消耗较高 | 企业级生产环境(如十亿级向量搜索、AI平台后端) |
| Weaviate | 是 | 是 | 内置模型向量化,支持混合搜索(向量+关键词) | 自带数据向量化,GraphQL接口灵活 | 模型依赖性强,自定义向量需额外配置 | 语义增强搜索(如知识图谱、结合文本和向量的多模态检索) |
| Qdrant | 是 | 是 | 高性能Rust实现,支持过滤查询 | 低延迟,内存效率高,适合实时场景 | 社区较小,文档相对较少 | 高并发低延迟场景(如实时推荐、流式数据处理) |
| PGVector | 是 | 否 | PostgreSQL扩展,支持SQL操作向量 | 无缝兼容PostgreSQL,事务支持,混合查询 | 性能低于专用库,大规模数据需优化 | 已有PostgreSQL的项目添加向量搜索(如结合关系数据的推荐系统) |
| RediSearch | 是 | 是 | 基于Redis的向量检索,内存优先 | 超低延迟,支持实时更新 | 内存成本高,不适合超大数据集 | 实时性要求极高的场景(如实时个性化广告、会话式AI) |
| ElasticSearch | 是 | 是 | 结合全文检索与向量搜索,成熟生态系统 | 混合搜索能力强,社区资源丰富 | 向量检索性能较弱,高维数据效率低 | 文本+向量混合搜索(如搜索引擎增强、日志分析结合语义) |
| 欢迎光临 AI创想 (http://llms-ai.com/) | Powered by Discuz! X3.4 |