向量数据库Chroma极简教程

PillsSkiny · 发表于 2026-4-14 13:54:58

作者：CSDN博客
引子

向量数据库其实最早在传统的人工智能和机器学习场景中就有所应用。在大模型兴起后，由于目前大模型的token数限制，很多开发者倾向于将数据量庞大的知识、新闻、文献、语料等先通过嵌入（embedding）算法转变为向量数据，然后存储在Chroma等向量数据库中。当用户在大模型输入问题后，将问题本身也embedding，转化为向量，在向量数据库中查找与之最匹配的相关知识，组成大模型的上下文，将其输入给大模型，最终返回大模型处理后的文本给用户，这种方式不仅降低大模型的计算量，提高响应速度，也降低成本，并避免了大模型的tokens限制，是一种简单高效的处理手段。此外，向量数据库还在大模型记忆存储等领域发挥其不可替代的作用。
由于大模型的火热，现在市面上的向量数据库众多，主流的向量数据库对比如下所示：

向量数据库	URL	GitHub Star	Language
chroma	https://github.com/chroma-core/chroma	7.4K	Python
milvus	https://github.com/milvus-io/milvus	21.5K	Go/Python/C++
pinecone	https://www.pinecone.io/	❌	❌
qdrant	https://github.com/qdrant/qdrant	11.8K	Rust
typesense	https://github.com/typesense/typesense	12.9K	C++
weaviate	https://github.com/weaviate/weaviate	6.9K	Go

表格引用自：一文全面了解向量数据库的基本概念、原理、算法、选型

本文重点围绕向量数据库Chroma的使用和实战，主要包括以下内容：

Chroma快速上手

设计理念

Chroma的目标是帮助用户更加便捷地构建大模型应用，更加轻松的将知识（knowledge）、事实（facts）和技能（skills）等我们现实世界中的文档整合进大模型中。
Chroma提供的工具：

Chroma的设计优先考虑：

目前官方提供了Python和JavaScript版本，也有其他语言的社区版本支持。
完整Demo

首先需要Python环境（Chroma官方原生支持Python和JavaScript，本文用Python做示例）

pip install chromadb

复制代码

直接运行如下代码，便是一个完整的Demo：

import chromadb
chroma_client = chromadb.Client()
collection = chroma_client.create_collection(name="my_collection")
collection.add(
documents=["This is a document about engineer", "This is a document about steak"],
metadatas=[{"source": "doc1"}, {"source": "doc2"}],
ids=["id1", "id2"]
)
results = collection.query(
query_texts=["Which food is the best?"],
n_results=2
)
print(results)

复制代码

上面的代码中，我们向Chroma提交了两个文档（简单起见，是两个字符串），一个是This is a document about engineer，一个是This is a document about steak。若在add方法没有传入embedding参数，则会使用Chroma默认的all-MiniLM-L6-v2 方式进行embedding。随后，我们对数据集进行query，要求返回两个最相关的结果。提问内容为：Which food is the best?
返回结果：

{
'ids': [
['id2', 'id1']
],
'distances': [
[1.5835548639297485, 2.1740970611572266]
],
'metadatas': [
[{
'source': 'doc2'
}, {
'source': 'doc1'
}]
],
'embeddings': None,
'documents': [
['This is a document about steak', 'This is a document about engineer']
]
}

复制代码

结果显示，两个文档都被正确返回，且id2由于是steak（牛排），相关性与我们的提问更大，排在了首位。还打印了distances。
简单，易理解。
数据持久化

Chroma一般是直接作为内存数据库使用，但是也可以进行持久化存储。
在初始化Chroma Client时，使用PersistentClient：

client = chromadb.PersistentClient(path="/Users/yourname/xxxx")

复制代码

这样在运行代码后，在

原文地址：https://blog.csdn.net/weixin_46763762/article/details/144834572

25位大厂高管转战生成式AI创业！吸金猛，不

向量数据库Chroma极简教程

浏览过的版块

【AI超级智能体】什么是智能体？智能体实现

关于我们

产品与服务

解决方案

产品与服务