【LangChain】LangChain 中支持的嵌入（embedding）模型

xianshiyan · 发表于 2025-9-7 23:38:14

LangChain 中支持的嵌入（embedding）模型，这些模型用于将文本转换为向量表示，以便在向量存储（如 langchain_milvus.Milvus 或 langchain_chroma.Chroma）中进行存储和检索。
本文基于 LangChain 0.3.x，详细介绍 LangChain 支持的嵌入模型（包括内置和第三方集成），并提供一个独立示例，展示如何使用其中一种嵌入模型（OpenAIEmbeddings）结合 langchain_milvus.Milvus 构建 RAG 系统。示例包含 PDF 加载（langchain_community.document_loaders.PyPDFLoader）、分割、嵌入生成和查询。

LangChain 支持的嵌入模型

LangChain 支持多种嵌入模型，通过 langchain.embeddings 模块及其子模块（如 langchain_openai, langchain_huggingface）提供。这些模型包括商业 API（如 OpenAI）、开源模型（如 HuggingFace）以及本地或专用模型。以下是 LangChain 支持的主要嵌入模型类别和具体实现，基于官方文档（Embeddings) 和源码分析。
1. 商业 API 嵌入模型

这些模型通过云服务提供高质量嵌入，适合快速开发，但需 API 密钥和网络连接。

OpenAIEmbeddings (langchain_openai)

描述

特点：
安装：
1. pip install langchain-openai
复制代码
示例：
1. from langchain_openai import OpenAIEmbeddings
2. embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
复制代码

AzureOpenAIEmbeddings (langchain_openai)

描述

特点：
安装：
1. pip install langchain-openai
复制代码
示例：
1. from langchain_openai import AzureOpenAIEmbeddings
2. embeddings = AzureOpenAIEmbeddings(azure_deployment="your-embedding-deployment")
复制代码

GoogleGenerativeAIEmbeddings (langchain_google_genai)

描述

特点：
安装：
1. pip install langchain-google-genai
复制代码
示例：
1. from langchain_google_genai import GoogleGenerativeAIEmbeddings
2. embeddings = GoogleGenerativeAIEmbeddings(model="text-embedding-004")
复制代码

BedrockEmbeddings (langchain_aws)

描述

特点：
安装：
1. pip install langchain-aws
复制代码
示例：
1. from langchain_aws import BedrockEmbeddings
2. embeddings = BedrockEmbeddings(model_id="amazon.titan-embed-text-v1")
复制代码

CohereEmbeddings (langchain_cohere)

描述

特点：
安装：
1. pip install langchain-cohere
复制代码
示例：
1. from langchain_cohere import CohereEmbeddings
2. embeddings = CohereEmbeddings(model="embed-english-v3.0")
复制代码

2. 开源嵌入模型

这些模型通常基于 HuggingFace 或其他开源框架，可本地部署，适合隐私敏感或离线场景。

HuggingFaceEmbeddings (langchain_huggingface)

描述

特点：
安装：
1. pip install langchain-huggingface sentence-transformers
复制代码
示例：
1. from langchain_huggingface import HuggingFaceEmbeddings
2. embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
复制代码

HuggingFaceInstructEmbeddings (langchain_huggingface)

描述

特点：
安装：
1. pip install langchain-huggingface InstructorEmbedding
复制代码
示例：
1. from langchain_huggingface import HuggingFaceInstructEmbeddings
2. embeddings = HuggingFaceInstructEmbeddings(model_name="hkunlp/instructor-large")
复制代码

OllamaEmbeddings (langchain_community)

描述

特点：
安装：
1. pip install langchain-community
复制代码
示例：
1. from langchain_community.embeddings import OllamaEmbeddings
2. embeddings = OllamaEmbeddings(model="nomic-embed-text")
复制代码

LlamaCppEmbeddings (langchain_community)

描述

特点：
安装：
1. pip install langchain-community llama-cpp-python
复制代码
示例：
1. from langchain_community.embeddings import LlamaCppEmbeddings
2. embeddings = LlamaCppEmbeddings(model_path="path/to/llama-model.gguf")
复制代码

3. 其他嵌入模型

LangChain 还支持一些专用或实验性嵌入模型，适用于特定场景。

SentenceTransformerEmbeddings (langchain_community)

描述

特点：
安装：
1. pip install langchain-community sentence-transformers
复制代码
示例：
1. from langchain_community.embeddings import SentenceTransformerEmbeddings
2. embeddings = SentenceTransformerEmbeddings(model_name="all-MiniLM-L6-v2")
复制代码

FastEmbedEmbeddings (langchain_community)

描述

特点：
安装：
1. pip install langchain-community fastembed
复制代码
示例：
1. from langchain_community.embeddings import FastEmbedEmbeddings
2. embeddings = FastEmbedEmbeddings(model_name="BAAI/bge-small-en-v1.5")
复制代码

JinaEmbeddings (langchain_community)

描述

特点：
安装：
1. pip install langchain-community
复制代码
示例：
1. from langchain_community.embeddings import JinaEmbeddings
2. embeddings = JinaEmbeddings(model_name="jina-embeddings-v2-base-en")
复制代码

VoyageEmbeddings (langchain_community)

描述

特点：
安装：
1. pip install langchain-community
复制代码
示例：
1. from langchain_community.embeddings import VoyageEmbeddings
2. embeddings = VoyageEmbeddings(model="voyage-2")
复制代码

4. 自定义嵌入模型

自定义实现

场景

示例：
1. from langchain_core.embeddings import Embeddings
2. classCustomEmbeddings(Embeddings):defembed_query(self, text:str)-> List[float]:return[0.1]*384# 模拟嵌入defembed_documents(self, texts: List[str])-> List[List[float]]:return[[0.1]*384for _ in texts]
3. embeddings = CustomEmbeddings()
复制代码

嵌入模型总结

类别	模型	包	特点	使用场景
商业 API	OpenAIEmbeddings	langchain-openai	高质量，易用	RAG、语义搜索
商业 API	AzureOpenAIEmbeddings	langchain-openai	企业级，Azure 集成	企业应用
商业 API	GoogleGenerativeAIEmbeddings	langchain-google-genai	多语言支持	跨语言任务
商业 API	BedrockEmbeddings	langchain-aws	AWS 生态	云原生应用
商业 API	CohereEmbeddings	langchain-cohere	高效，多语言	快速原型
开源	HuggingFaceEmbeddings	langchain-huggingface	开源，本地运行	隐私敏感场景
开源	OllamaEmbeddings	langchain-community	完全本地	离线环境
开源	LlamaCppEmbeddings	langchain-community	高效量化	本地高性能
其他	FastEmbedEmbeddings	langchain-community	轻量快速	资源受限环境
其他	JinaEmbeddings	langchain-community	多模态支持	复杂任务

推荐模型：

开发/测试

生产环境

本地部署

使用嵌入模型的 RAG 示例

以下是一个独立示例，展示如何使用 OpenAIEmbeddings（LangChain 中最常用的嵌入模型之一）结合 langchain_milvus.Milvus 构建 RAG 系统，加载 PDF 文档（关于云计算主题），回答查询。
准备文件：
创建一个 PDF 文件 cloud_computing_knowledge.pdf，内容如下（可使用 Word 保存为 PDF）：

云计算通过互联网提供按需计算资源，如服务器和存储。
IaaS（基础设施即服务）提供虚拟机和存储，如 AWS EC2。
SaaS（软件即服务）提供在线应用，如 Google Workspace。

复制代码

代码：

import os
os.environ["OPENAI_API_KEY"]="Your OpenAI API Key"from langchain_openai import ChatOpenAI, OpenAIEmbeddings
from langchain_milvus import Milvus
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import PyPDFLoader
# 加载 PDF 文档
loader = PyPDFLoader(file_path="cloud_computing_knowledge.pdf")
documents = loader.load()# 分割文档
splitter = RecursiveCharacterTextSplitter(
chunk_size=100,
chunk_overlap=20,
separators=["\n\n","\n"," ",""])
split_documents = splitter.split_documents(documents)# 初始化嵌入模型和 Milvus 向量存储
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
vectorstore = Milvus(
embedding_function=embeddings,
connection_args={"uri":"http://localhost:19530"},
collection_name="cloud_computing_collection",
drop_old=True,
auto_id=True)
vectorstore.add_documents(split_documents)# 初始化 LLM
llm = ChatOpenAI(temperature=0, model="gpt-4")# 提示模板
prompt = ChatPromptTemplate.from_template("""根据以下上下文回答问题：
上下文：{context}
问题：{question}
回答：""")# 格式化文档函数defformat_docs(docs):return"\n\n".join(doc.page_content for doc in docs)# 创建 RAG 链
rag_chain =({"context": vectorstore.as_retriever(search_kwargs={"k":2})| format_docs,"question": RunnablePassthrough()}| prompt
| llm
| StrOutputParser())# 调用链print("RAG 链输出：")
response = rag_chain.invoke("什么是云计算？")print(response)
response = rag_chain.invoke("它有哪些服务模型？")print(response)

复制代码

输出示例：

RAG 链输出：
云计算通过互联网提供按需计算资源，如服务器和存储。
云计算的服务模型包括 IaaS（基础设施即服务）和 SaaS（软件即服务）。

复制代码

代码说明

嵌入模型：
文档加载与分割：
向量存储：
RAG 链：

运行要求：

注意事项

API 密钥：
- 对于商业嵌入模型（如 OpenAIEmbeddings），使用 .env：
  1. from dotenv import load_dotenv
  2. load_dotenv()
  复制代码
  确保密钥支持指定模型。
依赖：
嵌入模型选择：
本地部署：
调试：
- 检查 Milvus 连接：
  1. from pymilvus import connections
  2. connections.connect(uri="http://localhost:19530")
  复制代码

常见问题

Q1：如何选择合适的嵌入模型？
A：根据需求：

快速开发

隐私敏感

多语言

资源受限

Q2：可以混合使用嵌入模型吗？
A：不推荐，同一向量存储应使用相同的嵌入模型，确保向量维度和语义一致。若需切换，重建集合：

vectorstore.drop_old =True
vectorstore.add_documents(documents)

复制代码

Q3：如何处理嵌入模型的维度不匹配？
A：检查模型输出维度，调整向量存储配置：

vectorstore = Milvus(..., dimension=1536)# 匹配 OpenAI 维度

复制代码

Q4：支持多模态嵌入吗？
A：部分模型（如 JinaEmbeddings）支持多模态，但 LangChain 主要聚焦文本嵌入。多模态需自定义实现。

总结

LangChain 支持多种嵌入模型，包括：

商业 API

开源模型

其他

自定义

25位大厂高管转战生成式AI创业！吸金猛，不

【LangChain】LangChain 中支持的嵌入（embedding）模型

【LangChain系列】第七篇：工作流（链）简

关于我们

产品与服务

解决方案

产品与服务