AI创想

标题: LangChain框架-嵌入模型详解 [打印本页]

作者: admin 时间: 2025-9-7 23:02
标题: LangChain框架-嵌入模型详解
嵌入模型

嵌入模型创建文本片段的向量表示。您可以将向量视为一个数字数组，它捕捉了文本的语义含义。通过这种方式表示文本，您可以执行数学运算，从而进行诸如搜索其他在意义上最相似的文本等操作。这些自然语言搜索能力支撑着许多类型的上下文检索，在这里，我们为大型语言模型提供其有效响应查询所需的相关数据。
Embeddings类

Embeddings类是一个用于与文本嵌入模型接口的类。存在许多不同的嵌入大模型供应商（OpenAI、Cohere、Hugging Face等）和本地模型，此类旨在为它们提供标准接口。以下是langchain-community V0.3.21版本提供的Embeddings 实现类的分类简要介绍。

主流云服务提供商

OpenAIEmbeddings

AzureOpenAIEmbeddings

GooglePalmEmbeddings

VertexAIEmbeddings

CohereEmbeddings

BedrockEmbeddings

OCIGenAIEmbeddings

开源与本地模型

HuggingFaceEmbeddings

SentenceTransformerEmbeddings

HuggingFaceInstructEmbeddings

FastEmbedEmbeddings

LlamaCppEmbeddings

LocalAIEmbeddings

OllamaEmbeddings

国产与区域服务

ErnieEmbeddings

QianfanEmbeddingsEndpoint

ZhipuAIEmbeddings

BaichuanTextEmbeddings

HunyuanEmbeddings

DashScopeEmbeddings

YandexGPTEmbeddings

行业特定或企业级

DatabricksEmbeddings

SagemakerEndpointEmbeddings

MosaicMLInstructorEmbeddings

SelfHostedEmbeddings

JavelinAIGatewayEmbeddings

小众或实验性

FakeEmbeddings

DeterministicFakeEmbedding

SpacyEmbeddings

TensorflowHubEmbeddings

LaserEmbeddings

VoyageEmbeddings

硬件优化

OpenVINOBgeEmbeddings

IpexLLMBgeEmbeddings

其他

AlephAlpha

AnyscaleEmbeddings

Clova/ClovaX

SolarEmbeddings

JinaEmbeddings

LangChain 文本嵌入方法

LangChain 中的基础 Embeddings 类提供了两个方法：

嵌入文档

嵌入查询

代码示例

接下来，我们以使用开源平台HuggingFace的Embeddings类作为示例，展示LangChain 中的两个文本嵌入方法。

from langchain_huggingface import HuggingFaceEmbeddings
embeddings_model = HuggingFaceEmbeddings(model_name="sentence-transformers/all-mpnet-base-v2")

复制代码

embed_documents 嵌入文本列表

embeddings = embeddings_model.embed_documents(
[
"Hi there!",
"Oh, hello!",
"What's your name?",
"My friends call me World",
"Hello World!"
]
)
len(embeddings), len(embeddings[0])

复制代码

embedded_query = embeddings_model.embed_query("What was the name mentioned in the conversation?")

复制代码

嵌入缓存

LangChain 的嵌入缓存旨在避免重复计算嵌入向量，提升应用效率，核心依托CacheBackedEmbeddings实现。CacheBackedEmbeddings作为缓存支持的嵌入器，将文本哈希处理后以哈希值为键，在键值存储中缓存嵌入结果，避免对相同文本重复进行嵌入计算，从而提高程序运行效率，降低计算资源消耗。

注意:

代码示例

from langchain.embeddings import CacheBackedEmbeddings
from langchain.storage import LocalFileStore
from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter
underlying_embeddings = OpenAIEmbeddings()
store = LocalFileStore("./cache/")
cached_embedder = CacheBackedEmbeddings.from_bytes_store(
underlying_embeddings, store, namespace=underlying_embeddings.model
)
raw_documents = TextLoader("state_of_the_union.txt").load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
documents = text_splitter.split_documents(raw_documents)
db = FAISS.from_documents(documents, cached_embedder)

复制代码

缓存方式

AstraDBByteStore

特性

使用方式

from langchain_astradb import AstraDBByteStore
kv_store = AstraDBByteStore(
api_endpoint="YOUR_API_ENDPOINT",
api_token="YOUR_API_TOKEN"
)

复制代码

CassandraByteStore

特性

使用方式

from langchain_community.storage import CassandraByteStore
from cassandra.cluster import Cluster
# 配置 Cassandra 连接
cluster = Cluster(['127.0.0.1']) # 替换为您的 Cassandra 节点地址
session = cluster.connect('langchain_keyspace') # 替换为您的 Keyspace 名称
# 初始化 CassandraByteStore
byte_store = CassandraByteStore(
session=session,
table_name="byte_store" # 替换为您的表名
)

复制代码

ElasticsearchEmbeddingsCache

特性

使用方式

from langchain_elasticsearch import ElasticsearchEmbeddingsCache
cache = ElasticsearchEmbeddingsCache(
elasticsearch_url="http://localhost:9200",
index_name="embedding_cache"
)

复制代码

InMemoryByteStore

特性

使用方式

from langchain_core import InMemoryByteStore
store = InMemoryByteStore()
store.put("key1", "value1")
value = store.get("key1")

复制代码

LocalFileStore

特性

使用方式

from langchain import LocalFileStore
store = LocalFileStore("path/to/store")
store.put("key1", "value1")
value = store.get("key1")

复制代码

RedisStore

特性

使用方式

from langchain_community import RedisStore
store = RedisStore(host='localhost', port=6379)
store.put("key1", "value1")
value = store.get("key1")

复制代码

UpstashRedisByteStore

特性

使用方式

from langchain_community.storage import UpstashRedisByteStore
from upstash_redis import Redis
# 配置 Upstash Redis 连接
redis_client = Redis(
url="https://your-upstash-redis-url",
token="your-upstash-redis-token"
)
# 初始化 UpstashRedisByteStore
byte_store = UpstashRedisByteStore(client=redis_client)

复制代码

参考文献

键值存储 | LangChain中文网
缓存 | LangChain中文网
使用指南 | LangChain中文网

欢迎光临 AI创想 (https://llms-ai.com/)