AI创想

标题: 【LangChain】langchain_tavily 库：提供 LangChain 与 Tavily 搜索 API 的集成 [打印本页]

作者: 双木迎光 时间: 4 天前
标题: 【LangChain】langchain_tavily 库：提供 LangChain 与 Tavily 搜索 API 的集成
作者：彬彬侠
langchain_tavily 是一个 LangChain 的官方集成包，用于将 Tavily 的搜索和内容提取功能与 LangChain 的生态系统无缝连接。Tavily 是一个专为大型语言模型（LLM）和 AI 代理设计的搜索引擎，旨在提供实时、准确、事实性的搜索结果，特别适合检索增强生成（RAG）等 AI 工作流。通过 langchain_tavily，开发者可以轻松在 LangChain 应用中集成 Tavily 的搜索和提取工具，增强代理或链的实时信息检索和内容分析能力。
以下是对 langchain_tavily 库的详细介绍，涵盖其定义、功能、安装与配置、核心组件、使用方式、代码示例、应用场景、优化建议、注意事项以及与 LangChain 生态的结合。

1. 什么是 langchain_tavily？

langchain_tavily 是一个 Python 包，提供 LangChain 与 Tavily 搜索 API 的集成，包含以下核心功能：

TavilySearch

TavilyExtract

代理集成

Tavily 的搜索 API 针对 AI 代理进行了优化，相比传统搜索 API（如 Google、SerpAPI），它具有以下优势：

语义搜索

结构化输出

多源整合

实时性

RAG 优化

langchain_tavily 将这些功能封装为 LangChain 工具，方便开发者在链、代理或自定义工作流中使用。

2. 功能与特点

langchain_tavily 提供以下主要功能：

实时搜索：
内容提取：
代理支持：
结构化输出：
易于集成：
可定制性：

特点：

AI 优化

高性能

可扩展

社区支持

3. 安装与配置

安装

安装 langchain_tavily 需要以下依赖：

pip install -qU langchain langchain-openai langchain-tavily tavily-python

复制代码

配置 API 密钥

Tavily 需要 API 密钥进行身份验证：

设置环境变量：
1. import os
2. import getpass
4. ifnot os.environ.get("TAVILY_API_KEY"):
5. os.environ["TAVILY_API_KEY"]= getpass.getpass("请输入 Tavily API 密钥：")
复制代码
或在 .env 文件中配置：
1. TAVILY_API_KEY=your-tavily-api-key
复制代码

可选：LangSmith 集成

为启用最佳调试和监控，建议配置 LangSmith：

os.environ["LANGCHAIN_TRACING_V2"]="true"
os.environ["LANGCHAIN_API_KEY"]= getpass.getpass("请输入 LangSmith API 密钥：")

复制代码

4. 核心组件

langchain_tavily 提供了两个主要工具：
(1) TavilySearch

功能

参数：
输出：JSON 格式，包含：

(2) TavilyExtract

功能

参数：
输出：JSON 格式，包含提取的文本、元数据等。

(3) 代理集成

5. 使用方式与代码示例

(1) 单独使用 TavilySearch

from langchain_tavily import TavilySearch
# 初始化搜索工具
tool = TavilySearch(
max_results=3,
topic="general",
search_depth="basic")# 执行搜索
result = tool.invoke("量子计算的最新进展")print(result)

复制代码

输出（示例）：

{"query":"量子计算的最新进展","results":[{"title":"Quantum Computing Breakthroughs in 2025","url":"https://example.com/quantum-news","content":"Recent advances in quantum computing include...","score":0.95},...],"response_time":1.5}

复制代码

(2) 使用 TavilyExtract

from langchain_tavily import TavilyExtract
# 初始化提取工具
extract_tool = TavilyExtract()# 提取网页内容
result = extract_tool.invoke({"urls":["https://example.com/quantum-news"]})print(result)

复制代码

输出（示例）：

[{"url":"https://example.com/quantum-news","content":"Full text of the webpage...","metadata":{"title":"Quantum News","author":"John Doe"}}]

复制代码

(3) 集成到代理

以下是一个结合 TavilySearch 和 TavilyExtract 的代理示例：

from langchain_openai import ChatOpenAI
from langchain_tavily import TavilySearch, TavilyExtract
from langchain.agents import create_openai_tools_agent, AgentExecutor
from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
from langchain_core.callbacks import StdOutCallbackHandler
import datetime
# 初始化 LLM
llm = ChatOpenAI(model="gpt-4o", temperature=0, api_key="your-openai-key")# 初始化工具
search_tool = TavilySearch(max_results=5, topic="general")
extract_tool = TavilyExtract()
tools =[search_tool, extract_tool]# 设置提示模板
today = datetime.datetime.today().strftime("%D")
prompt = ChatPromptTemplate.from_messages([("system",f"""You are a research assistant. Use tools to search and extract information. Today is {today}."""),
MessagesPlaceholder(variable_name="messages"),
MessagesPlaceholder(variable_name="agent_scratchpad")])# 创建代理
agent = create_openai_tools_agent(llm=llm, tools=tools, prompt=prompt)
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True)# 执行任务
response = agent_executor.invoke({"messages":[{"role":"user","content":"研究量子计算的最新进展并总结其对网络安全的潜在影响"}]}, config={"callbacks":[StdOutCallbackHandler()]})print(response["output"])

复制代码

输出（示例）：

[AgentExecutor] 正在执行...
[Tool: TavilySearch] 输入：量子计算的最新进展
[Tool Output] 搜索结果包括...
[Tool: TavilyExtract] 输入：https://example.com/quantum-news
[Tool Output] 提取内容...
[Final Answer] 量子计算的最新进展包括... 对网络安全的影响可能涉及加密算法的破解...

复制代码

6. 应用场景

langchain_tavily 适用于以下场景：

实时问答：
研究与分析：
智能代理：
RAG 应用：
内容生成：
聊天机器人：

7. 优化建议

(1) 提高搜索质量

优化查询：
调整参数：
过滤结果：
1. search_tool = TavilySearch(include_domains=["arxiv.org","nature.com"])
复制代码

(2) 提高性能

缓存结果：
1. from langchain.globalsimport set_llm_cache
2. from langchain.cache import SQLiteCache
3. set_llm_cache(SQLiteCache(database_path="cache.db"))
复制代码
异步调用：
1. result =await agent_executor.ainvoke(input)
复制代码
批量处理：
1. results = agent_executor.batch([{"messages":[{"content":"q1"}]},{"messages":[{"content":"q2"}]}])
复制代码

(3) 错误处理

API 错误：
1. try:
2. result = search_tool.invoke("query")except Exception as e:print(f"搜索错误：{e}")
3. result = fallback_search.invoke("query")
复制代码
回退机制：
1. from langchain_community.tools import DuckDuckGoSearchRun
2. search_tool_with_fallback = search_tool.with_fallbacks([DuckDuckGoSearchRun()])
复制代码
验证输出：
1. ifnot result["results"]:print("无相关结果")return fallback_result
复制代码

(4) 监控与调试

LangSmith 集成：
1. from langsmith import Client
2. config ={"callbacks":[Client(api_key="your-langsmith-key")]}
3. response = agent_executor.invoke(input, config=config)
复制代码
自定义回调：
1. from langchain_core.callbacks import BaseCallbackHandler
2. classToolCallback(BaseCallbackHandler):defon_tool_start(self, serialized, input_str,**kwargs):print(f"工具 {serialized['name']} 开始，输入：{input_str}")
3. config ={"callbacks":[ToolCallback()]}
复制代码

(5) 上下文管理

追加上下文：
1. history ="用户之前的查询：['量子计算是什么？']"
2. user_query =f"{history} 量子计算的最新进展是什么？"
3. result = search_tool.invoke(user_query)
复制代码
结合向量存储：
1. from langchain_community.retrievers import TavilySearchAPIRetriever
2. retriever = TavilySearchAPIRetriever(k=3)
3. docs = retriever.invoke("量子计算的最新进展")
复制代码

8. 注意事项

API 密钥安全：
配额限制：
模型兼容性：
结果相关性：
性能：
迁移警告：

9. 与 LangChain 生态的结合

链（Chains）：
1. from langchain.chains import RetrievalQA
2. retriever = TavilySearchAPIRetriever(k=3)
3. qa_chain = RetrievalQA.from_chain_type(llm, retriever=retriever)
复制代码
代理（Agents）：
1. agent = create_openai_tools_agent(llm, tools, prompt)
复制代码
工具（Tools）：
1. tools =[search_tool, extract_tool, WikipediaTool()]
复制代码
回调（Callbacks）：
1. config ={"callbacks":[StdOutCallbackHandler()]}
复制代码
LangSmith：
向量存储：
1. from langchain_community.vectorstores import DeepLake
2. vectorstore = DeepLake(dataset_path="hub://user/dataset")
复制代码

10. 综合示例：构建智能研究代理

以下是一个完整的代理示例，结合 TavilySearch 和 TavilyExtract，用于研究量子计算对网络安全的影响：

from langchain_openai import ChatOpenAI
from langchain_tavily import TavilySearch, TavilyExtract
from langchain.agents import create_openai_tools_agent, AgentExecutor
from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
from langchain_core.callbacks import StdOutCallbackHandler
from langchain_core.runnables import RunnableConfig
import datetime
import os
import getpass
# 配置 API 密钥ifnot os.environ.get("TAVILY_API_KEY"):
os.environ["TAVILY_API_KEY"]= getpass.getpass("请输入 Tavily API 密钥：")# 初始化 LLM
llm = ChatOpenAI(model="gpt-4o", temperature=0, api_key="your-openai-key")# 初始化工具
search_tool = TavilySearch(
max_results=3,
topic="general",
search_depth="advanced",
include_domains=["arxiv.org","nature.com"])
extract_tool = TavilyExtract()
tools =[search_tool, extract_tool]# 设置提示模板
today = datetime.datetime.today().strftime("%D")
prompt = ChatPromptTemplate.from_messages([("system",f"""You are a research assistant. Search the web and extract content to provide accurate answers. Today is {today}."""),
MessagesPlaceholder(variable_name="messages"),
MessagesPlaceholder(variable_name="agent_scratchpad")])# 创建代理
agent = create_openai_tools_agent(llm=llm, tools=tools, prompt=prompt)
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True)# 配置 RunnableConfig
config = RunnableConfig(
callbacks=[StdOutCallbackHandler()],
max_iterations=5,
max_execution_time=30.0,
metadata={"request_id":"req_001"})# 执行任务
response = agent_executor.invoke({"messages":[{"role":"user","content":"研究量子计算的最新进展并总结其对网络安全的潜在影响"}]}, config=config)print(response["output"])

复制代码

输出（示例）：

[AgentExecutor] 正在执行...
[Tool: TavilySearch] 输入：量子计算的最新进展
[Tool Output] 搜索结果包括...
[Tool: TavilyExtract] 输入：https://arxiv.org/abs/2501.12345
[Tool Output] 提取内容...
[Final Answer] 量子计算的最新进展包括超导量子比特的突破... 对网络安全的影响包括后量子加密的需求...

复制代码

11. 学习资源

Tavily 官方文档

LangChain 文档

GitHub 仓库

Tavily API 参考

社区教程

12. 总结

定义

核心组件：
功能：语义搜索、结构化输出、RAG 优化、代理支持。安装与配置：需要 langchain-tavily、tavily-python 和 API 密钥。应用场景：实时问答、研究分析、智能代理、RAG、内容生成、聊天机器人。优化点：搜索质量、性能、错误处理、监控、上下文管理。注意事项：API 密钥安全、配额限制、模型兼容性、结果相关性、性能、迁移警告。

原文地址：https://blog.csdn.net/u013172930/article/details/147980268

欢迎光临 AI创想 (https://llms-ai.com/)