

| 加载器名称 | 描述 | 依赖库 |
| WebBaseLoader | 最常用,使用 requests+BeautifulSoup 抓取网页纯文本 | beautifulsoup4,html2text |
| SeleniumURLLoader | 支持动态加载内容的网页(如 JavaScript 渲染页面) | selenium |
| UnstructuredURLLoader | 用于结构化提取网页中的段落、标题、图像等 | unstructured |
| 类型 | 场景示例 | 举例 |
| .txt,.md | 纯文本文件 | 文本日志、笔记、Markdown文档 |
| 带排版文档 | 报告、简历、研究论文 | |
| .docx | Word 文档 | 合同、方案、规格说明书 |
| .pptx | 演示幻灯片 | 拓展用语料库知识 |
| .csv,.xlsx | 表格与数据 | 结构化数据文件 |
| .html | 网页存档 | 本地网页文件 |
| 欢迎光临 AI创想 (https://llms-ai.com/) | Powered by Discuz! X3.4 |