加载器名称 | 描述 | 依赖库 |
WebBaseLoader | 最常用,使用 requests+BeautifulSoup 抓取网页纯文本 | beautifulsoup4,html2text |
SeleniumURLLoader | 支持动态加载内容的网页(如 JavaScript 渲染页面) | selenium |
UnstructuredURLLoader | 用于结构化提取网页中的段落、标题、图像等 | unstructured |
类型 | 场景示例 | 举例 |
.txt,.md | 纯文本文件 | 文本日志、笔记、Markdown文档 |
带排版文档 | 报告、简历、研究论文 | |
.docx | Word 文档 | 合同、方案、规格说明书 |
.pptx | 演示幻灯片 | 拓展用语料库知识 |
.csv,.xlsx | 表格与数据 | 结构化数据文件 |
.html | 网页存档 | 本地网页文件 |
欢迎光临 AI创想 (http://llms-ai.com/) | Powered by Discuz! X3.4 |