开启左侧

智能体知识库处理

[复制链接]
创想小编 发表于 前天 11:26 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题
作者:CSDN博客
文心智能体平台为了降低知识库的维护成本,提供了内容解析、风控审核、分段切片、向量化等预处理能力,并且开放了部分能力的配置功能,满足开发者针对自身业务场景,个性化调试,使知识库在应用检索阶段可以实现更好的效果。
知识库解析

多模态的答案可以为用户带来更好的体验,为了辅助大模型理解多媒体内容,文心智能体平台提供免费的知识库解析能力。
1. 图片智能体识别

平台接入视觉理解大模型,识别图片中的实体、文本等内容,前置理解丰富的图片信息,提升图片知识库在智能体中检索采用的概率。
智能体知识库处理-1.png


2. 视频智能识别

平台接入视觉理解大模型、语音理解大模型,识别视频中的字幕、语音等内容作为视频文件的标注信息,提升图片知识库在智能体中检索采用的概率。
智能体知识库处理-2.png


3. 音频智能识别

平台接入语音理解大模型,支持识别中文、英文语料内容,默认使用中文理解模型,如需理解英文内容可以在下图位置中设置~
智能体知识库处理-3.png


知识库风控审核

开发者提交的知识库内容需严格遵守《平台运营规范》,文心智能体将对您提交的知识库进行审核校验,审核失败的内容将被屏蔽处理,不会被分发中的智能体检索采用。
知识库分段

由于大模型在现阶段对输入和输出字符有严格限制,而知识库也是输入内容的一种,同样需要遵循大模型的输入字数限制,当前大模型、检索策略的情况下,越短的内容在检索、润色的表现越好。
文本分段是将长文本切割成短段落,剔除不相关的信息,输入更加精准的内容。平台已开放图文、表格文件的分段配置,开发者可根据内容特性,个性化配置分段方式。
1. 图文分段

在图文分段中,主要是依赖下面的 3 个字段,将长文本切分为短段落。
字段配置说明示意图
分段方式指用于切分段落的分割符号,将在符合"最大段落字符数"要求的符号位置切分段落。
您可以设置标点、中文、英文、数据作为分割符号。
智能体知识库处理-4.png


智能体知识库处理-5.png


最大段落字符数注:内容越短,检索效果越好哦~
指切分后最大的段落长度,段落长度最大不能超过 512 个字符。
例如:一份 5000 字的文件,"最大段落字符数=500"时,将得到 9~10 段 500 字左右的段落。
段落重叠字符数指上下 2 个分段中重复的内容长度。
例如: 右图 1 中,"平台的优势"标题与描述信息分在 2 个段落中,模型检索采用后也没有"平台的优势"相关的内容,这时就可以适当增加"段落重叠字符数",增加 2 段内容的相关性(如图 2)。
2. 表格分段

为了保障表格在检索、采用的应用效果,平台默认将每行切分为 1 个单独的分段。
在表格中,模型无法根据一组数据、一段没有说明的文案,理解其所包含的语义,因此对于表格中的分段,则主要需要判断表头所在的位置。
字段配置说明示意图
表格支持按照表格维度设置表头位置,且支持多选。
智能体知识库处理-6.png


表头注:没有定义表头位置的表格,将默认第一行为表头!
表头将作为表格的重要语义信息,与表格分段一起检索、输入模型。
仅支持选择表格的前 50 行。
检索列检索列可以进一步缩小模型的检索范围,在更有效的数据中检索相关内容。
例如: 右图中将"销售员"列作为"检索列",当用户提问为"张三的业绩是多少"时,就可以只检索销售员列寻找到"张三",即可定位找到业绩收入;如不设置检索列,则需要在整行内容中检索,相关性会大大降低。
知识库向量化

智能体用户的问题范围非常广,提问的话术也多种多样,为了提高用户问题在知识库检索中的应答率,对用户提问、知识库进行向量化,再进行向量检索计算相关性,让同一个问题,可以检索、召回、采用更多内容。

原文地址:https://blog.csdn.net/usakellye/article/details/147701961
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

发布主题
阅读排行更多+

Powered by Discuz! X3.4© 2001-2013 Discuz Team.( 京ICP备17022993号-3 )