为什么要进行切割?接下来是,VectorStoreIndexWrapper 类:
原因很简单, embedding(text2vec,文本转化为向量)以及 LLM encoder 对输入 tokens 都有限制。embedding 会将一个 text(长字符串)的语义信息压缩成一个向量,但其对 text 包含的 tokens 是有限制的,一段话压缩成一个向量是 ok,但一本书压缩成一个向量可能就丢失了绝大多数语义
Item ID | Vector (in a high dimensional space) |
1 | [0.34, -0.2, 0.5, ...] |
2 | [-0.1, 0.3, -0.4, ...] |
... | ... |
欢迎光临 AI创想 (https://llms-ai.com/) | Powered by Discuz! X3.4 |