3⃣️知识库创建

type

status

date

slug

summary

一、什么是知识库，为什么需要

在写后面内容时候，发现有必要出一期好好讲讲，知识库是什么。我会结合程序思想，围绕是什么、为什么、怎么做，这三点展开讲讲，dify 和其他同类的 ai-agent平台（例如coze）为什么会有知识库。

解决 LLM 上下文token 有限的问题

在GPT3.5 时代，LLM 的token 上下文只有4080，大概为中文的字符的1.5倍，也就说输入 1000 个汉字，为2000 tokens（何为token，参考这篇）

将用户输入的文本，分割、向量化、存入向量数据库，然后根据用户输入向量化，跟向量数据库中的数据相似度对比，获取最优文本，作为上下文，连同问题一起返回给 LLM ，这既是最原始基础的 RAG（检索增强技术）

存储分割文本的数据库

我们拿，《中国人口三千年》这本书做例子（为什么呢？鬼叫它在我搜索时候排第一），文件放在上面。

1，创建知识库

先创立一个空的数据库，然后点击添加文件

2，导入文件

有三种导入方式，文本上传、notion、web

这里选择上传文本

3,文本分段与清洗

这里是决定知识库的质量地方，所以必须要谨慎对待

然后点击下一步，等程序向量化文本、索引后

查看知识库内的文档，可以多个

召回测试：也即是知识库检索测试，可以输入问题，看看返回的文段相似度

知识库设置：

这里可以设置 embedding（向量化工具）模型

也可以设置 Rank （重排）模型

TopK：是一次返回多少文段 Score：是文段要跟用户问题语义相似度要多高，0.00～1.00，越高，跟问题越相似，一般 0.3~0.4 左右