收起侧栏

创建与配置本地知识库

最近更新时间: 2026-05-19 17:56:19

1. 知识库创建

点击左侧导航栏中的知识库按钮进入知识库管理页面，点击创建知识库，单用户最多创建50个知识库。
支持用户针对已创建的知识库或创建知识库时添加标签，方便用户管理自己搭建的知识库。
文件上传指定的文件类型：TXT、MARKDOWN、PDF、OFD、XLSX、XLS、DOCX、DOC、CSV、WPS、WPT、ET、ETT、JPG、JPEG、PNG、BMP、TIFF
支持用户自定义标签(标签上限10个)，并在创建知识库的时候选择标签。

2. 数据类型及数据上传要求

平台支持三种数据类型文件，包含结构化数据、非结构化数据、多模态数据。

非结构化数据：支持上传文件格式包含TXT、MARKDOWN、PDF、DOC、DOCX、OFD、WPS、WPT格式。
结构化数据：支持上传文件格式包含CSV、XLSX、XLS、ET、ETT格式。
多模态数据：支持上传文件格式包含JPG、JPEG、PNG、BMP、TIFF格式
根据选择数据类型上传对应文件。上传非对应数据类型文件，会异常报错。
非结构化数据文件：要求上传的每个文件不超过50MB，最多同时上传30个文件
结构化数据文件：要求上传的每个文件不超过20MB，最多同时上传50个文件
多模态数据文件：要求上传的每个文件不超过5MB，最多同时上传50个文件

3. 配置选择

3.1 分段处理：适用于非结构化数据类型，文件格式包含TXT、MARKDOWN、PDF、DOC、DOCX、OFD、WPS、WPT。（结构化数据会按照表格行数进行切分；多模态数据无相关功能。）

3.1.1 自动分段与清洗方式：自动模式适合对分段规则与预处理规则尚不熟悉的初级用户。在该模式下，平台将为你自动分段与清洗内容文件，你不需要进行任何筛选与操作。

3.1.2 自定义：自定义模式适合对于文本处理有明确需求的进阶用户。在自定义模式下，你可以根据不同的文档格式和场景要求，手动配置文本的分段规则和清洗策略。配置参数如下：

分段标识符：系统将在文本中出现指定的标识符的分段，文本换行时将自动分段；
分段最大长度：根据分段的文本字符数最大上限来进行分段，超出该长度时将强制分段。一个分段的最大长度为500-10000字节；
分段重叠长度：分段重叠指的是在对数据进行分段时，段与段之间存在一定的重叠部分。这种重叠可以帮助提高信息的保留和分析的准确性，提升召回效果。建议设置为分段长度 Tokens 数的 10-25%。
文本预处理规则：文本预处理规则可以帮助过滤知识库内部分无意义的内容。例如替换连续的空格、换行符和制表符。

3.1.3 文档层级分段：该模式针对含标题层级的结构化文档（如手册、报告），系统自动识别标题级别，按嵌套关系切分为树状段落，保留父子隶属结构，适用于知识组织与导航构建，无需人工干预。

分段层级1-3，平台系统默认分段层级为1级。
注意：在该分段处理选择下，解析方式不支持选择精准解析。

3.2 Embedding模型设置：

Embedding 模型用于将自然语言处理转为向量，用于后续检索和大模型处理。
可选择的内置embedding模型，或在设置-模型来源中添加第三方embedding模型。

3.3 解析方式
解析方式包含快速解析和精准解析，适用于非结构化数据类型，支持文件格式包含PDF、TXT、DOCX、MARKDOWN格式。

快速解析：适用于纯文本类型，不会识别文档中的图像元素。
精准解析：适合于图片型pdf（例如文件的扫描件），包含ocr算法能力，能够支持文档中图片提取。
精准解析策略（可选，仅支持单选）：
图片文本识别（OCR）：识别图片中的文字，适用于文档扫描件等
图片理解（VLM）：调用多模态大模型理解图片，适用于画面描述、图表研读等场景。

3.4 知识增强

知识增强里面包含问题生成、段落总结、知识图谱三种形式，适用于非结构化数据。知识增强的作用是辅助召回涉及知识库问答的内容。大模型会参与问题生成或段落总结的提取，在提取过程中会有一定的模型消耗。

段落总结：开启后，会自动生成1个知识点。
问题生成：开启后，会自动生成3个问答对。
知识图谱能力：开启知识图谱能力后，能够使用graphrag算法提取文档内容中的实体，形成图谱辅助召回。