上传方式 | 操作步骤 |
本地文档 | 1. 在文本格式页签下,选择本地文档,然后单击下一步。 2. 将要上传的文档拖拽到上传区,或单击上传区域选择要上传的文档。 🎈 • 目前支持上传.txt, .pdf, .docx 格式的文件内容。 • 每个文件不得大于 20M。 • 一次最多可上传 10 个文件 3. 当上传完成后单击下一步。 4. 选择内容分段方式: a. 自动分段与清洗:系统会对上传的文件数据进行自动分段,并会按照系统默认的预处理规则处理数据。 b. 自定义:手动设置分段规则和预处理规则。 • 分段标识符:选择符合实际所需的标识符。 • 分段最大长度:设置每个片段内的字符数上限。 • 文本预处理规则: ◦ 替换掉连续的空格、换行符和制表符 ◦ 删除所有 URL 和电子邮箱地址 5. 单击下一步完成内容上传和分片。 |
在线数据 | 扣子支持自动抓取指定URL的内容,也支持手动采集指定页面上的内容,上传到数据库。 自动采集方式:该方式适用于内容量大,需要批量快速导入的场景。 1. 在文本格式页签下,选择在线数据,然后单击下一步。 2. 单击自动采集。 3. 单击新增URL。在弹出的页面完成以下操作: a. 输入要上传的网站地址。 b. 选择是否需要定期同步网站内容,如果需要选择内容同步周期。 c. 单击确认。 4. 当上传完成后单击下一步。 系统会自动根据网站的内容进行内容分片。 手动采集:该方式适用于需要精准采集网页上指定内容的场景 5. 6. 在文本格式页签下,选择在线数据,然后单击下一步。 7. 点击手动采集,然后在弹出的页面点击权限授予完成授权。 8. 在弹出的页面输入要采集内容的网址,然后单击确认。 9. 在弹出的页面上,点击页面下方文本标注按钮,开始标注要提取的内容,然后单击文本框上方的文本或链接按钮。 10. 单击查看数据查看已采集的内容,确认无误后再点击完成并采集。 |