添加 GitHub 仓库 (Add GitHub repo)
链接你的 GitHub 仓库以同步合并请求 (Pull Request) 或 Issue。
本文档说明了如何将你的 GitHub 仓库链接到 RAGFlow,以同步合并请求 (PR) 和 Issue。
1. GitHub 配置 (GitHub configuration)
在配置 RAGFlow 之前,你必须准备好你的 GitHub 账户并生成必要的凭据。
步骤 a:公开邮箱配置
为了确保你的组织与 RAG 引擎 (RAG Engine) 之间的身份匹配和权限同步顺畅,最佳实践是将你的电子邮箱设置为可见。
- 进入 GitHub 的 Settings > Emails。
- 取消勾选 "Keep my email addresses private"(保持我的电子邮箱地址私密)。
- 进入 Public profile 并确保在 Public email 下拉菜单中选择你的主要邮箱。
步骤 b:生成个人访问令牌 (PAT)
- 导航到 Settings > Developer settings > Personal access tokens > Tokens (classic)。
- 点击 Generate new token (classic)。
- 所需权限范围 (Required scopes):
repo(完全控制):对于访问私有仓库、PR 和 Issue 至关重要。read:org(可选):如果你是在整个组织内同步仓库。workflow(可选):如果你打算索引 GitHub Action 日志或 CI/CD 元数据,建议勾选。
- 复制令牌 (PAT):请立即保存此令牌;它将不再显示。
2. RAGFlow 连接器设置 (RAGFlow connector setup)
GitHub 令牌准备就绪后,在你的 RAGFlow 实例中注册该外部数据源。
- 访问数据源:点击 RAGFlow 中你的头像图标,然后选择 数据源 (Data source)。
- 添加 GitHub 连接器:点击 + 添加 (+ Add) 并选择 GitHub 图标。
- 输入配置:
- 数据源名称 (Source name):根据仓库命名(例如
ragflow-repo)。 - 仓库所有者 (Repo owner):用户名或组织(例如
infiniflow)。 - 仓库名称 (Repo name):仓库标识符(例如
ragflow)。 - 访问令牌 (Access token):粘贴在第 1 部分中生成的个人访问令牌 (PAT)。
- 包含合并请求 (Include Pull Request):是否包含所选仓库中的合并请求。
- 包含 Issue (Include Issues):是否包含所选仓库中的 Issue。
- 数据源名称 (Source name):根据仓库命名(例如
- 点击 保存 (Save) 确认你的更改。
RAGFlow 将立即验证连接。
注意 (NOTE)
目前已删除或修改的文件不会自动同步。此功能即将推出。感谢 Gisselle-Gonzalez 提交了该功能需求。
3. 数据集绑定与导入 (Dataset binding & ingestion)
最后,将连接器链接到特定的知识库 (Knowledge Base) 以开始 RAG 流程。
- 创建/选择数据集:转到 数据集 (Dataset) 选项卡并进入你的目标数据集。
- 链接外部源:点击 + 添加文件 (+ Add file) 并选择 外部数据源 (External data source)。
- 选择 GitHub 源:选择你刚刚创建的连接器。
- 触发初始同步:
- 仓库中的文件将显示在你的文件列表中。
- 选择文件并点击 运行/解析 (Run/parsing)。
- 解析器选择:对于代码库,建议使用 "Naive" 解析器 (Parser) 进行通用文本提取,或者使用当前版本中可用的特定代码感知模板。