跳到主要内容

添加 GitHub 仓库 (Add GitHub repo)

链接你的 GitHub 仓库以同步合并请求 (Pull Request) 或 Issue。


本文档说明了如何将你的 GitHub 仓库链接到 RAGFlow,以同步合并请求 (PR) 和 Issue。

1. GitHub 配置 (GitHub configuration)

在配置 RAGFlow 之前,你必须准备好你的 GitHub 账户并生成必要的凭据。

步骤 a:公开邮箱配置

为了确保你的组织与 RAG 引擎 (RAG Engine) 之间的身份匹配和权限同步顺畅,最佳实践是将你的电子邮箱设置为可见。

  1. 进入 GitHub 的 Settings > Emails
  2. 取消勾选 "Keep my email addresses private"(保持我的电子邮箱地址私密)。
  3. 进入 Public profile 并确保在 Public email 下拉菜单中选择你的主要邮箱。

步骤 b:生成个人访问令牌 (PAT)

  1. 导航到 Settings > Developer settings > Personal access tokens > Tokens (classic)
  2. 点击 Generate new token (classic)
  3. 所需权限范围 (Required scopes)
    • repo (完全控制):对于访问私有仓库、PR 和 Issue 至关重要。
    • read:org (可选):如果你是在整个组织内同步仓库。
    • workflow (可选):如果你打算索引 GitHub Action 日志或 CI/CD 元数据,建议勾选。
  4. 复制令牌 (PAT):请立即保存此令牌;它将不再显示。

2. RAGFlow 连接器设置 (RAGFlow connector setup)

GitHub 令牌准备就绪后,在你的 RAGFlow 实例中注册该外部数据源。

  1. 访问数据源:点击 RAGFlow 中你的头像图标,然后选择 数据源 (Data source)
  2. 添加 GitHub 连接器:点击 + 添加 (+ Add) 并选择 GitHub 图标。
  3. 输入配置
    • 数据源名称 (Source name):根据仓库命名(例如 ragflow-repo)。
    • 仓库所有者 (Repo owner):用户名或组织(例如 infiniflow)。
    • 仓库名称 (Repo name):仓库标识符(例如 ragflow)。
    • 访问令牌 (Access token):粘贴在第 1 部分中生成的个人访问令牌 (PAT)。
    • 包含合并请求 (Include Pull Request):是否包含所选仓库中的合并请求。
    • 包含 Issue (Include Issues):是否包含所选仓库中的 Issue。
  4. 点击 保存 (Save) 确认你的更改。
    RAGFlow 将立即验证连接。
注意 (NOTE)

目前已删除或修改的文件不会自动同步。此功能即将推出。感谢 Gisselle-Gonzalez 提交了该功能需求

3. 数据集绑定与导入 (Dataset binding & ingestion)

最后,将连接器链接到特定的知识库 (Knowledge Base) 以开始 RAG 流程。

  1. 创建/选择数据集:转到 数据集 (Dataset) 选项卡并进入你的目标数据集。
  2. 链接外部源:点击 + 添加文件 (+ Add file) 并选择 外部数据源 (External data source)
  3. 选择 GitHub 源:选择你刚刚创建的连接器。
  4. 触发初始同步
    • 仓库中的文件将显示在你的文件列表中。
    • 选择文件并点击 运行/解析 (Run/parsing)
    • 解析器选择:对于代码库,建议使用 "Naive" 解析器 (Parser) 进行通用文本提取,或者使用当前版本中可用的特定代码感知模板。