可以把它设计成“失败后自动拉起修复 Agent”的闭环流水线。核心思路是:门禁失败不是直接结束,而是把错误日志、代码上下文、测试命令交给机器上的修复工具,让它在受控环境里改代码、跑验证、提交 commit,然后再次触发流水线,直到通过或达到上限。
推荐方案
落地步骤
在 Linux 机器上预置工具
- 代码工具:
git、gh或 GitLab/Jenkins CLI。 - 构建工具:项目需要的
maven、gradle、npm、pnpm、go、python、cargo等。 - 检查工具:
pytest、eslint、ruff、mypy、go test、make test等。 - 自动修复工具:例如内部代码修复 Agent、Codex CLI、脚本化 LLM Agent,或基于规则的 fix 工具。
- 代码工具:
失败后收集上下文
必须把这些信息传给修复工具:- 失败日志。
- 失败命令。
- 当前分支、commit SHA。
- 变更文件列表。
- 项目测试命令。
- CI 环境变量、系统版本、依赖版本。
让 Agent 在隔离 workspace 中修复
不建议直接在主工作区改。每次修复应使用临时目录或干净分支:gitcheckout-Bauto-fix/$BUILD_ID# 调用自动修复工具codex"根据 ci.log 修复当前仓库代码,运行测试直到通过"本地验证通过后再提交
Agent 修改代码后,流水线执行固定验证命令:maketestmakelintmakebuild通过后提交:
gitconfig user.name"ci-fix-bot"gitconfig user.email"ci-fix-bot@example.com"gitadd.gitcommit-m"fix: repair gate pipeline failure"gitpush origin auto-fix/$BUILD_ID支持迭代但要设置上限
建议最多迭代 3 到 5 次:MAX_RETRY=5foriin$(seq1$MAX_RETRY);dorun_auto_fix run_tests&&breakdone如果超过次数仍失败,应自动创建 issue 或评论 PR,附上失败日志和 Agent 的尝试摘要。
可能问题与解决办法
| 问题 | 风险 | 解决办法 |
|---|---|---|
| Agent 误改代码 | 引入新 bug | 限制只改失败相关文件,必须跑完整测试 |
| 死循环修复 | 浪费机器资源 | 设置最大迭代次数、超时和 diff 大小限制 |
| 环境不一致 | 本地通过、CI 失败 | 修复 Agent 使用和门禁一致的 Docker 镜像 |
| 权限过大 | 可能泄露密钥或破坏仓库 | 使用最小权限 token,只允许推送 bot 分支 |
| 依赖下载失败 | 修复误判 | 区分代码失败、网络失败、缓存失败 |
| 测试不稳定 | Agent 反复改错地方 | 失败重跑一次,标记 flaky test |
| Commit 污染历史 | 自动提交太多 | 统一使用auto-fix/*分支,人工确认后 squash |
| 安全问题 | Agent 可能修改敏感配置 | 禁止修改密钥、部署脚本、权限文件,或要求人工 review |
比较合理的策略
不要让自动修复直接合入主干。更稳妥的是:
- 门禁失败。
- 自动修复 Agent 新建
auto-fix/xxx分支。 - 修复并验证。
- 自动提交 commit。
- 创建 PR 或更新原 PR。
- 门禁重新跑。
- 通过后由人工或规则系统合入。
这样既能自动迭代修复,又不会让机器在没有审查的情况下直接改主干。对于企业门禁流水线,这是安全性和效率比较平衡的做法。