这个文件记录 AgentCode V0 的执行计划。产品方向、架构和评估细节放在 docs/ 中维护。
先做出一个可以证明方向的最小版本。当前 V0 先把 Review Mode 做成可用闭环:
- 20 道 Review Mode 题。
- Task Mode 在 runner 和测试体系接入后上线。
- 用户可以查看题目、提交结果、获得可信评估。
- 平台能证明:AI 时代的工程训练不应该只靠传统算法刷题。
- 明确项目初心。
- 明确 Task Mode / Review Mode 两个核心入口。
- 拆分中文和英文 README。
- 将产品方向、架构、评估、题库规划拆到
docs/。 - 确定 V0 的正式命名:AgentCode / AgentCoder / agentcoder.codes。
- 确定首批题目技术栈:优先 TypeScript、React、Node.js。
- 题目列表页。
- Task Mode 题目详情页。
- Review Mode 题目详情页。
- diff 阅读界面。
- patch / PR URL 提交入口。
- 结果页:展示得分、日志、失败原因和建议。
- 定义
challenges/review/目录规范。 - 定义
metadata.json/expected-findings.json/rubric.md资产格式。 - 定义 Task Mode 题目模板。
- 定义 Review Mode 题目模板。
- 准备 1 道 Task Mode 样题。
- 准备 20 道 Review Mode 题。
- 接收 patch 或 PR URL。
- 拉取初始仓库。
- 应用用户改动。
- 在 Docker 隔离环境中执行安装和测试。
- 支持公开测试和隐藏测试。
- 保存日志和评估结果。
- 返回
accepted/failed/needs_review。
- 定义 Review Rubric schema。
- 支持 merge decision、finding、severity、affected files。
- 实现必需问题匹配。
- 实现误报和漏报扣分。
- 支持参考答案对比和讲解。
- 后续再加入 LLM 辅助归一化,不作为唯一裁判。
- Task Mode 首批题(runner 接入后再定正式数量)。
- 20 道 Review Mode。
- Review Mode 每道题都有题面、资产、评估方式、参考答案和讲解。
- Review Mode 每道题都体现一个真实工程判断点。
- 不做传统算法 Hot100。
- 不做完整在线 IDE。
- 不做浏览器终端。
- 不做复杂社区。
- 不做竞赛和排行榜。
- 不做公司面试题 marketplace。
- 不做宽泛多语言支持。
- 不做以 LLM 为唯一裁判的评估。
- 固定文档结构和产品叙事。
- 定义题库资产格式。
- 接入 Review Mode 提交记录和更完整的评分结果。
- 做出第一道 Task Mode 样题。
- 再开始搭建 runner。