自主AI研究框架
灵感来源: Karpathy AutoRS
核心思想: 给AI一个真实的研究环境,让它自主实验、评估、迭代
实验设计 → 代码修改 → 训练运行 → 评估指标 → 结果分析
↑ ↓
←←← 保留/丢弃 → 更新上下文 → 继续下一轮 ←←←
| 文件 | 作用 | 修改权限 |
|---|---|---|
| ------ | ------ | --------- |
prepare.py | 数据准备、工具函数 | ❌ 不修改 |
train.py | 模型、优化器、训练循环 | ✅ Agent修改 |
program.md | Agent指令、实验目标 | ✅ 人类修改 |
请按照 program.md 的指令开始新一轮实验。
先查看当前 train.py 的状态,然后进行修改并运行。
## 实验 #[N] - [日期时间]
### 假设
[这次要改什么,为什么]
### 修改
[train.py 的改动点]
### 结果
- 评估指标: [数值]
- vs 基线: [+/-%]
### 决定
[保留/丢弃] - [原因]
# Research Program
## 基线状态
- 模型: [描述]
- 优化器: [描述]
- 评估指标: val_bpb = [数值]
## 研究目标
[当前要解决的问题/优化方向]
## 可修改范围
- 模型架构(层数、hidden维度、attention头数)
- 优化器(学习率、beta、权重衰减)
- 训练参数(batch_size、seq_len)
- 正则化(dropout、weight_decay)
## 约束
- 训练时间: 5分钟固定
- 单GPU
- 只修改 train.py
## 当前重点
[Agent根据历史结果自行判断下一个实验方向]
| 指标 | 说明 | 越低/高越好? |
|---|---|---|
| ------ | ------ | ------------- |
| val_bpb | 验证集每字节比特数 | 越低越好 |
| val_loss | 验证损失 | 越低越好 |
| test_acc | 测试准确率 | 越高越好 |
| perplexity | 语言模型困惑度 | 越低越好 |
# 实验日志
## 实验记录
| # | 时间 | 修改 | 指标 | vs基线 | 决定 |
|---|------|------|------|--------|------|
| 1 | 2026-04-17 | 初始基线 | 1.234 | - | 基线 |
| 2 | 2026-04-17 | 学习率 1e-3→5e-4 | 1.189 | -3.6% | ✅保留 |
| 3 | 2026-04-17 | 层数 8→12 | 1.201 | -2.7% | ❌丢弃 |
## 关键发现
- 学习率降低有效
- 层数增加不一定好
python train.py当用户要求开始自主研究时:
program.md 了解目标train.py 当前状态基于 Karpathy AutoRS 理念构建 | OpenClaw Skill
共 1 个版本