MICRO_GRID_ROADMAP.md 6.6 KB

微网格控制迭代计划

本文基于《MICRO_GRID_CONTROL.md》的框架,给出可执行的开发排期。规划按 4 个迭代(Sprint)展开,每个迭代 2 周,可根据团队节奏微调。


0. 角色与基本约定

  • 负责人划分
    • Core Strat:策略逻辑(库存、PI、费用拨盘)负责人。
    • Infra/DevOps:指标、监控、部署及性能。
    • Risk:风控限额、kill-switch 联动。
    • QA/Sandbox:仿真、演练、回归。
  • 环境划分dev(仿真/回放)、sandbox(低资金实盘)、prod
  • 交付检查:每个迭代结束前完成 checklist + Demo。

Milestone 总览

里程碑 (Sprint) 时间 (示例) 主要负责人 范围 关键交付 验收要点
M1 – Telemetry 基线 Sprint 1 Infra, QA T1 指标采集与监控 Prometheus + Grafana, 指标 API, 报警规则 指标齐全、报警生效、日志无异常
M2 – 核心闭环上线 Sprint 2 Core Strat, QA T2 库存闭环 + T3 成交率 PI 库存偏置器、PI 控制器、仿真脚本 δfills/min 自动收敛,无震荡
M3 – 结构/费用调节 Sprint 3 Core Strat, Infra T4 簿内跟随 + T5 费用拨盘 深度采样器、费用模型、参数面板 深度变化响应、费用拨盘记录完整
M4 – 稳定性收尾 Sprint 4 Infra, Risk T6 队列退避 + T7 Kill-switch 队列管理、退避策略、安全阈值 队列拥堵可自调、kill-switch 演练通过

Sprint 1:Telemetry 基线(M1)

目标:建立监控与指标体系,为后续闭环提供数据支撑。
时长:2 周。

工作拆分

  1. 指标聚合模块(Infra)
    • 集成 fills/minmaker_ratioδSdepth₁₋₃queue_positioncancel_latency
    • 支持窗口配置与热更新。
  2. Prometheus Exporter & Grafana(Infra)
    • 暴露指标端点,编写 Prometheus job。
    • 制作基本仪表盘(库存、成交、延迟、费用等)。
  3. 报警规则配置(Infra + Risk)
    • 根据阈值建立 Alertmanager 触发条件。
  4. 验证与文档(QA)
    • 10 分钟本地测试,记录验证报告。

验收 Checklist

  • Prometheus 可抓取所有指标,Grafana 面板无空白。
  • 指标计算无异常日志,窗口配置可动态调整。
  • 至少 3 条报警(库存、成交率、API 错误)可触发并正确通知。
  • 更新 README/操作手册,说明指标含义与 Grafana 入口。

Sprint 2:核心闭环上线(M2)

目标:实现库存闭环和成交率 PI 控制,初步实现自动化调节。
时长:2 周。

工作拆分

  1. 库存闭环执行器(Core Strat)
    • 偏仓检测、价格/数量偏置、taker 对冲钩子。
    • 配置项与安全限额。
  2. 成交率 PI 控制器(Core Strat)
    • 滑窗统计、PI 输出、Anti-windup、防抖逻辑。
    • 与库存闭环兼容。
  3. 仿真脚本 & 回放(QA/Sandbox)
    • 构建 2 段历史行情(常规 vs 剧烈),记录 δfills/min 收敛曲线。
  4. 沙盒演练(QA)
    • 低资金运行 ≥12h,验证闭环动作。

验收 Checklist

  • 仿真中 δ ≦ 1.5% 且能自动回归,fills/min 偏差 <10%。
  • 控制器输出日志清晰,可追踪每次调节。
  • 沙盒演练完成并形成报告(含异常情况与调参建议)。
  • 风险模块确认 taker 对冲限额满足要求。

Sprint 3:簿结构 & 费用调节(M3)

目标:引入深度驱动的调节与费用拨盘,提升做市效率。
时长:2 周。

工作拆分

  1. 深度采样与数量调节(Core Strat)
    • 采样 1–3 档结构,设计深度不足/过度的调节策略。
    • 与库存闭环在权重上协调。
  2. 费用拨盘模块(Core Strat + Infra)
    • 统一处理返佣、手续费、资金费率。
    • 输出建议 f* 与刷新节奏 τ
  3. 费用与深度监控面板(Infra)
    • Grafana 增加深度、费用相关面板。
  4. 仿真 & 沙盒验证(QA)
    • 验证深度变化、新费用状况下的策略调整。

验收 Checklist

  • 深度偏差能在 2 个周期内触发 ΔP/Q 调整,并记录日志。
  • 费用拨盘对不同费用场景输出正确动作(tighten/loosen)。
  • 面板中可观察深度与费用指标,报警覆盖。
  • 沙盒运行至少 24h,无明显震荡或异常。

Sprint 4:稳定性护栏(M4)

目标:完成队列退避、Kill-switch 及整体演练,准备投产。
时长:2 周。

工作拆分

  1. 队列位置采集与退避策略(Infra + Core Strat)
    • 采集/估算队列排名与替换率。
    • 设计队列拥堵时的上移/退避动作。
  2. Kill-switch & 安全阈值(Risk + Core Strat)
    • 设置自成交、滑点、API 错误等阈值动作,与风险系统集成。
  3. 稳定性演练(QA/Sandbox)
    • 模拟交易所限速、网络抖动、自成交异常等。
  4. 性能 & 资源评估(Infra)
    • 确认控制循环 CPU、内存开销;记录优化建议。

验收 Checklist

  • 队列拥堵时自动上移/拉宽并有退避日志,rate limiter 命中率可控。
  • Kill-switch 演练成功(含演练记录与回滚流程)。
  • 稳定性测试报告:列出发现问题与优化项。
  • 完成上线前检查(代码 Review、配置、监控、回滚方案)。

后续持续化工作(Post-M4)

  • 多标的扩展:多币对共享库存限额、跨标的风险协调。
  • 策略协同:与 scalper/mm 策略的资源隔离与冲突处理。
  • 参数自学习:利用回测数据优化 Kp/Ki、偏置参数。
  • 自动回滚/灰度:引入自动化灰度部署与回滚脚本。
  • 文档与培训:编写操作手册,举办内部分享确保策略理解一致。

附:执行日历(示例)

周次 主要事项
Week 1 Sprint 1 启动、指标模块开发、Prometheus 接入
Week 2 Grafana 面板、报警调试、M1 验收
Week 3 库存闭环开发、PI 控制器开发
Week 4 仿真 & 沙盒演练、M2 Demo
Week 5 深度采样与费用拨盘开发
Week 6 费用面板、沙盒回归、M3 验收
Week 7 队列退避、Kill-switch 集成
Week 8 稳定性演练、性能评估、M4 验收

若团队人力有限,可将 Sprint 周期延长或将 M3/M4 合并;关键在于确保各闭环功能上线前均经历指标验证与演练。


如需调整上述计划,请在 PR 或 Issue 中记录变更原因与影响范围,并同步更新本文。