Benchmark自动评测
完成率、耗时、错误率、质量评分持续记录,不靠拍脑袋。
完成率、耗时、错误率、质量评分持续记录,不靠拍脑袋。
最近结果明显偏离正常水平时,自动发出告警。
把下降和模型、工具、规则、知识变化关联起来。
优化方案执行后对比前后效果,没改善就继续优化。
AEO 让效果变化提前暴露出来。你能更早知道哪里出了问题,先修掉,再继续扩大使用。
AEO 的首次体验不从空白数据库开始。先用样例跑通,再接入你的真实任务。
少重复交代背景,把精力放在目标判断和关键决策上。
多人、多 Agent 协作时,流程、状态和证据都能被追踪。
每次改进都留下证据,后续继续复用和放大。
安装后先走第一个样例,看到真实输出,再决定接入多深。
npm install @self-evolving-harness/aeo