方法论、数据来源与中立声明
本页是项目可信度的地基。生产版必须在这里公开 prompt 集、评分规则、采样参数、来源、更新频率、跑分预算和开源仓库。
公开方法论
每个任务桶说明 prompt 集、采样参数、评分标准和更新频率。
新鲜度可见
每个数据点展示更新时间、来源类型和测试版本,缺失时显示待更新。
成本可控
跑分队列预留预算上限、缓存、抽样和月度成本监控字段。
任务桶
- 代码: 仓库修改、Bug 修复、单测推理和 API 使用任务。
- 写作: 产品文案、长文写作、润色和语气控制。
- 翻译: 中英互译、术语一致性和本地化表达。
- 数学: 应用题、代数推理和结构化计算。
- 工具调用: JSON 输出、函数选择和多步工具调用。
- 中文: 中文写作、知识、指令遵循和国内模型覆盖。
- 推理: 多步逻辑、规划和复杂指令遵循。
- 客服: 低成本、高速度、大规模客服回复。
- 摘要: 长上下文摘要和保留证据的压缩。
- 低延迟: 首字延迟优先的交互式产品流程。
每个数据点必须携带的字段
- 最后更新时间与时区
- 来源类型:官方价格页、API、抓取、实测或待更新
- 模型版本、区域、采样参数和 prompt 集版本
- 联盟链接披露,且不得影响排序
开源状态
第一阶段仅预留字段,跑分仓库尚未创建。当前方法论版本:methodology-draft-v0.1。