按价格、速度和真实任务表现对比 30+ 大模型
面向开发者的模型选型决策表:成本、首字延迟、上下文、中文覆盖和任务质量一起看。第一阶段先交付可用界面与数据管线契约。
示例数据: 第一阶段示例快照。正式价格抓取和每周跑分任务尚未接入。 所有价格、延迟和分数仅用于验证产品结构,正式上线前必须替换为可追溯数据。
模型价格与延迟表
沿用 demo-v2-design-4 的清爽表格风格,先把决策字段做完整。
| 模型 | 输入 | 输出 | 首字延迟 | 上下文 | 性价比 | 更新 | |
|---|---|---|---|---|---|---|---|
| DSDeepSeek V3DeepSeek · closed | $0.14/1M | $0.28/1M | 124ms | 128K | 96 | 2026-06-09 | 对比 |
| QWQwen 2.5 72BAlibaba Cloud · open | $0.35/1M | $0.70/1M | 156ms | 128K | 91 | 2026-06-09 | 对比 |
| G4GPT-4oOpenAI · closed | $2.50/1M | $10.00/1M | 89ms | 128K | 73 | 2026-06-09 | 对比 |
| C3Claude 3.5 SonnetAnthropic · closed | $3.00/1M | $15.00/1M | 95ms | 200K | 70 | 2026-06-09 | 对比 |
| GMGemini 2.0 FlashGoogle · closed | $0.10/1M | $0.40/1M | 112ms | 1M | 94 | 2026-06-09 | 对比 |
| DBDoubao ProVolcano Engine · closed | $0.11/1M | $0.22/1M | 141ms | 128K | 95 | 2026-06-09 | 对比 |
| KMKimi K2Moonshot AI · closed | $0.18/1M | $0.72/1M | 168ms | 200K | 88 | 2026-06-09 | 对比 |
| GLGLM-4 PlusZhipu AI · closed | $0.80/1M | $0.80/1M | 184ms | 128K | 78 | 2026-06-09 | 对比 |
任务桶榜单
10 个任务桶先用示例评分打通页面与排序逻辑。
首阶段核心路径
首页可以直接进入路由、对比、告警和方法论。
厂商覆盖
中文模型厂商与海外主流厂商同表展示,避免榜单天然偏英文生态。
DeepSeek
2 models · value score 90
Alibaba Cloud
3 models · value score 93
OpenAI
3 models · value score 87
Anthropic
3 models · value score 67
3 models · value score 87
Volcano Engine
3 models · value score 94
Moonshot AI
2 models · value score 89
Zhipu AI
3 models · value score 84
Meta
3 models · value score 86
Mistral AI
3 models · value score 82
xAI
1 models · value score 69
Cohere
2 models · value score 75
先把可信层打稳
每一行数据都预留更新时间、来源类型、测试版本和方法论入口,再进入生产数据抓取与跑分阶段。
公开方法论
每个任务桶说明 prompt 集、采样参数、评分标准和更新频率。
新鲜度可见
每个数据点展示更新时间、来源类型和测试版本,缺失时显示待更新。
成本可控
跑分队列预留预算上限、缓存、抽样和月度成本监控字段。
报告
首批内容只保留方法论、中文模型选型、路由成本三类。