methodology-draft-v0.1 · 2026-06-09 22:40 CST

按价格、速度和真实任务表现对比 30+ 大模型

面向开发者的模型选型决策表：成本、首字延迟、上下文、中文覆盖和任务质量一起看。第一阶段先交付可用界面与数据管线契约。

路由一个 prompt 订阅价格告警

30+模型快照

10任务桶

$0.03最低示例价

Daily更新频率

示例数据: 第一阶段示例快照。正式价格抓取和每周跑分任务尚未接入。所有价格、延迟和分数仅用于验证产品结构，正式上线前必须替换为可追溯数据。

模型价格与延迟表

沿用 demo-v2-design-4 的清爽表格风格，先把决策字段做完整。

价格表

全部高性价比低延迟中文长上下文

模型	输入	输出	首字延迟	上下文	性价比	更新
DSDeepSeek V3DeepSeek · closed	$0.14/1M	$0.28/1M	124ms	128K	96	2026-06-09	对比
QWQwen 2.5 72BAlibaba Cloud · open	$0.35/1M	$0.70/1M	156ms	128K	91	2026-06-09	对比
G4GPT-4oOpenAI · closed	$2.50/1M	$10.00/1M	89ms	128K	73	2026-06-09	对比
C3Claude 3.5 SonnetAnthropic · closed	$3.00/1M	$15.00/1M	95ms	200K	70	2026-06-09	对比
GMGemini 2.0 FlashGoogle · closed	$0.10/1M	$0.40/1M	112ms	1M	94	2026-06-09	对比
DBDoubao ProVolcano Engine · closed	$0.11/1M	$0.22/1M	141ms	128K	95	2026-06-09	对比
KMKimi K2Moonshot AI · closed	$0.18/1M	$0.72/1M	168ms	200K	88	2026-06-09	对比
GLGLM-4 PlusZhipu AI · closed	$0.80/1M	$0.80/1M	184ms	128K	78	2026-06-09	对比

任务桶榜单

10 个任务桶先用示例评分打通页面与排序逻辑。

代码

仓库修改、Bug 修复、单测推理和 API 使用任务。

DeepSeek V3

写作

产品文案、长文写作、润色和语气控制。

DeepSeek V3

翻译

中英互译、术语一致性和本地化表达。

DeepSeek V3

数学

应用题、代数推理和结构化计算。

DeepSeek V3

工具调用

JSON 输出、函数选择和多步工具调用。

DeepSeek V3

中文

中文写作、知识、指令遵循和国内模型覆盖。

DeepSeek V3

首阶段核心路径

首页可以直接进入路由、对比、告警和方法论。

路由器

粘贴 prompt，按成本/速度/质量权重获取 Top 3。

对比

并排比较价格、TTFT、上下文、任务分和来源口径。

订阅价格告警

第一阶段表单返回本地 API 确认，后续接入邮件与订阅表。

厂商覆盖

中文模型厂商与海外主流厂商同表展示，避免榜单天然偏英文生态。

DeepSeek

2 models · value score 90

Alibaba Cloud

3 models · value score 93

OpenAI

3 models · value score 87

Anthropic

3 models · value score 67

Google

3 models · value score 87

Volcano Engine

3 models · value score 94

Moonshot AI

2 models · value score 89

Zhipu AI

3 models · value score 84

Mistral AI

3 models · value score 82

xAI

1 models · value score 69

Cohere

2 models · value score 75

先把可信层打稳

每一行数据都预留更新时间、来源类型、测试版本和方法论入口，再进入生产数据抓取与跑分阶段。

方法论

公开方法论

每个任务桶说明 prompt 集、采样参数、评分标准和更新频率。

新鲜度可见

每个数据点展示更新时间、来源类型和测试版本，缺失时显示待更新。

成本可控

跑分队列预留预算上限、缓存、抽样和月度成本监控字段。

报告

首批内容只保留方法论、中文模型选型、路由成本三类。

方法论

6 月示例榜单说明

说明第一阶段示例快照如何组成，以及哪些内容仍待真实跑分。

指南

产品团队如何选择中文大模型

面向 Qwen、DeepSeek、GLM、豆包、Kimi 的实用对比框架。

成本

降低 LLM API 账单的入门打法

把简单、低延迟和高难推理任务路由到不同模型层。

按价格、速度和真实任务表现对比 30+ 大模型

模型价格与延迟表

任务桶榜单

首阶段核心路径

路由器

对比

订阅价格告警

厂商覆盖

DeepSeek

Alibaba Cloud

OpenAI

Anthropic

Google

Volcano Engine

Moonshot AI

Zhipu AI

Meta

Mistral AI

xAI

Cohere

先把可信层打稳

公开方法论

新鲜度可见

成本可控

报告

6 月示例榜单说明

产品团队如何选择中文大模型

降低 LLM API 账单的入门打法

把模型选择变成可复核的数据流程