GPU 云平台调研,从传统云到 Serverless

作者:🧑‍🚀 deadmau5v 发布于 2025/11/28

个人的翻译项目需要部署 AI 推理服务,处理频率大概是每小时 200-1500 条消息,峰值每秒 10 条。

献上个人总结的调研报告,希望能够帮到有需要的人。

需求不算大,但选错平台成本差异巨大。我调研了三类 GPU 平台:传统云、新兴租卡、Serverless。

GPU 性能参考

先看主流 GPU 的性能对比。

左右滑动查看完整表格
GPU
Tensor TFLOPs
显存
带宽 (GB/s)
估算吞吐 (条/秒)
H100 (SXM) ≈ 1,000 80 GB HBM3 3,350 14.48
A100 80GB ≈ 312 80 GB HBM2e 2,039 8.81
RTX 5090 ≈ 210 32 GB GDDR7 1,792 6.54
RTX 4090 ≈ 165 24 GB GDDR6X 1,008 4.36
L40 S ≈ 362 48 GB GDDR6 864 3.73
V100 ≈ 125 32 GB HBM2 900 3.89
T4 ≈ 65 16 GB GDDR6 320 1.38
P40 ≈ 12 24 GB GDDR5 346 0.37

V100 实测各模型性能:

左右滑动查看完整表格
模型
生成速度 (token/s)
热启动 (s)
每秒可处理消息数
qwen3:0.6b 158.90 0.04 6.52
gemma3:1b 126.09 0.06 4.93
gemma3:4b 85.31 0.06 3.69
qwen2.5:7b 82.93 0.04 3.89
qwen3:8b 71.08 0.04 3.41
mistral-nemo:7b 64.85 0.04 3.15
qwen2.5:14b 48.23 0.04 2.42
mistral-small:24b 37.86 0.04 1.94
gemma3:27b 27.87 0.07 1.40
qwen2.5:32b 26.24 0.04 1.38

模型显存需求

选 GPU 前要先算清楚模型需要多少显存。

左右滑动查看完整表格
参数量
预计显存消耗 (GB)
0.5B 1.3
0.6B 1.6
1.5B 3.9
3B 7.8
4B 10.4
7B 18.2
8B 20.8
14B 36.0
32B 83.0
70B 182.0

传统云平台

主打稳定,服务企业用户,SLA 有保障。

V100 月租价格对比(元/月)

UCloud 1464 元
23%
阿里云 3853 元
61%
腾讯云 5850 元
93%
京东云 5982 元
95%
火山引擎 6285 元
100%

T4 月租价格对比(元/月)

UCloud (活动) 549 元
15%
阿里云 1400 元
38%
腾讯云 2600 元
71%
火山引擎 3506 元
96%
华为云 3658 元
100%

UCloud 价格最低,V100 月租 1464 元,T4 活动价 549 元。

新兴租卡平台

主打性价比,服务个人用户,适合学术研究和小项目。

左右滑动查看完整表格
平台
GPU 型号
月租价格(元)
特点
智星云 V100 1,019 国内平台
AutoDL V100 1,010 国内最低价
Vast V100 1,000 海外平台
闪电云 4090 1,120 消费级显卡
胜算云 3090 1,400 消费级显卡

AutoDL 和 Vast 的 V100 价格最低,约 1000 元/月,比传统云便宜 30%-80%。

缺点是稳定性不如大厂,可能有机器被抢占的风险。

Serverless 平台

按量计费,适合流量波动大或冷启动要求不高的场景。

左右滑动查看完整表格
平台
定位
优势
Modal 高性能 AI 基础设施 冷启动快,开发体验好
RunPod 专为 AI 打造的云 价格透明,社区活跃
Beam AI 产品的高速推理 部署简单
Koyeb API、推理和数据库 全栈支持
Lambda AI GPU 计算 老牌厂商
Cerebrium 无服务器 AI 基础设施 自动扩缩容
Baseten 生产环境部署 AI 模型 企业级支持

Serverless 的优势是按用量付费,闲时不花钱。但冷启动延迟是个问题,首次请求可能要等几秒到几十秒。

选型建议

根据场景选择:

左右滑动查看完整表格
场景
推荐平台
月成本参考
企业生产环境 UCloud / 阿里云 1,500-4,000 元
个人项目 / 学术研究 AutoDL / Vast 1,000-1,500 元
流量波动大 Modal / RunPod 按量计费
本地开发测试 自有 4090 一次性投入

对于我个人的翻译任务,每小时 200-1500 条的处理量,V100 绑绑有余。选 AutoDL 的 V100,月租约 1000 元,性价比最高。

如果对稳定性要求高,选 UCloud 的 V100,月租 1464 元,比其他大厂便宜一半以上。

标签:GPU云计算AI推理Serverless成本优化

评论

发表评论

加载评论中...