GPU 云平台调研，从传统云到 Serverless

作者：🧑‍🚀 deadmau5v 发布于 2025/11/28

个人的翻译项目需要部署 AI 推理服务，处理频率大概是每小时 200-1500 条消息，峰值每秒 10 条。

献上个人总结的调研报告，希望能够帮到有需要的人。

需求不算大，但选错平台成本差异巨大。我调研了三类 GPU 平台：传统云、新兴租卡、Serverless。

GPU 性能参考

先看主流 GPU 的性能对比。

左右滑动查看完整表格
    GPU     Tensor TFLOPs   
   显存   
   带宽 (GB/s)   
   估算吞吐 (条/秒)   
 
   H100 (SXM)    ≈ 1,000    80 GB HBM3    3,350    14.48   
  A100 80GB    ≈ 312    80 GB HBM2e    2,039    8.81   
  RTX 5090    ≈ 210    32 GB GDDR7    1,792    6.54   
  RTX 4090    ≈ 165    24 GB GDDR6X    1,008    4.36   
  L40 S    ≈ 362    48 GB GDDR6    864    3.73   
  V100    ≈ 125    32 GB HBM2    900    3.89   
  T4    ≈ 65    16 GB GDDR6    320    1.38   
  P40    ≈ 12    24 GB GDDR5    346    0.37   
  

GPU	Tensor TFLOPs	显存	带宽 (GB/s)	估算吞吐 (条/秒)
H100 (SXM)	≈ 1,000	80 GB HBM3	3,350	14.48
A100 80GB	≈ 312	80 GB HBM2e	2,039	8.81
RTX 5090	≈ 210	32 GB GDDR7	1,792	6.54
RTX 4090	≈ 165	24 GB GDDR6X	1,008	4.36
L40 S	≈ 362	48 GB GDDR6	864	3.73
V100	≈ 125	32 GB HBM2	900	3.89
T4	≈ 65	16 GB GDDR6	320	1.38
P40	≈ 12	24 GB GDDR5	346	0.37

V100 实测各模型性能：

左右滑动查看完整表格
    模型     生成速度 (token/s)   
   热启动 (s)   
   每秒可处理消息数   
 
   qwen3:0.6b    158.90    0.04    6.52   
  gemma3:1b    126.09    0.06    4.93   
  gemma3:4b    85.31    0.06    3.69   
  qwen2.5:7b    82.93    0.04    3.89   
  qwen3:8b    71.08    0.04    3.41   
  mistral-nemo:7b    64.85    0.04    3.15   
  qwen2.5:14b    48.23    0.04    2.42   
  mistral-small:24b    37.86    0.04    1.94   
  gemma3:27b    27.87    0.07    1.40   
  qwen2.5:32b    26.24    0.04    1.38   
  

模型	生成速度 (token/s)	热启动 (s)	每秒可处理消息数
qwen3:0.6b	158.90	0.04	6.52
gemma3:1b	126.09	0.06	4.93
gemma3:4b	85.31	0.06	3.69
qwen2.5:7b	82.93	0.04	3.89
qwen3:8b	71.08	0.04	3.41
mistral-nemo:7b	64.85	0.04	3.15
qwen2.5:14b	48.23	0.04	2.42
mistral-small:24b	37.86	0.04	1.94
gemma3:27b	27.87	0.07	1.40
qwen2.5:32b	26.24	0.04	1.38

模型显存需求

选 GPU 前要先算清楚模型需要多少显存。

左右滑动查看完整表格
    参数量     预计显存消耗 (GB)   
 
   0.5B    1.3   
  0.6B    1.6   
  1.5B    3.9   
  3B    7.8   
  4B    10.4   
  7B    18.2   
  8B    20.8   
  14B    36.0   
  32B    83.0   
  70B    182.0   
  

参数量	预计显存消耗 (GB)
0.5B	1.3
0.6B	1.6
1.5B	3.9
3B	7.8
4B	10.4
7B	18.2
8B	20.8
14B	36.0
32B	83.0
70B	182.0

传统云平台

主打稳定，服务企业用户，SLA 有保障。

 V100 月租价格对比（元/月）   UCloud   1464  元  
  23%
 
  阿里云   3853  元  
  61%
 
  腾讯云   5850  元  
  93%
 
  京东云   5982  元  
  95%
 
  火山引擎   6285  元  
  100%
 

 T4 月租价格对比（元/月）   UCloud (活动)   549  元  
  15%
 
  阿里云   1400  元  
  38%
 
  腾讯云   2600  元  
  71%
 
  火山引擎   3506  元  
  96%
 
  华为云   3658  元  
  100%
 

UCloud 价格最低，V100 月租 1464 元，T4 活动价 549 元。

新兴租卡平台

主打性价比，服务个人用户，适合学术研究和小项目。

左右滑动查看完整表格
    平台     GPU 型号   
   月租价格（元）   
   特点   
 
   智星云    V100    1,019    国内平台   
  AutoDL    V100    1,010    国内最低价   
  Vast    V100    1,000    海外平台   
  闪电云    4090    1,120    消费级显卡   
  胜算云    3090    1,400    消费级显卡   
  

平台	GPU 型号	月租价格（元）	特点
智星云	V100	1,019	国内平台
AutoDL	V100	1,010	国内最低价
Vast	V100	1,000	海外平台
闪电云	4090	1,120	消费级显卡
胜算云	3090	1,400	消费级显卡

AutoDL 和 Vast 的 V100 价格最低，约 1000 元/月，比传统云便宜 30%-80%。

缺点是稳定性不如大厂，可能有机器被抢占的风险。

Serverless 平台

按量计费，适合流量波动大或冷启动要求不高的场景。

左右滑动查看完整表格
    平台     定位   
   优势   
 
   Modal    高性能 AI 基础设施    冷启动快，开发体验好   
  RunPod    专为 AI 打造的云    价格透明，社区活跃   
  Beam    AI 产品的高速推理    部署简单   
  Koyeb    API、推理和数据库    全栈支持   
  Lambda    AI GPU 计算    老牌厂商   
  Cerebrium    无服务器 AI 基础设施    自动扩缩容   
  Baseten    生产环境部署 AI 模型    企业级支持   
  

平台	定位	优势
Modal	高性能 AI 基础设施	冷启动快，开发体验好
RunPod	专为 AI 打造的云	价格透明，社区活跃
Beam	AI 产品的高速推理	部署简单
Koyeb	API、推理和数据库	全栈支持
Lambda	AI GPU 计算	老牌厂商
Cerebrium	无服务器 AI 基础设施	自动扩缩容
Baseten	生产环境部署 AI 模型	企业级支持

Serverless 的优势是按用量付费，闲时不花钱。但冷启动延迟是个问题，首次请求可能要等几秒到几十秒。

选型建议

根据场景选择：

左右滑动查看完整表格
    场景     推荐平台   
   月成本参考   
 
   企业生产环境    UCloud / 阿里云    1,500-4,000 元   
  个人项目 / 学术研究    AutoDL / Vast    1,000-1,500 元   
  流量波动大    Modal / RunPod    按量计费   
  本地开发测试    自有 4090    一次性投入   
  

场景	推荐平台	月成本参考
企业生产环境	UCloud / 阿里云	1,500-4,000 元
个人项目 / 学术研究	AutoDL / Vast	1,000-1,500 元
流量波动大	Modal / RunPod	按量计费
本地开发测试	自有 4090	一次性投入

对于我个人的翻译任务，每小时 200-1500 条的处理量，V100 绑绑有余。选 AutoDL 的 V100，月租约 1000 元，性价比最高。

如果对稳定性要求高，选 UCloud 的 V100，月租 1464 元，比其他大厂便宜一半以上。