算力不是硬件的堆砌,而是把"算"这件事做快的系统能力
一、算力是什么?
算力(Computing Power) 很简单——就是计算机完成数学运算的速度。每秒能算的越多,算力就越强。
但要真正理解它,得拆开看这三层:
怎么类比理解?
💡 算力 = 搬砖
时钟频率(GHz)= 搬砖的节奏,每秒搬几次
核心数(Cores)= 搬砖的人数
显存带宽(GB/s)= 传送带的速度,砖到手的快慢
内存容量(GB)= 能放多少块砖在工位上
💡 训练大模型 = 教全班同学做题
一张 GPU = 一个学生做题
一千张 GPU = 一千个学生同时做题
但一千个学生之间需要传纸条沟通(通信开销),传得越多效率越低
💡 CPU 和 GPU 的区别 = 寄信 vs 群发传单
CPU:一个人写一封信,写完再写下一封,每一步都仔细斟酌(串行+复杂指令)
GPU:直接把一万张传单一次性印好送出去(并行+简单运算)
二、算力的核心衡量指标
2.1 FLOPs — 每秒浮点运算次数
算力最基本单位是 FLOPs(Floating Point Operations Per Second):
参考: 一张 NVIDIA H100 GPU 的 FP8 算力大约是 2000 TFLOPs(每秒完成 2×10¹⁵ 次运算)。
2.2 精度与算力的关系
同一个芯片,用不同精度计算时,算力差别很大:
FP64 : 26 TFLOPs (双精度,科学计算)
FP32 : 67 TFLOPs (单精度,传统 AI)
BF16 : 990 TFLOPs (混合精度,AI 训练主力)
FP8 : 2000 TFLOPs (低精度,推理加速)
精度越低→数据量越小→同样芯片算得越快。 这也是为什么 AI 训练从最早的 FP32 逐渐迁移到混合精度(BF16 为主,FP32 为副本)。
2.3 TOPS — 整数运算指标
有些芯片(比如手机 NPU、边缘端芯片)常用 TOPS(Tera Operations Per Second)来标称算力。它统计的是整数运算,常用于量化的推理场景。
TOPS vs TFLOPS: 两者不是直接换算关系,因为底层计算的指令集不同。
三、算力的物理基础
3.1 晶体管与摩尔定律
芯片算力的根基是 晶体管——数字世界的开关。
1947 年:第一个晶体管(贝尔实验室),手指尖大小
1971 年:Intel 4004,2300 个晶体管
2024 年:NVIDIA B200,2080 亿 个晶体管
摩尔定律(每 18-24 个月芯片密度翻倍)在近十年开始放缓,因为晶体管的尺寸快逼近物理极限——硅原子直径只有 0.2 纳米,而现在的 3nm 制程已经不到 100 个硅原子宽度。
3.2 制约算力的三个物理瓶颈
① 内存墙(Memory Wall)
GPU 算得越快,数据越喂不上。
一张 H100:理论算力 2000 TFLOPS,但显存带宽只有 3.35 TB/s。做一个 FP8 乘法运算取数的时间,足够芯片算几十次。
类比:厨师(GPU)刀工了得,但传菜员(显存带宽)跑不过来了。
② TDP 墙(功耗墙)
一张 H100 的热设计功耗(TDP)约 700W。万卡集群就是 7 兆瓦——排出的热量足够给一个小型社区供暖。
散热方案演进:
风冷 → 液冷冷板 → 浸没式液冷
③ 丹纳德缩放失效
以前:制程缩小 → 电压降低 → 功耗不变性能翻倍(完美) 现在:制程缩小 → 漏电增加 → 功耗暴增(不完美)
四、算力怎么算?—— 一个简单公式
单芯片算力 = 核心数 × 频率 × 每时钟周期指令数
实测估算训练算力需求:
训练一个 Transformer 模型的近似算力需求:
总 FLOPs ≈ 6 × 参数量 × 训练 Token 数
举例:
GPT-3:1750 亿参数,训练 3000 亿 Token
总计算量 ≈ 6 × 175e9 × 300e9 ≈ 3.15 × 10²³ FLOPs
用 10000 张 H100(FP8 算力 2000 TFLOPS)训练:
理论最短时间 = 3.15×10²³ /(10⁴ × 2×10¹⁵)≈ 1.75 亿秒 ≈ 200 天
但实际还要考虑通信开销、故障恢复、数据加载等待——实际通常是理论的 2-5 倍
推理时算力需求:
推理 FLOPs ≈ 2 × 参数量 × 生成 Token 数
这就是为什么同样参数量下,推理比训练"便宜"得多。
五、当前核心算力硬件详解
下面带你逐个看懂芯片参数表里的每一项到底在说什么。
5.1 看懂 GPU 参数
要读懂一张 GPU 的规格,先看它最重要的五个指标:
① 制程(nm 纳米)
晶体管之间的间距。
数字越小越好。7nm → 5nm → 3nm,数字越小,同样面积的芯片能塞下更多晶体管
类似把一万人的体育场,从原来的场地压缩到一半大小还能坐同样多人
当前最先进的是 4nm/5nm 制程
② 晶体管数量
芯片上集成了多少个微型开关。
每个晶体管就是一个可以高速开关的"小闸门"
晶体管越多 → 能实现更复杂的计算单元 → 算力越强
当前顶级 GPU 的晶体管数量以 百亿甚至千亿 为单位
类比:一座城市的人口越多,能干的事就越复杂
③ 显存容量(GB)+ 显存类型
GPU 自带的"桌面"有多大。
显存是 GPU 工作时存放数据的临时空间(类似你的电脑内存,但它专属于显卡)
HBM(High Bandwidth Memory)是目前最先进的显存技术,特点是带宽极高
HBM3 / HBM3e 是两代,e 表示 enhanced(增强版),带宽更高
普通显卡用 GDDR 显存(比如 GDDR6、GDDR7),性价比高但带宽不如 HBM
类比:你的书桌(显存)越大,能同时摊开的书(数据)就越多
训练大模型时,模型参数全部要加载到显存中,显存不够就用不了
④ 算力(TFLOPS 或 TOPS)
GPU 每秒能完成多少次浮点运算。
这是最直接的"跑分"指标
但同一张卡在不同精度下算力不同(见第二章)
厂商宣传时通常取最大的那个数值(比如 FP8),所以要留意精度
类比:一辆跑车的最高时速(理论值),但实际道路跑不了那么快
⑤ TDP(热设计功耗,瓦特)
芯片满负荷运行时的发热量,也约等于耗电量。
单位是瓦特(W)。H100 约 700W ≈ 一台小型空调
TDP 越高 → 越费电 → 散热越难 → 数据中心成本越高
万卡集群的耗电量 ≈ 一个小型城市
类比:你能吃多少碗饭(耗电),决定了你能干多少体力活(算力)
5.2 先理解三个层级:消费级 vs 专业级 vs 企业级
很多人以为 GPU 就是显卡,打游戏的。但在 AI 算力领域,GPU 其实是分三个完全不同市场层级的。它们虽然核心架构相似,但定位、价格、用途天差地别。
一个通俗的类比——交通工具:
消费级 = 私家小轿车——便宜、方便、日常够用,但拉不了太多货(跑个人模型推理、打游戏、剪视频)
专业工作站级 = 专业工程车——通过了安全认证(ISV),能拉重货跑工地(3D 渲染、CAD 设计、AI 推理部署)
企业数据中心级 = 重卡列车队——几辆车编队运行,每辆车满载,24 小时不停(大规模 AI 训练、HPC 科学计算)
① 消费级(Consumer / Gaming)
典型产品: NVIDIA GeForce RTX 4060/4070/4080/4090,AMD Radeon RX 系列,Intel Arc A/B 系列
价格区间: ¥1000 - ¥20000
核心特点:
适合做什么: 打游戏、个人 AI 模型推理(Stable Diffusion 生图、本地跑 LLM)、视频剪辑、日常图形处理
不适合: 7×24 小时服务器运行、企业级部署、大规模并行训练
举例: GeForce RTX 4090 虽然算力很强(FP8 约 660 TFLOPS),但它用的是 24GB GDDR6X 显存,不是 HBM,也没有 ECC 校验,长时间满载跑 AI 训练可能会降频或报错
② 专业工作站级(Professional / Workstation)
典型产品: NVIDIA RTX 4000 Ada / RTX 5000 Ada / RTX 6000 Ada,AMD Radeon Pro 系列,Intel Arc Pro 系列
价格区间: ¥5000 - ¥100000+
核心特点:
适合做什么: 3D 建模和渲染(Blender、Maya、3ds Max)、CAD 设计(AutoCAD、SolidWorks)、影视后期(DaVinci Resolve、Premiere Pro)、AI 推理部署、中小规模 AI 模型微调
为什么比消费级贵这么多? 同一个核心架构,专业卡通过更严格的筛选(挑体质最好的芯片)、更大的显存(加上 ECC)、更保守的频率(确保稳定性)、通过 ISV 认证(这些认证很花钱)
举例: RTX 4090(消费级)和 RTX 6000 Ada(专业级)核心都是 Ada Lovelace 架构,但:
RTX 4090:24GB GDDR6X,无 ECC,¥13000
RTX 6000 Ada:48GB GDDR6 + ECC,有 ISV 认证,¥40000+
核心差不多的卡,因为定位不同价格差 3 倍
③ 企业数据中心级(Enterprise / Data Center)
典型产品: NVIDIA H100 / H200 / B200 / B300,AMD MI300X / MI350,Intel 暂无(布局中)
价格区间: ¥150000 - ¥500000+(单卡!)
核心特点:
适合做什么: 大规模 AI 模型训练(千亿参数以上)、HPC 科学计算(天气预测、药物研发)、云计算 GPU 实例、大规模推理集群
为什么贵得离谱? 这些卡使用了最好的 HBM 显存(产能紧缺、价格极高)、更大的芯片(B200 有 2080 亿晶体管)、专门的散热和供电设计、高速互联的 NVLink 技术支持多卡通信
5.3 各层级代表硬件一览
有了上面三个层级的理解,再来看具体的产品就清晰多了。
NVIDIA — 全层级覆盖
NVIDIA 是唯一一个在三个层级都有完整布局的公司:
消费级(GeForce RTX):
专业工作站级(RTX Ada / RTX Pro):
企业数据中心级:
AMD — 消费级 + 企业级发力
Intel Arc — 消费级 + 工作站级
Intel 目前在 消费级 和 工作站级 两个层级布局,数据中心级还未推出:
消费级(Arc A 系列 / B 系列):
A770 对标 NVIDIA RTX 3060/4060,在 AI 推理方面表现不错
Intel 的 XMX(Xe Matrix eXtensions)矩阵加速单元 和 NVIDIA 的 Tensor Core 思路相似
OpenVINO 工具链对 Arc 原生优化,AI 推理部署非常方便
专业工作站级(Arc Pro A 系列 / B 系列):
Arc Pro 系列通过了 ISV 认证(Autodesk、Adobe、Dassault 等),支持 ECC 显存校验
Arc Pro B70 详解:
这是 Intel 目前最强的专业工作站显卡,拥有 32GB GDDR6 大显存,在同类产品中非常突出。对比 NVIDIA 的专业卡,32GB 通常要到 RTX 5000 Ada 级别才有。
适合做什么?
AI 推理部署: 32GB 显存可以流畅运行 13B-34B 参数的本地大模型
AI 生图: Stable Diffusion XL 等模型可以直接加载到显存,大批量生成不卡顿
三维建模 & 渲染: Blender、Maya 中复杂场景高分辨率渲染
影视后期: DaVinci Resolve、Premiere 中 4K/8K 视频特效处理
多任务并行: 同时跑多个 AI 推理任务不抢显存
独特亮点:
性价比高,相比 NVIDIA 同显存容量的专业卡价格有明显优势
支持 AV1 硬件编码/解码,视频工作者利器
功耗控制优秀,普通工作站就能带动
OpenVINO 原生支持,部署 AI 模型非常方便
不足之处:
生态不如 NVIDIA CUDA 成熟,部分 AI 框架兼容性待改进
驱动稳定性还在追赶中
大模型训练不是强项(无 NVLink,多卡互联能力弱)
5.4 ASIC 专用芯片
ASIC 全称是 Application-Specific Integrated Circuit(专用集成电路),顾名思义,它不是通用芯片,而是针对特定计算场景定制的。
解读:
什么是 脉动阵列(Systolic Array)?就是把计算单元排成整齐的网格,数据像流水一样流过每个单元。好比流水线上每个工人只做一道工序,效率极高。这特别适合矩阵乘法——大模型的核心运算就是矩阵乘法
Cerebras WSE-3 有意思:它是一整块 12 英寸晶圆做成的单芯片,不切割。传统芯片是切下来的小块(die),而 Cerebras 直接用了整块晶圆,等于造了一个巨大的单芯片。代价是造价极高,良品率极低
为什么不用 ASIC 替代 GPU?不够灵活。GPU 什么都能算,ASIC 只擅长特定任务。好比你可以用瑞士军刀切菜,也可以买一把专用菜刀——菜刀切菜更快,但不能开瓶盖
5.5 NPU / 推理芯片
NPU 是 Neural Processing Unit(神经网络处理器),比 GPU 更专一——它只做神经网络的推理运算。
解读:
Groq LPU 的与众不同:它没有用 HBM 显存,而是用 SRAM(一种更快但更贵的片上缓存)。结果是推理延迟极低(毫秒级),但 SRAM 容量小,放不下大模型。所以 Groq 不是来取代 GPU 的,而是做"推理加速器"
Apple Neural Engine 只有几瓦功耗,但能在手机上跑 Stable Diffusion 或者本地语音识别——这就是端侧推理的魅力,数据不用上传云端,隐私好、速度快
NPU 的趋势:每代旗舰手机都内置 NPU,未来大部分推理任务会下沉到终端设备
核心硬件参数速查表
六、算力效率:比跑分更重要的事
理论上限和实际吞吐完全不是一回事。
典型瓶颈分布:
计算利用率: 实际用到的算力 ÷ 芯片理论算力。大模型训练通常在 40%-60%
通信开销: 多卡之间同步梯度(AllReduce)可能占 10%-30% 的时间
数据加载: GPU 跑得比磁盘快得多,数据来不及喂
提升算力效率的常见手段:
算子融合: 把多个小运算合并成一个内核,减少 kernel launch 开销
Flash Attention: 通过分块计算显存中即用即弃,省去大矩阵的中间存储
量化压缩: FP16 → INT8 → INT4,算力需求降为原来的 1/4、1/8
Speculative Decoding: 用一个小模型先猜,大模型只负责验证,推理吞吐翻倍
写在最后
算力可以理解为一个 并行系统 的综合能力:不是堆一张最快的卡就行,而是几千张卡怎么配合、怎么喂数据、怎么散热、怎么容错。
从单个晶体管的开关,到百亿亿次的计算集群,算力的本质没有变——就是更快、更多、更省地完成数学运算。