从晶体管到 GPU，一文读懂AI算力的基础

算力不是硬件的堆砌，而是把"算"这件事做快的系统能力

一、算力是什么？

算力（Computing Power） 很简单——就是计算机完成数学运算的速度。每秒能算的越多，算力就越强。

但要真正理解它，得拆开看这三层：

怎么类比理解？

💡 算力 = 搬砖

时钟频率（GHz）= 搬砖的节奏，每秒搬几次
核心数（Cores）= 搬砖的人数
显存带宽（GB/s）= 传送带的速度，砖到手的快慢
内存容量（GB）= 能放多少块砖在工位上

💡 训练大模型 = 教全班同学做题

一张 GPU = 一个学生做题
一千张 GPU = 一千个学生同时做题
但一千个学生之间需要传纸条沟通（通信开销），传得越多效率越低

💡 CPU 和 GPU 的区别 = 寄信 vs 群发传单

CPU：一个人写一封信，写完再写下一封，每一步都仔细斟酌（串行+复杂指令）
GPU：直接把一万张传单一次性印好送出去（并行+简单运算）

二、算力的核心衡量指标

2.1 FLOPs — 每秒浮点运算次数

算力最基本单位是 FLOPs（Floating Point Operations Per Second）：

单位	数值	念法
1 GFLOPs	10⁹	十亿次/秒
1 TFLOPs	10¹²	一万亿次/秒
1 PFLOPs	10¹⁵	一千万亿次/秒
1 EFLOPs	10¹⁸	一百亿亿次/秒

参考： 一张 NVIDIA H100 GPU 的 FP8 算力大约是 2000 TFLOPs（每秒完成 2×10¹⁵ 次运算）。

2.2 精度与算力的关系

同一个芯片，用不同精度计算时，算力差别很大：

FP64 :  26 TFLOPs  (双精度，科学计算)
FP32 :  67 TFLOPs  (单精度，传统 AI)
BF16 : 990 TFLOPs  (混合精度，AI 训练主力)
FP8  : 2000 TFLOPs (低精度，推理加速)

精度越低→数据量越小→同样芯片算得越快。 这也是为什么 AI 训练从最早的 FP32 逐渐迁移到混合精度（BF16 为主，FP32 为副本）。

2.3 TOPS — 整数运算指标

有些芯片（比如手机 NPU、边缘端芯片）常用 TOPS（Tera Operations Per Second）来标称算力。它统计的是整数运算，常用于量化的推理场景。

TOPS vs TFLOPS： 两者不是直接换算关系，因为底层计算的指令集不同。

三、算力的物理基础

3.1 晶体管与摩尔定律

芯片算力的根基是 晶体管——数字世界的开关。

1947 年：第一个晶体管（贝尔实验室），手指尖大小
1971 年：Intel 4004，2300 个晶体管
2024 年：NVIDIA B200，2080 亿 个晶体管

摩尔定律（每 18-24 个月芯片密度翻倍）在近十年开始放缓，因为晶体管的尺寸快逼近物理极限——硅原子直径只有 0.2 纳米，而现在的 3nm 制程已经不到 100 个硅原子宽度。

3.2 制约算力的三个物理瓶颈

① 内存墙（Memory Wall）

GPU 算得越快，数据越喂不上。

一张 H100：理论算力 2000 TFLOPS，但显存带宽只有 3.35 TB/s。做一个 FP8 乘法运算取数的时间，足够芯片算几十次。

类比：厨师（GPU）刀工了得，但传菜员（显存带宽）跑不过来了。

② TDP 墙（功耗墙）

一张 H100 的热设计功耗（TDP）约 700W。万卡集群就是 7 兆瓦——排出的热量足够给一个小型社区供暖。

散热方案演进：

风冷 → 液冷冷板 → 浸没式液冷

③ 丹纳德缩放失效

以前：制程缩小 → 电压降低 → 功耗不变性能翻倍（完美）现在：制程缩小 → 漏电增加 → 功耗暴增（不完美）

四、算力怎么算？—— 一个简单公式

单芯片算力 = 核心数 × 频率 × 每时钟周期指令数

实测估算训练算力需求：

训练一个 Transformer 模型的近似算力需求：

总 FLOPs ≈ 6 × 参数量 × 训练 Token 数

举例：

GPT-3：1750 亿参数，训练 3000 亿 Token
总计算量 ≈ 6 × 175e9 × 300e9 ≈ 3.15 × 10²³ FLOPs
用 10000 张 H100（FP8 算力 2000 TFLOPS）训练：
- 理论最短时间 = 3.15×10²³ /（10⁴ × 2×10¹⁵）≈ 1.75 亿秒 ≈ 200 天
- 但实际还要考虑通信开销、故障恢复、数据加载等待——实际通常是理论的 2-5 倍

推理时算力需求：

推理 FLOPs ≈ 2 × 参数量 × 生成 Token 数

这就是为什么同样参数量下，推理比训练"便宜"得多。

五、当前核心算力硬件详解

下面带你逐个看懂芯片参数表里的每一项到底在说什么。

5.1 看懂 GPU 参数

要读懂一张 GPU 的规格，先看它最重要的五个指标：

① 制程（nm 纳米）

晶体管之间的间距。

数字越小越好。7nm → 5nm → 3nm，数字越小，同样面积的芯片能塞下更多晶体管
类似把一万人的体育场，从原来的场地压缩到一半大小还能坐同样多人
当前最先进的是 4nm/5nm 制程

② 晶体管数量

芯片上集成了多少个微型开关。

每个晶体管就是一个可以高速开关的"小闸门"
晶体管越多 → 能实现更复杂的计算单元 → 算力越强
当前顶级 GPU 的晶体管数量以 百亿甚至千亿 为单位
类比：一座城市的人口越多，能干的事就越复杂

③ 显存容量（GB）+ 显存类型

GPU 自带的"桌面"有多大。

显存是 GPU 工作时存放数据的临时空间（类似你的电脑内存，但它专属于显卡）
HBM（High Bandwidth Memory）是目前最先进的显存技术，特点是带宽极高
HBM3 / HBM3e 是两代，e 表示 enhanced（增强版），带宽更高
普通显卡用 GDDR 显存（比如 GDDR6、GDDR7），性价比高但带宽不如 HBM
类比：你的书桌（显存）越大，能同时摊开的书（数据）就越多
训练大模型时，模型参数全部要加载到显存中，显存不够就用不了

④ 算力（TFLOPS 或 TOPS）

GPU 每秒能完成多少次浮点运算。

这是最直接的"跑分"指标
但同一张卡在不同精度下算力不同（见第二章）
厂商宣传时通常取最大的那个数值（比如 FP8），所以要留意精度
类比：一辆跑车的最高时速（理论值），但实际道路跑不了那么快

⑤ TDP（热设计功耗，瓦特）

芯片满负荷运行时的发热量，也约等于耗电量。

单位是瓦特（W）。H100 约 700W ≈ 一台小型空调
TDP 越高 → 越费电 → 散热越难 → 数据中心成本越高
万卡集群的耗电量 ≈ 一个小型城市
类比：你能吃多少碗饭（耗电），决定了你能干多少体力活（算力）

5.2 先理解三个层级：消费级 vs 专业级 vs 企业级

很多人以为 GPU 就是显卡，打游戏的。但在 AI 算力领域，GPU 其实是分三个完全不同市场层级的。它们虽然核心架构相似，但定位、价格、用途天差地别。

一个通俗的类比——交通工具：
消费级 = 私家小轿车——便宜、方便、日常够用，但拉不了太多货（跑个人模型推理、打游戏、剪视频）
专业工作站级 = 专业工程车——通过了安全认证（ISV），能拉重货跑工地（3D 渲染、CAD 设计、AI 推理部署）
企业数据中心级 = 重卡列车队——几辆车编队运行，每辆车满载，24 小时不停（大规模 AI 训练、HPC 科学计算）

① 消费级（Consumer / Gaming）

典型产品： NVIDIA GeForce RTX 4060/4070/4080/4090，AMD Radeon RX 系列，Intel Arc A/B 系列
价格区间： ￥1000 - ￥20000
核心特点：

方面	说明
驱动	Game Ready 驱动，优先优化游戏性能
显存	GDDR6/GDDR7，容量 6GB-24GB
稳定性	一般，不适合 7×24 满载运行
多卡互联	不支持或只有低带宽的 SLI/NVLink（已淘汰）
认证	无 ISV 认证
保修	通常 2-3 年

适合做什么： 打游戏、个人 AI 模型推理（Stable Diffusion 生图、本地跑 LLM）、视频剪辑、日常图形处理
不适合： 7×24 小时服务器运行、企业级部署、大规模并行训练

举例： GeForce RTX 4090 虽然算力很强（FP8 约 660 TFLOPS），但它用的是 24GB GDDR6X 显存，不是 HBM，也没有 ECC 校验，长时间满载跑 AI 训练可能会降频或报错

② 专业工作站级（Professional / Workstation）

典型产品： NVIDIA RTX 4000 Ada / RTX 5000 Ada / RTX 6000 Ada，AMD Radeon Pro 系列，Intel Arc Pro 系列
价格区间： ￥5000 - ￥100000+
核心特点：

方面	说明
驱动	专业驱动（Studio/Enterprise），通过 ISV 认证
显存	通常更大，部分型号支持 ECC
稳定性	高，适合长时间满载运行
多卡互联	部分型号支持（如 RTX 6000 Ada 支持 NVLink）
认证	通过 Autodesk、Adobe、Dassault 等专业软件认证
保修	通常 3 年以上

适合做什么： 3D 建模和渲染（Blender、Maya、3ds Max）、CAD 设计（AutoCAD、SolidWorks）、影视后期（DaVinci Resolve、Premiere Pro）、AI 推理部署、中小规模 AI 模型微调
为什么比消费级贵这么多？ 同一个核心架构，专业卡通过更严格的筛选（挑体质最好的芯片）、更大的显存（加上 ECC）、更保守的频率（确保稳定性）、通过 ISV 认证（这些认证很花钱）

举例： RTX 4090（消费级）和 RTX 6000 Ada（专业级）核心都是 Ada Lovelace 架构，但：
RTX 4090：24GB GDDR6X，无 ECC，￥13000
RTX 6000 Ada：48GB GDDR6 + ECC，有 ISV 认证，￥40000+
核心差不多的卡，因为定位不同价格差 3 倍

③ 企业数据中心级（Enterprise / Data Center）

典型产品： NVIDIA H100 / H200 / B200 / B300，AMD MI300X / MI350，Intel 暂无（布局中）
价格区间： ￥150000 - ￥500000+（单卡！）
核心特点：

方面	说明
驱动	数据中心专用驱动，CUDA 深度优化
显存	HBM3/HBM3e，容量 80GB-288GB
稳定性	最高，7×24 满载运行设计
多卡互联	NVLink/NVSwitch（高速 GPU 直连，带宽 900GB/s）
认证	通过各大云平台和服务器厂商认证
散热	被动散热（依靠服务器风道），无风扇设计
外形	SXM 模块或 PCIe 双槽，通常不带视频输出接口

适合做什么： 大规模 AI 模型训练（千亿参数以上）、HPC 科学计算（天气预测、药物研发）、云计算 GPU 实例、大规模推理集群
为什么贵得离谱？ 这些卡使用了最好的 HBM 显存（产能紧缺、价格极高）、更大的芯片（B200 有 2080 亿晶体管）、专门的散热和供电设计、高速互联的 NVLink 技术支持多卡通信

三个层级对比	消费级 🎮	专业工作站级 💼	企业数据中心级 🏢
典型型号	RTX 4090	RTX 6000 Ada	H100/B200
显存	24GB GDDR6X	48GB GDDR6 ECC	80-192GB HBM3
价格	￥1.3 万	￥4 万+	￥20 万+
稳定性	一般	高	极高
多卡互联	❌ 无	部分支持	✅ NVSwitch
ISV 认证	❌	✅	✅
ECC 显存	❌	部分支持	✅
适用	个人/游戏/推理	设计/渲染/部署	训练/HPC/云计算

5.3 各层级代表硬件一览

有了上面三个层级的理解，再来看具体的产品就清晰多了。

NVIDIA — 全层级覆盖

NVIDIA 是唯一一个在三个层级都有完整布局的公司：

消费级（GeForce RTX）：

型号	架构	显存	主要用途
RTX 4090	Ada Lovelace	24GB GDDR6X	顶级游戏、个人 AI、本地大模型
RTX 4080	Ada Lovelace	16GB GDDR6X	高端游戏、AI 推理
RTX 4070	Ada Lovelace	12GB GDDR6X	中高端游戏、AI 入门
RTX 4060	Ada Lovelace	8GB GDDR6	主流游戏、AI 入门

专业工作站级（RTX Ada / RTX Pro）：

型号	架构	显存	主要用途
RTX 6000 Ada	Ada Lovelace	48GB GDDR6+ECC	旗舰工作站，3D/AI/渲染
RTX 5000 Ada	Ada Lovelace	32GB GDDR6+ECC	高端工作站，AI 推理
RTX 4000 Ada	Ada Lovelace	20GB GDDR6+ECC	中端工作站
RTX A4000	Ampere	16GB GDDR6+ECC	上一代中端工作站

企业数据中心级：

型号	架构	显存	FP8 算力	主要用途
H100	Hopper	80GB HBM3	2000 TFLOPS	AI 训练/推理主力
H200	Hopper	141GB HBM3e	2000+ TFLOPS	大模型训练，显存翻倍
B200	Blackwell	192GB HBM3e	4500 TFLOPS	旗舰训练卡，新一代
B300	Blackwell Ultra	288GB HBM3e	~6000 TFLOPS	超大规模训练

AMD — 消费级 + 企业级发力

层级	型号	显存	特点
消费级	Radeon RX 7900 XTX	24GB GDDR6	对标 RTX 4080
工作站	Radeon Pro W7900	48GB GDDR6	对标 RTX 6000 Ada
数据中心	MI300X	192GB HBM3	对标 H100，显存更大

Intel Arc — 消费级 + 工作站级

Intel 目前在 消费级 和 工作站级 两个层级布局，数据中心级还未推出：

消费级（Arc A 系列 / B 系列）：

型号	架构	显存	定位
Arc A770	Xe-HPG	16GB GDDR6	第一代消费旗舰
Arc A750	Xe-HPG	8GB GDDR6	第一代中高端
Arc B580	Xe2-HPG	12GB GDDR6	第二代中高端
Arc B570	Xe2-HPG	10GB GDDR6	第二代中端

A770 对标 NVIDIA RTX 3060/4060，在 AI 推理方面表现不错
Intel 的 XMX（Xe Matrix eXtensions）矩阵加速单元 和 NVIDIA 的 Tensor Core 思路相似
OpenVINO 工具链对 Arc 原生优化，AI 推理部署非常方便

专业工作站级（Arc Pro A 系列 / B 系列）：

型号	架构	显存	定位
Arc Pro A60	Xe-HPG	12GB GDDR6	第一代中端工作站
Arc Pro A60M	Xe-HPG	12GB GDDR6	笔记本工作站
Arc Pro A50	Xe-HPG	6GB GDDR6	第一代入门工作站
Arc Pro A40	Xe-HPG	6GB GDDR6	紧凑型工作站
Arc Pro B70	Xe2-HPG	32GB GDDR6	第二代旗舰工作站
Arc Pro B50	Xe2-HPG	16GB GDDR6	第二代中端工作站

Arc Pro 系列通过了 ISV 认证（Autodesk、Adobe、Dassault 等），支持 ECC 显存校验

Arc Pro B70 详解：

这是 Intel 目前最强的专业工作站显卡，拥有 32GB GDDR6 大显存，在同类产品中非常突出。对比 NVIDIA 的专业卡，32GB 通常要到 RTX 5000 Ada 级别才有。

适合做什么？

AI 推理部署： 32GB 显存可以流畅运行 13B-34B 参数的本地大模型
AI 生图： Stable Diffusion XL 等模型可以直接加载到显存，大批量生成不卡顿
三维建模 & 渲染： Blender、Maya 中复杂场景高分辨率渲染
影视后期： DaVinci Resolve、Premiere 中 4K/8K 视频特效处理
多任务并行： 同时跑多个 AI 推理任务不抢显存

独特亮点：

性价比高，相比 NVIDIA 同显存容量的专业卡价格有明显优势
支持 AV1 硬件编码/解码，视频工作者利器
功耗控制优秀，普通工作站就能带动
OpenVINO 原生支持，部署 AI 模型非常方便

不足之处：

生态不如 NVIDIA CUDA 成熟，部分 AI 框架兼容性待改进
驱动稳定性还在追赶中
大模型训练不是强项（无 NVLink，多卡互联能力弱）

5.4 ASIC 专用芯片

ASIC 全称是 Application-Specific Integrated Circuit（专用集成电路），顾名思义，它不是通用芯片，而是针对特定计算场景定制的。

型号	架构	算力	特点
Google TPU v5p	脉动阵列	~450 TFLOPS/BF16	专为 Transformer 优化
Cerebras WSE-3	晶圆级集成	125 PFLOPs/FP16	单芯片 4 万亿晶体管，40GB SRAM

解读：
什么是 脉动阵列（Systolic Array）？就是把计算单元排成整齐的网格，数据像流水一样流过每个单元。好比流水线上每个工人只做一道工序，效率极高。这特别适合矩阵乘法——大模型的核心运算就是矩阵乘法
Cerebras WSE-3 有意思：它是一整块 12 英寸晶圆做成的单芯片，不切割。传统芯片是切下来的小块（die），而 Cerebras 直接用了整块晶圆，等于造了一个巨大的单芯片。代价是造价极高，良品率极低
为什么不用 ASIC 替代 GPU？不够灵活。GPU 什么都能算，ASIC 只擅长特定任务。好比你可以用瑞士军刀切菜，也可以买一把专用菜刀——菜刀切菜更快，但不能开瓶盖

5.5 NPU / 推理芯片

NPU 是 Neural Processing Unit（神经网络处理器），比 GPU 更专一——它只做神经网络的推理运算。

型号	算力	功耗	场景
华为昇腾 910B	256 TFLOPS/FP16	310W	国产替代，训练+推理
Groq LPU	750 TFLOPS/FP16	极低延迟	专为推理设计，瞬时响应
Apple M4 Neural Engine	38 TOPS	几瓦	iPhone/Mac 本地 AI 处理

解读：
Groq LPU 的与众不同：它没有用 HBM 显存，而是用 SRAM（一种更快但更贵的片上缓存）。结果是推理延迟极低（毫秒级），但 SRAM 容量小，放不下大模型。所以 Groq 不是来取代 GPU 的，而是做"推理加速器"
Apple Neural Engine 只有几瓦功耗，但能在手机上跑 Stable Diffusion 或者本地语音识别——这就是端侧推理的魅力，数据不用上传云端，隐私好、速度快
NPU 的趋势：每代旗舰手机都内置 NPU，未来大部分推理任务会下沉到终端设备

核心硬件参数速查表

参数	全称	衡量什么	越大越好？	通俗理解
制程	制造工艺（nm）	晶体管之间多宽	越小越好	城市里路越窄，能建更多房子
晶体管数	Transistor Count	芯片上有多少开关	越大越好	工厂里工人越多，产量越高
显存	VRAM	GPU 的临时工作台大小	越大越好	书桌面积，能铺多少资料
算力	TFLOPS/TOPS	每秒算多少次	越大越好	计算速度
TDP	热设计功耗（W）	耗电和发热量	越小越好	吃了多少饭，花了多少钱

六、算力效率：比跑分更重要的事

理论上限和实际吞吐完全不是一回事。

典型瓶颈分布：

计算利用率： 实际用到的算力 ÷ 芯片理论算力。大模型训练通常在 40%-60%
通信开销： 多卡之间同步梯度（AllReduce）可能占 10%-30% 的时间
数据加载： GPU 跑得比磁盘快得多，数据来不及喂

提升算力效率的常见手段：

算子融合： 把多个小运算合并成一个内核，减少 kernel launch 开销
Flash Attention： 通过分块计算显存中即用即弃，省去大矩阵的中间存储
量化压缩： FP16 → INT8 → INT4，算力需求降为原来的 1/4、1/8
Speculative Decoding： 用一个小模型先猜，大模型只负责验证，推理吞吐翻倍

写在最后

算力可以理解为一个 并行系统 的综合能力：不是堆一张最快的卡就行，而是几千张卡怎么配合、怎么喂数据、怎么散热、怎么容错。

从单个晶体管的开关，到百亿亿次的计算集群，算力的本质没有变——就是更快、更多、更省地完成数学运算。

从晶体管到 GPU，一文读懂AI算力的基础

一、算力是什么？

怎么类比理解？

二、算力的核心衡量指标

2.1 FLOPs — 每秒浮点运算次数

2.2 精度与算力的关系

2.3 TOPS — 整数运算指标

三、算力的物理基础

3.1 晶体管与摩尔定律

3.2 制约算力的三个物理瓶颈

四、算力怎么算？—— 一个简单公式

五、当前核心算力硬件详解

5.1 看懂 GPU 参数

5.2 先理解三个层级：消费级 vs 专业级 vs 企业级

① 消费级（Consumer / Gaming）

② 专业工作站级（Professional / Workstation）

③ 企业数据中心级（Enterprise / Data Center）

5.3 各层级代表硬件一览

NVIDIA — 全层级覆盖

AMD — 消费级 + 企业级发力

Intel Arc — 消费级 + 工作站级

5.4 ASIC 专用芯片

5.5 NPU / 推理芯片

核心硬件参数速查表

六、算力效率：比跑分更重要的事

写在最后

评论区

从晶体管到 GPU，一文读懂AI算力的基础