从晶体管到 GPU,一文读懂AI算力的基础

从晶体管到 GPU,一文读懂AI算力的基础

算力不是硬件的堆砌,而是把"算"这件事做快的系统能力

一、算力是什么?

算力(Computing Power) 很简单——就是计算机完成数学运算的速度。每秒能算的越多,算力就越强。

但要真正理解它,得拆开看这三层:

怎么类比理解?

💡 算力 = 搬砖

  • 时钟频率(GHz)= 搬砖的节奏,每秒搬几次

  • 核心数(Cores)= 搬砖的人数

  • 显存带宽(GB/s)= 传送带的速度,砖到手的快慢

  • 内存容量(GB)= 能放多少块砖在工位上

💡 训练大模型 = 教全班同学做题

  • 一张 GPU = 一个学生做题

  • 一千张 GPU = 一千个学生同时做题

  • 但一千个学生之间需要传纸条沟通(通信开销),传得越多效率越低

💡 CPU 和 GPU 的区别 = 寄信 vs 群发传单

  • CPU:一个人写一封信,写完再写下一封,每一步都仔细斟酌(串行+复杂指令)

  • GPU:直接把一万张传单一次性印好送出去(并行+简单运算)


二、算力的核心衡量指标

2.1 FLOPs — 每秒浮点运算次数

算力最基本单位是 FLOPs(Floating Point Operations Per Second):

单位

数值

念法

1 GFLOPs

10⁹

十亿次/秒

1 TFLOPs

10¹²

一万亿次/秒

1 PFLOPs

10¹⁵

一千万亿次/秒

1 EFLOPs

10¹⁸

一百亿亿次/秒

参考: 一张 NVIDIA H100 GPU 的 FP8 算力大约是 2000 TFLOPs(每秒完成 2×10¹⁵ 次运算)。

2.2 精度与算力的关系

同一个芯片,用不同精度计算时,算力差别很大:

FP64 :  26 TFLOPs  (双精度,科学计算)
FP32 :  67 TFLOPs  (单精度,传统 AI)
BF16 : 990 TFLOPs  (混合精度,AI 训练主力)
FP8  : 2000 TFLOPs (低精度,推理加速)

精度越低→数据量越小→同样芯片算得越快。 这也是为什么 AI 训练从最早的 FP32 逐渐迁移到混合精度(BF16 为主,FP32 为副本)。

2.3 TOPS — 整数运算指标

有些芯片(比如手机 NPU、边缘端芯片)常用 TOPS(Tera Operations Per Second)来标称算力。它统计的是整数运算,常用于量化的推理场景。

TOPS vs TFLOPS: 两者不是直接换算关系,因为底层计算的指令集不同。


三、算力的物理基础

3.1 晶体管与摩尔定律

芯片算力的根基是 晶体管——数字世界的开关。

  • 1947 年:第一个晶体管(贝尔实验室),手指尖大小

  • 1971 年:Intel 4004,2300 个晶体管

  • 2024 年:NVIDIA B200,2080 亿 个晶体管

摩尔定律(每 18-24 个月芯片密度翻倍)在近十年开始放缓,因为晶体管的尺寸快逼近物理极限——硅原子直径只有 0.2 纳米,而现在的 3nm 制程已经不到 100 个硅原子宽度。

3.2 制约算力的三个物理瓶颈

① 内存墙(Memory Wall)

GPU 算得越快,数据越喂不上。

一张 H100:理论算力 2000 TFLOPS,但显存带宽只有 3.35 TB/s。做一个 FP8 乘法运算取数的时间,足够芯片算几十次。

类比:厨师(GPU)刀工了得,但传菜员(显存带宽)跑不过来了。

② TDP 墙(功耗墙)

一张 H100 的热设计功耗(TDP)约 700W。万卡集群就是 7 兆瓦——排出的热量足够给一个小型社区供暖。

散热方案演进:

风冷 → 液冷冷板 → 浸没式液冷

③ 丹纳德缩放失效

以前:制程缩小 → 电压降低 → 功耗不变性能翻倍(完美) 现在:制程缩小 → 漏电增加 → 功耗暴增(不完美)


四、算力怎么算?—— 一个简单公式

单芯片算力 = 核心数 × 频率 × 每时钟周期指令数

实测估算训练算力需求:

训练一个 Transformer 模型的近似算力需求:

总 FLOPs ≈ 6 × 参数量 × 训练 Token 数

举例:

  • GPT-3:1750 亿参数,训练 3000 亿 Token

  • 总计算量 ≈ 6 × 175e9 × 300e9 ≈ 3.15 × 10²³ FLOPs

  • 用 10000 张 H100(FP8 算力 2000 TFLOPS)训练:

    • 理论最短时间 = 3.15×10²³ /(10⁴ × 2×10¹⁵)≈ 1.75 亿秒 ≈ 200 天

    • 但实际还要考虑通信开销、故障恢复、数据加载等待——实际通常是理论的 2-5 倍

推理时算力需求:

推理 FLOPs ≈ 2 × 参数量 × 生成 Token 数

这就是为什么同样参数量下,推理比训练"便宜"得多。


五、当前核心算力硬件详解

下面带你逐个看懂芯片参数表里的每一项到底在说什么。

5.1 看懂 GPU 参数

要读懂一张 GPU 的规格,先看它最重要的五个指标:

① 制程(nm 纳米)

晶体管之间的间距。

  • 数字越小越好。7nm → 5nm → 3nm,数字越小,同样面积的芯片能塞下更多晶体管

  • 类似把一万人的体育场,从原来的场地压缩到一半大小还能坐同样多人

  • 当前最先进的是 4nm/5nm 制程

② 晶体管数量

芯片上集成了多少个微型开关。

  • 每个晶体管就是一个可以高速开关的"小闸门"

  • 晶体管越多 → 能实现更复杂的计算单元 → 算力越强

  • 当前顶级 GPU 的晶体管数量以 百亿甚至千亿 为单位

  • 类比:一座城市的人口越多,能干的事就越复杂

③ 显存容量(GB)+ 显存类型

GPU 自带的"桌面"有多大。

  • 显存是 GPU 工作时存放数据的临时空间(类似你的电脑内存,但它专属于显卡)

  • HBM(High Bandwidth Memory)是目前最先进的显存技术,特点是带宽极高

  • HBM3 / HBM3e 是两代,e 表示 enhanced(增强版),带宽更高

  • 普通显卡用 GDDR 显存(比如 GDDR6、GDDR7),性价比高但带宽不如 HBM

  • 类比:你的书桌(显存)越大,能同时摊开的书(数据)就越多

  • 训练大模型时,模型参数全部要加载到显存中,显存不够就用不了

④ 算力(TFLOPS 或 TOPS)

GPU 每秒能完成多少次浮点运算。

  • 这是最直接的"跑分"指标

  • 但同一张卡在不同精度下算力不同(见第二章)

  • 厂商宣传时通常取最大的那个数值(比如 FP8),所以要留意精度

  • 类比:一辆跑车的最高时速(理论值),但实际道路跑不了那么快

⑤ TDP(热设计功耗,瓦特)

芯片满负荷运行时的发热量,也约等于耗电量。

  • 单位是瓦特(W)。H100 约 700W ≈ 一台小型空调

  • TDP 越高 → 越费电 → 散热越难 → 数据中心成本越高

  • 万卡集群的耗电量 ≈ 一个小型城市

  • 类比:你能吃多少碗饭(耗电),决定了你能干多少体力活(算力)


5.2 先理解三个层级:消费级 vs 专业级 vs 企业级

很多人以为 GPU 就是显卡,打游戏的。但在 AI 算力领域,GPU 其实是分三个完全不同市场层级的。它们虽然核心架构相似,但定位、价格、用途天差地别。

一个通俗的类比——交通工具:

  • 消费级 = 私家小轿车——便宜、方便、日常够用,但拉不了太多货(跑个人模型推理、打游戏、剪视频)

  • 专业工作站级 = 专业工程车——通过了安全认证(ISV),能拉重货跑工地(3D 渲染、CAD 设计、AI 推理部署)

  • 企业数据中心级 = 重卡列车队——几辆车编队运行,每辆车满载,24 小时不停(大规模 AI 训练、HPC 科学计算)


① 消费级(Consumer / Gaming)

  • 典型产品: NVIDIA GeForce RTX 4060/4070/4080/4090,AMD Radeon RX 系列,Intel Arc A/B 系列

  • 价格区间: ¥1000 - ¥20000

  • 核心特点:

方面

说明

驱动

Game Ready 驱动,优先优化游戏性能

显存

GDDR6/GDDR7,容量 6GB-24GB

稳定性

一般,不适合 7×24 满载运行

多卡互联

不支持或只有低带宽的 SLI/NVLink(已淘汰)

认证

无 ISV 认证

保修

通常 2-3 年

  • 适合做什么: 打游戏、个人 AI 模型推理(Stable Diffusion 生图、本地跑 LLM)、视频剪辑、日常图形处理

  • 不适合: 7×24 小时服务器运行、企业级部署、大规模并行训练

举例: GeForce RTX 4090 虽然算力很强(FP8 约 660 TFLOPS),但它用的是 24GB GDDR6X 显存,不是 HBM,也没有 ECC 校验,长时间满载跑 AI 训练可能会降频或报错


② 专业工作站级(Professional / Workstation)

  • 典型产品: NVIDIA RTX 4000 Ada / RTX 5000 Ada / RTX 6000 Ada,AMD Radeon Pro 系列,Intel Arc Pro 系列

  • 价格区间: ¥5000 - ¥100000+

  • 核心特点:

方面

说明

驱动

专业驱动(Studio/Enterprise),通过 ISV 认证

显存

通常更大,部分型号支持 ECC

稳定性

高,适合长时间满载运行

多卡互联

部分型号支持(如 RTX 6000 Ada 支持 NVLink)

认证

通过 Autodesk、Adobe、Dassault 等专业软件认证

保修

通常 3 年以上

  • 适合做什么: 3D 建模和渲染(Blender、Maya、3ds Max)、CAD 设计(AutoCAD、SolidWorks)、影视后期(DaVinci Resolve、Premiere Pro)、AI 推理部署、中小规模 AI 模型微调

  • 为什么比消费级贵这么多? 同一个核心架构,专业卡通过更严格的筛选(挑体质最好的芯片)、更大的显存(加上 ECC)、更保守的频率(确保稳定性)、通过 ISV 认证(这些认证很花钱)

举例: RTX 4090(消费级)和 RTX 6000 Ada(专业级)核心都是 Ada Lovelace 架构,但:

  • RTX 4090:24GB GDDR6X,无 ECC,¥13000

  • RTX 6000 Ada:48GB GDDR6 + ECC,有 ISV 认证,¥40000+

  • 核心差不多的卡,因为定位不同价格差 3 倍


③ 企业数据中心级(Enterprise / Data Center)

  • 典型产品: NVIDIA H100 / H200 / B200 / B300,AMD MI300X / MI350,Intel 暂无(布局中)

  • 价格区间: ¥150000 - ¥500000+(单卡!)

  • 核心特点:

方面

说明

驱动

数据中心专用驱动,CUDA 深度优化

显存

HBM3/HBM3e,容量 80GB-288GB

稳定性

最高,7×24 满载运行设计

多卡互联

NVLink/NVSwitch(高速 GPU 直连,带宽 900GB/s)

认证

通过各大云平台和服务器厂商认证

散热

被动散热(依靠服务器风道),无风扇设计

外形

SXM 模块或 PCIe 双槽,通常不带视频输出接口

  • 适合做什么: 大规模 AI 模型训练(千亿参数以上)、HPC 科学计算(天气预测、药物研发)、云计算 GPU 实例、大规模推理集群

  • 为什么贵得离谱? 这些卡使用了最好的 HBM 显存(产能紧缺、价格极高)、更大的芯片(B200 有 2080 亿晶体管)、专门的散热和供电设计高速互联的 NVLink 技术支持多卡通信

三个层级对比

消费级 🎮

专业工作站级 💼

企业数据中心级 🏢

典型型号

RTX 4090

RTX 6000 Ada

H100/B200

显存

24GB GDDR6X

48GB GDDR6 ECC

80-192GB HBM3

价格

¥1.3 万

¥4 万+

¥20 万+

稳定性

一般

极高

多卡互联

❌ 无

部分支持

✅ NVSwitch

ISV 认证

ECC 显存

部分支持

适用

个人/游戏/推理

设计/渲染/部署

训练/HPC/云计算


5.3 各层级代表硬件一览

有了上面三个层级的理解,再来看具体的产品就清晰多了。

NVIDIA — 全层级覆盖

NVIDIA 是唯一一个在三个层级都有完整布局的公司:

消费级(GeForce RTX):

型号

架构

显存

主要用途

RTX 4090

Ada Lovelace

24GB GDDR6X

顶级游戏、个人 AI、本地大模型

RTX 4080

Ada Lovelace

16GB GDDR6X

高端游戏、AI 推理

RTX 4070

Ada Lovelace

12GB GDDR6X

中高端游戏、AI 入门

RTX 4060

Ada Lovelace

8GB GDDR6

主流游戏、AI 入门

专业工作站级(RTX Ada / RTX Pro):

型号

架构

显存

主要用途

RTX 6000 Ada

Ada Lovelace

48GB GDDR6+ECC

旗舰工作站,3D/AI/渲染

RTX 5000 Ada

Ada Lovelace

32GB GDDR6+ECC

高端工作站,AI 推理

RTX 4000 Ada

Ada Lovelace

20GB GDDR6+ECC

中端工作站

RTX A4000

Ampere

16GB GDDR6+ECC

上一代中端工作站

企业数据中心级:

型号

架构

显存

FP8 算力

主要用途

H100

Hopper

80GB HBM3

2000 TFLOPS

AI 训练/推理主力

H200

Hopper

141GB HBM3e

2000+ TFLOPS

大模型训练,显存翻倍

B200

Blackwell

192GB HBM3e

4500 TFLOPS

旗舰训练卡,新一代

B300

Blackwell Ultra

288GB HBM3e

~6000 TFLOPS

超大规模训练

AMD — 消费级 + 企业级发力

层级

型号

显存

特点

消费级

Radeon RX 7900 XTX

24GB GDDR6

对标 RTX 4080

工作站

Radeon Pro W7900

48GB GDDR6

对标 RTX 6000 Ada

数据中心

MI300X

192GB HBM3

对标 H100,显存更大

Intel Arc — 消费级 + 工作站级

Intel 目前在 消费级工作站级 两个层级布局,数据中心级还未推出:

消费级(Arc A 系列 / B 系列):

型号

架构

显存

定位

Arc A770

Xe-HPG

16GB GDDR6

第一代消费旗舰

Arc A750

Xe-HPG

8GB GDDR6

第一代中高端

Arc B580

Xe2-HPG

12GB GDDR6

第二代中高端

Arc B570

Xe2-HPG

10GB GDDR6

第二代中端

  • A770 对标 NVIDIA RTX 3060/4060,在 AI 推理方面表现不错

  • Intel 的 XMX(Xe Matrix eXtensions)矩阵加速单元 和 NVIDIA 的 Tensor Core 思路相似

  • OpenVINO 工具链对 Arc 原生优化,AI 推理部署非常方便

专业工作站级(Arc Pro A 系列 / B 系列):

型号

架构

显存

定位

Arc Pro A60

Xe-HPG

12GB GDDR6

第一代中端工作站

Arc Pro A60M

Xe-HPG

12GB GDDR6

笔记本工作站

Arc Pro A50

Xe-HPG

6GB GDDR6

第一代入门工作站

Arc Pro A40

Xe-HPG

6GB GDDR6

紧凑型工作站

Arc Pro B70

Xe2-HPG

32GB GDDR6

第二代旗舰工作站

Arc Pro B50

Xe2-HPG

16GB GDDR6

第二代中端工作站

Arc Pro 系列通过了 ISV 认证(Autodesk、Adobe、Dassault 等),支持 ECC 显存校验


Arc Pro B70 详解:

这是 Intel 目前最强的专业工作站显卡,拥有 32GB GDDR6 大显存,在同类产品中非常突出。对比 NVIDIA 的专业卡,32GB 通常要到 RTX 5000 Ada 级别才有。

适合做什么?

  • AI 推理部署: 32GB 显存可以流畅运行 13B-34B 参数的本地大模型

  • AI 生图: Stable Diffusion XL 等模型可以直接加载到显存,大批量生成不卡顿

  • 三维建模 & 渲染: Blender、Maya 中复杂场景高分辨率渲染

  • 影视后期: DaVinci Resolve、Premiere 中 4K/8K 视频特效处理

  • 多任务并行: 同时跑多个 AI 推理任务不抢显存

独特亮点:

  • 性价比高,相比 NVIDIA 同显存容量的专业卡价格有明显优势

  • 支持 AV1 硬件编码/解码,视频工作者利器

  • 功耗控制优秀,普通工作站就能带动

  • OpenVINO 原生支持,部署 AI 模型非常方便

不足之处:

  • 生态不如 NVIDIA CUDA 成熟,部分 AI 框架兼容性待改进

  • 驱动稳定性还在追赶中

  • 大模型训练不是强项(无 NVLink,多卡互联能力弱)


5.4 ASIC 专用芯片

ASIC 全称是 Application-Specific Integrated Circuit(专用集成电路),顾名思义,它不是通用芯片,而是针对特定计算场景定制的。

型号

架构

算力

特点

Google TPU v5p

脉动阵列

~450 TFLOPS/BF16

专为 Transformer 优化

Cerebras WSE-3

晶圆级集成

125 PFLOPs/FP16

单芯片 4 万亿晶体管,40GB SRAM

解读:

  • 什么是 脉动阵列(Systolic Array)?就是把计算单元排成整齐的网格,数据像流水一样流过每个单元。好比流水线上每个工人只做一道工序,效率极高。这特别适合矩阵乘法——大模型的核心运算就是矩阵乘法

  • Cerebras WSE-3 有意思:它是一整块 12 英寸晶圆做成的单芯片,不切割。传统芯片是切下来的小块(die),而 Cerebras 直接用了整块晶圆,等于造了一个巨大的单芯片。代价是造价极高,良品率极低

  • 为什么不用 ASIC 替代 GPU?不够灵活。GPU 什么都能算,ASIC 只擅长特定任务。好比你可以用瑞士军刀切菜,也可以买一把专用菜刀——菜刀切菜更快,但不能开瓶盖


5.5 NPU / 推理芯片

NPU 是 Neural Processing Unit(神经网络处理器),比 GPU 更专一——它只做神经网络的推理运算。

型号

算力

功耗

场景

华为昇腾 910B

256 TFLOPS/FP16

310W

国产替代,训练+推理

Groq LPU

750 TFLOPS/FP16

极低延迟

专为推理设计,瞬时响应

Apple M4 Neural Engine

38 TOPS

几瓦

iPhone/Mac 本地 AI 处理

解读:

  • Groq LPU 的与众不同:它没有用 HBM 显存,而是用 SRAM(一种更快但更贵的片上缓存)。结果是推理延迟极低(毫秒级),但 SRAM 容量小,放不下大模型。所以 Groq 不是来取代 GPU 的,而是做"推理加速器"

  • Apple Neural Engine 只有几瓦功耗,但能在手机上跑 Stable Diffusion 或者本地语音识别——这就是端侧推理的魅力,数据不用上传云端,隐私好、速度快

  • NPU 的趋势:每代旗舰手机都内置 NPU,未来大部分推理任务会下沉到终端设备


核心硬件参数速查表

参数

全称

衡量什么

越大越好?

通俗理解

制程

制造工艺(nm)

晶体管之间多宽

越小越好

城市里路越窄,能建更多房子

晶体管数

Transistor Count

芯片上有多少开关

越大越好

工厂里工人越多,产量越高

显存

VRAM

GPU 的临时工作台大小

越大越好

书桌面积,能铺多少资料

算力

TFLOPS/TOPS

每秒算多少次

越大越好

计算速度

TDP

热设计功耗(W)

耗电和发热量

越小越好

吃了多少饭,花了多少钱


六、算力效率:比跑分更重要的事

理论上限和实际吞吐完全不是一回事。

典型瓶颈分布:

  1. 计算利用率: 实际用到的算力 ÷ 芯片理论算力。大模型训练通常在 40%-60%

  2. 通信开销: 多卡之间同步梯度(AllReduce)可能占 10%-30% 的时间

  3. 数据加载: GPU 跑得比磁盘快得多,数据来不及喂

提升算力效率的常见手段:

  • 算子融合: 把多个小运算合并成一个内核,减少 kernel launch 开销

  • Flash Attention: 通过分块计算显存中即用即弃,省去大矩阵的中间存储

  • 量化压缩: FP16 → INT8 → INT4,算力需求降为原来的 1/4、1/8

  • Speculative Decoding: 用一个小模型先猜,大模型只负责验证,推理吞吐翻倍


写在最后

算力可以理解为一个 并行系统 的综合能力:不是堆一张最快的卡就行,而是几千张卡怎么配合、怎么喂数据、怎么散热、怎么容错。

从单个晶体管的开关,到百亿亿次的计算集群,算力的本质没有变——就是更快、更多、更省地完成数学运算。

1Panel AI 编程一体机:当开源面板遇上 AI 硬件 2026-06-12
基于 1Panel 部署 vLLM + Qwen3.6-27B 本地模型 2026-06-16

评论区