Máy Tính PC

NVIDIA Blackwell Ultra GB300: GPU AI Nhanh Nhất Với 20.000 Lõi, HBM3e 288GB Tốc Độ 8TB/s, Hiệu Năng Vượt GB200 Tới 50%

Đăng bởi

Lê Hải

25/08/2025

Bật 25/08/2025

NVIDIA vừa công bố phân tích chi tiết về GPU AI mạnh nhất hiện nay – Blackwell Ultra GB300 – với hiệu năng vượt trội hơn 50% so với GB200 và được trang bị bộ nhớ HBM3e dung lượng lên tới 288 GB.

Blackwell Ultra "GB300" của NVIDIA là con chip thần kỳ cho AI, nhanh hơn 50% so với GB200 và có bộ nhớ 288 GB

Cách đây vài ngày, NVIDIA đã công bố một bài viết chuyên sâu về chip AI mạnh mẽ nhất của hãng – GB300 Blackwell Ultra. Con chip này hiện đã bước vào giai đoạn sản xuất hàng loạt và bắt đầu được chuyển đến các đối tác chiến lược. Dù vẫn thuộc dòng Blackwell, GB300 sở hữu hàng loạt cải tiến vượt bậc về hiệu năng và tính năng, đánh dấu một bước tiến lớn trong lĩnh vực xử lý AI.

Tương tự như cách NVIDIA giới thiệu dòng Super như phiên bản nâng cấp của các GPU RTX dành cho game thủ, dòng Ultra đại diện cho bản mở rộng mạnh mẽ hơn của các chip AI gốc. Trước đây, các thế hệ như Hopper hay Volta không có tên gọi “Ultra”, nhưng thực tế vẫn tồn tại các phiên bản được nâng cấp về hiệu năng. Ngoài ra, dù chip Ultra sở hữu phần cứng vượt trội, những cải tiến về phần mềm và cập nhật tối ưu cũng giúp các phiên bản tiêu chuẩn (Non-Ultra) cải thiện đáng kể hiệu suất xử lý.

Vậy Blackwell Ultra GB300 thực chất là gì? Đây là phiên bản nâng cấp đặc biệt, sử dụng thiết kế hai đế (dual reticle) kích thước lớn, được kết nối bằng giao diện NV-HBI băng thông cao của NVIDIA, cho phép hoạt động như một GPU duy nhất. Con chip này có mật độ rất cao, được sản xuất trên tiến trình TSMC 4NP (phiên bản 5nm tùy biến dành riêng cho NVIDIA), với tổng cộng 208 tỷ bóng bán dẫn. Nhờ giao diện NV-HBI, hai đế GPU có thể trao đổi dữ liệu với tốc độ lên tới 10 TB/giây mà vẫn duy trì hiệu năng liền mạch như một bộ xử lý đơn nhất.

GPU NVIDIA Blackwell Ultra GB300 được trang bị tổng cộng 160 đơn vị xử lý luồng (SM), mỗi SM bao gồm 128 lõi CUDA, 4 lõi Tensor thế hệ thứ 5 hỗ trợ các định dạng tính toán độ chính xác FP8, FP6 và NVFP4, cùng với 256 KB bộ nhớ Tensor (TMEM) và một đơn vị SFU. Như vậy, toàn bộ GPU sở hữu tới 20.480 lõi CUDA, 640 lõi Tensor và 40 MB bộ nhớ TMEM – mang lại sức mạnh xử lý khổng lồ cho các tác vụ AI và HPC.

Feature	Hopper	Blackwell	Blackwell Ultra
Manufacturing process	TSMC 4N	TSMC 4NP	TSMC 4NP
Transistors	80B	208B	208B
Dies per GPU	1	2	2
NVFP4 dense \| sparse performance	–	10 \| 20 PetaFLOPS	15 \| 20 PetaFLOPS
FP8 dense \| sparse performance	2 \| 4 PetaFLOPS	5 \| 10 PetaFLOPS	5 \| 10 PetaFLOPS
Attention acceleration (SFU EX2)	4.5 TeraExponentials/s	5 TeraExponentials/s	10.7 TeraExponentials/s
Max HBM capacity	80 GB HBM (H100) 141 GB HBM3E (H200)	192 GB HBM3E	288 GB HBM3E
Max HBM bandwidth	3.35 TB/s (H100) 4.8 TB/s (H200)	8 TB/s	8 TB/s
NVLink bandwidth	900 GB/s	1,800 GB/s	1,800 GB/s
Max power (TGP)	Up to 700W	Up to 1,200W	Up to 1,400W

Lõi Tensor thế hệ thứ 5 chính là trung tâm của mọi phép màu trong xử lý AI, đảm nhận toàn bộ khối lượng tính toán trí tuệ nhân tạo. Qua từng thế hệ GPU, NVIDIA liên tục cải tiến các lõi Tensor này với những bước tiến vượt bậc, bao gồm các cải tiến nổi bật như:

NVIDIA Volta: Đơn vị MMA 8 luồng, FP16 với tích lũy FP32 để đào tạo.
NVIDIA Ampere: Hỗ trợ đầy đủ các định dạng MMA, BF16 và TensorFloat-32.
NVIDIA Hopper: Warp-group MMA trên 128 luồng, Transformer Engine hỗ trợ FP8.
NVIDIA Blackwell: Transformer Engine thế hệ thứ 2 với khả năng tính toán FP8, FP6, NVFP4, bộ nhớ TMEM

Blackwell Ultra còn được trang bị nâng cấp lớn về bộ nhớ, với dung lượng HBM3e lên tới 288 GB – vượt xa mức tối đa 192 GB của các GPU Blackwell GB200 trước đó. Sự cải tiến này giúp NVIDIA đáp ứng tốt hơn nhu cầu xử lý của các mô hình AI quy mô hàng nghìn tỷ tham số. Cấu trúc bộ nhớ bao gồm 8 ngăn xếp HBM, tích hợp với 16 bộ điều khiển 512-bit, tạo nên giao diện siêu rộng 8192-bit và đạt tốc độ truyền dữ liệu lên tới 8 TB/giây cho mỗi GPU. Nhờ đó, bộ nhớ có thể hỗ trợ:

Mô hình lưu trữ hoàn chỉnh: 300+ mô hình tham số mà không cần giảm tải bộ nhớ.
Độ dài ngữ cảnh mở rộng: Dung lượng bộ nhớ đệm KV lớn hơn cho các mô hình máy biến áp.
Cải thiện hiệu quả tính toán: Tỷ lệ tính toán trên bộ nhớ cao hơn cho nhiều khối lượng công việc khác nhau.

Blackwell sử dụng kết nối NVLINK tương tự như NVLINK-C2C, được hỗ trợ thông qua NVLINK Switch. Bên cạnh đó, GPU còn kết nối với máy chủ thông qua giao diện PCIe Gen6 x16 hiện đại. Dưới đây là những tính năng và thông số kỹ thuật nổi bật của NVLINK 5 cũng như hệ thống kết nối giữa GPU và máy chủ:

Băng thông trên mỗi GPU: 1,8 TB/giây hai chiều (18 liên kết x 100 GB/giây)
Hiệu suất mở rộng: Cải thiện gấp 2 lần so với NVLink 4 (GPU Hopper)
Topology tối đa: 576 GPU trong cấu trúc tính toán không chặn
Tích hợp quy mô giá đỡ: Cấu hình NVL72 72 GPU với băng thông tổng hợp 130 TB/giây

Giao diện PCIe: Gen6 × 16 làn (256 GB/giây hai chiều)
NVLink-C2C: Giao tiếp CPU-GPU Grace với tính nhất quán của bộ nhớ (900 GB/giây

Nhờ tích hợp chuẩn NVFP4 mới, nền tảng Blackwell Ultra GB300 của NVIDIA đạt mức cải thiện hiệu suất lên tới 50% trong các tác vụ tính toán mật độ cao với độ chính xác thấp. Chuẩn NVFP4 mang lại độ chính xác gần tương đương FP8, với sai số thường nhỏ hơn 1%, đồng thời giúp tiết kiệm bộ nhớ đáng kể — giảm dung lượng sử dụng xuống còn 1/1.8 so với FP8 và chỉ bằng 1/3.5 so với FP16.

Blackwell Ultra cũng có tính năng quản lý lịch trình tiên tiến và các tính năng bảo mật cấp Doanh nghiệp mới, chẳng hạn như:

GigaThread Engine nâng cao: Bộ lập lịch công việc thế hệ tiếp theo cung cấp hiệu suất chuyển đổi ngữ cảnh được cải thiện và phân bổ khối lượng công việc được tối ưu hóa trên tất cả 160 SM.
GPU Đa Phiên Bản (MIG): GPU Blackwell Ultra có thể được phân vùng thành các phiên bản MIG có kích thước khác nhau. Ví dụ: quản trị viên có thể tạo hai phiên bản với 140 GB bộ nhớ mỗi phiên bản, bốn phiên bản với 70 GB mỗi phiên bản hoặc bảy phiên bản với 34 GB mỗi phiên bản, cho phép đa thuê bao an toàn với khả năng cô lập hiệu suất có thể dự đoán trước.
Điện toán bảo mật và AI an toàn: Bảo vệ an toàn và hiệu quả cho các mô hình và dữ liệu AI nhạy cảm, mở rộng Môi trường thực thi đáng tin cậy (TEE) dựa trên phần cứng sang GPU có khả năng TEE-I/O đầu tiên trong ngành trong kiến trúc Blackwell và bảo vệ NVLink nội tuyến để có thông lượng gần như giống hệt nhau khi so sánh với các chế độ không được mã hóa.
Công cụ chứng thực từ xa (RAS) tiên tiến của NVIDIA: Hệ thống độ tin cậy hỗ trợ bởi AI giám sát hàng nghìn thông số để dự đoán lỗi, tối ưu hóa lịch trình bảo trì và tối đa hóa thời gian hoạt động của hệ thống trong các triển khai quy mô lớn.

Tất cả những yếu tố trên khẳng định vị thế dẫn đầu của NVIDIA trong lĩnh vực AI, với những đột phá công nghệ ấn tượng như Blackwell và Blackwell Ultra. Chính hệ sinh thái phần mềm mạnh mẽ cùng khả năng tối ưu hóa vượt trội mới là nền tảng then chốt cho thành công của họ. Bên cạnh đó, tốc độ đổi mới phần cứng đều đặn mỗi năm cùng sự đầu tư ngày càng lớn vào R&D sẽ tiếp tục đưa NVIDIA tiến xa hơn nữa trong những năm tới.

Nguồn: Wccftech