Chip Blackwell của Nvidia lại gặp vấn đề! Huang đã không giải quyết được trong nửa năm, Microsoft phải thay hàng và thay kế hoạch.
Vấn đề làm nóng quá mức của chip Blackwell của NVIDIA
Vấn đề làm nóng quá mức của chip Blackwell của NVIDIA gây ra sự chậm trễ trong việc triển khai

The Information mới đây đã đưa tin rằng, chip Blackwell thế hệ tiếp theo của NVIDIA đang gặp vấn đề nghiêm trọng về làm nóng quá mức khi được sử dụng trong các khung máy chủ mật độ cao, dẫn đến sự thay đổi thiết kế và trì hoãn việc triển khai cho khách hàng. Điều này khiến Google, Meta và Microsoft lo ngại về khả năng triển khai đúng thời hạn.
NVIDIA đã công bố dòng sản phẩm Blackwell vào tháng 3 năm nay, với kế hoạch ban đầu là giao hàng vào quý 2 năm 2024, nhưng đã bị hoãn lại do những lỗi thiết kế trước đó.
Được biết, GPU Blackwell gặp vấn đề làm nóng quá mức nghiêm trọng khi được tích hợp trong các khung máy chủ mật độ cao chứa tới 72 chip AI, mỗi khung có công suất lên tới 120 kW. Tuy nhiên, thiết kế mật độ cao và công suất cao này đã tạo ra khó khăn về tản nhiệt, không chỉ hạn chế hiệu suất của GPU mà còn có thể gây hư hại cho các thành phần phần cứng.
Để giải quyết vấn đề này, NVIDIA đã phải điều chỉnh nhiều lần thiết kế khung và thực hiện các sửa đổi kỹ thuật đối với hệ thống làm mát. Theo thông tin, NVIDIA đã yêu cầu các nhà cung cấp thực hiện nhiều biện pháp cải tiến.
NVIDIA đã phản hồi rằng, vấn đề làm nóng quá mức và sự thay đổi thiết kế là những bước đi bình thường trong quá trình phát triển công nghệ và khẳng định họ đang hợp tác với các nhà cung cấp dịch vụ đám mây để đảm bảo sản phẩm cuối cùng đáp ứng được yêu cầu về hiệu suất và độ tin cậy.

Dell đã thông báo rằng, các khung máy chủ sử dụng kiến trúc GB200 NVL72 của NVIDIA và công nghệ làm mát bằng chất lỏng đã được giao hàng.
Trong khi chờ đợi giải quyết vấn đề với Blackwell, một số khách hàng đã bắt đầu xem xét các giải pháp thay thế. Báo cáo cho biết, một số khách hàng như Microsoft đã lên kế hoạch tùy chỉnh khung Blackwell bằng cách thay thế một số thành phần để phù hợp với nhu cầu trung tâm dữ liệu của họ.
Một giám đốc điều hành của một công ty điện toán đám mây tiết lộ rằng họ đang tăng cường mua sắm các chip Hopper thế hệ hiện tại. Phân tích cho thấy, điều này có thể tăng doanh thu của NVIDIA trong ngắn hạn, đặc biệt là lợi nhuận từ chip Hopper có biên lợi nhuận cao. Tuy nhiên, xu hướng chuyển đổi này cũng có thể làm suy yếu nhu cầu đối với Blackwell và hệ thống NVLink trong tương lai, đe dọa tăng trưởng dài hạn của NVIDIA.
Trước khi xảy ra vấn đề về làm nóng quá mức, Blackwell đã bị hoãn ít nhất ba tháng do vấn đề về thiết kế đóng gói. Chip Blackwell sử dụng công nghệ đóng gói CoWoS-L của TSMC, với cây cầu silicon LSI (Local Silicon Interconnect) đạt tốc độ truyền dữ liệu lên tới 10 TB/s. Tuy nhiên, tính chất giãn nở nhiệt giữa chip GPU, cây cầu LSI và bo mạch chủ không khớp, đã gây ra biến dạng và hỏng hóc hệ thống.
Để giải quyết vấn đề này, NVIDIA đã điều chỉnh cấu trúc chip và thiết kế lại khuôn mẫu, hoàn thành sửa chữa vào cuối tháng 10.
Tom’s Hardware chỉ ra rằng, mặc dù việc điều chỉnh như vậy là phổ biến trong quy trình triển khai quy mô lớn, nhưng vẫn có thể làm trì hoãn thời gian giao hàng dự kiến của Blackwell.
Từ khi ra mắt, nhu cầu và sự chú ý đối với chip Blackwell luôn rất cao. Giám đốc điều hành NVIDIA, Jensen Huang, đã nhiều lần nói rằng nhu cầu thị trường đối với Blackwell là “điên rồ (insane)”.
Trong các thử nghiệm benchmark MLPerf Training 4.1 gần đây, GPU Blackwell tiếp tục thể hiện hiệu suất hàng đầu.
Tuần trước, NVIDIA đã công bố kết quả thử nghiệm huấn luyện AI MLPerf v4.1 trên GPU Blackwell – trong thử nghiệm MLPerf Training 4.1, tốc độ huấn luyện mô hình Llama 270B nhanh hơn 2,2 lần so với GPU Hopper thế hệ trước. Ngoài ra, nhờ ứng dụng bộ nhớ HBM3e có băng thông cao, Blackwell chỉ cần 64 GPU để hoàn thành công việc tính toán mà 256 GPU Hopper cần.
Cùng lúc đó, nền tảng Hopper cũng đang được tối ưu hóa. Trong vòng thử nghiệm huấn luyện MLPerf này, hiệu suất huấn luyện GPT-3 175B trên mỗi GPU Hopper đã tăng 1,3 lần so với lần đầu tiên giới thiệu tiêu chuẩn này.
Phân tích viên cho rằng, sự phát triển của ứng dụng AI vẫn đang ở giai đoạn sơ khai và việc ra mắt Blackwell sẽ tiếp tục thúc đẩy tăng trưởng doanh thu của NVIDIA. Morgan Stanley dự đoán, dòng sản phẩm mới Blackwell của NVIDIA sẽ nâng doanh thu công ty trong quý 1 năm 2025, với doanh thu dự kiến nằm trong khoảng 5 tỷ đến 6 tỷ đô la Mỹ.
Với việc dự kiến giao hàng quy mô lớn của Blackwell bắt đầu vào cuối tháng 1 năm 2025, hiệu suất thực tế của nó có thể đáp ứng kỳ vọng thị trường hay không sẽ trở thành điểm quan sát chính.
Cùng lúc NVIDIA nỗ lực giải quyết các vấn đề kỹ thuật, AMD cũng đang tăng tốc tiến vào thị trường chip AI. Tháng trước, AMD đã công bố chip AI mới Instinct MI325X và kế hoạch sản xuất bắt đầu vào cuối năm 2024. Sự kiện này được xem là thách thức đối với vị trí thống lĩnh thị trường GPU của NVIDIA.
Hiện tại, GPU của NVIDIA chiếm hơn 90% thị phần chip AI, trong khi AMD giữ vị trí thứ hai. Sản phẩm MI325X mới là người kế nhiệm của MI300X ra mắt năm ngoái, và AMD dự định tung ra một chip mới mỗi năm để đáp ứng nhanh chóng nhu cầu thị trường và thu hẹp khoảng cách với NVIDIA.
AMD dự đoán, đến năm 2028, thị trường chip AI sẽ đạt quy mô 500 tỷ đô la Mỹ. CEO của AMD, Lisa Su, cho biết, “Yêu cầu về AI đang tăng nhanh vượt quá dự kiến, và đầu tư toàn cầu vẫn đang tăng tốc.” Về mặt hiệu suất, Su cho biết, MI325X có hiệu suất suy diễn tốt hơn 40% so với H200 của NVIDIA khi xử lý mô hình Llama 3.1 của Meta.
Mặc dù AMD chưa công bố danh sách khách hàng mới, nhưng công ty đã tiết lộ rằng Meta, Microsoft và OpenAI đang sử dụng chip AI của họ. AMD cũng nhấn mạnh, chip của họ có lợi thế trong việc tạo nội dung và ứng dụng AI dự đoán, nhờ thiết kế bộ nhớ tiên tiến.
Tuy nhiên, ngôn ngữ lập trình CUDA của NVIDIA đã trở thành tiêu chuẩn thực tế trong phát triển AI, và hệ sinh thái công nghệ và lợi thế thị trường của NVIDIA vẫn là chướng ngại lớn nhất đối với AMD. Có phân tích cho rằng, với nhu cầu AI ngày càng tăng của các ông lớn như Meta và Microsoft, AMD có cơ hội thu hút thêm khách hàng thông qua chiến lược khác biệt về giá cả và hiệu suất, đặc biệt là trong lĩnh vực suy diễn mô hình AI tạo nội dung.
**Từ khóa:**
– NVIDIA
– Blackwell
– AI
– Chip
– AMD
© Thông báo bản quyền
Bản quyền bài viết thuộc về tác giả, vui lòng không sao chép khi chưa được phép.
Những bài viết liên quan:
Không có đánh giá...