Khám phá Trung tâm Dữ liệu xAI Colossus
Hôm nay, chúng tôi sẽ chia sẻ với bạn một chuyến tham quan đến cụm máy tính siêu cấp xAI Colossus. Đã có người nghe nói về công ty xAI của Elon Musk đang xây dựng một cụm máy tính siêu cấp lớn tại Memphis. Với 100.000 card đồ họa NVIDIA H100, cụm máy tính này không chỉ nổi tiếng vì quy mô khổng lồ mà còn bởi tốc độ xây dựng nhanh chóng – chỉ trong 122 ngày. Hôm nay, chúng ta sẽ cùng nhau khám phá bên trong cụm máy tính này.
Ngoài ra, chúng tôi cũng đã chuẩn bị một video cho chuyến tham quan này, bạn có thể tìm thấy nó trên Twitter hoặc YouTube:
Đây là dự án đắt nhất mà chúng tôi thực hiện trong năm nay và chúng tôi nhận được sự tài trợ từ Supermicro. Do đó, một số phần nội dung sẽ được làm mờ hoặc tôi sẽ cố tình giữ một mức độ mờ để đảm bảo an ninh. Chúng tôi chỉ có thể chia sẻ những hình ảnh này nhờ sự cho phép đặc biệt từ Elon Musk và đội ngũ của ông ấy.
Cấu trúc cơ bản của Colossus
Cấu trúc cơ bản của Colossus là các kệ làm mát siêu việt từ Supermicro, mỗi kệ chứa tám máy chủ 4U, mỗi máy chủ mang theo tám card đồ họa NVIDIA H100, tổng cộng mỗi kệ có 64 card đồ họa. Tám máy chủ GPU này cùng với bộ phân phối chất làm mát (CDU) và các thiết bị liên quan tạo nên một kệ GPU.
Các Kệ GPU và Hệ thống Mạng
Các kệ được tổ chức thành nhóm, mỗi nhóm gồm tám kệ, cung cấp tổng cộng 512 card đồ họa và hệ thống mạng để triển khai các cụm nhỏ trong hệ thống lớn hơn.
Hệ thống GPU 4U của Supermicro
xAI sử dụng hệ thống GPU 4U của Supermicro, đây là những hệ thống máy chủ AI tiên tiến nhất trên thị trường. Sự vượt trội của chúng đến từ công nghệ làm mát bằng chất lỏng và khả năng bảo trì tuyệt vời.
Thiết kế Mở Rộng và Bảo Trì
Khoảng một năm trước, tại Hội nghị Siêu máy tính SC23 ở Denver, chúng tôi đã lần đầu tiên nhìn thấy các hệ thống này dưới dạng nguyên mẫu. Tuy nhiên, tại Memphis, chúng tôi không thể trực tiếp thao tác với chúng do chúng đang bận thực hiện nhiệm vụ huấn luyện. Một tính năng thú vị là hệ thống được lắp đặt trên khay có thể được kéo ra mà không cần tháo rời khỏi giá kệ. Đầu nối nhanh giúp hệ thống làm mát chất lỏng có thể được tháo lắp dễ dàng, như chúng tôi đã chứng minh vào năm ngoái, các bộ phận này có thể được tháo lắp một cách đơn giản bằng một tay.
Thiết kế Mới và Hiệu Quả
Đáng chú ý, hai kệ CPU làm mát bằng chất lỏng là thiết kế phổ biến, nhưng phần độc đáo nằm ở bên phải: bo mạch chủ của Supermicro tích hợp tất cả bốn switch PCIe Broadcom, thay vì đặt chúng trên các bo mạch riêng biệt. Ngoài ra, Supermicro đã tùy chỉnh một khối làm mát chất lỏng chuyên dụng để làm mát bốn switch PCIe này. Các máy chủ AI khác thường thêm hệ thống làm mát chất lỏng vào thiết kế làm mát bằng không khí sau khi hoàn thiện, trong khi Supermicro đã xem xét thiết kế làm mát chất lỏng từ đầu và tất cả các thành phần đều đến từ một nhà cung cấp duy nhất.
Hệ thống Quản lý Điện và Nước
Tại mặt sau của kệ, chúng ta thấy các kết nối quang 400GbE cho GPU và CPU, cùng với dây đồng cho quản lý mạng. Các card mạng (NIC) được gắn trên khay riêng, cho phép thay thế dễ dàng mà không cần tháo rời giá kệ, mặc dù chúng được đặt ở phía sau giá kệ. Mỗi máy chủ được trang bị bốn nguồn điện, hỗ trợ tháo lắp nóng và được cấp điện thông qua bộ phân phối điện ba pha.
Hệ thống Làm Mát Chất Lỏng (CDU)
Mỗi kệ có một CDU đặt ở phía dưới, giống như một bộ trao đổi nhiệt lớn. Mỗi kệ có một hệ thống tuần hoàn chất lỏng để cung cấp dịch vụ làm mát cho tất cả các máy chủ GPU. Đây là loại chất lỏng chuyên dụng, không phải nước thông thường, vì các hệ thống tuần hoàn này thường cần sử dụng chất lỏng điều chỉnh đặc biệt cho các khối làm mát, ống dẫn và đầu nối.
Phần Mềm Quản Lý và Hệ Thống Nước
Mỗi CDU đều được trang bị các máy bơm và nguồn điện dự phòng, cho phép thay thế tại chỗ mà không cần tắt toàn bộ giá kệ.
Hệ Thống Quạt và Trao Đổi Nhiệt Sau Cửa
Có thể bạn cũng đã nhìn thấy các quạt trong những bức ảnh này. Các quạt này được sử dụng để làm mát nhiều thành phần bên trong máy chủ, bao gồm DIMM, nguồn điện, bộ quản lý nền tảng thấp công suất (BMC) và các card mạng. Mỗi giá kệ đều cần được cân bằng giữa việc làm mát và nhu cầu nhiệt, tránh việc lắp đặt các bộ xử lý không khí lớn. Các quạt hút không khí lạnh từ phía trước và đẩy không khí nóng ra phía sau máy chủ. Sau đó, không khí nóng này sẽ đi qua các thiết bị trao đổi nhiệt sau cửa.
Quản lý Lưu trữ và Xử lý CPU
Trong quá trình tham quan, một điểm thú vị là một số máy chủ lưu trữ trông rất giống với máy chủ CPU. Điều này không gây ngạc nhiên vì Supermicro là đối tác sản xuất chính cho nhiều nhà cung cấp lưu trữ.

Trong các cụm này, bạn sẽ thấy một lượng đáng kể các nút CPU truyền thống. Đối với các tác vụ xử lý và thao tác dữ liệu, CPU vẫn tỏ ra hiệu quả hơn so với GPU.
Hệ Thống Mạng Siêu Nhanh
Một phần thú vị khác là hệ thống mạng. Công nghệ mạng ở đây giống như công nghệ Ethernet thông thường, nhưng với tốc độ 400GbE, gấp 400 lần so với mạng Ethernet 1Gb thông thường. Mỗi hệ thống có chín đường kết nối như vậy, vì vậy mỗi máy chủ GPU có thể cung cấp khoảng 3.6Tbps băng thông.
Tổng Quan Về Dự Án
Dự án này đòi hỏi rất nhiều thời gian để xử lý sự khác biệt giữa các nhà cung cấp. Việc xây dựng cụm máy tính AI khổng lồ này phụ thuộc vào một nhóm chuyên gia cùng chung mục tiêu xây dựng một hệ thống AI lớn với tốc độ chưa từng có. Nếu chỉ nhìn qua video, bạn có thể không hiểu được mức độ nỗ lực chung của mọi người để hoàn thành dự án quy mô lớn này.