Bài phát biểu của chuyên gia thuật toán Lý Mưu về tối ưu hóa mô hình ngôn ngữ lớn
Kể từ khi OpenAI công bố ChatGPT, hiệu ứng ấn tượng từ mô hình ngôn ngữ lớn đã thu hút sự quan tâm ngày càng tăng từ cộng đồng và vốn đầu tư. Trong những năm gần đây, số lượng tham số và độ dài chuỗi trong các mô hình này đã tăng theo cấp số nhân, dẫn đến vấn đề giới hạn về tính toán.
Tại Hội nghị Toàn cầu về Phát triển và Ứng dụng Trí tuệ Nhân tạo (AICon) và Triển lãm Sinh thái Ứng dụng Mô hình Lớn 2024, InfoQ đã mời chuyên gia thuật toán Lý Mưu trình bày bài phát biểu chia sẻ. Ông sẽ trình bày chi tiết về các kỹ thuật tối ưu hóa được sử dụng bởi Zero One Wanyi trong quá trình xây dựng dịch vụ suy luận trực tuyến cho mô hình Yi.
Nhu cầu về tính toán trong mô hình lớn
Mô hình lớn chủ yếu dựa trên cấu trúc mạng lưới truyền cảm biến (Transformer), với nhiều khối Transformer được nối tiếp. Điểm đặc biệt là cấu trúc mạng đơn giản nhưng số lượng tham số rất lớn. Các mô hình truyền thống, bao gồm mạng nơron convolutional (CNN), xử lý ngôn ngữ tự nhiên (NLP), và nhận dạng giọng nói (ASR), có cấu trúc phức tạp và nhiều loại phép toán khác nhau.
Tối ưu hóa suy luận phân tán song song
Các kỹ thuật tối ưu hóa suy luận phân tán song song chủ yếu bao gồm song song tensor (tensor parallelism) và song song ngữ cảnh (context parallelism). Đây là cách để chia nhỏ các thông số theo chiều của mô hình và chiều của chuỗi đầu vào, nhằm đạt được tốc độ tính toán nhanh hơn bằng cách sử dụng nhiều thiết bị cùng một lúc.
Giảm tiêu thụ bộ nhớ
Mô hình lớn tiêu thụ nhiều bộ nhớ chủ yếu do việc tải trọng số mô hình và ma trận Key/Value trong các khối Transformer. Một kỹ thuật phổ biến để giảm tiêu thụ bộ nhớ là lượng tử hóa độ chính xác thấp (low-precision quantization), giúp giảm lượng dữ liệu cần lưu trữ mà vẫn duy trì độ chính xác suy luận. Ngoài ra, quản lý bộ nhớ phân trang (paged attention) cũng giúp tối ưu hóa việc sử dụng bộ nhớ.
Phân tích và lựa chọn phần cứng
Việc sử dụng phần cứng phù hợp phụ thuộc vào mức độ phức tạp của tác vụ. Ví dụ, đối với mô hình Yi-34B, hai cụm phần cứng (phiên bản thấp cấp / phiên bản cao cấp) đã được triển khai, mỗi cụm phục vụ các yêu cầu cụ thể của người dùng, nhằm cân nhắc giữa trải nghiệm người dùng, áp lực dịch vụ và chi phí.
Thách thức và xu hướng tương lai
Một số thách thức chính bao gồm việc thiếu hệ sinh thái mạnh mẽ cho các chip chuyên dụng và vấn đề cung cấp điện tại khu vực cụ thể do quy mô mở rộng của cụm tính toán. Tuy nhiên, nhu cầu tăng cao về trí tuệ nhân tạo và mô hình lớn đang thúc đẩy sự phát triển của công nghệ năng lượng sạch và hiệu quả.