Tiến triển mới trong tối ưu hóa suy diễn mô hình lớn: Nhận định từ các chuyên gia của Nvidia, Alibaba, Tencent và Zero One Wanwu | AICon.

công nghệ số5tháng trướccập nhật AIANT
42 00

Giải pháp tối ưu hóa suy luận cho mô hình lớn

Việc xuất hiện của các mô hình lớn đã tạo ra động lực mới cho sự phát triển kinh tế, nhưng chúng cũng đối mặt với nhiều thách thức trong quá trình huấn luyện và suy luận. Những thách thức này bao gồm nhu cầu tài nguyên tính toán khổng lồ, hạn chế song song, kích thước mô hình và độ khó huấn luyện, chất lượng dữ liệu, tiêu thụ năng lượng và tốc độ suy luận, thiếu hụt sức mạnh tính toán, khó khăn trong xử lý dữ liệu, sự chuyển đổi về tư duy và chi phí cao.

Để cung cấp thêm cơ hội suy nghĩ và tham khảo cho ngành công nghiệp, chúng tôi đã tổ chức Hội nghị AICon toàn cầu về Phát triển và Áp dụng Trí tuệ Nhân tạo, đặc biệt thiết lập chuyên đề “Tối ưu hóa suy luận cho mô hình lớn”. Chuyên đề này do Giáo sư Lin Wei của Alibaba làm chủ biên, nhằm mang đến cho khán giả những bài giảng nghiêm túc và đầy cảm hứng. Chúng tôi đã mời bốn giáo sư chia sẻ, những bài giảng tuyệt vời của họ sẽ mang lại cho người nghe suy nghĩ sâu sắc và nhiều lợi ích.

Chúng tôi rất vui được chào đón Lý Thâm, chuyên gia thuật toán cấp cao của Alibaba Cloud, là khách mời đầu tiên chia sẻ. Với hơn 10 năm kinh nghiệm trong việc nén mô hình và tối ưu hóa suy luận, ông là Tech Leader của hệ thống mô hình của nền tảng AI PAI của Alibaba Cloud. Trong bài giảng chuyên đề này, Lý Thâm sẽ giới thiệu khung triển khai hiệu suất cao BladeLLM của Alibaba Cloud. Khung triển khai hiệu suất cao BladeLLM được xây dựng dựa trên tích lũy công nghệ và kinh nghiệm thực tế của nền tảng AI PAI của Alibaba Cloud. Khung này không chỉ đáp ứng yêu cầu phức tạp về cảnh quan, quy mô tài nguyên và chỉ số hiệu suất trong việc triển khai dịch vụ trực tuyến của mô hình lớn, mà còn tương thích với hệ sinh thái của mô hình lớn, cung cấp giao diện linh hoạt và dễ sử dụng.

Trong bài giảng, Lý Thâm sẽ thảo luận về các thách thức chính trong việc tối ưu hóa triển khai dịch vụ mô hình lớn và kiến trúc cùng công nghệ tối ưu cốt lõi của BladeLLM. Công nghệ này bao gồm tối ưu hóa tác tử hiệu suất cao và tối ưu hóa biên dịch AI, nén mô hình và tối ưu hóa thuật toán, tối ưu hóa ngữ cảnh dài, cung cấp giải pháp tối ưu hóa hiệu suất đa lớp kết hợp. Qua chia sẻ của ông, người nghe sẽ hiểu rõ về các rào cản và thách thức kỹ thuật chính trong việc triển khai dịch vụ mô hình lớn, khám phá các phương pháp chính để tối ưu hóa triển khai mô hình lớn và tìm hiểu sâu hơn về thực tiễn triển khai sản xuất quy mô lớn của dịch vụ trực tuyến mô hình lớn.

Khách mời thứ hai tham dự chuyên đề này là Lý Mưu, chuyên gia thuật toán cấp cao của Zero One Wanwu. Ông từng giữ vị trí chuyên gia kỹ thuật tại Đạo Mạc Viện của Alibaba và bộ phận sản phẩm dịch vụ AI của Huawei Cloud, hiện đang đảm nhiệm vị trí quản lý dịch vụ suy luận trực tuyến của mô hình lớn tại Zero One Wanwu. Trong bài giảng chuyên đề này, ông sẽ thảo luận về cách tối ưu hóa kỹ thuật khi gặp phải rào cản về sức mạnh tính toán trong quá trình suy luận của mô hình lớn. Cùng với sự phát triển không ngừng của mô hình ngôn ngữ lớn, số lượng tham số và chiều dài chuỗi tăng theo cấp số nhân, vì vậy thách thức về sức mạnh tính toán ngày càng nghiêm trọng. Ông sẽ giới thiệu chi tiết các phương pháp tối ưu hóa kỹ thuật được sử dụng trong quá trình xây dựng dịch vụ suy luận trực tuyến của mô hình Yi tại Zero One Wanwu. Qua chia sẻ của ông, người nghe sẽ hiểu rõ về rào cản về sức mạnh tính toán và các phương pháp tối ưu hóa kỹ thuật chính trong quá trình suy luận của mô hình lớn, cũng như xu hướng phát triển tương lai của các ứng dụng mô hình lớn.

Chúng tôi rất vui được chào đón Dương Quân, Giám đốc kỹ thuật cấp cao của NVIDIA, là khách mời đặc biệt của chuyên đề này. Là người phụ trách bộ phận kiến trúc tính toán AI của NVIDIA, ông tập trung vào công nghệ tối ưu hóa toàn bộ hệ thống AI. Trong bài giảng chuyên đề này, ông sẽ chia sẻ về chủ đề “TensorRT-LLM: Quá khứ, Hiện tại và Tương lai”.

Dự án TensorRT-LLM bắt nguồn từ nhu cầu cấp bách về tối ưu hóa suy luận cho mô hình ngôn ngữ lớn. Trong quá trình tiến hóa và cải tiến, nhóm đã liên tục suy nghĩ về thiết kế, khám phá giải pháp tốt nhất để đáp ứng nhu cầu ngày càng tăng. Nguyên tắc cốt lõi của thiết kế hiện tại sẽ là trọng tâm của bài giảng của ông, ông sẽ thảo luận sâu về ý tưởng và thực hiện kỹ thuật đằng sau giải pháp này. Ngoài ra, Dương Quân cũng sẽ giới thiệu sơ lược về kế hoạch tương lai của TensorRT-LLM, nhìn nhận hướng đi và xu hướng phát triển của dự án trong lĩnh vực tối ưu hóa suy luận mô hình lớn. Qua chia sẻ của ông, người nghe sẽ có cái nhìn sâu sắc hơn về dự án TensorRT-LLM, khám phá con đường tiến hóa và giá trị của nó trong quá khứ, hiện tại và tương lai.

Khách mời thứ tư của chúng tôi là Lưu Kha, kỹ sư cấp cao của Tencent. Là người chịu trách nhiệm về suy luận mô hình hỗn hợp của Tencent, ông có nhiều kinh nghiệm trong việc tối ưu hóa nén mô hình và đẩy nhanh suy luận, đã dẫn dắt đội ngũ hoàn thành việc xây dựng khung nén & suy luận mô hình từ đầu. Trong bài giảng chuyên đề này, Lưu Kha sẽ chia sẻ về chủ đề “Tài xế Thái Cực giúp mô hình lớn tạo ra hiệu quả cao”.

Với sự phát triển nhanh chóng của công nghệ AI tạo ra, kích thước mô hình ngày càng lớn, cấu trúc cũng từ Dense chuyển sang MoE. Trong bối cảnh này, hiệu suất, thông lượng và chi phí của ứng dụng mô hình lớn trở thành điểm nhấn. Ông sẽ giới thiệu khung suy luận Angel-HCF và khung nén Angel-SNIP do nền tảng học máy Thái Cực của Tencent nghiên cứu, để hỗ trợ tối ưu hóa các lĩnh vực AI tạo ra như văn bản từ văn bản, văn bản từ hình ảnh, văn bản từ video, đa phương tiện, giúp mô hình hỗn hợp của Tencent mở rộng ứng dụng toàn diện trong công ty.

Lưu Kha sẽ thảo luận sâu về các thách thức và phương pháp tối ưu hóa thông thường trong công nghệ AI tạo ra, tập trung vào khung suy luận mô hình lớn Angel-HCF và khung nén mô hình lớn Angel-SNIP của Thái Cực. Qua chia sẻ của ông, người nghe sẽ hiểu rõ về các thách thức công nghệ và phương pháp tối ưu hóa trong công nghệ AI tạo ra, chi tiết về kỹ thuật đẩy nhanh suy luận mô hình lớn, cũng như phương pháp và phát triển tiếp theo của kỹ thuật nén mô hình.

Tiến triển mới trong tối ưu hóa suy diễn mô hình lớn: Nhận định từ các chuyên gia của Nvidia, Alibaba, Tencent và Zero One Wanwu | AICon.Tiến triển mới trong tối ưu hóa suy diễn mô hình lớn: Nhận định từ các chuyên gia của Nvidia, Alibaba, Tencent và Zero One Wanwu | AICon.

Từ khóa:

  • Mô hình lớn
  • Tối ưu hóa suy luận
  • TensorRT-LLM
  • Angel-HCF
  • Angel-SNIP
© Thông báo bản quyền

Những bài viết liên quan:

Chưa có đánh giá nào

none
Không có đánh giá...