Đội ngũ mô hình lớn của Xiaohongshu khám phá và thực hành: Từ 0 đến 1 xây dựng khung RLHF tự phát triển.

công nghệ số5tháng trướccập nhật AIANT
41 00





Phát triển Hệ thống RLHF cho Mô hình Ngôn ngữ Đa mô thức

Phát triển Hệ thống RLHF cho Mô hình Ngôn ngữ Đa mô thức

Đội ngũ mô hình lớn của Xiaohongshu khám phá và thực hành: Từ 0 đến 1 xây dựng khung RLHF tự phát triển.

Trong sự phát triển nhanh chóng của công nghệ trí tuệ nhân tạo, các mô hình ngôn ngữ đa mô thức (MLLM) đã trở thành một lực lượng quan trọng trong việc thúc đẩy quá trình số hóa. Tuy nhiên, làm thế nào để đầu ra của những mô hình này trở nên gần gũi hơn với con người và phù hợp với sở thích của con người vẫn là một vấn đề cần giải quyết.

Để đối phó với thách thức này, phương pháp học tăng cường dựa trên tín hiệu phản hồi từ con người (RLHF) đã được áp dụng, trong đó thuật toán PPO (Proximal Policy Optimization) của OpenAI đóng vai trò then chốt.

Nhóm nghiên cứu của Xiaohongshu đã bắt đầu hành trình phát triển khung đào tạo RLHF tự chế. Họ hiểu rằng để xây dựng một hệ thống RLHF hiệu quả và chính xác, họ cần xem xét nhiều yếu tố như tối ưu hóa thuật toán, cấu trúc hệ thống, lịch trình đào tạo và động cơ suy luận.

Tại hội nghị QCon Thượng Hải 2024, chuyên gia kỹ thuật kỳ cựu Yu Ziqi đã trình bày về sự khám phá, thiết kế và tối ưu hóa chi tiết của khung RLHF. Anh ấy cũng chia sẻ về kế hoạch tương lai và những khó khăn trong thực tế, như độ phức tạp cao của tài nguyên cần thiết cho thuật toán PPO và độ nhạy của độ chính xác huấn luyện.

Yu Ziqi là chuyên gia kỹ thuật kỳ cựu tại Xiaohongshu và là người chịu trách nhiệm về khung RLHF tự chế. Ông chủ yếu tập trung vào việc xây dựng hệ thống RLHF từ scratch và tối ưu hóa hiệu suất huấn luyện và suy luận, giúp đội ngũ đạt được lợi ích từ mô hình cuối cùng.

Yu Ziqi: RLHF là một phần quan trọng của mô hình lớn, bao gồm cả mô hình ngôn ngữ đơn văn bản hoặc đa mô thức. Mục đích chính là tối ưu hóa mô hình thông qua phản hồi từ con người, giảm thiểu ảo tưởng và tăng cường khả năng tổng quát hóa. Chúng tôi đã phát triển khung tự chế vì các phiên bản nguồn mở ban đầu không đáp ứng nhu cầu kinh doanh của chúng tôi.

Yu Ziqi: Thuật toán PPO (Proximal Policy Optimization) là một thuật toán kinh điển trong lĩnh vực học tăng cường, được áp dụng trong lĩnh vực mô hình ngôn ngữ lớn. PPO có thể tạo dữ liệu trực tuyến, có không gian khám phá lớn hơn và hiệu quả thuật toán tốt hơn là lý do chính khiến nó được đón nhận rộng rãi.

Yu Ziqi: Cấu trúc đồng nhất dựa trên hai mô hình tương tự, thông qua cách offload, có thể hoàn thành việc chuyển đổi giữa hai mô hình. Điều này cho phép chúng ta thực hiện huấn luyện song song, giảm bớt nhu cầu về bộ nhớ và cải thiện hiệu suất.

Yu Ziqi: Pipeline chính là cách tối ưu hóa quy trình tạo trải nghiệm, giúp tận dụng tối đa mỗi GPU và giảm bớt các khoảng trống trong quá trình huấn luyện.

Yu Ziqi: Độ chính xác của mô hình đánh giá (RM) rất quan trọng để đảm bảo hiệu quả huấn luyện. Việc đối chiếu độ chính xác này thông qua việc sử dụng cùng một khung huấn luyện và suy luận giúp đảm bảo kết quả không bị biến dạng.

Yu Ziqi: Một thuật toán mới, Medusa, đã được giới thiệu nhằm tăng tốc độ giải mã và cải thiện hiệu suất tổng thể. Medusa giúp giảm thời gian giải mã và tăng tốc độ giải mã lên đến 1,5 lần.

Yu Ziqi: Chúng tôi đang hướng tới việc tối ưu hóa tốc độ huấn luyện và khám phá các thuật toán mới. Việc này bao gồm việc tối ưu hóa cấu trúc huấn luyện và suy luận, cũng như cải tiến các thuật toán suy luận.

Yu Ziqi: Khung RLHF tự chế mà nhóm của chúng tôi đã phát triển là một trong những khung hàng đầu trên thị trường. Chúng tôi tin rằng việc tiếp tục phát triển và tối ưu hóa khung này sẽ giúp chúng tôi tiếp tục cải tiến và khám phá mô hình lớn hơn trong tương lai.

Đội ngũ mô hình lớn của Xiaohongshu khám phá và thực hành: Từ 0 đến 1 xây dựng khung RLHF tự phát triển.
Đội ngũ mô hình lớn của Xiaohongshu khám phá và thực hành: Từ 0 đến 1 xây dựng khung RLHF tự phát triển.

### Từ khóa:
– Trí tuệ nhân tạo
– Mô hình ngôn ngữ đa mô thức
– Học tăng cường dựa trên phản hồi con người
– Proximal Policy Optimization
– Suy luận tự chế

© Thông báo bản quyền

Những bài viết liên quan:

Chưa có đánh giá nào

none
Không có đánh giá...