Đội ngũ mô hình lớn của Xiaohongshu khám phá và thực hành: Từ 0 đến 1 xây dựng khung RLHF tự phát triển.

Phát triển Hệ thống RLHF cho Mô hình Ngôn ngữ Đa mô thức

Trong sự phát triển nhanh chóng của công nghệ trí tuệ nhân tạo, các mô hình ngôn ngữ đa mô thức (MLLM) đã trở thành một lực lượng quan trọng trong việc thúc đẩy quá trình số hóa. Tuy nhiên, làm thế nào để đầu ra của những mô hình này trở nên gần gũi hơn với con người và phù hợp với sở thích của con người vẫn là một vấn đề cần giải quyết.

Để đối phó với thách thức này, phương pháp học tăng cường dựa trên tín hiệu phản hồi từ con người (RLHF) đã được áp dụng, trong đó thuật toán PPO (Proximal Policy Optimization) của OpenAI đóng vai trò then chốt.

Nhóm nghiên cứu của Xiaohongshu đã bắt đầu hành trình phát triển khung đào tạo RLHF tự chế. Họ hiểu rằng để xây dựng một hệ thống RLHF hiệu quả và chính xác, họ cần xem xét nhiều yếu tố như tối ưu hóa thuật toán, cấu trúc hệ thống, lịch trình đào tạo và động cơ suy luận.

Tại hội nghị QCon Thượng Hải 2024, chuyên gia kỹ thuật kỳ cựu Yu Ziqi đã trình bày về sự khám phá, thiết kế và tối ưu hóa chi tiết của khung RLHF. Anh ấy cũng chia sẻ về kế hoạch tương lai và những khó khăn trong thực tế, như độ phức tạp cao của tài nguyên cần thiết cho thuật toán PPO và độ nhạy của độ chính xác huấn luyện.

Yu Ziqi là chuyên gia kỹ thuật kỳ cựu tại Xiaohongshu và là người chịu trách nhiệm về khung RLHF tự chế. Ông chủ yếu tập trung vào việc xây dựng hệ thống RLHF từ scratch và tối ưu hóa hiệu suất huấn luyện và suy luận, giúp đội ngũ đạt được lợi ích từ mô hình cuối cùng.

Yu Ziqi: RLHF là một phần quan trọng của mô hình lớn, bao gồm cả mô hình ngôn ngữ đơn văn bản hoặc đa mô thức. Mục đích chính là tối ưu hóa mô hình thông qua phản hồi từ con người, giảm thiểu ảo tưởng và tăng cường khả năng tổng quát hóa. Chúng tôi đã phát triển khung tự chế vì các phiên bản nguồn mở ban đầu không đáp ứng nhu cầu kinh doanh của chúng tôi.

Yu Ziqi: Thuật toán PPO (Proximal Policy Optimization) là một thuật toán kinh điển trong lĩnh vực học tăng cường, được áp dụng trong lĩnh vực mô hình ngôn ngữ lớn. PPO có thể tạo dữ liệu trực tuyến, có không gian khám phá lớn hơn và hiệu quả thuật toán tốt hơn là lý do chính khiến nó được đón nhận rộng rãi.

Yu Ziqi: Cấu trúc đồng nhất dựa trên hai mô hình tương tự, thông qua cách offload, có thể hoàn thành việc chuyển đổi giữa hai mô hình. Điều này cho phép chúng ta thực hiện huấn luyện song song, giảm bớt nhu cầu về bộ nhớ và cải thiện hiệu suất.

Yu Ziqi: Pipeline chính là cách tối ưu hóa quy trình tạo trải nghiệm, giúp tận dụng tối đa mỗi GPU và giảm bớt các khoảng trống trong quá trình huấn luyện.

Yu Ziqi: Độ chính xác của mô hình đánh giá (RM) rất quan trọng để đảm bảo hiệu quả huấn luyện. Việc đối chiếu độ chính xác này thông qua việc sử dụng cùng một khung huấn luyện và suy luận giúp đảm bảo kết quả không bị biến dạng.

Yu Ziqi: Một thuật toán mới, Medusa, đã được giới thiệu nhằm tăng tốc độ giải mã và cải thiện hiệu suất tổng thể. Medusa giúp giảm thời gian giải mã và tăng tốc độ giải mã lên đến 1,5 lần.

Yu Ziqi: Chúng tôi đang hướng tới việc tối ưu hóa tốc độ huấn luyện và khám phá các thuật toán mới. Việc này bao gồm việc tối ưu hóa cấu trúc huấn luyện và suy luận, cũng như cải tiến các thuật toán suy luận.

Yu Ziqi: Khung RLHF tự chế mà nhóm của chúng tôi đã phát triển là một trong những khung hàng đầu trên thị trường. Chúng tôi tin rằng việc tiếp tục phát triển và tối ưu hóa khung này sẽ giúp chúng tôi tiếp tục cải tiến và khám phá mô hình lớn hơn trong tương lai.

Đội ngũ mô hình lớn của Xiaohongshu khám phá và thực hành: Từ 0 đến 1 xây dựng khung RLHF tự phát triển.

### Từ khóa:
– Trí tuệ nhân tạo
– Mô hình ngôn ngữ đa mô thức
– Học tăng cường dựa trên phản hồi con người
– Proximal Policy Optimization
– Suy luận tự chế

công nghệ số

Bản quyền bài viết thuộc về tác giả, vui lòng không sao chép khi chưa được phép.

Những bài viết liên quan:

Nhà khoa học hàng đầu của Nvidia từ chức trong thời điểm cổ phiếu đạt đỉnh: Mặc dù nắm giữ khối tài sản lớn, nhưng tôi cảm thấy tiếc nuối về công việc của mình.

công nghệ số

7tháng trước

0520

Một công ty robot phát điểm thay cho lương; nhân viên JD tăng lương gần 100%; Musk phản hồi về tin đồn Tesla robot gây thương tích: Truyền thông thật đáng xấu hổ | Tin tức tuần về AI.

công nghệ số

7tháng trước

0600

AI có phải là tăng cường hiệu suất hay gây ra làn sóng thất nghiệp? | Dự đoán trúng thưởng.

công nghệ số

7tháng trước

0530

Thế hệ “người máy” mới không thông minh, làm thế nào để ô tô trở nên thông minh? | Thời gian Geek.

công nghệ số

7tháng trước

0570

Chưa có đánh giá nào

Không có đánh giá...

Đội ngũ mô hình lớn của Xiaohongshu khám phá và thực hành: Từ 0 đến 1 xây dựng khung RLHF tự phát triển.

Phát triển Hệ thống RLHF cho Mô hình Ngôn ngữ Đa mô thức

Phát hành ngay lập tức đã bị sao chép? Mô hình tạo giọng nói của ByteDance bị “đạo nhái” chỉ vài giờ sau khi ra mắt, tác giả cảm thấy thật vô lý!

Dưới sức ép từ hiệu quả bán lẻ và trải nghiệm, AGI có đủ khả năng vượt qua rào cản về mức độ chấp nhận của người dùng và chi phí không? | Dự đoán của các nhà phân tích.

Những bài viết liên quan:

Nhà khoa học hàng đầu của Nvidia từ chức trong thời điểm cổ phiếu đạt đỉnh: Mặc dù nắm giữ khối tài sản lớn, nhưng tôi cảm thấy tiếc nuối về công việc của mình.

Một công ty robot phát điểm thay cho lương; nhân viên JD tăng lương gần 100%; Musk phản hồi về tin đồn Tesla robot gây thương tích: Truyền thông thật đáng xấu hổ | Tin tức tuần về AI.

AI có phải là tăng cường hiệu suất hay gây ra làn sóng thất nghiệp? | Dự đoán trúng thưởng.

Thế hệ “người máy” mới không thông minh, làm thế nào để ô tô trở nên thông minh? | Thời gian Geek.

Chưa có đánh giá nào

Tin tức mới nhất

Đội ngũ mô hình lớn của Xiaohongshu khám phá và thực hành: Từ 0 đến 1 xây dựng khung RLHF tự phát triển.

Phát triển Hệ thống RLHF cho Mô hình Ngôn ngữ Đa mô thức

Phát hành ngay lập tức đã bị sao chép? Mô hình tạo giọng nói của ByteDance bị “đạo nhái” chỉ vài giờ sau khi ra mắt, tác giả cảm thấy thật vô lý!

Dưới sức ép từ hiệu quả bán lẻ và trải nghiệm, AGI có đủ khả năng vượt qua rào cản về mức độ chấp nhận của người dùng và chi phí không? | Dự đoán của các nhà phân tích.

Những bài viết liên quan:

Nhà khoa học hàng đầu của Nvidia từ chức trong thời điểm cổ phiếu đạt đỉnh: Mặc dù nắm giữ khối tài sản lớn, nhưng tôi cảm thấy tiếc nuối về công việc của mình.

Một công ty robot phát điểm thay cho lương; nhân viên JD tăng lương gần 100%; Musk phản hồi về tin đồn Tesla robot gây thương tích: Truyền thông thật đáng xấu hổ | Tin tức tuần về AI.

AI có phải là tăng cường hiệu suất hay gây ra làn sóng thất nghiệp? | Dự đoán trúng thưởng.

Thế hệ “người máy” mới không thông minh, làm thế nào để ô tô trở nên thông minh? | Thời gian Geek.

Chưa có đánh giá nào

Tin tức mới nhất

Nhãn

Nhãn