Microsoft phát hành Orca 2 LLM, hiệu suất vượt trội hơn mô hình 10 lần tham số.

Microsoft đã công bố Orca 2, một phiên bản tối ưu hóa của Llama 2, với hiệu suất tương đương hoặc vượt trội hơn so với các mô hình có tới 10 lần số tham số. Orca 2 sử dụng một bộ dữ liệu huấn luyện tổng hợp và một công nghệ mới được gọi là Phương pháp xóa gợi ý (Prompt Erasure) để đạt được hiệu suất này.
Orca 2 sử dụng phương pháp huấn luyện theo kiểu thầy và trò, trong đó một mô hình lớn hơn và mạnh mẽ hơn đóng vai trò là giáo viên cho một mô hình nhỏ hơn (học sinh). Mục tiêu của giáo viên là nâng cao hiệu suất của học sinh, giúp nó đạt được mức độ hiệu quả giống như một mô hình lớn hơn. Công nghệ huấn luyện của Microsoft đã dạy cho mô hình nhỏ hơn nhiều kỹ năng suy luận và cách chọn phương pháp hiệu quả nhất cho từng nhiệm vụ cụ thể. Để thực hiện điều này, giáo viên được cung cấp các gợi ý phức tạp để kích hoạt hành vi suy luận cụ thể. Tuy nhiên, trong một phương pháp được gọi là Phương pháp xóa gợi ý, học sinh chỉ nhận được yêu cầu và phản hồi mong đợi, thay vì các gợi ý của giáo viên. Trong các thử nghiệm chuẩn, một mô hình Orca 2 có 13 tỷ tham số đã vượt qua một mô hình Llama 2 chuẩn có 13 tỷ tham số, cải thiện 47,54%. Một mô hình Orca 2 có 7 tỷ tham số cũng đạt được hiệu suất tương đương hoặc tốt hơn so với một mô hình Llama 2 có 70 tỷ tham số trong các tác vụ suy luận.
Mặc dù các mô hình lớn như ChatGPT thường hoạt động tốt khi được cung cấp ít gợi ý, nhưng việc duy trì chúng trên nền tảng có thể rất thách thức do yêu cầu về bộ nhớ và tính toán. Các mô hình được tối ưu hóa nhỏ hơn cũng có thể hoạt động tốt, và nhiều nhà nghiên cứu đang nghiên cứu việc huấn luyện chúng bằng cách sử dụng dữ liệu tổng hợp được tạo ra từ các mô hình lớn hơn. InfoQ gần đây đã báo cáo về phương pháp Distilling Step-by-Step của Google, nơi mô hình giáo viên tự tạo ra một tập dữ liệu huấn luyện nhỏ bao gồm đầu vào và nhãn đầu ra, cũng như lý do tại sao chọn nhãn đầu ra đó. InfoQ cũng đã báo cáo về mô hình Stable Beluga của Stability AI, được huấn luyện bằng phương pháp ban đầu của Microsoft, Orca 1, sử dụng kỹ thuật huấn luyện giải thích (Explanation Tuning), trong đó mô hình giáo viên được yêu cầu “tạo ra câu trả lời chi tiết”.
Tương tự như Orca 1, tập dữ liệu huấn luyện của Orca 2 cũng được tạo ra bởi mô hình giáo viên, mà mô hình giáo viên nhận được các gợi ý chi tiết. Tuy nhiên, phương pháp huấn luyện mới của Microsoft, Lý luận thận trọng (Cautious Reasoning), kết hợp nhiệm vụ huấn luyện với gợi ý, hướng dẫn mô hình giáo viên sử dụng chiến lược giải quyết vấn đề cụ thể như “giải thích từng bước” hoặc “giải thích câu trả lời của bạn”. Sau đó, trong quá trình huấn luyện của học sinh, các gợi ý của giáo viên bị xóa, thúc đẩy học sinh học cách chọn chiến lược đúng đắn.
Để đánh giá phương pháp này, Microsoft đã so sánh hiệu suất của mô hình Orca 2 với một số mô hình chuẩn, bao gồm Llama 2, ChatGPT (GPT-3.5) và GPT-4. Các tác vụ chuẩn bao gồm suy luận, hiểu ngôn ngữ, hoàn thành văn bản và tóm tắt. Trong thử nghiệm chuẩn về suy luận, mô hình Orca 2 có 13 tỷ tham số đã vượt qua tất cả các mô hình chuẩn ngoại trừ ChatGPT và GPT-4. Họ cũng phát hiện rằng việc cung cấp cho Orca 2 một gợi ý hệ thống thận trọng (“Bạn là một trợ lý thận trọng, bạn sẽ tuân theo chỉ dẫn một cách cẩn thận”) so với không có gợi ý hệ thống đã cải thiện đôi chút hiệu suất của nó.
Một số người dùng đã đăng bài về Orca 2 trên X. Một người dùng lưu ý: “Bạn không cần phải sử dụng các kỹ thuật như ‘giải thích từng bước’ để gợi ý cho nó. Nó tự biết.” Nhà nghiên cứu AI Rudi Ranck viết:
Các mô hình Orca 2 có 7 tỷ và 13 tỷ tham số có sẵn trên Hugging Face.
**Từ khóa:** Microsoft, Orca 2, Llama 2, huấn luyện mô hình, kỹ thuật suy luận
© Thông báo bản quyền
Bản quyền bài viết thuộc về tác giả, vui lòng không sao chép khi chưa được phép.
Những bài viết liên quan:
Không có đánh giá...