Căng thẳng tột độ! Mô hình mã nguồn mở mạnh nhất Llama 3 ra mắt, tham số tối đa 400 tỷ, Zuckerberg thầm nghĩ: Mô hình lớn hấp dẫn hơn cả metaverse.
Giới thiệu về Llama 3 – Mô hình ngôn ngữ tiên tiến của Meta

Llama 3 – Mô hình Ngôn ngữ Tiên tiến của Meta
Bài viết bởi: Đỗ Mai
Ngày đăng: 19 tháng 4 năm 2024
Vào ngày 19 tháng 4, Meta đã chính thức công bố thế hệ tiếp theo của mô hình ngôn ngữ lớn mở nguồn tiên tiến nhất của họ – Llama 3. Được huấn luyện trên một cụm 24.000 GPU, mô hình này sử dụng hơn 15T dữ liệu, cung cấp các phiên bản tiền huấn luyện và huấn luyện chỉ thị với 8 tỷ và 700 tỷ tham số.
Theo thông tin từ blog chính thức của Meta, nhờ những cải tiến trong quá trình tiền huấn luyện và hậu huấn luyện, mô hình tiền huấn luyện và huấn luyện chỉ thị của họ hiện đang là tốt nhất trong phạm vi 8 tỷ và 700 tỷ tham số.
Ngoài ra, việc cải tiến quy trình huấn luyện hậu kỳ đã giúp giảm đáng kể tỷ lệ từ chối lỗi của Llama 3, tăng cường độ phù hợp và đa dạng hóa phản hồi của mô hình. Nhóm nghiên cứu của Meta cũng phát hiện ra rằng khả năng suy luận, tạo mã và tuân thủ chỉ dẫn của Llama 3 đã được cải thiện đáng kể, làm cho mô hình này dễ điều khiển hơn.
Mô hình 8 tỷ tham số của Llama 3 đã thể hiện tốt hơn so với các mô hình như Gemma 7B và Mistral 7B Instruct trên nhiều bảng kiểm tra như MMLU, GPQA và HumanEval. Trong khi đó, mô hình 700 tỷ tham số của Llama 3 vượt qua cả mô hình đóng cửa nổi tiếng Claude 3 Sonnet và không kém gì mô hình Gemini Pro 1.5 của Google về hiệu suất.

Bên cạnh đó, Meta cũng đã kiểm tra hiệu suất của Llama 3 trong các tình huống thực tế. Họ đã phát triển một bộ đánh giá mới chất lượng cao bao gồm 1.800 gợi ý, bao phủ 12 trường hợp sử dụng quan trọng như đưa ra lời khuyên, tư duy sáng tạo, phân loại, giải đáp câu hỏi đóng kín, tạo mã, viết sáng tạo, trích xuất, xây dựng nhân vật, giải đáp câu hỏi mở, suy luận, sửa đổi và tóm tắt.

Kết quả cho thấy, mô hình chỉ thị 700 tỷ tham số của Llama 3 có hiệu suất mạnh mẽ trong môi trường thực tế, tương đương với các mô hình cạnh tranh cùng kích thước.
Meta cũng tiết lộ rằng họ đang phát triển một phiên bản của Llama 3 với hơn 4000 tỷ tham số, trực tiếp thách thức mô hình Claude 3.
Cách Llama 3 được tạo ra
Để đạt được hiệu suất xuất sắc, Llama 3 dựa vào bốn yếu tố chính: kiến trúc mô hình, dữ liệu huấn luyện, mở rộng quy mô huấn luyện và huấn luyện chỉ thị.
Kiến trúc mô hình của Llama 3 sử dụng một kiến trúc Transformer mã hóa giải mã chuẩn, với một tokenizer 128K token, giúp mã hóa ngôn ngữ hiệu quả hơn và cải thiện hiệu suất tổng thể. Để tăng hiệu quả suy luận, Meta đã áp dụng phương pháp nhóm truy vấn chú tâm (GQA) trên cả hai mô hình 8 tỷ và 700 tỷ tham số.
Việc lựa chọn dữ liệu huấn luyện cũng rất quan trọng. Llama 3 được huấn luyện trên hơn 15T token, gấp bảy lần so với Llama 2, và chứa bốn lần mã hơn so với Llama 2. Hơn 5% dữ liệu huấn luyện là dữ liệu phi Anh ngữ chất lượng cao, bao gồm hơn 30 ngôn ngữ khác nhau.
Để tối ưu hóa quy mô huấn luyện, Meta đã xác định một loạt các quy tắc mở rộng quy mô (scaling laws), giúp họ lựa chọn kết hợp dữ liệu tốt nhất và quyết định cách sử dụng tài nguyên huấn luyện một cách hiệu quả nhất. Việc này cũng giúp họ dự đoán hiệu suất của mô hình lớn nhất trên các tác vụ quan trọng.
Để huấn luyện mô hình lớn nhất, Meta đã kết hợp ba phương pháp song song hóa: song song hóa dữ liệu, song song hóa mô hình và song song hóa pipeline. Họ đã đạt được mức hiệu suất tính toán trên mỗi GPU vượt quá 400 TFLOPS khi huấn luyện trên 16.000 GPU.
Cuối cùng, huấn luyện chỉ thị đã giúp tối ưu hóa mô hình cho các trường hợp sử dụng trò chuyện. Phương pháp huấn luyện sau huấn luyện kết hợp huấn luyện giám sát (SFT), mẫu từ chối, tối ưu hóa chính sách gần đúng (PPO) và tối ưu hóa chính sách trực tiếp (DPO).
Hiện tại, cả hai phiên bản cơ bản và chỉ thị của Llama 3 đều đã được tải lên Hugging Face để tải về. Ngoài ra, Microsoft Azure, Google Cloud, Amazon AWS và Nvidia NIM cũng sẽ lần lượt tung ra Llama 3.
Meta cũng cho biết Llama 3 sẽ nhận được sự hỗ trợ từ nhiều nhà sản xuất phần cứng như Intel, Nvidia, AMD và Qualcomm.
Kết luận
Giới thiệu của Llama 3 đánh dấu một bước tiến quan trọng trong lĩnh vực mô hình ngôn ngữ mở nguồn, giúp Meta duy trì vị thế cạnh tranh trong ngành AI. Mặc dù đối mặt với sự cạnh tranh gay gắt từ các mô hình đóng và các nhà phát triển AI mở khác, Llama 3 vẫn chứng tỏ được sức mạnh và tiềm năng của mình trong việc thúc đẩy đổi mới và an toàn trong lĩnh vực AI.
Từ khóa: Meta, Llama 3, Mô hình Ngôn ngữ, AI, Mở nguồn
© Thông báo bản quyền
Bản quyền bài viết thuộc về tác giả, vui lòng không sao chép khi chưa được phép.
Những bài viết liên quan:
Không có đánh giá...