Alibaba Cloud công bố mô hình mã nguồn mở Qwen2, hiệu suất vượt trội hơn Llama3-70 và nhiều mô hình đóng khác trong nước.

công nghệ số5tháng trướccập nhật AIANT
48 00
Alibaba Cloud công bố mô hình mã nguồn mở Qwen2, hiệu suất vượt trội hơn Llama3-70 và nhiều mô hình đóng khác trong nước.

Alibaba Cloud, thông qua blog công nghệ của mình, đã chính thức ra mắt mô hình Qwen2-72B mở nguồn vào ngày 7 tháng 6, đánh dấu một bước nhảy vọt trong hiệu suất so với mô hình mở nguồn mạnh nhất tại Mỹ là Llama3-70B và các mô hình khác như Wenxin 4.0, DouBao Pro, và Hunyuan Pro. Mọi người đều có thể tải xuống mô hình Qwen mới nhất miễn phí từ cộng đồng ModelScope và Hugging Face.

Theo thông tin từ nhóm phát triển Alibaba Cloud, so với phiên bản Qwen1.5 được giới thiệu vào tháng 2, Qwen2 đã đạt được sự cải tiến toàn diện về hiệu suất. Trong bảng xếp hạng đánh giá mô hình uy tín OpenCompass, Qwen1.5-110B đã vượt qua các mô hình đóng như Wenxin 4.0. Mới đây, Qwen2-72B, với hiệu suất tổng thể được cải thiện đáng kể so với Qwen1.5-110B, đã tiếp tục dẫn đầu trong nhiều đánh giá quốc tế.

Mô hình Qwen2 series đã nâng cao đáng kể khả năng về mã hóa, toán học, suy luận, tuân thủ hướng dẫn, và hiểu biết đa ngôn ngữ. Qwen2-72B đã giành được nhiều giải thưởng hàng đầu thế giới trong các đánh giá quốc tế như MMLU, GPQA, HumanEval, GSM8K, BBH, MT-Bench, Arena Hard, và LiveCodeBench, vượt qua cả mô hình Llama3 của Mỹ.

Qwen2 series bao gồm 5 kích cỡ mô hình tiền huấn luyện và điều chỉnh hướng dẫn, bao gồm Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B (mô hình chuyên gia hỗn hợp), và Qwen2-72B. Tất cả các mô hình này đều sử dụng cơ chế GQA (Grouped Query Attention) để cải thiện tốc độ suy luận và giảm lượng bộ nhớ sử dụng.

Ngoài ra, dữ liệu huấn luyện của Qwen2 còn bao gồm 27 ngôn ngữ khác nhau, giúp tăng cường khả năng đa ngôn ngữ của mô hình. Đồng thời, Qwen2-72B-Instruct có thể xử lý hoàn hảo các tác vụ trích xuất thông tin trong phạm vi lên đến 128k ký tự.

Trong vòng một tháng qua, tổng số lần tải về của mô hình Qwen series đã tăng gấp đôi, vượt quá 16 triệu lượt tải. Hơn 1500 mô hình dựa trên Qwen đã được phát triển lại trong cộng đồng mở nguồn toàn cầu. Mô hình 72B và 110B của Qwen đã nhiều lần đứng đầu bảng xếp hạng mô hình mở nguồn của HuggingFace.

Ngày 7 tháng 6, API của Qwen2 series đã được ra mắt trên nền tảng Baolian của Alibaba Cloud. Nhiều nền tảng và công cụ mở nguồn toàn cầu như TensorRT-LLM, OpenVINO, OpenCompass, XTuner, LLaMA-Factory, Firefly, OpenBuddy, vLLM, và Ollama cũng đã tuyên bố hỗ trợ mô hình mới nhất của Qwen2. Ngoài hệ sinh thái mở nguồn của Mỹ là Llama, Alibaba Cloud đã trở thành lựa chọn chủ lực cho các nhà phát triển toàn cầu.

Alibaba Cloud công bố mô hình mã nguồn mở Qwen2, hiệu suất vượt trội hơn Llama3-70 và nhiều mô hình đóng khác trong nước.
Alibaba Cloud công bố mô hình mã nguồn mở Qwen2, hiệu suất vượt trội hơn Llama3-70 và nhiều mô hình đóng khác trong nước.
Alibaba Cloud công bố mô hình mã nguồn mở Qwen2, hiệu suất vượt trội hơn Llama3-70 và nhiều mô hình đóng khác trong nước.
Alibaba Cloud công bố mô hình mã nguồn mở Qwen2, hiệu suất vượt trội hơn Llama3-70 và nhiều mô hình đóng khác trong nước.

### Từ khóa:
– AI
– Alibaba Cloud
– Mô hình lớn
– Qwen2
– Mô hình mở nguồn

© Thông báo bản quyền

Những bài viết liên quan:

Chưa có đánh giá nào

none
Không có đánh giá...