Apple cuối cùng đã tham gia vào mô hình lớn: 30 tỷ tham số, cấu trúc MoE, điện thoại sẽ trải qua sự thay đổi lớn?

công nghệ số5tháng trướccập nhật AIANT
47 00





Apple ra mắt mô hình đa phương thức MM1 trong lĩnh vực AI

Apple ra mắt mô hình đa phương thức MM1 trong lĩnh vực AI

Hôm nay, Apple đã công bố thông qua một bài nghiên cứu có tựa đề “MM1: Phương pháp, Phân tích và Kiến thức từ Tiền huấn luyện Mô hình Đa phương thức Lớn (Multimodal Large Language Models, MLLMs)”. Bài nghiên cứu này tập trung vào việc phát triển mô hình MLLMs có quy mô 30 tỷ tham số với hiệu suất cao. Bài viết được nhiều tác giả cùng thực hiện và đã được đăng tải trên nền tảng arXiv.

Apple cuối cùng đã tham gia vào mô hình lớn: 30 tỷ tham số, cấu trúc MoE, điện thoại sẽ trải qua sự thay đổi lớn?

Bài nghiên cứu cho thấy, nhóm nghiên cứu đã phân tích sâu và toàn diện về bộ mã hóa hình ảnh, kết nối hình ảnh – ngôn ngữ và các lựa chọn dữ liệu tiền huấn luyện, từ đó phát hiện ra một số kinh nghiệm thiết kế quan trọng. Ví dụ, họ cho thấy việc sử dụng các cặp hình ảnh – văn bản được pha trộn kỹ lưỡng, tài liệu hình ảnh – văn bản xen kẽ và tài liệu văn bản thuần túy trong quá trình tiền huấn luyện quy mô lớn là chìa khóa để đạt được kết quả hàng đầu (SOTA) trong nhiều bài kiểm tra mẫu nhỏ.

Apple cuối cùng đã tham gia vào mô hình lớn: 30 tỷ tham số, cấu trúc MoE, điện thoại sẽ trải qua sự thay đổi lớn?

Ngoài ra, họ cũng cho thấy rằng kích thước hình ảnh, độ phân giải và số lượng token hình ảnh có ảnh hưởng đáng kể đến hiệu suất, trong khi thiết kế kết nối hình ảnh – ngôn ngữ có ít ảnh hưởng hơn. Qua việc mở rộng công thức được trình bày, họ đã xây dựng chuỗi mô hình đa phương thức MM1, bao gồm cả mô hình dày đặc và biến thể hỗn hợp chuyên gia (MoE), những mô hình này đã đạt được SOTA trong chỉ số tiền huấn luyện và thể hiện khả năng cạnh tranh trong nhiều bài kiểm tra chuẩn đa phương thức sau khi được huấn luyện giám sát.

Apple cuối cùng đã tham gia vào mô hình lớn: 30 tỷ tham số, cấu trúc MoE, điện thoại sẽ trải qua sự thay đổi lớn?

Điều này nhờ vào tiền huấn luyện quy mô lớn, MM1 sở hữu những đặc điểm hấp dẫn như khả năng học ngữ cảnh tăng cường và khả năng suy luận đa hình ảnh, cho phép nó thực hiện suy luận chuỗi tư duy thông qua ít mẫu gợi ý. Bài nghiên cứu này cung cấp chi tiết về phương pháp thử nghiệm của nhóm nghiên cứu:

  • Cấu trúc: Nhóm nghiên cứu đã xem xét nhiều bộ mã hóa hình ảnh tiền huấn luyện và tìm hiểu chiến lược tích hợp khác nhau của chúng với mô hình ngôn ngữ lớn (LLMs).
  • Xử lý dữ liệu: Phân tích loại dữ liệu khác nhau và tầm quan trọng tương đối của chúng trong quá trình huấn luyện mô hình, để xác định trọng số hỗn hợp.
  • Chiến lược huấn luyện: Thảo luận chi tiết về quá trình huấn luyện mô hình lớn đa phương thức (MLLMs), bao gồm cài đặt siêu tham số và phần nào của mô hình nên được huấn luyện khi nào.

Qua các thí nghiệm thực nghiệm và đơn giản hóa trong những lĩnh vực then chốt này, Apple đã đánh giá hiệu suất của mô hình ở các cấu hình khác nhau, cuối cùng xác định được cấu hình mô hình và dữ liệu tối ưu.

Apple cuối cùng đã tham gia vào mô hình lớn: 30 tỷ tham số, cấu trúc MoE, điện thoại sẽ trải qua sự thay đổi lớn?

Công thức cuối cùng cho việc tiền huấn luyện MM1 đa phương thức như sau:

  • Bộ mã hóa hình ảnh: Xem xét đến tầm quan trọng của độ phân giải hình ảnh, Apple đã sử dụng mô hình ViT-H được tiền huấn luyện mục tiêu CLIP trên DFN-5B với độ phân giải 378x378px.
  • Kết nối hình ảnh – ngôn ngữ: Do số lượng token hình ảnh quan trọng nhất, Apple đã sử dụng kết nối VL với 144 token. Thực tế, cấu trúc thực sự có ít ảnh hưởng hơn, Apple đã chọn C-Abstractor.
  • Dữ liệu: Để duy trì hiệu suất không mẫu và mẫu nhỏ, Apple đã sử dụng dữ liệu được pha trộn kỹ lưỡng sau đây: 45% tài liệu hình ảnh – văn bản xen kẽ, 45% tài liệu hình ảnh – văn bản và 10% tài liệu văn bản thuần túy.

Việc đầu tư và khám phá của Apple trong lĩnh vực trí tuệ nhân tạo (AI) luôn là tâm điểm chú ý của ngành công nghệ. Năm ngoái, thành viên chủ chốt của đội ngũ phát triển mô hình AI lớn của Apple đã công khai tiết lộ, cho thấy tham vọng và nỗ lực của họ trong lĩnh vực này.

Trong sự lãnh đạo của Arthur Van Hoff, John Giannandre, Ruoming Pang và các chuyên gia công nghệ khác, Apple đã thành công trong việc phát triển mô hình Ajax GPT với hơn 200 tỷ tham số. Theo báo cáo, Apple dự định tăng ngân sách nghiên cứu và phát triển AI lên hàng triệu đô la mỗi ngày.

Năm nay, Apple đã tăng cường sự chú ý và đầu tư vào AI sinh sản (GenAI). Đặc biệt, tại cuộc họp cổ đông của Apple năm 2024, Giám đốc điều hành Tim Cook đã tuyên bố rằng công ty dự kiến sẽ đạt được những thành tựu đáng kể trong lĩnh vực GenAI. Ngoài ra, với quyết định ngừng dự án sản xuất xe hơi kéo dài 10 năm, một số thành viên nhóm đã bắt đầu chuyển hướng sang nghiên cứu GenAI.

Thời đại của mô hình lớn đánh dấu một kỷ nguyên mới trong công nghệ trí tuệ nhân tạo. Với việc công bố mô hình MM1, Apple đã thể hiện rõ kết quả nghiên cứu trong lĩnh vực AI đa phương thức, không chỉ thể hiện sức mạnh về đổi mới công nghệ mà còn đặt nền móng vững chắc cho các ứng dụng tương lai. Sự đầu tư sâu sắc của Apple vào AI sinh sản, đặc biệt là trong việc phát triển mô hình đa phương thức lớn, không chỉ phản ánh xu hướng công nghệ hiện tại mà còn là sự tiên đoán về các ứng dụng thông minh trong tương lai.

Qua việc tích hợp khả năng xử lý hình ảnh và ngôn ngữ, mô hình MM1 có thể đóng vai trò quan trọng trong nhiều lĩnh vực, bao gồm nhưng không giới hạn ở thực tế tăng cường (AR), trợ lý ảo, sáng tạo nội dung, giáo dục và giải trí.

Bên cạnh đó, tiến bộ trong nghiên cứu về mô hình lớn đa phương thức của Apple cũng có thể mang lại sự cải cách đổi mới cho dòng sản phẩm của họ. Ví dụ, chức năng của Siri có thể được mở rộng đáng kể và cải thiện bằng cách tích hợp mô hình MM1, cho phép nó không chỉ xử lý lệnh bằng giọng nói mà còn hiểu và tạo ra nội dung hình ảnh, cung cấp cho người dùng trải nghiệm tương tác phong phú và trực quan hơn. Đồng thời, điều này cũng mở ra những khả năng mới cho sản phẩm của Apple trong lĩnh vực nhà thông minh, giáo dục công nghệ và giải trí, giúp cung cấp các dịch vụ thông minh và đa dạng hơn.

Trong lĩnh vực cạnh tranh này, nhiều bên tham gia đang thể hiện sức mạnh của mình. Ai sẽ nổi bật và trở thành người dẫn đầu ngành, điều này thật thú vị và đáng để chúng ta theo dõi.

Từ khóa:

  • AI
  • Apple
  • Mô hình đa phương thức
  • SOTA
  • GenAI


© Thông báo bản quyền

Những bài viết liên quan:

Chưa có đánh giá nào

none
Không có đánh giá...