Hệ sinh thái đóng của Apple mở ra cơ hội cho mô hình lớn! Phát hành mô hình lớn đa mô thức mã nguồn mở, tiêu tốn 1 triệu USD mỗi ngày cho AI, liệu hệ sinh thái Android rời rạc có thể cạnh tranh?

công nghệ số5tháng trướccập nhật AIANT
40 00
Hệ sinh thái đóng của Apple mở ra cơ hội cho mô hình lớn! Phát hành mô hình lớn đa mô thức mã nguồn mở, tiêu tốn 1 triệu USD mỗi ngày cho AI, liệu hệ sinh thái Android rời rạc có thể cạnh tranh?

Apple đã từng không tỏ ra mạnh mẽ trong lĩnh vực các mô hình lớn (LLM), nhưng họ đang liên tục cải thiện hệ thống “cứng phần cứng + phần mềm trí tuệ nhân tạo”. Nếu phiên bản mới của iOS đột nhiên làm cho hộp trò chuyện của OpenAI/Bard trông lỗi thời một cách đáng kể, Apple có thể vượt qua Microsoft/OpenAI và Google. Nếu lượng sử dụng trí tuệ nhân tạo chuyển sang phần cứng của Apple, nó cũng sẽ đe dọa Nvidia, với Arm và TSMC được hưởng lợi.

Một số người dùng mạng xã hội cho rằng Apple đang tập trung vào việc phát triển mô hình lớn để tạo lợi thế cạnh tranh trên thị trường điện thoại di động trong tương lai. Họ tin rằng việc sử dụng mô hình mở cộng với dữ liệu cục bộ trên thiết bị, cụ thể là mô hình ngôn ngữ lớn cục bộ (LLM), là yếu tố quan trọng. Ai chạy tốt hơn trên thiết bị sẽ bán được nhiều hơn. Cụ thể, iPhone/iPad/Mac sở hữu hệ sinh thái dữ liệu cục bộ lớn nhất và đồng nhất nhất, nhiều mô hình ngôn ngữ lớn mở đã có thể chạy trên iPhone, cộng đồng cũng đã tối ưu hóa đáng kể cho chip M1/M2/M3. Trái lại, hệ sinh thái Android dường như không lạc quan: Samsung chiếm phần lớn thị phần, năm nhà sản xuất hàng đầu trong nước cũng chiếm một tỷ lệ đáng kể, Google chỉ chiếm một phần nhỏ, sự phân mảnh khiến việc chạy mô hình chung gặp khó khăn.

Trái ngược với sự tiến bộ mạnh mẽ của Microsoft và các công ty khác trong lĩnh vực mô hình lớn, Apple dường như rất yên lặng. Đặc biệt, một mô hình đa phương thức mở có tên là Ferret do Apple và Đại học Columbia công bố một cách khiêm tốn vào tháng 10 năm 2023 không nhận được nhiều sự chú ý. Khi đó, phiên bản này bao gồm mã và trọng số, nhưng chỉ dành cho mục đích nghiên cứu chứ không phải thương mại.

Tuy nhiên, với sự chú ý ngày càng tăng đối với mô hình mở như Mistral và ứng dụng sắp tới của Google Gemini trên Pixel Pro và Android, cuộc thảo luận về việc hỗ trợ mô hình cục bộ cho thiết bị nhỏ hơn ngày càng tăng. Apple cũng đã công bố những bước đột phá quan trọng trong việc triển khai mô hình lớn trên iPhone. Công ty đã công bố hai bài báo nghiên cứu mới giới thiệu công nghệ mới về avatar 3D và suy luận mô hình ngôn ngữ hiệu quả, được cho là có thể mang lại trải nghiệm trực quan sống động hơn và cho phép hệ thống trí tuệ nhân tạo phức tạp chạy trên các thiết bị tiêu dùng như iPhone và iPad.

Nhiều người trong cộng đồng trí tuệ nhân tạo chỉ mới nhận ra sự ra mắt của Ferret gần đây, họ rất vui mừng vì Apple đột nhiên tham gia vào lĩnh vực mô hình ngôn ngữ lớn mở, bởi vì Apple từ trước đến nay được biết đến với môi trường sinh thái khép kín. Dưới đây là một cái nhìn về dự án mới bắt đầu được tranh luận này.

Nhóm nghiên cứu trong dự án Ferret viết trong bài báo của họ: “Theo chúng tôi, Ferret là kết quả đầu tiên có khả năng xử lý đầu vào khu vực tự do trong mô hình đa phương thức lớn.”

Ferret là một mô hình ngôn ngữ đa phương thức mới với khả năng định vị và trích dẫn. Lý do lựa chọn mô hình đa phương thức cho Ferret là do nó có khả năng hiểu toàn diện về ngôn ngữ và hình ảnh.

Giới thiệu về Ferret, nhóm nghiên cứu cho biết nó chủ yếu bao gồm bộ mã hóa hình ảnh để trích xuất nhúng hình ảnh; bộ lấy mẫu thị giác không gian để trích xuất đặc trưng khu vực liên tục; và mô hình ngôn ngữ lớn để mô hình hóa đồng thời nhúng hình ảnh, văn bản và khu vực.

Khi đưa hình ảnh vào bộ mã hóa hình ảnh tiền huấn luyện CLIP-ViT-L/14, Ferret sẽ trích xuất nhúng hình ảnh Z ∈ R H×W×C. Đối với đầu vào văn bản, bộ mã hóa lớn tiền huấn luyện sẽ đánh dấu chuỗi văn bản và chuyển đổi nó thành nhúng văn bản T ∈ R L×D.

Ngoài việc xử lý các điểm hoặc hình chữ nhật thông thường, nhóm nghiên cứu cần xử lý các hình dạng khu vực khác nhau. Phương pháp dựa trên lưới (ví dụ: tích phân hoặc chú ý đến các đoạn) không thể xử lý hình dạng không đều. Tương tự, điểm đám mây 3D cũng là hình dạng không đều và thể hiện sự khác biệt về độ thưa trong không gian 3D. Nhóm nghiên cứu đã đề xuất một bộ lấy mẫu thị giác không gian dựa trên cảm hứng từ các phương pháp học điểm đám mây 3D hiện tại.

Bộ lấy mẫu thị giác không gian được sử dụng để thu thập đặc trưng thị giác từ bất kỳ hình dạng khu vực nào, đồng thời xem xét sự khác biệt về độ thưa của hình dạng. Trên cơ sở này, nhóm kết hợp tọa độ rời rạc với đặc trưng thị giác liên tục để biểu diễn khu vực thị giác trong đầu vào, tạo nên biểu diễn khu vực hỗn hợp trong Ferret. Nhờ phương pháp này, Ferret có thể xử lý đầu vào kết hợp giữa khu vực và văn bản tự do, và có thể tạo ra tọa độ và văn bản cho mỗi đối tượng có thể định vị một cách liền mạch, từ đó xác định đối tượng được đề cập trong đầu ra.

Để thực hiện định vị, nhóm tạo ra tọa độ khung hình sau các khu vực / danh từ tương ứng trong phản hồi văn bản. Ví dụ: “Trong hình có một con chó [100,150,300,200].” Định dạng dữ liệu này cho phép mô hình học ngầm nội dung có thể định vị và vị trí chính xác trong hình ảnh hiện tại.

Nhóm đã chọn Vicuna làm mô hình ngôn ngữ, một mô hình ngôn ngữ lớn giải mã thuần túy được huấn luyện hướng lệnh trên nền tảng Llama. Trước khi đưa vào mô hình lớn, nhúng hình ảnh được chuyển đổi thông qua lớp tuyến tính bổ sung để phù hợp với kích thước nhúng của văn bản.

Để cung cấp cơ chế trích dẫn mở, tuân theo hướng dẫn và bền vững, nhóm đã biên soạn một tập dữ liệu điều chỉnh trích dẫn và định vị có 1,1 triệu mẫu được gọi là GRIT.

GRIT bao gồm kiến thức không gian ở nhiều cấp độ, bao gồm các đối tượng, mối quan hệ, mô tả khu vực và suy luận phức tạp. GRIT bao gồm ba loại dữ liệu: dữ liệu công khai được chuyển đổi thành định dạng tuân theo chỉ dẫn, dữ liệu điều chỉnh hướng dẫn thu được bằng cách sử dụng ChatGPT và GPT-4, và dữ liệu mẫu âm bổ sung không gian. Hầu hết dữ liệu này được chuyển đổi từ các tác vụ thị giác (ngôn ngữ) hiện có, ví dụ như phát hiện đối tượng và định vị cụm từ.

Ngoài ra, nhóm cho biết 34.000 cuộc trò chuyện điều chỉnh trích dẫn và định vị thu được thông qua việc thu thập dữ liệu từ ChatGPT/GPT-4 có thể giúp hoàn thành hiệu quả việc huấn luyện theo hướng dẫn và trích dẫn / định vị mở. Nhóm cũng đã tiến hành khai thác mẫu âm không gian để tăng cường độ bền vững của mô hình.

Nhóm cũng quan sát thấy rằng mô hình đa phương thức lớn thường tạo ra “ảo tưởng” khi trả lời câu hỏi kiểu có / không. Để khắc phục điều này, nhóm đã tiến hành khai thác mẫu âm tiêu cực thông qua việc định vị danh mục hình ảnh và định vị ngữ nghĩa.

Hai phương pháp này đều yêu cầu mô hình định vị các danh mục đối tượng cụ thể, giúp mô hình có thể phân biệt và phát hiện thiếu hụt của một số đối tượng. Điểm khác biệt nằm ở cách chọn danh mục mẫu âm. Đối với phương pháp đầu tiên, nhóm chọn ngẫu nhiên các danh mục đối tượng từ từ điển không hiển thị trong hình ảnh được cung cấp từ Object365. Đối với phương pháp thứ hai, nhóm sử dụng dữ liệu Flickr30k và tìm kiếm các thực thể tương tự nhất với danh mục gốc, thuộc tính hoặc số lượng thông qua ChatGPT/GPT-4, ví dụ như “nam giới” và “nữ giới”, “xanh lam” và “vàng”.

Ngoài ra, nhóm đã thực hiện công việc tổ chức dữ liệu để duy trì sự cân bằng giữa mẫu dương và mẫu âm trong cả hai danh mục, cuối cùng thu được tổng cộng 95.000 mẫu.

Ngoài việc chuyển đổi dữ liệu từ các bộ dữ liệu hiện có, dữ liệu điều chỉnh hướng dẫn cũng rất quan trọng trong việc giúp mô hình đa phương thức lớn hiểu ý định của con người và tạo ra phản hồi mượt mà, tự nhiên và dài hạn. Hiện nay, ngành công nghiệp rộng rãi sử dụng phương pháp ít mẫu để thu thập dữ liệu điều chỉnh hướng dẫn thị giác, trong đó mô tả cảnh văn bản của hình ảnh và cuộc trò chuyện được đánh dấu thủ công được sử dụng làm ví dụ ít mẫu, và thông qua từ khóa gợi ý, yêu cầu ChatGPT/GPT-4 tạo ra mô tả cuộc trò chuyện tương ứng dựa trên cảnh văn bản của hình ảnh mới.

Tuy nhiên, dữ liệu điều chỉnh hướng dẫn trước đây chủ yếu tập trung vào việc mô tả toàn bộ hình ảnh và không chỉ rõ thông tin không gian cụ thể. Để thu thập dữ liệu điều chỉnh trích dẫn và định vị, nhóm nhấn mạnh kiến thức không gian dựa trên khu vực bằng cách thực hiện ba bước sau:

Ngoài việc sử dụng các đối tượng và tiêu đề toàn cầu như trước đây, mô tả cảnh ký hiệu còn bao gồm mối quan hệ vật lý giữa các đối tượng và khu vực cũng như tọa độ tương ứng.

Trong cuộc trò chuyện được đánh dấu thủ công, nhóm thêm tọa độ vào khu vực hoặc đối tượng có thể định vị trong đầu vào / đầu ra / cả hai, và cuộc trò chuyện thường tập trung vào các khu vực cụ thể, giúp ngầm chỉ dẫn ChatGPT/GPT-4 tuân theo mô hình tương tự khi tạo cuộc trò chuyện mới.

Cuộc trò chuyện được tạo ra thực tế đôi khi không tuân theo quy tắc và mô hình được viết trong lời nhắc hệ thống và ví dụ ít mẫu, điều này có thể là do ngữ cảnh quá dài trong đầu vào của mô hình lớn ngôn ngữ, dẫn đến không thể xử lý tất cả chi tiết. Vì vậy, nhóm đề xuất lặp lại sử dụng ChatGPT/GPT-4 để đơn giản hóa cuộc trò chuyện được tạo ban đầu, với độ dài trung bình của ngữ cảnh chỉ bằng 10% so với dữ liệu tạo đầu tiên. Ngoài ra, để tiết kiệm chi phí, nhóm chỉ sử dụng ChatGPT trong lần tạo đầu tiên, sau đó sử dụng GPT-4 để tinh chỉnh và thu hẹp, cuối cùng thu được tổng cộng 34.000 cuộc trò chuyện.

Về quy trình huấn luyện, nhóm sử dụng CLIP-ViT-L/14@336p để khởi tạo bộ mã hóa hình ảnh, sử dụng Vicuna để khởi tạo mô hình lớn, và sử dụng trọng số giai đoạn đầu tiên của LlaVA để khởi tạo lớp chiếu, nhờ đó đạt được khởi tạo ngẫu nhiên cho bộ lấy mẫu thị giác. Sau khi khởi tạo, Ferret đã được đào tạo ba vòng (độ tuổi) trên dữ liệu GRIT, sử dụng tối ưu hóa Loshchilov & Hutter, tốc độ học là 2e − 5, kích thước lô là 128.

Theo giới thiệu, mô hình Ferret-13B/7B được đào tạo trên 8 thẻ A100 lần lượt mất khoảng 5/2.5 ngày. Trong quá trình đào tạo, khi đưa vào vùng trích dẫn, nhóm ngẫu nhiên chọn điểm trung tâm hoặc khung hình (nếu có thể cũng chọn mặt nạ phân vùng) để đại diện cho mỗi vùng, và xóa bỏ dữ liệu trùng lặp để làm sạch mẫu trong đánh giá sau này.

Để đánh giá chức năng mới này, nhóm đã giới thiệu Ferret-Bench, bao gồm ba loại nhiệm vụ mới: mô tả trích dẫn / suy luận trích dẫn và định vị trong cuộc trò chuyện. Nhóm cho biết, sau khi kiểm tra nhiều mô hình đa phương thức lớn hiện có, Ferret đạt mức hiệu suất trung bình cao hơn 20.4% so với mô hình lớn tốt nhất hiện tại, và giảm thiểu ảo tưởng trong việc nhận diện vật thể.

Tóm lại, đóng góp chính của bài báo dự án Ferret bao gồm ba điểm sau:

– Đề xuất mô hình Ferret, sử dụng phương pháp biểu diễn khu vực hỗn hợp dựa trên bộ lấy mẫu thị giác không gian, cho phép thực hiện chức năng trích dẫn và định vị mở và tinh vi trong mô hình đa phương thức lớn.
– Xây dựng GRIT, một bộ dữ liệu lớn điều chỉnh hướng dẫn trích dẫn và định vị, có thể sử dụng cho việc huấn luyện mô hình và bao gồm mẫu âm không gian bổ sung để tăng cường độ bền vững của mô hình.
– Giới thiệu Ferret-Bench để đánh giá các tác vụ liên quan đến trích dẫn / định vị, ngữ nghĩa, tri thức và suy luận.

Rõ ràng, Apple đang cố gắng theo kịp làn sóng AIGC lần này. Theo báo cáo, Apple đầu tư hàng triệu đô la vào trí tuệ nhân tạo mỗi ngày, với nhiều nhóm nội bộ đang phát triển nhiều mô hình trí tuệ nhân tạo khác nhau.

Theo báo cáo, bộ phận của Apple tập trung vào trí tuệ nhân tạo trò chuyện được gọi là “Mô hình Nền tảng”, với khoảng 16 thành viên, bao gồm một số kỹ sư trước đây của Google. Bộ phận này do John Giannandrea, người quản lý trí tuệ nhân tạo của Apple, lãnh đạo, ông được tuyển dụng vào năm 2018 để giúp cải thiện Siri.

Apple đang phát triển mô hình lớn riêng của mình có tên là Ajax. Ajax được thiết kế để cạnh tranh với sản phẩm của OpenAI như GPT-3 và GPT-4, có thể chạy 200 tỷ tham số. Ajax được gọi là “Apple GPT” bên trong, nhằm thống nhất sự phát triển trí tuệ nhân tạo trên toàn bộ hệ sinh thái của Apple, và đặt ra chiến lược tổng thể để tích hợp sâu hơn trí tuệ nhân tạo vào hệ sinh thái của Apple.

Theo báo cáo mới nhất, Ajax được coi là mạnh hơn phiên bản ChatGPT 3.5 trước đó. Tuy nhiên, một số người cho rằng, tính đến tháng 9 năm 2023, mô hình mới của OpenAI có thể đã vượt qua khả năng của Ajax.

Gần đây, nhóm nghiên cứu về trí tuệ nhân tạo của Apple đã lặng lẽ phát hành một khung hình xây dựng mô hình nền tảng có tên là MLX. Bloomberg cho biết, Apple đang phát triển phiên bản cải tiến của Siri và dự định cung cấp các tính năng tập trung vào trí tuệ nhân tạo trong phiên bản iOS tiếp theo.

Ngoài ra, Apple cũng đang đàm phán với một số nhà xuất bản tin tức lớn để cấp quyền sử dụng kho lưu trữ tin tức của họ và sử dụng thông tin này để huấn luyện mô hình. The New York Times cho biết, công ty đang thảo luận về một thỏa thuận nhiều năm trị giá ít nhất 50 triệu đô la, và đã liên hệ với các nhà xuất bản như Condé Nast, NBC News và IAC.

### Từ khóa:
– Trí tuệ nhân tạo
– Mô hình lớn
– Apple
– Ferret
– iOS

© Thông báo bản quyền

Những bài viết liên quan:

Chưa có đánh giá nào

none
Không có đánh giá...