Tương tự Sora, có thể tạo video, hình ảnh và giải mã 1 triệu dữ liệu cùng một lúc!
Giới thiệu về Đại Kỷ Nguyên Mô Hình Thế Giới (LWM)
Một trong những thách thức lớn nhất của các mô hình ngôn ngữ lớn (LLM) hiện nay là khả năng hiểu và tạo ra nội dung đa phương tiện như video, hình ảnh. Tuy nhiên, với sự xuất hiện của mô hình LWM, những hạn chế này có thể được khắc phục.
LWM, viết tắt của Đại Kỷ Nguyên Mô Hình Thế Giới, là một mô hình đa phương tiện tự hồi quy được nghiên cứu và phát triển bởi các nhà khoa học tại Đại học California, Berkeley. Mô hình này được thiết kế để giải quyết một số vấn đề về bộ nhớ và tính toán phức tạp mà các mô hình trước đó gặp phải khi xử lý chuỗi dài.
Nhờ sử dụng kỹ thuật mới gọi là Nhịp Điệu Chú Ý (Ring Attention), LWM có thể xử lý dữ liệu lên đến 1 triệu tokens, đồng thời giảm thiểu nhu cầu bộ nhớ và cải thiện hiệu suất tính toán. Điều này cho phép mô hình thực hiện các tác vụ như trả lời câu hỏi chính xác từ video dài một giờ, hoặc tìm kiếm thông tin cụ thể trong văn bản có độ dài tương đương.
Nhịp Điệu Chú Ý (Ring Attention)
Trong cơ chế chú ý truyền thống, như được sử dụng trong kiến trúc Transformer, mô hình cần tính toán điểm chú ý giữa mỗi cặp phần tử trong chuỗi. Điều này dẫn đến hai vấn đề chính:
- Tăng nhu cầu bộ nhớ: Cần lưu trữ điểm chú ý giữa mọi cặp phần tử, làm tăng nhu cầu bộ nhớ theo chiều dài chuỗi.
- Tính toán phức tạp: Việc tính toán điểm chú ý cho chuỗi dài đòi hỏi nhiều tài nguyên tính toán.
Ring Attention giúp giải quyết những vấn đề này bằng cách mở rộng việc đào tạo trên chuỗi dài mà không cần tiêu tốn thêm bộ nhớ hay tài nguyên tính toán, đồng thời giảm thiểu độ phức tạp tính toán.
Các Giai Đoạn Đào Tạo
LWM trải qua hai giai đoạn đào tạo chính:
Đào tạo ngôn ngữ
Đầu tiên, mô hình được tiền huấn luyện để mở rộng ngữ cảnh hiểu ngôn ngữ. Dữ liệu được sử dụng là Books3, bắt đầu từ 32.000 tokens và dần mở rộng lên 1 triệu tokens, đồng thời được tinh chỉnh cho các nhiệm vụ trò chuyện dài.
Đào tạo đa phương tiện
Ở giai đoạn thứ hai, mô hình được tiền huấn luyện để tích hợp thông tin thị giác vào mô hình ngôn ngữ. Dữ liệu được sử dụng bao gồm LAION-2B, COYO-700M, WebVid10M, v.v. Mô hình này cũng được đào tạo để đối chiếu giữa hình ảnh và văn bản, video và văn bản, với việc trích xuất khung hình chính từ video với tốc độ 4 khung hình mỗi giây.
Kết luận
LWM đại diện cho bước tiến quan trọng trong lĩnh vực học máy, đặc biệt là trong việc xử lý dữ liệu đa phương tiện. Với khả năng hiểu và tạo ra nội dung phức tạp, mô hình này hứa hẹn sẽ mở ra nhiều ứng dụng mới trong tương lai.





Từ Khóa
Mô hình Ngôn ngữ Lớn, Đại Kỷ Nguyên Mô Hình Thế Giới, Nhịp Điệu Chú Ý, Tiền Huấn Luyện, Đa Phương Tiện.
© Thông báo bản quyền
Bản quyền bài viết thuộc về tác giả, vui lòng không sao chép khi chưa được phép.
Những bài viết liên quan:
Không có đánh giá...