Zhiyuan hợp tác với nhiều trường đại học phát hành tiêu chuẩn đánh giá video dài đa nhiệm đầu tiên MLVU: Tỷ lệ chính xác của GPT-4o chỉ dưới 65%.

công nghệ số5tháng trướccập nhật AIANT
51 00

MLVU: Một Bộ Đánh Giá Toàn Diện Cho Việc Hiểu Biết Video Dài Nhiều Nhiệm Vụ

Hiện nay, cộng đồng nghiên cứu cần một bộ đánh giá toàn diện và tin cậy cho việc hiểu biết video dài để giải quyết các hạn chế của các bộ đánh giá hiện tại về độ dài video ngắn, loại video và nhiệm vụ đơn nhất. Do đó, Viện Trí Tuệ Nhân Tạo cùng với các trường đại học Bắc Kinh, Bắc Kinh Post & Telecommunications và Đại học Chiết Giang đã cùng nhau phát triển MLVU (Một Bộ Đánh Giá Toàn Diện Cho Việc Hiểu Biết Video Dài Nhiều Nhiệm Vụ).

MLVU có độ dài video linh hoạt và phong phú, bao gồm nhiều nguồn video dài khác nhau và bao quát nhiều nhiệm vụ khác nhau liên quan đến việc hiểu biết video dài. Qua việc đánh giá 20 mô hình đa phương tiện lớn mới nhất (MLLM), chúng tôi nhận thấy rằng GPT-4o đứng đầu trong bảng xếp hạng nhưng tỷ lệ chính xác trung bình chỉ đạt 65%, cho thấy còn nhiều thách thức cần vượt qua trong việc hiểu biết video dài.

Thách Thức Hiện Tại Trong Việc Đánh Giá Video Dài

  • Độ dài video không đủ: Các bộ đánh giá video hiện tại chủ yếu tập trung vào video ngắn, hầu hết dưới 1 phút.
  • Loại video và nhiệm vụ không đa dạng: Các bộ đánh giá hiện tại thường chỉ tập trung vào video từ một lĩnh vực cụ thể như phim ảnh hoặc video góc nhìn đầu tiên và một số nhiệm vụ cụ thể như mô tả video, nhận thức thời gian, hiểu hành động.
  • Nhiệm vụ hiểu biết video dài chưa được thiết kế hợp lý: Một số nhiệm vụ hiểu biết video dài chỉ tập trung vào một phần nhỏ của video, hoặc sử dụng câu hỏi dựa trên phim kinh điển mà MLLMs có thể trả lời mà không cần phân tích video.

Giới Thiệu MLVU

Để giải quyết những thiếu sót trên, chúng tôi đã giới thiệu MLVU: Bộ Đánh Giá Đầu Tiên Toàn Diện Cho Việc Hiểu Biết Video Dài Nhiều Nhiệm Vụ. MLVU có những đặc điểm sau:

Độ dài video linh hoạt

Độ dài video trong MLVU dao động từ 3 phút đến hơn 2 giờ, với trung bình là 12 phút, mở rộng đáng kể so với các bộ đánh giá video hiện tại. Ngoài ra, phần lớn nhiệm vụ trong MLVU đã được đánh dấu theo từng đoạn và câu hỏi tương ứng (ví dụ: nhiệm vụ tóm tắt video chia thành các đoạn 3 phút, 6 phút…).

Nguồn video đa dạng

MLVU thu thập nhiều loại video dài như phim, truyền hình, tài liệu, hoạt hình, video giám sát, video góc nhìn đầu tiên và video trò chơi, bao phủ nhiều lĩnh vực khác nhau của việc hiểu biết video dài.

Nhiệm vụ đa dạng

Chúng tôi đã thiết kế 9 loại nhiệm vụ khác nhau liên quan đến việc hiểu biết video dài và phân loại chúng thành ba nhóm: hiểu toàn diện, hiểu chi tiết đơn và hiểu chi tiết đa.

  • Nhiệm vụ hiểu toàn diện: Yêu cầu MLLMs hiểu và sử dụng thông tin toàn diện từ video để giải quyết vấn đề.
  • Nhiệm vụ hiểu chi tiết đơn: Yêu cầu MLLMs xác định chi tiết cụ thể trong video và sử dụng nó để giải quyết vấn đề.
  • Nhiệm vụ hiểu chi tiết đa: Yêu cầu MLLMs xác định và hiểu nhiều đoạn liên quan trong video để hoàn thành và giải quyết vấn đề.

Bên cạnh đó, chúng tôi cũng bao gồm các câu hỏi lựa chọn đơn và câu hỏi mở để đánh giá toàn diện khả năng hiểu biết video dài của MLLMs trong nhiều ngữ cảnh khác nhau.

Kết Quả Đánh Giá

Chúng tôi đã đánh giá 20 MLLM phổ biến trên MLVU, bao gồm cả mô hình mã nguồn mở và mô hình đóng. Kết quả đánh giá cho thấy:

  • Việc hiểu biết video dài vẫn còn rất thách thức: Mặc dù GPT-4o đạt vị trí đầu bảng, nhưng tỷ lệ chính xác trung bình chỉ đạt 64.6%. Tất cả các mô hình đều gặp khó khăn trong các nhiệm vụ yêu cầu hiểu biết chi tiết (hiểu chi tiết đơn và hiểu chi tiết đa). Hơn nữa, hiệu suất của hầu hết các mô hình đều giảm đáng kể khi độ dài video tăng lên.
  • Sự khác biệt giữa mô hình mã nguồn mở và mô hình đóng: Trong số các mô hình mã nguồn mở, InternVL-1.5 có tỷ lệ chính xác trung bình cao nhất là 50.4%, trong khi đó, LLaMA-Vid có tỷ lệ điểm cao nhất cho câu hỏi mở chỉ đạt 4.22. Cả hai đều kém xa so với GPT-4o.
  • Các yếu tố quan trọng nâng cao khả năng hiểu biết video dài: Thí nghiệm thực tế cho thấy việc tăng kích thước cửa sổ ngữ cảnh, cải thiện khả năng hiểu hình ảnh và sử dụng backbone LLM mạnh mẽ hơn có tác động đáng kể đến hiệu suất của MLLMs.

Kết Luận

Chúng tôi đã giới thiệu MLVU, một bộ đánh giá đa nhiệm cho việc hiểu biết video dài. MLVU mở rộng đáng kể phạm vi độ dài video, cung cấp nhiều loại video và thiết kế các nhiệm vụ đánh giá phong phú, tạo ra một nền tảng đánh giá chất lượng cao cho MLLMs.

Qua việc đánh giá 20 MLLM phổ biến, chúng tôi nhận thấy việc hiểu biết video dài vẫn là một lĩnh vực nghiên cứu đầy thách thức và tiềm năng. Thông qua các nghiên cứu thực nghiệm, chúng tôi đã khám phá ra nhiều yếu tố ảnh hưởng đến khả năng hiểu biết video dài, cung cấp cái nhìn sâu sắc cho việc xây dựng khả năng hiểu biết video dài trong tương lai.

Chúng tôi sẽ tiếp tục mở rộng và cập nhật MLVU để bao gồm nhiều loại video và nhiệm vụ đánh giá hơn, mong muốn MLVU có thể thúc đẩy sự phát triển của nghiên cứu cộng đồng về việc hiểu biết video dài.

Từ Khóa

  • Trí tuệ nhân tạo
  • Phân tích kỹ thuật
  • Bộ đánh giá video dài
  • MLLMs
  • Hiểu biết video dài
Zhiyuan hợp tác với nhiều trường đại học phát hành tiêu chuẩn đánh giá video dài đa nhiệm đầu tiên MLVU: Tỷ lệ chính xác của GPT-4o chỉ dưới 65%.Zhiyuan hợp tác với nhiều trường đại học phát hành tiêu chuẩn đánh giá video dài đa nhiệm đầu tiên MLVU: Tỷ lệ chính xác của GPT-4o chỉ dưới 65%.Zhiyuan hợp tác với nhiều trường đại học phát hành tiêu chuẩn đánh giá video dài đa nhiệm đầu tiên MLVU: Tỷ lệ chính xác của GPT-4o chỉ dưới 65%.Zhiyuan hợp tác với nhiều trường đại học phát hành tiêu chuẩn đánh giá video dài đa nhiệm đầu tiên MLVU: Tỷ lệ chính xác của GPT-4o chỉ dưới 65%.Zhiyuan hợp tác với nhiều trường đại học phát hành tiêu chuẩn đánh giá video dài đa nhiệm đầu tiên MLVU: Tỷ lệ chính xác của GPT-4o chỉ dưới 65%.Zhiyuan hợp tác với nhiều trường đại học phát hành tiêu chuẩn đánh giá video dài đa nhiệm đầu tiên MLVU: Tỷ lệ chính xác của GPT-4o chỉ dưới 65%.Zhiyuan hợp tác với nhiều trường đại học phát hành tiêu chuẩn đánh giá video dài đa nhiệm đầu tiên MLVU: Tỷ lệ chính xác của GPT-4o chỉ dưới 65%.
© Thông báo bản quyền

Những bài viết liên quan:

Chưa có đánh giá nào

none
Không có đánh giá...