Hiểu video theo thời gian thực lần đầu tiên được triển khai! Wallbreaker Mini 2.6 mang đến khả năng hiểu hình ảnh đơn, hình ảnh đa và video SOTA, hoàn toàn đối đầu với GPT-4V đa mô hình mạnh nhất.

MiniCPM-V 2.6, một mô hình nhỏ nhưng mạnh mẽ, đã chính thức được ra mắt bởi công ty Cibermind vào ngày 6 tháng 8. Mô hình này chỉ có 8 tỷ tham số, nhưng đã đạt được những tiến bộ đáng kể trong việc hiểu video thời gian thực và liên kết nhiều hình ảnh (bao gồm cả OCR nhiều hình ảnh và ICL).
Đặc điểm nổi bật của MiniCPM-V 2.6 là khả năng đa phương tiện mạnh mẽ trên thiết bị đầu cuối với chỉ 8 tỷ tham số. Nó tiếp tục truyền thống “ăn ít nhưng làm việc hiệu quả” của dòng sản phẩm “MiniCPM”. Đặc biệt, nó đã vượt qua GPT-4V về khả năng hiểu đơn hình, nhiều hình ảnh và video, đồng thời đạt được mức độ tương đương với các mô hình hàng đầu như Gemini 1.5 Pro và GPT-4o mini.
Một số tính năng mới của MiniCPM-V 2.6 bao gồm:
– Hiểu video thời gian thực
– Liên kết nhiều hình ảnh
– Học tập ngữ cảnh từ mẫu ít (ICL)
– Nhận dạng ký tự quang học (OCR) từ nhiều hình ảnh
MiniCPM-V 2.6 cũng đã chứng minh hiệu suất vượt trội của mình trong các đánh giá, bao gồm việc hiểu hình ảnh đơn, hiểu nhiều hình ảnh và hiểu video. Nó còn thể hiện khả năng OCR xuất sắc, tiếp tục truyền thống của dòng sản phẩm “MiniCPM” với khả năng nhận diện ký tự quang học đỉnh cao.
MiniCPM-V 2.6 cũng đã đạt được tỷ lệ ảo tưởng thấp nhất (8.2%) trong các mô hình tương tự, cho thấy sự đáng tin cậy và ổn định của nó. Điều này có được nhờ vào công nghệ RLAIF-V hiệu quả của Cibermind, giúp giảm thiểu tỷ lệ ảo tưởng và tăng cường khả năng suy luận phức tạp và hiểu nhiều hình ảnh.
MiniCPM-V 2.6 cũng đã đạt được thành công trong việc giải quyết các vấn đề phức tạp, như điều chỉnh yên xe đạp. Điều này đòi hỏi khả năng suy luận phức tạp và kiến thức về vật lý. MiniCPM-V 2.6 đã thể hiện khả năng hướng dẫn chi tiết từng bước để hoàn thành nhiệm vụ này, đồng thời giúp người dùng tìm kiếm công cụ phù hợp.

Với khả năng hiểu video thời gian thực, MiniCPM-V 2.6 đã mở ra cánh cửa cho việc xử lý dữ liệu video trên thiết bị đầu cuối một cách hiệu quả. Điều này đặc biệt hữu ích trong các ứng dụng như nhận diện văn bản trong video, giúp người dùng dễ dàng nắm bắt thông tin quan trọng mà không cần xem toàn bộ video.
MiniCPM-V 2.6 cũng đã thể hiện khả năng hiểu và liên kết nhiều hình ảnh một cách xuất sắc. Điều này cho phép người dùng xử lý nhiều hình ảnh cùng một lúc một cách dễ dàng và nhanh chóng. MiniCPM-V 2.6 cũng đã thể hiện khả năng suy luận phức tạp, giúp người dùng giải quyết các vấn đề khó khăn một cách hiệu quả.

Cuối cùng, MiniCPM-V 2.6 cũng đã đạt được thành công trong việc giảm lượng token biểu diễn thị giác so với thế hệ trước, giúp tiết kiệm bộ nhớ và tăng tốc độ xử lý. Điều này cho thấy sự tiến bộ đáng kể trong việc tối ưu hóa hiệu suất của mô hình.
Trong thời đại số hóa ngày càng phát triển, MiniCPM-V 2.6 đã mở ra cơ hội mới cho việc sử dụng AI trong nhiều lĩnh vực khác nhau, từ nhận dạng văn bản đến xử lý video, và thậm chí cả việc giải quyết các vấn đề phức tạp đòi hỏi suy luận và kiến thức vật lý. MiniCPM-V 2.6 chắc chắn sẽ là một công cụ mạnh mẽ hỗ trợ người dùng trong việc xử lý dữ liệu và giải quyết các vấn đề phức tạp.

**Từ khóa:** MiniCPM-V 2.6, Cibermind, AI, mô hình nhỏ, hiểu video, OCR, suy luận phức tạp
© Thông báo bản quyền
Bản quyền bài viết thuộc về tác giả, vui lòng không sao chép khi chưa được phép.
Những bài viết liên quan:
Không có đánh giá...