Hiểu “trần” từ meme! Nhóm của giáo sư danh dự Jia Jiaya tại Đại học Hồng Kông ra mắt mô hình đa phương tiện: GPT-4 + DALL-E 3, bộ đôi mạnh mẽ làm bùng nổ bảng xếp hạng.

Gần đây, nhóm giáo sư Jiajia Jia từ Đại học Khoa học và Công nghệ Hồng Kông đã giới thiệu một mô hình đa phương thức mới có tên là Mini-Gemini. Mô hình này bao gồm các phiên bản từ 2 tỷ đến 34 tỷ tham số, và ngay khi được công bố, nó đã nhanh chóng lọt vào top của bảng xếp hạng trên PaperWithCode. Mini-Gemini nổi bật nhờ khả năng hiểu và phân tích cả hình ảnh và văn bản, với phiên bản mạnh nhất của nó có thể so sánh trực tiếp với các mô hình như Gemini Pro và GPT-4V.
Hiện tại, nhóm nghiên cứu đã công khai mã nguồn, mô hình và dữ liệu của Mini-Gemini. Đặc biệt, phiên bản trực tuyến của Mini-Gemini cho phép mọi người thử nghiệm dễ dàng. Một số người dùng đã đánh giá rằng, sau khi trải nghiệm, họ tin rằng Mini-Gemini có thể cạnh tranh với các mô hình thương mại.

### Mini-Gemini: Mô hình đa phương thức thông minh
Đa số các mô hình đa phương thức hiện nay chỉ hỗ trợ xử lý hình ảnh chất lượng thấp và văn bản. Tuy nhiên, trong nhiều trường hợp thực tế, việc phân tích và hiển thị hình ảnh chất lượng cao là rất cần thiết. Mini-Gemini đã chứng tỏ khả năng của mình trong việc giải quyết vấn đề này:
– Khi cung cấp một hướng dẫn làm bánh bằng hình ảnh chia thành 9 phần, Mini-Gemini có thể hiểu và hướng dẫn từng bước.
– Đối với một biểu đồ thông tin về máy tính Mac, Mini-Gemini có thể so sánh các thông số giữa hai loại máy.
– Mini-Gemini cũng có khả năng hiểu và tái tạo lại biểu đồ toán học dựa trên đầu vào.
– Nó còn có thể phân tích và tổng hợp các biểu đồ phức tạp trong hình ảnh.

### Khả năng sinh hình ảnh của Mini-Gemini
Ngoài khả năng hiểu và phân tích hình ảnh, Mini-Gemini còn có khả năng sinh ra hình ảnh dựa trên đầu vào. Điều này giống như sự kết hợp giữa ChatGPT và DALL-E 3:
– Khi được cung cấp một hình ảnh của xương rồng trong sa mạc băng giá, Mini-Gemini có thể chỉ ra sự mâu thuẫn và tạo ra một hình ảnh tương tự như một con gấu Bắc Cực xuất hiện trong rừng nhiệt đới.
– Mini-Gemini cũng có thể tạo ra một chuỗi câu chuyện nhỏ dựa trên đầu vào của người dùng, duy trì sự nhất quán trong mỗi hình ảnh.

### Hiểu và phân tích meme
Mini-Gemini cũng thể hiện khả năng hiểu và phân tích meme một cách chính xác, điều mà nhiều mô hình khác thường gặp khó khăn. Thông qua khả năng nhận diện văn bản (OCR) và khả năng suy luận, nó có thể xác định chính xác điểm hài hước trong meme.

### Nguyên tắc hoạt động của Mini-Gemini
Mini-Gemini hoạt động dựa trên ba nguyên tắc chính:
1. Cơ chế song mã hóa dành cho hình ảnh chất lượng cao.
2. Sử dụng dữ liệu chất lượng cao hơn.
3. Kết hợp dữ liệu từ mô hình sinh tạo trong quá trình huấn luyện.
Thông qua việc sử dụng bộ mã hóa hình ảnh kép và mạng nơ-ron tích chập (ConvNet), Mini-Gemini có thể phân tích hình ảnh chất lượng cao một cách hiệu quả. Đối với việc sinh hình ảnh, mô hình sử dụng LLM để liên kết với mô hình SDXL.

### Kết luận
Mini-Gemini không chỉ mở ra một kỷ nguyên mới trong lĩnh vực xử lý hình ảnh và văn bản, mà còn đặt ra tiêu chuẩn mới cho khả năng sinh tạo hình ảnh. Với khả năng hiểu và phân tích hình ảnh chất lượng cao, cũng như khả năng sinh tạo hình ảnh, Mini-Gemini đang trở thành một công cụ mạnh mẽ trong tay các nhà phát triển và người dùng.

### Từ khóa
– Mini-Gemini
– Mô hình đa phương thức
– Hình ảnh chất lượng cao
– Sinh tạo hình ảnh
– OCR
© Thông báo bản quyền
Bản quyền bài viết thuộc về tác giả, vui lòng không sao chép khi chưa được phép.
Những bài viết liên quan:
Không có đánh giá...