ByteDance ra mắt mô hình sinh video văn bản mang tính cách mạng, có thể tự do kiểm soát hành động!
Boximator: Đột Phá Trong Tạo Video Từ Văn Bản
Với sự bùng nổ của công nghệ AI, việc tạo ra video từ văn bản đang trở nên ngày càng phổ biến. Trước khi Sora làm nên cuộc cách mạng trong lĩnh vực này, ByteDance đã giới thiệu một mô hình video đột phá – Boximator.
Khác biệt so với các mô hình như Gen-2, Pink1.0, Boximator có khả năng kiểm soát chính xác hành động của nhân vật hoặc đối tượng trong video dựa trên văn bản đầu vào. Ví dụ, trong một cảnh mưa, cơn gió lớn có thể thổi bay chiếc ô của một cô gái. Hiện tại, rất ít mô hình video có thể thực hiện chính xác điều này.

Chúng ta hãy xem xét sự khác biệt về hành động giữa Boximator và Gen-2, Pink1.0 khi sử dụng cùng một văn bản gợi ý và hình ảnh đầu vào.
Ví dụ 1:
Nhân vật nam giới chỉ đứng yên không di chuyển trong video do Pika 1.0 tạo ra, trong khi Gen-2 chỉ di chuyển nhẹ. Chỉ có Boximator tạo ra được cảnh nhân vật nam giới di chuyển rõ ràng.
Ví dụ 2:
Nhân vật nam giới không thực hiện hành động rút hoa hồng trong video do Pika 1.0 và Gen-2 tạo ra. Boximator lại hiểu đúng ngữ nghĩa văn bản và thực hiện đúng hành động.
Ví dụ 3:
Pika 1.0 và Gen-2 đều thực hiện hành động rót rượu nhưng không có sự thay đổi rõ ràng trong mức độ rượu trong ly. Chỉ có Boximator thực hiện cả hai hành động rót rượu và tăng mức độ rượu.
Để đạt được khả năng kiểm soát hành động chính xác này, Boximator sử dụng hai phương pháp ràng buộc: cứng và mềm.
Ràng buộc cứng: Ràng buộc cứng xác định chính xác ranh giới của đối tượng mục tiêu. Người dùng có thể vẽ ra đối tượng quan tâm trên hình ảnh, và Boximator sẽ xác định chính xác vị trí của đối tượng đó trong các khung hình tiếp theo.

Ràng buộc mềm: Ràng buộc mềm xác định vùng có thể chứa đối tượng, tạo ra một ranh giới mềm mại hơn. Đối tượng cần ở trong vùng này nhưng vẫn có thể di chuyển một chút, tạo ra sự ngẫu nhiên vừa phải.
Cả hai loại ràng buộc đều chứa ID của đối tượng mục tiêu, giúp theo dõi đối tượng trong các khung hình khác nhau. Ngoài ra, chúng còn chứa thông tin mã hóa về tọa độ và loại đối tượng.
Mô-đun điều khiển kết hợp mã hóa ràng buộc với mã hóa hình ảnh của khung hình video, hướng dẫn quá trình tạo ra hành động chính xác trong video. Mô-đun này bao gồm hai phần chính: mã hóa hộp và lớp tự chú ý.
Mã hóa hộp: Chuyển thông tin về tọa độ, ID và loại của hộp thành vector điều khiển thông qua mã hóa Fourier và mạng perceptron đa lớp (MLP).

Lớp tự chú ý: Xây dựng mối quan hệ giữa vector điều khiển của hộp và vector thị giác của khung hình video thông qua mô hình tự chú ý, học cách hướng dẫn khung hình bằng hộp.
Trong quá trình huấn luyện, Boximator được chia thành hai giai đoạn: giai đoạn tự theo dõi và huấn luyện thông thường. Giai đoạn tự theo dõi giúp mô hình đồng thời tạo ra nội dung video và các hộp tương ứng, đơn giản hóa việc học mối quan hệ giữa hộp và đối tượng. Giai đoạn huấn luyện thông thường chỉ tạo ra nội dung video, nhưng mã hóa hộp đã học được cách hướng dẫn việc tạo ra đối tượng.
Thêm vào đó, quá trình huấn luyện sử dụng chiến lược nhiều giai đoạn, dần dần chuyển từ ràng buộc cứng sang ràng buộc mềm, và thích nghi với dữ liệu không có hộp.
Để thu thập dữ liệu huấn luyện, các nhà nghiên cứu lọc ra 1,1 triệu đoạn video động từ tập dữ liệu WebVid-10M, và tự động gán 2,2 triệu hộp giới hạn cho các đối tượng. Sau đó, họ huấn luyện Boximator trên hai mô hình là PixelDance và ModelScope.
Kết quả thử nghiệm cho thấy, Boximator duy trì chất lượng video gốc trong khi có khả năng kiểm soát hành động mạnh mẽ. Nó cũng có thể được sử dụng như một plugin để cải thiện chất lượng tạo video của các mô hình video hiện có.
Trên bộ dữ liệu MSR-VTT, Boximator vượt trội hơn mô hình gốc cả về chất lượng video lẫn độ chính xác đối sánh hộp và đối tượng. Trong đánh giá con người, video do Boximator tạo ra cũng vượt trội hơn về mặt chất lượng và kiểm soát chuyển động so với mô hình gốc.
Hiện tại, mô hình này đang trong giai đoạn phát triển và dự kiến sẽ ra mắt trang web thử nghiệm trong 2-3 tháng tới. Hãy cùng chờ đợi sản phẩm thách thức Sora từ ByteDance!
Từ khóa:
- Boximator
- Video từ văn bản
- AI
- ByteDance
- Video diffusion model
© Thông báo bản quyền
Bản quyền bài viết thuộc về tác giả, vui lòng không sao chép khi chưa được phép.
Những bài viết liên quan:
Không có đánh giá...