Mô hình tương tác mới của Meta AI gây sốt: Có khả năng mô phỏng hành vi con người liên tục trong môi trường 3D và có thể tương tác chính xác, đồ họa máy tính sẽ đạt được bước đột phá mới?

Stanford University và nhóm nghiên cứu từ Meta/Facebook AI Research (FAIR) đã phát triển một hệ thống AI đột phá có khả năng tạo ra các tương tác tự nhiên giữa con người và vật thể chỉ dựa trên mô tả văn bản. Hệ thống này được gọi là CHOIS (Controllable Human-Object Interaction Synthesis), sử dụng công nghệ mô hình khuếch tán có điều kiện để tạo ra các tương tác mượt mà và chính xác, ví dụ như việc “đặt một cái bàn lên đầu rồi đi lại và đặt xuống”.
CHOIS đại diện cho bước tiến quan trọng trong lĩnh vực AI, đặc biệt là trong việc tạo ra các tương tác 3D giữa con người và vật thể. Công trình này được công bố trên trang web preprint arXiv và minh họa tiềm năng của một tương lai nơi AI có thể hiểu và phản hồi lệnh bằng ngôn ngữ một cách trơn tru. Ví dụ, việc kéo ghế gần bàn để tạo không gian làm việc, điều chỉnh đèn đứng để tạo ánh sáng hoàn hảo, hoặc sắp xếp một vali gọn gàng đều đòi hỏi sự phối hợp chính xác giữa con người, vật thể và môi trường xung quanh. Ngôn ngữ đóng vai trò quan trọng trong việc truyền đạt ý định và hướng dẫn AI tạo ra các chuyển động nhân tạo chân thực.
Các nhà nghiên cứu nhấn mạnh rằng việc tạo ra các tương tác liên tục giữa con người và vật thể trong các môi trường 3D luôn gặp nhiều thách thức. Họ cần đảm bảo rằng các chuyển động được tạo ra là thực tế và đồng bộ, giữ cho tay con người luôn tiếp xúc với vật thể đúng cách, và chuyển động của vật thể phải có mối quan hệ nhân quả với hành vi của con người.
CHOIS nổi bật nhờ vào phương pháp tổng hợp tương tác giữa con người và vật thể trong môi trường 3D. Lõi của hệ thống này là mô hình khuếch tán có điều kiện, một loại mô hình tạo ra chuỗi chuyển động chi tiết. Khi được cung cấp trạng thái ban đầu của con người/vật thể và mô tả ngôn ngữ về hành động mong muốn, CHOIS sẽ tạo ra một loạt các hành động để hoàn thành nhiệm vụ.
CHOIS còn có ưu điểm khác khi kết hợp khả năng hiểu ngôn ngữ với khả năng mô phỏng vật lý. Các mô hình truyền thống thường khó khăn trong việc kết nối ngôn ngữ với chuyển động không gian và cơ thể, đặc biệt trong các tương tác rộng lớn hơn. CHOIS giải quyết vấn đề này bằng cách giải thích ý định và phong cách từ mô tả ngôn ngữ, sau đó chuyển đổi chúng thành các chuyển động cơ thể phù hợp với cấu trúc cơ thể và đặc tính của vật thể.
Hệ thống này cũng rất quan trọng vì nó có thể tái hiện chính xác các điểm tiếp xúc (ví dụ như vị trí tiếp xúc giữa tay và vật thể) và chuyển động của vật thể theo lực mà con người áp dụng. Mô hình này còn giới thiệu các hàm mất mát và thuật ngữ hướng dẫn đặc biệt trong quá trình huấn luyện và tạo ra, nhằm đảm bảo tuân thủ các ràng buộc vật lý, đây là bước quan trọng để AI hiểu và tương tác với thế giới vật lý một cách tự nhiên.
CHOIS đã gây ảnh hưởng sâu sắc đến ngành đồ họa máy tính, đặc biệt là trong lĩnh vực hoạt hình và thực tế ảo. Việc cho phép AI hiểu và tạo ra các tương tác nhân tạo theo lệnh ngôn ngữ tự nhiên giúp giảm đáng kể thời gian và công sức cần thiết để tạo ra các cảnh quan phức tạp. Hoạt hình gia có thể sử dụng công nghệ này để tạo ra các chuỗi hoạt hình quan trọng một cách nhanh chóng, tăng hiệu suất thiết kế và chất lượng sản phẩm. Ngoài ra, trong môi trường thực tế ảo, CHOIS còn mang lại trải nghiệm tương tác sống động và cao hơn, cho phép người dùng điều khiển nhân vật ảo thông qua ngôn ngữ tự nhiên và quan sát họ thực hiện các nhiệm vụ với độ chính xác cao.
Trong lĩnh vực AI và robot, CHOIS đại diện cho bước tiến quan trọng hướng tới các hệ thống nhận biết tình huống tự chủ hơn. Các robot truyền thống thường bị hạn chế bởi các quy trình lập trình sẵn, trong khi các hệ thống như CHOIS có thể giúp chúng hiểu rõ hơn về thế giới thực và thực hiện các nhiệm vụ theo mô tả ngôn ngữ một cách tự nhiên.
CHOIS còn mở ra cánh cửa cho những nghiên cứu mới về cách sử dụng dữ liệu 3D và ngôn ngữ để tổng hợp các tương tác giữa con người và vật thể, với hy vọng sẽ sinh ra các hệ thống AI phức tạp hơn trong tương lai.

Tóm lại, Stanford University và Meta đã đạt được tiến bộ quan trọng trong việc xây dựng các hệ thống AI tiên tiến có thể mô phỏng hành vi con người liên tục trong các môi trường 3D khác nhau. CHOIS cũng mở ra hướng nghiên cứu mới về việc tổng hợp tương tác giữa con người và vật thể, với hy vọng sẽ sinh ra các hệ thống AI phức tạp hơn trong tương lai.

### Từ khóa:
– AI
– 3D
– Interaciton
– Mô hình khuếch tán
– Virtual Reality
© Thông báo bản quyền
Bản quyền bài viết thuộc về tác giả, vui lòng không sao chép khi chưa được phép.
Những bài viết liên quan:
Không có đánh giá...