Mô hình sinh video mới “cạnh tranh” ra mắt; nhiều hãng điện thoại tham gia vào AI, thời đại AI trên thiết bị cuối cùng đã đến? | Tin tức tuần về mô hình lớn.
Đột phá mới trong công nghệ video với Sora
Một tuần gần đây, sự ra mắt của sản phẩm video tạo ra bởi OpenAI, Sora, đã trở thành tâm điểm của cuộc thảo luận toàn cầu. Đây đánh dấu một bước tiến quan trọng trong lĩnh vực công nghệ video, giảm bớt rào cản trong việc tạo ra video và thúc đẩy sự đa dạng cũng như tiện lợi trong quá trình sáng tạo nội dung, mở ra nhiều khả năng cho ngành công nghiệp video trong tương lai. Nhiều công ty chứng khoán như Zhongxin Jian Tou, Guotai Jun An, Shenwan Hongyuan và Zhaoshang Securities đều khẳng định rằng Sora là một cột mốc quan trọng trong quá trình phát triển của trí tuệ nhân tạo (AGI), dự báo sự đến nhanh chóng của AGI sẽ dẫn đến những thay đổi đột phá trong nhiều ngành.
Sự tăng đột biến về thảo luận xung quanh Sora có nhiều nguyên nhân. Về tiềm năng ứng dụng, quy trình sáng tạo nội dung truyền thống có thể bị thay thế, với sự tiến bộ vượt bậc của AI trong việc tạo video và mô hình thế giới lớn (large world model) sẽ giúp lấn sân vào các ứng dụng sau này như video, 3D, game. Về mặt kỹ thuật, Sora chỉ cần một từ khóa để tạo ra một đoạn video HD dài 60 giây. Về chất lượng sản phẩm, Sora đã thể hiện sự xuất sắc trong việc xử lý thời gian, lựa chọn khung hình, độ phức tạp của cảnh và đa dạng nhân vật. Về mặt xã hội, sự ra mắt của Sora đã thu hút sự chú ý rộng rãi từ cộng đồng công nghệ, tạo nên một luồng thảo luận sôi nổi và thu hút sự quan tâm của nhiều phương tiện truyền thông, từ đó tạo nên sức mạnh ảnh hưởng mạnh mẽ, thúc đẩy sự quan tâm của công chúng đối với Sora.
Ngoài ra, còn có nhiều nghiên cứu và phát triển khác trong lĩnh vực này:
- Nhóm nghiên cứu từ Đại học Bắc Kinh, Trường ĐH Nam Dương và Phòng thí nghiệm AI Thượng Hải đã đề xuất một khung hình mới gọi là LGM (Large Gaussian Model), cho phép tạo ra các vật thể ba chiều chất lượng cao từ hình ảnh hoặc văn bản đơn giản chỉ trong 5 giây.
- Google đã giới thiệu một mô hình ngôn ngữ thị giác – ngôn ngữ (SpatialVLM) có khả năng suy luận không gian, nhằm trao cho các mô hình này khả năng suy luận không gian.
- OpenAI đã chính thức ra mắt mô hình Sora, cho phép chuyển đổi văn bản thành video, tiếp tục cuộc đua trong lĩnh vực tạo video sau sự xuất hiện của Runway, Pika, Google và Meta.
- Amazon đã chính thức ra mắt mô hình tổng hợp giọng nói BASE TTS.
- Nhóm nghiên cứu từ Đại học Hồng Kông, Avolution AI, Phòng thí nghiệm AI Thượng Hải và Viện Nghiên cứu SenseTime đã cùng nhau đề xuất mô hình tạo video AnimateLCM-SVD-xt.
- Nhóm nghiên cứu từ Alibaba đã tung ra và mở nguồn một nền tảng tạo hình ảnh SCEPTER Studio, cho phép người dùng huấn luyện và điều chỉnh mô hình mà không cần mã hóa, chỉ thông qua giao diện web.
- TikTok cũng đã ra mắt mô hình video Boximator, cho phép kiểm soát chính xác các hành động của nhân vật hoặc vật thể trong video thông qua văn bản.
- Stability AI đã ra mắt trình tạo hình ảnh AI thế hệ mới Stable Diffusion 3, với nhiều cải tiến đáng kể trong khả năng xử lý văn bản, độ bão hòa màu sắc, cấu trúc hình ảnh, độ phân giải, kiểu dáng, kết cấu và độ tương phản.
- Dòng sản phẩm Gemma của Google đã được ra mắt toàn cầu, cung cấp hai phiên bản 2B (2 tỷ tham số) và 7B (7 tỷ tham số).
- Nhóm nghiên cứu từ Đại học Avignon, Đại học Nantes và Zenidoc đã phát triển một mô hình nguồn mở chuyên biệt cho lĩnh vực y tế sinh học – BioMistral.
- Nhóm nghiên cứu từ Đại học California, Berkeley đã tạo ra một bộ dữ liệu lớn chứa nhiều video và sách, đồng thời đề xuất mô hình thế giới lớn (Large World Model, LWM) và mở nguồn nó. Mô hình này sử dụng công nghệ RingAttention để huấn luyện chuỗi dài một cách mở rộng, đạt được khả năng hiểu và tạo ra ngôn ngữ, hình ảnh và video.
- Nhóm nghiên cứu từ Google TPU đã phát triển một bộ xử lý máy học (được thiết kế đặc biệt cho mô hình lớn) do công ty khởi nghiệp Groq tạo ra, tuyên bố hiệu suất tốt hơn 10 lần so với GPU của NVIDIA với chi phí chỉ bằng 1/10.
- Đại học Jilin đã công bố một nghiên cứu mới về việc sử dụng mô hình ngôn ngữ thị giác lớn để điều khiển giao diện người dùng máy tính (GUI) mà không cần nhãn định vị hỗ trợ. Họ đã giới thiệu mô hình ScreenAgent, khám phá khả năng điều khiển chuột và bàn phím trực tiếp thông qua VLM Agent mà không cần nhãn hỗ trợ.
Trong lĩnh vực điện thoại di động, nhiều công ty cũng đã công bố chiến lược AI mới:
- OPPO đã công bố chiến lược AI mới tại buổi họp báo ở Thâm Quyến, giới thiệu hệ sinh thái thông minh OPPO 1+N, bao gồm siêu thông minh AI và nền tảng phát triển AI Pro. OPPO cũng đã công bố việc hợp tác với hơn một triệu người dùng để cùng tiến vào kỷ nguyên điện thoại thông minh AI.
- Meizu đã công bố sự điều chỉnh chiến lược AI, tập trung vào việc phát triển các thiết bị AI mới thay vì phát triển các dự án smartphone truyền thống.
- Mircosoft cũng đã công bố kế hoạch ra mắt máy tính cá nhân AI trong năm nay. Theo các nguồn tin từ chuỗi cung ứng, Microsoft dự kiến sẽ ra mắt bản cập nhật Windows 11 tập trung vào máy tính AI trong nửa đầu năm 2024, đồng thời tích hợp với hệ thống ARM của Qualcomm và hệ thống x86 của Intel. Sản phẩm này sẽ được giới thiệu tại Triển lãm Máy tính Quốc tế Taipei (Computex) năm 2024.
Bên cạnh việc cập nhật hàng tuần, Trung tâm Nghiên cứu InfoQ cũng sẽ công bố Báo cáo theo dõi hàng quý về ngành công nghệ mô hình lớn (Big Model), theo dõi các xu hướng mới nhất và thử nghiệm sản phẩm liên quan.
Báo cáo theo dõi quý đầu tiên, Báo cáo theo dõi quý 4 năm 2023 (23Q4), dự kiến sẽ được công bố vào cuối tháng 3 năm 2024, cùng với một cuộc đánh giá toàn diện về các sản phẩm tạo hình ảnh từ văn bản. Cuộc đánh giá này sẽ dựa trên năm tiêu chí chính: đối tượng thực thể, phong cách, điểm khó khăn về chi tiết, giá trị và đặc trưng tiếng Việt.
QCon Global Software Development Conference & Intelligent Software Development Ecosystem Expo sẽ diễn ra từ ngày 11 đến 13 tháng 4 tại Trung tâm Hội nghị Quốc tế Quốc gia ở Bắc Kinh. Sự kiện này sẽ tập trung vào việc khám phá các ứng dụng của mô hình lớn, thiết kế sản phẩm ứng dụng mô hình lớn và việc triển khai thông minh AI. Nhiều công ty hàng đầu như Kingsoft Office, Baidu, Kuaishou, Shushu Technology, DingTalk và Zhiran Intelligence sẽ chia sẻ kinh nghiệm mới nhất của họ.
Tóm tắt từ khóa
- Trí tuệ nhân tạo (AI)
- Mô hình lớn (Big Model)
- Công nghệ video
- Sora
- Phát triển phần mềm
© Thông báo bản quyền
Bản quyền bài viết thuộc về tác giả, vui lòng không sao chép khi chưa được phép.
Những bài viết liên quan:
Không có đánh giá...