663 ngày sau khi ChatGPT ra đời, Ultraman hiếm khi xuất bản một bài viết dự đoán mạnh mẽ: Thời gian không còn nhiều!

Giải pháp tiền xử lý video cho huấn luyện mô hình lớn

Vào ngày 15 tháng 10, Volcano Engine đã công bố giải pháp tiền xử lý video tại Hội nghị Công nghệ Video Cloud, nhằm giúp giải quyết các thách thức về chi phí, chất lượng và hiệu suất trong quá trình huấn luyện mô hình lớn. Hiện tại, giải pháp này đã được áp dụng vào mô hình tạo video BeanPod.

Tiền xử lý video là yếu tố quan trọng để đảm bảo hiệu quả của quá trình huấn luyện mô hình lớn. Quá trình này giúp chuẩn hóa định dạng dữ liệu video, cải thiện chất lượng dữ liệu, giảm thiểu số lượng dữ liệu cần xử lý và xử lý thông tin đánh dấu, giúp mô hình có thể học tập đặc điểm và kiến thức từ video một cách hiệu quả hơn, nâng cao hiệu suất và hiệu quả của quá trình huấn luyện.

Theo Wang Yue, người phụ trách kiến trúc video của Tập đoàn Douyin, việc huấn luyện mô hình lớn gặp phải nhiều thách thức: đầu tiên, bộ dữ liệu video khổng lồ dẫn đến tăng chi phí tính toán và xử lý; thứ hai, dữ liệu mẫu video không đồng đều; tiếp theo, quy trình xử lý phức tạp với nhiều bước; cuối cùng, việc điều phối tài nguyên tính toán đa dạng như GPU, CPU, ARM.

Dựa vào tài nguyên CPU của Intel, Volcano Engine đã công bố giải pháp tiền xử lý video dựa trên khung xử lý đa phương tiện tự phát triển BMF, giúp đối phó với thách thức về chi phí tính toán trong quá trình huấn luyện mô hình. Ngoài ra, giải pháp này cũng đã được tối ưu hóa về mặt thuật toán và kỹ thuật, giúp xử lý dữ liệu video với chất lượng cao trong thời gian ngắn, cải thiện hiệu suất huấn luyện mô hình. Đặc biệt, Volcano Engine đã công bố và mở nguồn phiên bản nhẹ BMF lite, hỗ trợ tiếp cận mô hình lớn bên cạnh thiết bị di động và tăng tốc tính toán.

Nhóm Nghiên cứu ByteDance, Li Hang, giới thiệu rằng mô hình tạo video PixelDance đã sử dụng giải pháp tiền xử lý video của Volcano Engine trong quá trình huấn luyện, tận dụng tối đa tài nguyên, cung cấp hỗ trợ mạnh mẽ cho quá trình huấn luyện. Giải pháp điểm danh của Volcano Engine cũng cung cấp dịch vụ quản lý toàn chu kỳ từ chỉnh sửa, tải lên, chuyển mã, phân phối, phát sóng video, đảm bảo ứng dụng thương mại của mô hình.

Mô hình tạo video PixelDance được công bố vào ngày 24 tháng 9, sử dụng cấu trúc DiT, thông qua đơn vị tính toán hợp nhất hiệu quả và phương pháp đào tạo mô hình lan truyền mới, vượt qua khó khăn về tương tác phức tạp giữa nhiều chủ thể và nhất quán nội dung giữa các cảnh quay, thu hút sự chú ý rộng rãi trong ngành. Hiện tại, mô hình tạo video BeanPod đã mở cửa thử nghiệm mời gọi doanh nghiệp.

Volcano Engine cũng công bố giải pháp đồng âm dịch thuật xuyên ngôn ngữ, giải pháp hiểu và tạo video đa phương thức, giải pháp tương tác AI tương tác, và giải pháp tái tạo 3D và cảnh lớn AIG3D, tích hợp khả năng AI từ giai đoạn sản xuất video, tương tác, đến tiêu thụ video.

Ví dụ, giải pháp tương tác AI tương tác, dựa trên mô hình lớn BeanPod và nhiều thuật toán tự phát triển của Volcano Engine, cung cấp khả năng trò chuyện thông minh và xử lý ngôn ngữ tự nhiên mạnh mẽ, đạt được phản hồi ngắt lời trong vài mili giây và trải nghiệm phản hồi liền mạch và ổn định.

Ngoài ra, Wang Yue còn tiết lộ tiến độ mới nhất của chip mã hóa video tự phát triển của ByteDance. Sau khi thử nghiệm nội bộ của Tập đoàn Douyin, chip này đã tiết kiệm đến 95% chi phí ở mức độ nén video tương đương và giành giải thưởng encoder ASIC tốt nhất trong cuộc thi Encoder World Championship 2024MSU. Wang Yue cho biết chip này sẽ được mở cửa thử nghiệm gần đây, tuyển dụng người dùng thử nghiệm đầu tiên để khám phá khả năng nhân rộng giá trị thương mại.

Vào ngày 18-19 tháng 8 năm 2024, Hội nghị Toàn cầu Phát triển và Ứng dụng Trí tuệ Nhân tạo AICon tại Thượng Hải đã thành công rực rỡ, quy tụ hơn 60 chuyên gia hàng đầu trong ngành mô hình lớn, phân tích toàn diện cơ chế huấn luyện và suy luận mô hình lớn, sự kết hợp đa phương thức, tiến bộ mới nhất của đại diện thông minh (Agent), chiến lược tạo nội dung tăng cường tìm kiếm (RAG), và tối ưu hóa và ứng dụng mô hình bên thiết bị di động.

Ngày 18-19 tháng 10, Hội nghị Toàn cầu Phần mềm Phát triển QCon sẽ diễn ra tại Thượng Hải. Từ các chủ đề kinh điển như kỹ thuật đám mây gốc, kiến trúc, độ tin cậy trực tuyến, front-end lớn, quản lý kỹ thuật, đến các chủ đề nóng như đại diện AI, hạ tầng AI, RAG, hơn 60 chuyên gia dày dặn kinh nghiệm sẽ cùng thảo luận về các trường hợp thực tiễn và xu hướng công nghệ tiên tiến.

**Từ khóa:**
– Giải pháp tiền xử lý video
– Mô hình lớn
– Volcano Engine
– PixelDance
– Trí tuệ nhân tạo

công nghệ số

Bản quyền bài viết thuộc về tác giả, vui lòng không sao chép khi chưa được phép.

Những bài viết liên quan:

Nhà đầu tư lớn chỉ trích một nửa số nhân viên Google chỉ là hình thức! Kỹ sư AI: Chúng tôi được tuyển dụng nhưng chỉ làm những việc vô ích.

công nghệ số

10tháng trước

0680

AI trong logistics: Tối ưu hóa quy trình và giảm chi phí.

công nghệ số

10tháng trước

0740

Bạn đã làm quen với phát triển không mã chưa? Thời đại chia sẻ lợi nhuận với AI đã đến | Thời gian Geek.

công nghệ số

10tháng trước

0710

Mô hình tạo video MiniMax ra mắt! Yan Junjie: Cốt lõi của phát triển mô hình lớn là “nhanh”.

công nghệ số

10tháng trước

0750

Chưa có đánh giá nào

Không có đánh giá...

663 ngày sau khi ChatGPT ra đời, Ultraman hiếm khi xuất bản một bài viết dự đoán mạnh mẽ: Thời gian không còn nhiều!

Giải pháp tiền xử lý video cho huấn luyện mô hình lớn

Tăng trưởng quy mô hơn 50%! Người bình thường làm thế nào để bắt tay vào phát triển ứng dụng mô hình lớn AI? | Thời gian Geek.

Kỳ tích được tạo ra trong 122 ngày: Khám phá sâu vào siêu máy tính AI với 100.000 GPU của xAI.

Những bài viết liên quan:

Nhà đầu tư lớn chỉ trích một nửa số nhân viên Google chỉ là hình thức! Kỹ sư AI: Chúng tôi được tuyển dụng nhưng chỉ làm những việc vô ích.

AI trong logistics: Tối ưu hóa quy trình và giảm chi phí.

Bạn đã làm quen với phát triển không mã chưa? Thời đại chia sẻ lợi nhuận với AI đã đến | Thời gian Geek.

Mô hình tạo video MiniMax ra mắt! Yan Junjie: Cốt lõi của phát triển mô hình lớn là “nhanh”.

Chưa có đánh giá nào

Tin tức mới nhất

663 ngày sau khi ChatGPT ra đời, Ultraman hiếm khi xuất bản một bài viết dự đoán mạnh mẽ: Thời gian không còn nhiều!

Giải pháp tiền xử lý video cho huấn luyện mô hình lớn

Tăng trưởng quy mô hơn 50%! Người bình thường làm thế nào để bắt tay vào phát triển ứng dụng mô hình lớn AI? | Thời gian Geek.

Kỳ tích được tạo ra trong 122 ngày: Khám phá sâu vào siêu máy tính AI với 100.000 GPU của xAI.

Những bài viết liên quan:

Nhà đầu tư lớn chỉ trích một nửa số nhân viên Google chỉ là hình thức! Kỹ sư AI: Chúng tôi được tuyển dụng nhưng chỉ làm những việc vô ích.

AI trong logistics: Tối ưu hóa quy trình và giảm chi phí.

Bạn đã làm quen với phát triển không mã chưa? Thời đại chia sẻ lợi nhuận với AI đã đến | Thời gian Geek.

Mô hình tạo video MiniMax ra mắt! Yan Junjie: Cốt lõi của phát triển mô hình lớn là “nhanh”.

Chưa có đánh giá nào

Tin tức mới nhất

Nhãn

Nhãn