663 ngày sau khi ChatGPT ra đời, Ultraman hiếm khi xuất bản một bài viết dự đoán mạnh mẽ: Thời gian không còn nhiều!
Giải pháp tiền xử lý video cho huấn luyện mô hình lớn
Giải pháp tiền xử lý video cho huấn luyện mô hình lớn

Vào ngày 15 tháng 10, Volcano Engine đã công bố giải pháp tiền xử lý video tại Hội nghị Công nghệ Video Cloud, nhằm giúp giải quyết các thách thức về chi phí, chất lượng và hiệu suất trong quá trình huấn luyện mô hình lớn. Hiện tại, giải pháp này đã được áp dụng vào mô hình tạo video BeanPod.
Tiền xử lý video là yếu tố quan trọng để đảm bảo hiệu quả của quá trình huấn luyện mô hình lớn. Quá trình này giúp chuẩn hóa định dạng dữ liệu video, cải thiện chất lượng dữ liệu, giảm thiểu số lượng dữ liệu cần xử lý và xử lý thông tin đánh dấu, giúp mô hình có thể học tập đặc điểm và kiến thức từ video một cách hiệu quả hơn, nâng cao hiệu suất và hiệu quả của quá trình huấn luyện.
Theo Wang Yue, người phụ trách kiến trúc video của Tập đoàn Douyin, việc huấn luyện mô hình lớn gặp phải nhiều thách thức: đầu tiên, bộ dữ liệu video khổng lồ dẫn đến tăng chi phí tính toán và xử lý; thứ hai, dữ liệu mẫu video không đồng đều; tiếp theo, quy trình xử lý phức tạp với nhiều bước; cuối cùng, việc điều phối tài nguyên tính toán đa dạng như GPU, CPU, ARM.
Dựa vào tài nguyên CPU của Intel, Volcano Engine đã công bố giải pháp tiền xử lý video dựa trên khung xử lý đa phương tiện tự phát triển BMF, giúp đối phó với thách thức về chi phí tính toán trong quá trình huấn luyện mô hình. Ngoài ra, giải pháp này cũng đã được tối ưu hóa về mặt thuật toán và kỹ thuật, giúp xử lý dữ liệu video với chất lượng cao trong thời gian ngắn, cải thiện hiệu suất huấn luyện mô hình. Đặc biệt, Volcano Engine đã công bố và mở nguồn phiên bản nhẹ BMF lite, hỗ trợ tiếp cận mô hình lớn bên cạnh thiết bị di động và tăng tốc tính toán.
Nhóm Nghiên cứu ByteDance, Li Hang, giới thiệu rằng mô hình tạo video PixelDance đã sử dụng giải pháp tiền xử lý video của Volcano Engine trong quá trình huấn luyện, tận dụng tối đa tài nguyên, cung cấp hỗ trợ mạnh mẽ cho quá trình huấn luyện. Giải pháp điểm danh của Volcano Engine cũng cung cấp dịch vụ quản lý toàn chu kỳ từ chỉnh sửa, tải lên, chuyển mã, phân phối, phát sóng video, đảm bảo ứng dụng thương mại của mô hình.
Mô hình tạo video PixelDance được công bố vào ngày 24 tháng 9, sử dụng cấu trúc DiT, thông qua đơn vị tính toán hợp nhất hiệu quả và phương pháp đào tạo mô hình lan truyền mới, vượt qua khó khăn về tương tác phức tạp giữa nhiều chủ thể và nhất quán nội dung giữa các cảnh quay, thu hút sự chú ý rộng rãi trong ngành. Hiện tại, mô hình tạo video BeanPod đã mở cửa thử nghiệm mời gọi doanh nghiệp.
Volcano Engine cũng công bố giải pháp đồng âm dịch thuật xuyên ngôn ngữ, giải pháp hiểu và tạo video đa phương thức, giải pháp tương tác AI tương tác, và giải pháp tái tạo 3D và cảnh lớn AIG3D, tích hợp khả năng AI từ giai đoạn sản xuất video, tương tác, đến tiêu thụ video.
Ví dụ, giải pháp tương tác AI tương tác, dựa trên mô hình lớn BeanPod và nhiều thuật toán tự phát triển của Volcano Engine, cung cấp khả năng trò chuyện thông minh và xử lý ngôn ngữ tự nhiên mạnh mẽ, đạt được phản hồi ngắt lời trong vài mili giây và trải nghiệm phản hồi liền mạch và ổn định.
Ngoài ra, Wang Yue còn tiết lộ tiến độ mới nhất của chip mã hóa video tự phát triển của ByteDance. Sau khi thử nghiệm nội bộ của Tập đoàn Douyin, chip này đã tiết kiệm đến 95% chi phí ở mức độ nén video tương đương và giành giải thưởng encoder ASIC tốt nhất trong cuộc thi Encoder World Championship 2024MSU. Wang Yue cho biết chip này sẽ được mở cửa thử nghiệm gần đây, tuyển dụng người dùng thử nghiệm đầu tiên để khám phá khả năng nhân rộng giá trị thương mại.
Vào ngày 18-19 tháng 8 năm 2024, Hội nghị Toàn cầu Phát triển và Ứng dụng Trí tuệ Nhân tạo AICon tại Thượng Hải đã thành công rực rỡ, quy tụ hơn 60 chuyên gia hàng đầu trong ngành mô hình lớn, phân tích toàn diện cơ chế huấn luyện và suy luận mô hình lớn, sự kết hợp đa phương thức, tiến bộ mới nhất của đại diện thông minh (Agent), chiến lược tạo nội dung tăng cường tìm kiếm (RAG), và tối ưu hóa và ứng dụng mô hình bên thiết bị di động.
Ngày 18-19 tháng 10, Hội nghị Toàn cầu Phần mềm Phát triển QCon sẽ diễn ra tại Thượng Hải. Từ các chủ đề kinh điển như kỹ thuật đám mây gốc, kiến trúc, độ tin cậy trực tuyến, front-end lớn, quản lý kỹ thuật, đến các chủ đề nóng như đại diện AI, hạ tầng AI, RAG, hơn 60 chuyên gia dày dặn kinh nghiệm sẽ cùng thảo luận về các trường hợp thực tiễn và xu hướng công nghệ tiên tiến.
**Từ khóa:**
– Giải pháp tiền xử lý video
– Mô hình lớn
– Volcano Engine
– PixelDance
– Trí tuệ nhân tạo
© Thông báo bản quyền
Bản quyền bài viết thuộc về tác giả, vui lòng không sao chép khi chưa được phép.
Những bài viết liên quan:
Không có đánh giá...