Chia sẻ dài 10.000 từ về thực tiễn ứng dụng mô hình lớn của Kuaishou Kolors.

công nghệ số5tháng trướccập nhật AIANT
48 00

Khám phá vai trò của khả năng đa mô hình trong việc cải thiện hiệu suất doanh nghiệp

Trong lĩnh vực cải thiện hiệu suất doanh nghiệp, khả năng đa mô hình đóng một vai trò quan trọng. Tại sự kiện AICon tại Bắc Kinh, chúng tôi đã mời ông Li Yan, người phụ trách dự án Kolors của Kuaishou, chia sẻ về chủ đề “Kolors: Thực hành áp dụng mô hình sinh ảnh từ văn bản“. Bài phát biểu của ông Li Yan sau đây sẽ mang lại cho bạn nhiều suy nghĩ mới mẻ!

Ngoài ra, trong hội nghị AICon toàn cầu về trí tuệ nhân tạo và ứng dụng phát triển diễn ra vào ngày 18-19 tháng 8 tại Thượng Hải, chúng tôi cũng đã chuẩn bị một chuyên đề “Các ứng dụng tiên tiến và đổi mới của mô hình đa mô hình ngôn ngữ lớn“. Hiện nay, hai bài thuyết trình đã được đăng tải, bao gồm “Sử dụng mô hình ngôn ngữ lớn trong lĩnh vực thị giác máy tính” của nhà nghiên cứu khoa học nghiên cứu của ByteDance, ông Feng Jianshi và “Mô hình sinh âm thanh đa mô hình: Kết hợp sản xuất và mô hình hóa” của ông Ye Jianhao, người phụ trách thuật toán AI của Himalaya.

Thời gian qua là một năm đầy sôi động và đột phá đối với ngành công nghiệp sinh ảnh từ văn bản. Trong khoảng thời gian này, ngành công nghiệp sinh ảnh từ văn bản đã trải qua nhiều đợt tăng trưởng đột biến. Bằng cách tổng kết từ tháng 3 năm 2023 đến nay, có thể thấy rằng nhiều tổ chức đã lần lượt tung ra các sản phẩm sinh ảnh từ văn bản của riêng họ, điều này phản ánh sự nóng bỏng và hoạt động mạnh mẽ của ngành công nghiệp hiện nay. Hình ảnh trên liệt kê một số tiêu chuẩn ngành, bao gồm tổ chức đóng cửa Midjourney, tổ chức mở nguồn stability.ai, cũng như các công ty internet hàng đầu trong và ngoài nước, bao gồm cả Kolors của Kuaishou.

Chia sẻ dài 10.000 từ về thực tiễn ứng dụng mô hình lớn của Kuaishou Kolors.

Tiếp theo, bài viết này sẽ thảo luận về xu hướng phát triển của công nghệ sinh ảnh. Để hiểu rõ về sự phát triển của công nghệ, thời gian truy cập được kéo dài đến năm 2014. Từ hình ảnh trên, có thể dễ dàng nhận thấy rằng trong thập kỷ qua, khung công nghệ sinh sản dần chuyển từ mạng đối kháng sinh sản (GAN) sang mô hình lan truyền (Diffusion Model). Mặc dù trong giai đoạn này đã xuất hiện một số phương pháp dựa trên tự hồi quy (Auto Regressive), nhưng chúng không trở thành xu hướng chính của ngành.

Chia sẻ dài 10.000 từ về thực tiễn ứng dụng mô hình lớn của Kuaishou Kolors.

Tiếp theo, chúng tôi sẽ giới thiệu cho bạn đọc về cơ sở của mô hình sinh ảnh từ văn bản Kolors từ ba góc độ: dữ liệu, mô hình và hiệu quả.

Góc độ dữ liệu: Dữ liệu là yếu tố then chốt trong việc xây dựng mô hình lớn. Yếu tố quan trọng của dữ liệu bao gồm: 1. Dữ liệu phải có khối lượng lớn; 2. Dữ liệu phải bao gồm tất cả các khái niệm, đặc biệt là các khái niệm bằng tiếng Trung; 3. Chất lượng hình ảnh phải tốt; 4. Sự liên quan giữa văn bản và hình ảnh phải cao. Hình ảnh ở đây hiển thị hai bức ảnh từ nhà cung cấp hình ảnh xuất sắc nhất Shutterstock, nhiều doanh nghiệp, bao gồm cả chúng tôi, đều mong muốn có được nó. Shutterstock đã ký thỏa thuận hợp tác chiến lược với các doanh nghiệp như Google và OpenAI.

Chia sẻ dài 10.000 từ về thực tiễn ứng dụng mô hình lớn của Kuaishou Kolors.

Thực tế, những dữ liệu này đáp ứng tất cả các tiêu chuẩn trên, bao gồm cảm giác nghệ thuật, bố cục và độ rõ nét, và trong vấn đề liên quan giữa văn bản và hình ảnh, chúng thể hiện rất tốt. Tất nhiên, chi phí thu được dữ liệu chất lượng cao có thể khá cao. Tiếp theo, chúng tôi sẽ thảo luận về an toàn dữ liệu, trong quá trình huấn luyện mô hình sinh ảnh từ văn bản, phải đảm bảo đồng thời an toàn của cả văn bản và hình ảnh. Trong một số trường hợp, mặc dù văn bản và hình ảnh nhìn riêng lẻ đều an toàn, nhưng khi kết hợp lại có thể tạo ra ý nghĩa liên quan không phù hợp (mọi người tự tưởng tượng). An toàn suy luận cũng cần được đảm bảo, điều này phải cảm ơn giải pháp kiểm soát rủi ro toàn cảnh hàng đầu của ngành mà Kuaishou đã xây dựng trong nhiều năm, từ văn bản đến hình ảnh, đảm bảo an toàn cho mô hình. Trong cuộc thảo luận về dữ liệu, một câu hỏi thường xuyên được đặt ra là: liệu quá trình huấn luyện mô hình sinh ảnh từ văn bản có quên mất các khái niệm cũ không? Đây là một câu hỏi mà nhiều nhà nghiên cứu trong lĩnh vực sinh ảnh nhìn thấy.

Chia sẻ dài 10.000 từ về thực tiễn ứng dụng mô hình lớn của Kuaishou Kolors.
Chia sẻ dài 10.000 từ về thực tiễn ứng dụng mô hình lớn của Kuaishou Kolors.
Chia sẻ dài 10.000 từ về thực tiễn ứng dụng mô hình lớn của Kuaishou Kolors.
Chia sẻ dài 10.000 từ về thực tiễn ứng dụng mô hình lớn của Kuaishou Kolors.
Chia sẻ dài 10.000 từ về thực tiễn ứng dụng mô hình lớn của Kuaishou Kolors.
Chia sẻ dài 10.000 từ về thực tiễn ứng dụng mô hình lớn của Kuaishou Kolors.
Chia sẻ dài 10.000 từ về thực tiễn ứng dụng mô hình lớn của Kuaishou Kolors.
Chia sẻ dài 10.000 từ về thực tiễn ứng dụng mô hình lớn của Kuaishou Kolors.
Chia sẻ dài 10.000 từ về thực tiễn ứng dụng mô hình lớn của Kuaishou Kolors.
Chia sẻ dài 10.000 từ về thực tiễn ứng dụng mô hình lớn của Kuaishou Kolors.
Chia sẻ dài 10.000 từ về thực tiễn ứng dụng mô hình lớn của Kuaishou Kolors.

Vào ngày 6 tháng 7, ông Gai Kun, Phó giám đốc cấp cao của Kuaishou và người phụ trách khoa học cộng đồng và khoa học dữ liệu, đã công bố tại Hội nghị Thế giới về Trí tuệ Nhân tạo (WAIC) rằng mô hình Kolors của Kuaishou sẽ được mở mã nguồn hoàn toàn. Kolors hỗ trợ song ngữ Anh-Trung, chất lượng tạo ra không kém gì so với phiên bản 6 của Midjourney, hỗ trợ văn bản đầu vào lên tới 256 ký tự, và có khả năng viết bằng tiếng Anh và tiếng Trung. Hiện tại, Kolors đã được tải lên nền tảng Hugging Face và GitHub, bao gồm cả trọng lượng mô hình và mã nguồn đầy đủ, cho phép các nhà phát triển cá nhân sử dụng miễn phí.

Địa chỉ trang web chính thức: https://kwai-kolors.github.io/

Địa chỉ dự án GitHub: https://github.com/Kwai-Kolors/Kolors

Địa chỉ mô hình Hugging Face: https://huggingface.co/Kwai-Kolors/Kolors

Địa chỉ báo cáo kỹ thuật:

Chia sẻ dài 10.000 từ về thực tiễn ứng dụng mô hình lớn của Kuaishou Kolors.

Vừa qua, trong bảng đánh giá mô hình sinh ảnh từ văn bản FlagEval của AICon, Kolors đã đạt điểm số tổng hợp chủ quan toàn cầu thứ hai, chỉ đứng sau mô hình đóng cửa DALL-E 3. Đặc biệt, về mặt chất lượng hình ảnh chủ quan, Kolors đã vượt trội hơn so với các mô hình mở và đóng khác, đứng đầu bảng xếp hạng.

Chia sẻ dài 10.000 từ về thực tiễn ứng dụng mô hình lớn của Kuaishou Kolors.

Mô hình Kolors đã thu hút hơn 2.5 nghìn sao trên GitHub chỉ trong vài ngày, và cũng đã đứng đầu bảng xếp hạng mô hình nổi bật trên Hugging Face. Tính đến khi bài viết này được viết, nó đã được tải xuống hàng vạn lần. Hiện tại, phản ứng từ cộng đồng mã nguồn mở rất tích cực, với các nhà phát triển đã cung cấp các khả năng bổ sung như tăng tốc và ComfyUI. Một loạt các hành động mở mã nguồn này sẽ cung cấp cho các nhà phát triển các công cụ và tài nguyên đa dạng hơn, làm phong phú thêm hệ sinh thái mã nguồn mở trong lĩnh vực sinh ảnh từ văn bản, tạo điều kiện cho việc khám phá thêm nhiều ứng dụng và đổi mới công nghệ, cùng nhau thúc đẩy sự tiến bộ và phổ biến của công nghệ sinh ảnh từ văn bản. Kolors, tương lai đang chờ đợi!

Li Yan, người phụ trách dự án Kolors của Kuaishou, là tiến sĩ từ Viện Khoa học Máy tính của Học viện Khoa học Trung Quốc, từng là người phụ trách hiểu nội dung video của WeChat Video, tập trung vào các lĩnh vực hiểu và tạo nội dung đa mô hình, với hơn 10 năm kinh nghiệm nghiên cứu và triển khai thuật toán trong lĩnh vực nhận diện khuôn mặt, hiểu hình ảnh, tạo hình ảnh, tạo video.

InfoQ sẽ tổ chức Hội nghị Toàn cầu về Trí tuệ Nhân tạo và Phát triển Ứng dụng (AICon) tại Thượng Hải từ ngày 18-19 tháng 8, quy tụ các chuyên gia hàng đầu từ các doanh nghiệp hàng đầu, đi sâu vào các chủ đề tiên tiến như AI cuối đường, huấn luyện mô hình lớn, thực hành an toàn, ứng dụng RAG, đổi mới đa mô hình. Hiện nay, hội nghị đã bắt đầu nhận đăng ký, chi tiết xin liên hệ với quản lý vé số 13269078023 để biết thêm thông tin.

Chia sẻ dài 10.000 từ về thực tiễn ứng dụng mô hình lớn của Kuaishou Kolors.

Công nghệ AIGC đang thay đổi ranh giới của đổi mới với tốc độ đáng kinh ngạc. Sách điện tử đầu tiên của InfoQ “Câu chuyện thành công của các nhà lãnh đạo AIGC trong lĩnh vực mô hình lớn“, đã phỏng vấn sâu 30 chuyên gia hàng đầu trong lĩnh vực mô hình lớn tại Trung Quốc, khám phá xu hướng và tương lai của công nghệ mô hình lớn, lựa chọn 10 trường hợp thực tiễn từ ngành, và trình bày đầy đủ ứng dụng của mô hình lớn trong nhiều ngành công nghiệp cụ thể. Đồng thời, nó cũng tiết lộ hiệu quả của các mô hình lớn nổi tiếng trên toàn thế giới, cung cấp hỗ trợ quyết định và tham khảo lựa chọn cho các nhà khởi nghiệp và nhà phát triển. Hãy theo dõi “Phía trước AI“, và trả lời “Lãnh đạo” để nhận sách điện tử miễn phí.

Bạn cũng thích nó không?

Từ khóa

  • Mô hình đa mô hình
  • Sinh ảnh từ văn bản
  • Kolors
  • Trí tuệ nhân tạo
  • Hệ sinh thái mã nguồn mở
© Thông báo bản quyền

Những bài viết liên quan:

Chưa có đánh giá nào

none
Không có đánh giá...