Phát hành ngay lập tức đã bị sao chép? Mô hình tạo giọng nói của ByteDance bị “đạo nhái” chỉ vài giờ sau khi ra mắt, tác giả cảm thấy thật vô lý!

công nghệ số5tháng trướccập nhật AIANT
37 00

ChatTTS và Seed-TTS: Sự bùng nổ của công nghệ chuyển văn bản thành giọng nói

Nếu bạn đang theo dõi các tiến bộ trong lĩnh vực trí tuệ nhân tạo (AI), bạn chắc chắn đã nghe về sự bùng nổ của dự án ChatTTS. Mới đây, một dự án mới có tên là Seed-TTS đã được công bố bởi công ty ByteDance, còn được biết đến với thương hiệu TikTok.

Seed-TTS, được mô tả như một mô hình tạo giọng nói có thể tạo ra âm thanh gần như không thể phân biệt với giọng nói con người, đã thu hút sự chú ý lớn từ cộng đồng AI. Nó hỗ trợ nhiều ngôn ngữ, bao gồm tiếng Anh và tiếng Trung, và có khả năng tạo ra cả giọng nói cùng ngôn ngữ và khác ngôn ngữ.

Tuy nhiên, sự xuất hiện nhanh chóng của những trang web giả mạo Seed-TTS đã gây ra một số rắc rối. Chỉ vài ngày sau khi công bố, đã có những trang web giả mạo xuất hiện trên thị trường, thậm chí còn sử dụng mã nguồn của ChatTTS. Điều này đã khiến cho cộng đồng AI cảnh giác hơn.

Phát hành ngay lập tức đã bị sao chép? Mô hình tạo giọng nói của ByteDance bị “đạo nhái” chỉ vài giờ sau khi ra mắt, tác giả cảm thấy thật vô lý!

Trong một tuyên bố chính thức, ByteDance đã xác nhận rằng Seed-TTS sẽ không được mã nguồn mở để đảm bảo an ninh. Tuy nhiên, nhóm nghiên cứu đã cung cấp một số bộ dữ liệu đánh giá và công cụ đo lường để làm chuẩn.

Đáng chú ý, một số trang web giả mạo đã lan truyền thông tin sai lệch rằng Seed-TTS là một phiên bản giả mạo của ChatTTS. Sức ép này đã khiến ByteDance phải hành động, và họ đã thêm lời chú thích rõ ràng trên trang web chính thức của mình.

Phát hành ngay lập tức đã bị sao chép? Mô hình tạo giọng nói của ByteDance bị “đạo nhái” chỉ vài giờ sau khi ra mắt, tác giả cảm thấy thật vô lý!

Seed-TTS được xây dựng dựa trên hai kiến trúc chính: tự hồi quy và phân tán. Đầu tiên, một bộ chia token âm thanh sẽ chuyển đổi tín hiệu âm thanh đầu vào thành chuỗi các token âm thanh rời rạc. Sau đó, mô hình ngôn ngữ tự hồi quy của Seed-TTS sẽ tạo ra chuỗi ký hiệu âm thanh mục tiêu dựa trên văn bản và token âm thanh đầu vào. Quá trình này phụ thuộc vào việc hiểu cấu trúc ngôn ngữ và đặc điểm âm thanh của mô hình, đảm bảo chuỗi ký hiệu âm thanh được tạo ra phù hợp về mặt ngữ nghĩa và cú pháp với văn bản đầu vào.

Chuỗi ký hiệu âm thanh được tạo ra sau đó được gửi vào mô hình biến đổi phân tán (diffusion transformer). Mô hình này chịu trách nhiệm chuyển đổi các token âm thanh rời rạc thành biểu diễn âm thanh liên tục, quá trình này dần dần cải thiện từ thô đến tinh vi để tạo ra âm thanh tự nhiên và mượt mà.

Cuối cùng, biểu diễn âm thanh liên tục được gửi vào Acoustic Vocoder, chịu trách nhiệm chuyển đổi các biểu diễn này thành âm thanh chất lượng cao có thể nghe được.

Phát hành ngay lập tức đã bị sao chép? Mô hình tạo giọng nói của ByteDance bị “đạo nhái” chỉ vài giờ sau khi ra mắt, tác giả cảm thấy thật vô lý!

Một số tính năng nổi bật của Seed-TTS bao gồm khả năng tổng hợp âm thanh tự nhiên và biểu cảm trong nhiều tình huống khó khăn, cũng như giải quyết vấn đề ổn định phổ biến trong hệ thống tổng hợp âm thanh dựa trên mô hình ngôn ngữ.

ByteDance cũng đã triển khai nhiều biện pháp an toàn để ngăn chặn việc lạm dụng mô hình này. Họ đã phát triển một phương pháp xác thực nhiều bước để kiểm tra nội dung âm thanh và màu sắc giọng nói, đảm bảo chỉ có âm thanh của người dùng được ủy quyền mới được đăng ký. Ngoài ra, họ còn áp dụng một hệ thống dấu mộc nhiều cấp độ, được nhúng vào các cấp độ khác nhau của nội dung, như dấu mộc nền tảng video và dấu mộc trong mô tả nội dung.

Phát hành ngay lập tức đã bị sao chép? Mô hình tạo giọng nói của ByteDance bị “đạo nhái” chỉ vài giờ sau khi ra mắt, tác giả cảm thấy thật vô lý!

Với sự tăng trưởng nhanh chóng của công nghệ này, có thể thấy Seed-TTS sẽ mang lại nhiều cơ hội và thách thức trong tương lai.

Tóm tắt 5 từ khóa:

  • Trí tuệ nhân tạo
  • Chuyển văn bản thành giọng nói
  • Seed-TTS
  • ByteDance
  • StabilityAI
© Thông báo bản quyền

Những bài viết liên quan:

Chưa có đánh giá nào

none
Không có đánh giá...