Phát hành ngay lập tức đã bị sao chép? Mô hình tạo giọng nói của ByteDance bị “đạo nhái” chỉ vài giờ sau khi ra mắt, tác giả cảm thấy thật vô lý!

ChatTTS và Seed-TTS: Sự bùng nổ của công nghệ chuyển văn bản thành giọng nói

Nếu bạn đang theo dõi các tiến bộ trong lĩnh vực trí tuệ nhân tạo (AI), bạn chắc chắn đã nghe về sự bùng nổ của dự án ChatTTS. Mới đây, một dự án mới có tên là Seed-TTS đã được công bố bởi công ty ByteDance, còn được biết đến với thương hiệu TikTok.

Seed-TTS, được mô tả như một mô hình tạo giọng nói có thể tạo ra âm thanh gần như không thể phân biệt với giọng nói con người, đã thu hút sự chú ý lớn từ cộng đồng AI. Nó hỗ trợ nhiều ngôn ngữ, bao gồm tiếng Anh và tiếng Trung, và có khả năng tạo ra cả giọng nói cùng ngôn ngữ và khác ngôn ngữ.

Tuy nhiên, sự xuất hiện nhanh chóng của những trang web giả mạo Seed-TTS đã gây ra một số rắc rối. Chỉ vài ngày sau khi công bố, đã có những trang web giả mạo xuất hiện trên thị trường, thậm chí còn sử dụng mã nguồn của ChatTTS. Điều này đã khiến cho cộng đồng AI cảnh giác hơn.

Phát hành ngay lập tức đã bị sao chép? Mô hình tạo giọng nói của ByteDance bị “đạo nhái” chỉ vài giờ sau khi ra mắt, tác giả cảm thấy thật vô lý!

Trong một tuyên bố chính thức, ByteDance đã xác nhận rằng Seed-TTS sẽ không được mã nguồn mở để đảm bảo an ninh. Tuy nhiên, nhóm nghiên cứu đã cung cấp một số bộ dữ liệu đánh giá và công cụ đo lường để làm chuẩn.

Đáng chú ý, một số trang web giả mạo đã lan truyền thông tin sai lệch rằng Seed-TTS là một phiên bản giả mạo của ChatTTS. Sức ép này đã khiến ByteDance phải hành động, và họ đã thêm lời chú thích rõ ràng trên trang web chính thức của mình.

Seed-TTS được xây dựng dựa trên hai kiến trúc chính: tự hồi quy và phân tán. Đầu tiên, một bộ chia token âm thanh sẽ chuyển đổi tín hiệu âm thanh đầu vào thành chuỗi các token âm thanh rời rạc. Sau đó, mô hình ngôn ngữ tự hồi quy của Seed-TTS sẽ tạo ra chuỗi ký hiệu âm thanh mục tiêu dựa trên văn bản và token âm thanh đầu vào. Quá trình này phụ thuộc vào việc hiểu cấu trúc ngôn ngữ và đặc điểm âm thanh của mô hình, đảm bảo chuỗi ký hiệu âm thanh được tạo ra phù hợp về mặt ngữ nghĩa và cú pháp với văn bản đầu vào.

Chuỗi ký hiệu âm thanh được tạo ra sau đó được gửi vào mô hình biến đổi phân tán (diffusion transformer). Mô hình này chịu trách nhiệm chuyển đổi các token âm thanh rời rạc thành biểu diễn âm thanh liên tục, quá trình này dần dần cải thiện từ thô đến tinh vi để tạo ra âm thanh tự nhiên và mượt mà.

Cuối cùng, biểu diễn âm thanh liên tục được gửi vào Acoustic Vocoder, chịu trách nhiệm chuyển đổi các biểu diễn này thành âm thanh chất lượng cao có thể nghe được.

Một số tính năng nổi bật của Seed-TTS bao gồm khả năng tổng hợp âm thanh tự nhiên và biểu cảm trong nhiều tình huống khó khăn, cũng như giải quyết vấn đề ổn định phổ biến trong hệ thống tổng hợp âm thanh dựa trên mô hình ngôn ngữ.

ByteDance cũng đã triển khai nhiều biện pháp an toàn để ngăn chặn việc lạm dụng mô hình này. Họ đã phát triển một phương pháp xác thực nhiều bước để kiểm tra nội dung âm thanh và màu sắc giọng nói, đảm bảo chỉ có âm thanh của người dùng được ủy quyền mới được đăng ký. Ngoài ra, họ còn áp dụng một hệ thống dấu mộc nhiều cấp độ, được nhúng vào các cấp độ khác nhau của nội dung, như dấu mộc nền tảng video và dấu mộc trong mô tả nội dung.

Với sự tăng trưởng nhanh chóng của công nghệ này, có thể thấy Seed-TTS sẽ mang lại nhiều cơ hội và thách thức trong tương lai.

Tóm tắt 5 từ khóa:

Trí tuệ nhân tạo
Chuyển văn bản thành giọng nói
Seed-TTS
ByteDance
StabilityAI

công nghệ số

Bản quyền bài viết thuộc về tác giả, vui lòng không sao chép khi chưa được phép.

Những bài viết liên quan:

Vừa rồi, công ty mới của Ilya đã huy động 1 tỷ USD, chỉ có 10 nhân viên: Trước khi AGI thành công, không phát hành bất kỳ sản phẩm nào.

công nghệ số

10tháng trước

0730

Tiến triển mới trong tối ưu hóa suy diễn mô hình lớn: Nhận định từ các chuyên gia của Nvidia, Alibaba, Tencent và Zero One Wanwu | AICon.

công nghệ số

10tháng trước

0740

Không ngờ các công ty mô hình lớn trong nước lại một lần nữa phấn khởi, là do OpenAI ngừng cung cấp!

công nghệ số

10tháng trước

0900

Không thể trách Ultraman hoảng sợ! Đối thủ lớn nhất Anthropic đã nhanh chóng để AI tiếp quản máy tính của con người, người dùng khen ngợi và kêu gọi OpenAI: Hãy xem họ đi!

công nghệ số

10tháng trước

0750

Chưa có đánh giá nào

Không có đánh giá...

Phát hành ngay lập tức đã bị sao chép? Mô hình tạo giọng nói của ByteDance bị “đạo nhái” chỉ vài giờ sau khi ra mắt, tác giả cảm thấy thật vô lý!

ChatTTS và Seed-TTS: Sự bùng nổ của công nghệ chuyển văn bản thành giọng nói

Tóm tắt 5 từ khóa:

Cổ phiếu Apple hiếm khi tăng vọt, do tin đồn chip M4 sẽ ra mắt vào cuối năm.

Đội ngũ mô hình lớn của Xiaohongshu khám phá và thực hành: Từ 0 đến 1 xây dựng khung RLHF tự phát triển.

Những bài viết liên quan:

Vừa rồi, công ty mới của Ilya đã huy động 1 tỷ USD, chỉ có 10 nhân viên: Trước khi AGI thành công, không phát hành bất kỳ sản phẩm nào.

Tiến triển mới trong tối ưu hóa suy diễn mô hình lớn: Nhận định từ các chuyên gia của Nvidia, Alibaba, Tencent và Zero One Wanwu | AICon.

Không ngờ các công ty mô hình lớn trong nước lại một lần nữa phấn khởi, là do OpenAI ngừng cung cấp!

Không thể trách Ultraman hoảng sợ! Đối thủ lớn nhất Anthropic đã nhanh chóng để AI tiếp quản máy tính của con người, người dùng khen ngợi và kêu gọi OpenAI: Hãy xem họ đi!

Chưa có đánh giá nào

Tin tức mới nhất

Phát hành ngay lập tức đã bị sao chép? Mô hình tạo giọng nói của ByteDance bị “đạo nhái” chỉ vài giờ sau khi ra mắt, tác giả cảm thấy thật vô lý!

ChatTTS và Seed-TTS: Sự bùng nổ của công nghệ chuyển văn bản thành giọng nói

Tóm tắt 5 từ khóa:

Cổ phiếu Apple hiếm khi tăng vọt, do tin đồn chip M4 sẽ ra mắt vào cuối năm.

Đội ngũ mô hình lớn của Xiaohongshu khám phá và thực hành: Từ 0 đến 1 xây dựng khung RLHF tự phát triển.

Những bài viết liên quan:

Vừa rồi, công ty mới của Ilya đã huy động 1 tỷ USD, chỉ có 10 nhân viên: Trước khi AGI thành công, không phát hành bất kỳ sản phẩm nào.

Tiến triển mới trong tối ưu hóa suy diễn mô hình lớn: Nhận định từ các chuyên gia của Nvidia, Alibaba, Tencent và Zero One Wanwu | AICon.

Không ngờ các công ty mô hình lớn trong nước lại một lần nữa phấn khởi, là do OpenAI ngừng cung cấp!

Không thể trách Ultraman hoảng sợ! Đối thủ lớn nhất Anthropic đã nhanh chóng để AI tiếp quản máy tính của con người, người dùng khen ngợi và kêu gọi OpenAI: Hãy xem họ đi!

Chưa có đánh giá nào

Tin tức mới nhất

Nhãn

Nhãn