Âm thanh 15 giây có thể “sao chép” giọng nói gốc! Nhưng OpenAI lo ngại mô hình giọng nói mới bị lạm dụng nên hạn chế phát hành.

Trong một bước tiến quan trọng, OpenAI đã giới thiệu mô hình tổng hợp giọng nói mới có tên là “Voice Engine” vào ngày 30 tháng 3. Mô hình này có khả năng tạo ra âm thanh tự nhiên, giàu cảm xúc và rất giống với người nói ban đầu chỉ từ 15 giây mẫu âm thanh và văn bản đầu vào.
Voice Engine đã được áp dụng trong API chuyển đổi văn bản thành giọng nói của OpenAI cũng như trong chức năng đọc và nói của ChatGPT. Công nghệ này dự kiến sẽ ảnh hưởng lớn đến nhiều nghề nghiệp cần sử dụng giọng nói thường xuyên như podcasters, diễn viên lồng tiếng, diễn viên nói, người đọc sách nói, người thuyết minh quảng cáo, game thủ, streamer, đại diện dịch vụ khách hàng, và nhân viên bán hàng.
Hiện tại, công nghệ này đang được triển khai ở quy mô nhỏ bởi các công ty như Age of Learning (công nghệ giáo dục), HeyGen (nền tảng kể chuyện hình ảnh), Dimagi (nhà sản xuất phần mềm y tế), Livox (nhà phát triển ứng dụng giao tiếp AI) và Lifespan (hệ thống y tế phi lợi nhuận). OpenAI cho biết những triển khai nhỏ này giúp họ hiểu rõ hơn về cách áp dụng và đảm bảo an toàn của công nghệ này trong nhiều lĩnh vực khác nhau.
Voice Engine không chỉ sao chép giọng nói mà còn có thể dịch âm thanh thành nhiều ngôn ngữ khác nhau, điều này đặc biệt hữu ích cho các công ty như Spotify Technology SA, nơi đã sử dụng công nghệ này để dịch các podcast nổi tiếng như của Lex Fridman.
Tuy nhiên, việc này cũng đặt ra những lo ngại về rủi ro của việc giả mạo giọng nói. Vào tháng 1, một cuộc gọi giả mạo giọng của Tổng thống Joe Biden đã gây ra sự hoang mang. Vì vậy, OpenAI đã quyết định thu hẹp quy mô phát hành và yêu cầu các đối tác tuân theo các chính sách sử dụng, không được giả mạo cá nhân hay tổ chức và phải có sự đồng ý rõ ràng từ người nói ban đầu. Họ cũng đã thêm một dấu hiệu âm thanh không thể nghe thấy để xác định âm thanh được tạo ra bởi Voice Engine.
Cuối cùng, OpenAI kêu gọi ngân hàng nên xóa bỏ việc xác thực giọng nói như một biện pháp an ninh và thúc đẩy giáo dục về chống giả mạo AI, cũng như phát triển các công nghệ phát hiện âm thanh thật hay giả mạo.

### Từ khóa
– Công nghệ AI
– Voice Engine
– Chuyển đổi văn bản thành giọng nói
– Giả mạo giọng nói
– An ninh thông tin
© Thông báo bản quyền
Bản quyền bài viết thuộc về tác giả, vui lòng không sao chép khi chưa được phép.
Những bài viết liên quan:
Không có đánh giá...