Âm thanh 15 giây có thể “sao chép” giọng nói gốc! Nhưng OpenAI lo ngại mô hình giọng nói mới bị lạm dụng nên hạn chế phát hành.

Trong một bước tiến quan trọng, OpenAI đã giới thiệu mô hình tổng hợp giọng nói mới có tên là “Voice Engine” vào ngày 30 tháng 3. Mô hình này có khả năng tạo ra âm thanh tự nhiên, giàu cảm xúc và rất giống với người nói ban đầu chỉ từ 15 giây mẫu âm thanh và văn bản đầu vào.

Voice Engine đã được áp dụng trong API chuyển đổi văn bản thành giọng nói của OpenAI cũng như trong chức năng đọc và nói của ChatGPT. Công nghệ này dự kiến sẽ ảnh hưởng lớn đến nhiều nghề nghiệp cần sử dụng giọng nói thường xuyên như podcasters, diễn viên lồng tiếng, diễn viên nói, người đọc sách nói, người thuyết minh quảng cáo, game thủ, streamer, đại diện dịch vụ khách hàng, và nhân viên bán hàng.

Hiện tại, công nghệ này đang được triển khai ở quy mô nhỏ bởi các công ty như Age of Learning (công nghệ giáo dục), HeyGen (nền tảng kể chuyện hình ảnh), Dimagi (nhà sản xuất phần mềm y tế), Livox (nhà phát triển ứng dụng giao tiếp AI) và Lifespan (hệ thống y tế phi lợi nhuận). OpenAI cho biết những triển khai nhỏ này giúp họ hiểu rõ hơn về cách áp dụng và đảm bảo an toàn của công nghệ này trong nhiều lĩnh vực khác nhau.

Voice Engine không chỉ sao chép giọng nói mà còn có thể dịch âm thanh thành nhiều ngôn ngữ khác nhau, điều này đặc biệt hữu ích cho các công ty như Spotify Technology SA, nơi đã sử dụng công nghệ này để dịch các podcast nổi tiếng như của Lex Fridman.

Tuy nhiên, việc này cũng đặt ra những lo ngại về rủi ro của việc giả mạo giọng nói. Vào tháng 1, một cuộc gọi giả mạo giọng của Tổng thống Joe Biden đã gây ra sự hoang mang. Vì vậy, OpenAI đã quyết định thu hẹp quy mô phát hành và yêu cầu các đối tác tuân theo các chính sách sử dụng, không được giả mạo cá nhân hay tổ chức và phải có sự đồng ý rõ ràng từ người nói ban đầu. Họ cũng đã thêm một dấu hiệu âm thanh không thể nghe thấy để xác định âm thanh được tạo ra bởi Voice Engine.

Cuối cùng, OpenAI kêu gọi ngân hàng nên xóa bỏ việc xác thực giọng nói như một biện pháp an ninh và thúc đẩy giáo dục về chống giả mạo AI, cũng như phát triển các công nghệ phát hiện âm thanh thật hay giả mạo.

### Từ khóa
– Công nghệ AI
– Voice Engine
– Chuyển đổi văn bản thành giọng nói
– Giả mạo giọng nói
– An ninh thông tin

công nghệ số

Bản quyền bài viết thuộc về tác giả, vui lòng không sao chép khi chưa được phép.

Những bài viết liên quan:

Thời đại mô hình nhỏ đã đến? Microsoft công bố mô hình AI với tham số nhỏ nhất, hiệu suất gần sát GPT-3.5.

công nghệ số

10tháng trước

0800

Sử dụng AI để tăng cường tai nghe hội nghị, tương lai thông minh sẽ làm người lao động trở thành “miệng thay não”.

công nghệ số

10tháng trước

01850

GPU đang khan hiếm nhưng không có gì bất ngờ từ Huang, người đã khiến mọi người tranh giành.

công nghệ số

11tháng trước

0780

Tập hợp các trường hợp thực tiễn của các mô hình lớn từ Google, Alibaba, ByteDance, iFlytek, Dark Moon và Zhizhu đã hoàn tất | Lịch trình AICon Bắc Kinh 2024.

công nghệ số

10tháng trước

0850

Chưa có đánh giá nào

Không có đánh giá...

Âm thanh 15 giây có thể “sao chép” giọng nói gốc! Nhưng OpenAI lo ngại mô hình giọng nói mới bị lạm dụng nên hạn chế phát hành.

Google gửi tặng quà năm mới! Công bố phát hành TensorFlow GNN 1.0: Dùng để xây dựng mạng nơ-ron đồ thị quy mô lớn, có khả năng lấy mẫu tương tác và động.

Thị trường C quá cạnh tranh, chuyển sang ứng dụng doanh nghiệp, khoảng cách giữa mô hình lớn và tình huống kinh doanh thực tế là bao xa?

Những bài viết liên quan:

Thời đại mô hình nhỏ đã đến? Microsoft công bố mô hình AI với tham số nhỏ nhất, hiệu suất gần sát GPT-3.5.

Sử dụng AI để tăng cường tai nghe hội nghị, tương lai thông minh sẽ làm người lao động trở thành “miệng thay não”.

GPU đang khan hiếm nhưng không có gì bất ngờ từ Huang, người đã khiến mọi người tranh giành.

Tập hợp các trường hợp thực tiễn của các mô hình lớn từ Google, Alibaba, ByteDance, iFlytek, Dark Moon và Zhizhu đã hoàn tất | Lịch trình AICon Bắc Kinh 2024.

Chưa có đánh giá nào

Tin tức mới nhất

Âm thanh 15 giây có thể “sao chép” giọng nói gốc! Nhưng OpenAI lo ngại mô hình giọng nói mới bị lạm dụng nên hạn chế phát hành.

Google gửi tặng quà năm mới! Công bố phát hành TensorFlow GNN 1.0: Dùng để xây dựng mạng nơ-ron đồ thị quy mô lớn, có khả năng lấy mẫu tương tác và động.

Thị trường C quá cạnh tranh, chuyển sang ứng dụng doanh nghiệp, khoảng cách giữa mô hình lớn và tình huống kinh doanh thực tế là bao xa?

Những bài viết liên quan:

Thời đại mô hình nhỏ đã đến? Microsoft công bố mô hình AI với tham số nhỏ nhất, hiệu suất gần sát GPT-3.5.

Sử dụng AI để tăng cường tai nghe hội nghị, tương lai thông minh sẽ làm người lao động trở thành “miệng thay não”.

GPU đang khan hiếm nhưng không có gì bất ngờ từ Huang, người đã khiến mọi người tranh giành.

Tập hợp các trường hợp thực tiễn của các mô hình lớn từ Google, Alibaba, ByteDance, iFlytek, Dark Moon và Zhizhu đã hoàn tất | Lịch trình AICon Bắc Kinh 2024.

Chưa có đánh giá nào

Tin tức mới nhất

Nhãn

Nhãn