Chỉ sau nửa năm đã dám thách thức OpenAI, mô hình mã nguồn mở đầu tiên không thua kém GPT-4o, LeCun và cha đẻ PyTorch đồng loạt khen ngợi!

công nghệ số5tháng trướccập nhật AIANT
45 00

Moshi – Trợ lý AI dựa trên giọng nói cách mạng hóa giao tiếp

Imagine một AI model có thể biểu đạt hơn 70 loại cảm xúc, nói với các phong cách khác nhau và thậm chí giả lập được cả giọng điệu đặc trưng. Hơn nữa, nó còn có khả năng xử lý đồng thời hai luồng âm thanh, nghe và nói cùng một lúc. Điều này không phải là từ một bộ phim khoa học viễn tưởng mà là một bước đột phá mới trong công nghệ AI của Kyutai.

Với sự nỗ lực của nhóm nghiên cứu không vì lợi nhuận gồm 8 thành viên chỉ trong vòng 6 tháng, họ đã phát triển nên một mô hình AI đa phương thức thực tế có tên là “Moshi”. Theo lời của Kyutai, Moshi là trợ lý AI có khả năng giao tiếp tự nhiên đầu tiên trên thế giới có thể truy cập công cộng. Mặc dù OpenAI đã từng giới thiệu engine giọng nói GPT-4o, nhưng chưa chính thức ra mắt.

Chỉ sau nửa năm đã dám thách thức OpenAI, mô hình mã nguồn mở đầu tiên không thua kém GPT-4o, LeCun và cha đẻ PyTorch đồng loạt khen ngợi!

Ngày 4 tháng 7, Kyutai đã công bố phiên bản thử nghiệm của Moshi tại Paris, Pháp. Người dùng có thể trực tiếp trải nghiệm Moshi online (https://moshi.chat/?queue_id=talktomoshi). Đặc biệt, tất cả các mô hình của Kyutai đều mở nguồn. Sau đó, nhóm nghiên cứu sẽ công bố mô hình hoàn chỉnh bao gồm thư viện mã suy luận, mô hình 7B, bộ giải mã âm thanh và chồng tối ưu hóa.

Yann LeCun, người đoạt giải Turing, chia sẻ rằng Moshi có thể hiểu được tiếng Anh mang giọng điệu của Pháp. Soumith Chintala, người sáng tạo ra PyTorch cũng gửi lời chúc mừng đến Kyutai và tiết lộ rằng một thành viên trong đội ngũ của Kyutai từng là đồng nghiệp cũ của ông tại đội ngũ nghiên cứu AI của Meta.

Chỉ sau nửa năm đã dám thách thức OpenAI, mô hình mã nguồn mở đầu tiên không thua kém GPT-4o, LeCun và cha đẻ PyTorch đồng loạt khen ngợi!

Kyutai – Nhóm nghiên cứu

Nhóm khởi nghiệp được thành lập vào tháng 11 năm 2023 và nhận được sự hỗ trợ tài chính từ các nhà đầu tư như tỷ phú người Pháp Xavier Niel, với tổng số tiền gần 300 triệu euro. Mục tiêu của họ là đóng góp vào nghiên cứu AI mở và thúc đẩy sự phát triển của hệ sinh thái. Kyutai cũng xây dựng một nhóm cố vấn khoa học bao gồm các nhà nghiên cứu AI nổi tiếng như Yejin Choi, Yann LeCun và Bernhard Schölkopf.

Tại buổi trình diễn trực tiếp, nhóm nghiên cứu Kyutai đã tương tác với Moshi, cho thấy khả năng chuyển đổi mượt mà giữa các phong cách nói khác nhau và khả năng biến đổi nhanh chóng trong các vai trò.

Khi được yêu cầu nói bằng giọng Pháp, Moshi đã đọc một bài thơ về Paris. Khi được yêu cầu hóa thân thành một cướp biển nhiệt huyết, Moshi kể lại câu chuyện về những cuộc phiêu lưu dũng cảm trên bảy đại dương. Moshi cũng có thể kể lại câu chuyện bí ẩn với giọng điệu thì thầm, mô tả tình tiết của bộ phim The Matrix.

Chỉ sau nửa năm đã dám thách thức OpenAI, mô hình mã nguồn mở đầu tiên không thua kém GPT-4o, LeCun và cha đẻ PyTorch đồng loạt khen ngợi!

Moshi còn có khả năng trở thành một trợ lý không gian, cùng người dùng trải nghiệm một chuyến du hành vũ trụ. Hơn nữa, Moshi phản ứng nhanh hơn con người, thường đưa ra câu trả lời trước khi câu hỏi hoặc gợi ý được hoàn toàn đặt ra.

Tại buổi công bố, Moshi đã hoạt động trên một MacBook Pro tiêu chuẩn mà không cần kết nối internet. Kyutai cũng lên kế hoạch tối ưu hóa Moshi cho thiết bị di động để đảm bảo sự phổ biến rộng rãi. Điều này sẽ giúp Moshi trở nên linh hoạt hơn, từ trợ lý cá nhân đến công cụ giáo dục di động, có thể sử dụng trong nhiều môi trường khác nhau.

Moshi không chỉ là một trợ lý AI dựa trên giọng nói, mà còn là một mô hình đa phương thức có khả năng xử lý văn bản và âm thanh. Một số tính năng chính của Moshi bao gồm:

  • Nghe và nói cùng lúc: Moshi hỗ trợ nhiều luồng âm thanh, giúp nó có thể lắng nghe và phản hồi một cách tự nhiên, tạo điều kiện cho các cuộc đối thoại liên tục. Điều này khác biệt so với các hệ thống truyền thống dựa vào phát hiện hoạt động âm thanh để chuyển đổi luồng.
  • Nghĩ bằng văn bản: Khi nói bằng âm thanh, Moshi sẽ tạo ra suy nghĩ bằng văn bản. Phương pháp kép này tăng cường khả năng tạo ra phản hồi chính xác và phù hợp với ngữ cảnh. Qua việc suy nghĩ bằng văn bản, Moshi có thể tổ chức phản hồi của mình một cách hiệu quả hơn và khai thác từ một cơ sở dữ liệu kiến thức phong phú hơn.
  • Có trí tuệ cảm xúc: Moshi không chỉ là một mô hình ngôn ngữ, mà còn hiểu được ý định đằng sau các từ ngữ. Mô hình này được huấn luyện để nhận diện cảm xúc và thậm chí tạo ra âm thanh truyền tải cảm xúc cụ thể.
  • Phản hồi tức thì: Theo tuyên bố của Kyutai, Moshi có độ trễ lý thuyết là 160 miligiây, thực tế, nó dao động từ 200 đến 240 miligiây.
  • Truy cập dễ dàng: Không chỉ là một dự án mở nguồn, Moshi còn có thể tích hợp và thử nghiệm bởi các công ty và nhà nghiên cứu. Ngoài ra, một phiên bản nhỏ hơn của Moshi có thể chạy trên máy tính cá nhân, giúp công nghệ này trở nên phổ biến hơn ngoài các phòng thí nghiệm nghiên cứu lớn.
  • AI có trách nhiệm: Kyutai đang tích hợp công nghệ đánh dấu nước để giúp nhận biết âm thanh do AI tạo ra, nhằm đảm bảo minh bạch.

Một trong những điểm ấn tượng nhất của Moshi là khả năng hoạt động trên thiết bị di động. Tính năng này giải quyết vấn đề về quyền riêng tư và làm cho AI dễ tiếp cận và phản hồi hơn trong các ứng dụng thời gian thực. Người dùng có thể tương tác với Moshi mà không lo lắng về việc dữ liệu được gửi đến máy chủ từ xa.

Moshi nổi bật nhờ khả năng xử lý đồng thời văn bản và âm thanh, hỗ trợ bởi quy trình huấn luyện liên hợp đổi mới của Kyutai.

Moshi được xây dựng dựa trên mô hình Helium 7B, tích hợp huấn luyện văn bản và âm thanh, được tối ưu hóa cho nền tảng CUDA, Metal và CPU, hỗ trợ lượng tử hóa 4 bit và 8 bit. Trong quá trình huấn luyện, Kyutai sử dụng nhiều nguồn dữ liệu khác nhau, bao gồm dữ liệu chuyển động cơ thể và video trên YouTube.

Moshi cũng tích hợp bộ giải mã âm thanh với áp suất cao dựa trên mô hình Mimi của Kyutai, có khả năng xử lý thông tin âm thanh một cách hiệu quả.

Quá trình huấn luyện Moshi bao gồm một số công nghệ tiên tiến, giúp mô hình hiểu sâu về ngôn ngữ tự nhiên và quy trình đối thoại.

  • Mô hình ngôn ngữ âm thanh: Mô hình của Moshi không chỉ được huấn luyện trên văn bản, mà còn được huấn luyện trên dữ liệu âm thanh. Âm thanh được nén thành các từ giả, sau đó mô hình được huấn luyện để dự đoán đoạn âm thanh tiếp theo. Phương pháp này giúp mô hình hiểu nội dung và ngữ cảnh của lời nói.
  • Đối thoại tổng hợp: Để huấn luyện Moshi về đối thoại, Kyutai đã tạo ra các cuộc đối thoại tổng hợp từ mô hình ngôn ngữ văn bản thuần túy. Những cuộc đối thoại này sau đó được tổng hợp qua bộ chuyển đổi văn bản thành âm thanh nội bộ. Phương pháp này đảm bảo Moshi học được các động lực thực sự của đối thoại.

Kyutai cũng đã giải quyết một cách sáng tạo các vấn đề truyền thống của hệ thống AI dựa trên giọng nói, như độ trễ và mất mát thông tin không phải văn bản trong quá trình xử lý, tạo ra một AI phản hồi nhanh hơn và nghe tự nhiên hơn.

Tích hợp mạng thần kinh sâu: Thay vì sử dụng các mô hình riêng biệt cho mỗi nhiệm vụ, Kyutai đã tích hợp tất cả vào một mạng thần kinh sâu. Sự tích hợp này giảm độ trễ và giữ nguyên sự phong phú của giao tiếp bằng âm thanh, điều mà thường bị mất trong xử lý văn bản thuần túy.

Huấn luyện dựa trên âm thanh: Mô hình của Moshi học từ các đoạn âm thanh được nén có chú thích, giúp nó hiểu được phức tạp của âm thanh, bao gồm các đặc điểm âm thanh cụ thể và điều kiện âm học.

Bên cạnh đó, Kyutai nhận thức rõ ràng rằng AI cấp cao có thể bị lạm dụng cho mục đích xấu như lừa đảo trực tuyến. Để giảm thiểu rủi ro này, Kyutai đã triển khai chiến lược nhận dạng nội dung do Moshi tạo ra, bao gồm duy trì cơ sở dữ liệu chữ ký âm thanh được tạo ra và sử dụng kỹ thuật đánh dấu nước để chèn các dấu không nghe thấy vào âm thanh.

Moshi đại diện cho một bước tiến lớn trong công nghệ AI dựa trên giọng nói. Trên phạm vi rộng hơn, Moshi có khả năng cách mạng hóa cách sử dụng giọng nói trong thế giới số. Ví dụ, chức năng chuyển đổi văn bản thành âm thanh của Moshi rất xuất sắc trong việc truyền tải cảm xúc và tương tác giọng nói đa người. Nó có khả năng truyền đạt cảm xúc, điều chỉnh phong cách nói và thực hiện đối thoại tự nhiên, sẽ thay đổi cách chúng ta tương tác với AI và mở ra một thế giới đầy tiềm năng:

  • Hỗ trợ khách hàng: Trợ lý AI được hỗ trợ bởi Moshi có thể cung cấp hỗ trợ khách hàng đồng cảm và hiệu quả, nâng cao sự hài lòng của người dùng và giảm thời gian chờ đợi.
  • Học ngôn ngữ: Khả năng mô phỏng giọng mẹ đẻ và truyền đạt cảm xúc của Moshi có thể cách mạng hóa việc học ngôn ngữ, làm cho nó trở nên sống động và hiệu quả hơn.
  • Chăm sóc sức khỏe: Moshi có thể trở thành bạn đồng hành của bệnh nhân, cung cấp hỗ trợ và thông tin, đồng thời điều chỉnh giọng điệu dựa trên trạng thái cảm xúc của người dùng.
  • Giải trí: Moshi có thể mang các nhân vật đến đời sống với sự đa dạng về giọng điệu và cảm xúc, làm phong phú trải nghiệm kể chuyện tương tác.

Mặc dù Moshi đang gây ra thách thức cho các công ty AI lớn như OpenAI, những người đã phải hoãn việc phát hành sản phẩm tương tự do vấn đề an ninh, nhưng Moshi cũng nhận được một số phê bình. Một số người dùng cho biết Moshi có tốc độ và phản hồi nhanh trong khoảng một phút đầu tiên, nhưng càng về sau càng trở nên rời rạc. Hơn nữa, Moshi thiếu kiến thức và có xu hướng rơi vào chu kỳ xin lỗi khi mắc lỗi.

Mặc dù OpenAI tạm thời chưa cần lo ngại về Moshi, nhưng điều này cho thấy nhiều công ty đang bắt kịp OpenAI. Giống như Sora, các công ty khác như Luma Labs và Runway đang tung ra sản phẩm cạnh tranh mạnh mẽ, thách thức chất lượng và vị thế thị trường của mô hình của OpenAI.

Từ khóa:

  • AI
  • Moshi
  • Trợ lý AI
  • Trí tuệ nhân tạo
  • Giọng nói
© Thông báo bản quyền

Những bài viết liên quan:

Chưa có đánh giá nào

none
Không có đánh giá...