OpenAI công bố mô hình flagship GPT-4o, hoàn toàn miễn phí, không rào cản giao tiếp với con người! Ultraman: Đây là mô hình tốt nhất của chúng tôi.

OpenAI Ra mắt Mô hình Trí tuệ Nhân tạo Mới: GPT-4o

Hồi tuần trước, có rất nhiều tin đồn về việc OpenAI sắp ra mắt bản cập nhật quan trọng. Có nguồn tin cho rằng, nhà sản xuất ChatGPT – OpenAI, đang lên kế hoạch ra mắt một sản phẩm tìm kiếm cạnh tranh với Google để nâng cao chức năng của các chatbot và mở rộng thị trường mới. Một số báo cáo còn cho biết sản phẩm tìm kiếm mới này có thể được công bố vào ngày 12 tháng 5, ngay trước thềm sự kiện Google I/O. Tuy nhiên, Sam Altman đã bác bỏ những thông tin này.

Trong một bài đăng trên X, ông viết: “Không phải là GPT-5, cũng không phải là công cụ tìm kiếm, nhưng chúng tôi đã và đang phát triển một số thứ mới mà chúng tôi tin rằng mọi người sẽ yêu thích! Đối với tôi, điều này giống như phép thuật.”

Ngay sau đó, OpenAI đã chính thức công bố “thứ giống như phép thuật” mà Altman đã đề cập. Tại buổi họp báo, OpenAI đã giới thiệu mô hình trí tuệ nhân tạo mới mang tên GPT-4o, sẽ được triển khai dần trong các sản phẩm của công ty trong vài tuần tới.

Murati, Giám đốc Công nghệ của OpenAI, cho biết GPT-4o cung cấp “trí thông minh ở mức GPT-4”, nhưng cải thiện khả năng xử lý văn bản, hình ảnh và âm thanh của GPT-4.

“GPT-4o có khả năng suy luận qua giọng nói, văn bản và hình ảnh,” Murati chia sẻ trong bài phát biểu chính tại trụ sở OpenAI. Để tăng cường khả năng của nó, đội ngũ OpenAI đã thêm công nghệ mới vào chế độ giọng nói, cho phép người dùng giao tiếp với ChatGPT thông qua micro.

Mô hình tiền nhiệm của OpenAI, GPT-4, đã được đào tạo trên cả hình ảnh và văn bản, có thể phân tích hình ảnh và văn bản để thực hiện các tác vụ từ việc trích xuất văn bản từ hình ảnh đến mô tả nội dung của chúng. GPT-4o không chỉ chuyển đổi giọng nói thành văn bản, mà còn hiểu và đánh dấu các chức năng khác của âm thanh, ví dụ như nhịp thở và cảm xúc.

Đáng tiếc là chi tiết kỹ thuật cụ thể chưa được công bố, nhưng OpenAI cho biết GPT-4o hiện nay xử lý 50 ngôn ngữ nhanh hơn, có thể sử dụng cùng công nghệ giúp tăng tốc độ xử lý tiếng Nhật trên GPT-4. Với ứng dụng máy tính để bàn GPT-4o/ChatGPT, người dùng có thể có một đối tác lập trình trò chuyện cùng mình và xem những gì họ đang thấy.

Ngoài ra, OpenAI cũng đang ra mắt phiên bản máy tính để bàn của ChatGPT và giao diện người dùng được cập nhật.

William Fedus, một nghiên cứu viên của OpenAI, chia sẻ: “GPT-4o là mô hình tiên tiến nhất của chúng tôi. Chúng tôi đã thử nghiệm một phiên bản của nó trên sân chơi LMSys arena với tên gọi im-also-a-good-gpt2-chatbot.”

“Đây không chỉ là mô hình tốt nhất thế giới, mà còn miễn phí sử dụng trong ChatGPT, điều này chưa từng có cho một mô hình tiên tiến,” Fedus bổ sung. “Chúng tôi nhận thấy có sự chênh lệch lớn hơn trong các tập lệnh khó khăn – đặc biệt là mã hóa – giữa GPT-4o và mô hình tốt nhất trước đây của chúng tôi, đạt mức +100 ELO.”

Ngoài ra, trong API, giá của GPT-4o chỉ bằng một nửa so với GPT-4-turbo, tốc độ gấp đôi và hạn chế tốc độ năm lần.

Lần này, OpenAI đã quyết định cho phép tất cả mọi người sử dụng công nghệ mới này, không giống như các phiên bản trước, thường chỉ mở cửa cho một số người dùng trả phí cụ thể.

Một trong những mục tiêu của OpenAI là khiến cuộc trò chuyện với ChatGPT giống như cuộc trò chuyện với con người, nhưng đáng tiếc là trước đây, phản hồi của ChatGPT thường chậm, làm gián đoạn sự hòa mình vào cuộc trò chuyện. Bây giờ, công ty đang thêm công nghệ mới vào GPT-4o để tăng tốc độ cuộc trò chuyện với các chatbot.

Để minh họa điều này, OpenAI đã sử dụng giọng nói để thực hiện cuộc trò chuyện với GPT-4o. GPT-4o không chỉ đáp lại gần như ngay lập tức sau khi người trình diễn kết thúc lời nói của mình, mà còn phản hồi qua chuyển đổi văn bản thành giọng nói, tạo cảm giác như đang trò chuyện trực tiếp với ai đó. Trong quá trình demo, GPT-4o hướng dẫn người trình diễn Mark Chen cách hít thở tốt hơn; bao gồm thu thập mẫu âm thanh hít thở của anh ấy và đưa ra lời khuyên về cách cải thiện.

Một người trình diễn khác đã thể hiện khả năng kể chuyện trước khi đi ngủ của GPT-4o với chủ đề “robot và tình yêu”. Khi câu chuyện đang diễn ra, Mark Chen, một nhà phát triển của OpenAI, can thiệp và yêu cầu GPT-4o điều chỉnh giọng điệu khi nói. Quả thật, GPT-4o có thể thay đổi giọng nói theo yêu cầu, từ kiểu diễn kịch quá mức đến giọng lạnh lùng, máy móc. Cuối cùng, họ đã trình diễn một số khả năng hát của GPT-4o để hoàn thiện câu chuyện.

Đồng thời, các người trình diễn cũng đã thể hiện tài năng toán học của GPT-4o. Người trình diễn viết một phương trình và trình chiếu nó thông qua camera điện thoại. Được yêu cầu giúp giải quyết vấn đề nhưng không được tiết lộ câu trả lời, GPT-4o đã hướng dẫn người trình diễn hoàn thành quy trình giải phương trình đơn giản, đóng vai trò như một giáo viên. Ngoài ra, nó còn trả lời câu hỏi điển hình “Tôi sẽ sử dụng nó như thế nào trong cuộc sống thực?” bằng cách giải thích cách phương trình bậc hai giúp chúng ta hoàn thành các công việc hàng ngày.

Các người trình diễn cũng sử dụng phiên bản máy tính để bàn của GPT-4o để kiểm tra một số đoạn mã code mà họ sở hữu. GPT-4o không chỉ giải thích chức năng của đoạn mã, mà còn cho biết nếu bạn thay đổi một phần cụ thể của đoạn mã, điều gì sẽ xảy ra.

Năm qua, ngành AIGC dường như đã trở nên cực kỳ cạnh tranh, với nhiều công ty tung ra các chatbot AI của riêng mình, như Google’s Gemini, Anthropic’s Claude và X’s GrokAI, đang cạnh tranh với OpenAI để thu hút sự chú ý.

Trước buổi họp báo, có rất nhiều suy đoán về nội dung mà OpenAI sẽ công bố. CEO của Abacus.AI dự đoán, một trợ lý Siri mới có thể đến từ OpenAI, cụ thể hơn là chế độ trò chuyện trong ChatGPT trên iOS; Jim Fan, một nhà khoa học nghiên cứu AI cấp cao của Nvidia, dự đoán OpenAI sẽ trình diễn trợ lý giọng nói thời gian thực vào ngày hôm sau; một người dùng mạng xã hội cho rằng OpenAI sẽ trình diễn “cập nhật hàng ngày kiểu Google” với các mô hình được cập nhật mỗi ngày.

Một người dùng mạng xã hội khác tên là Ananay cho biết: “OpenAI dường như đang cố gắng tích hợp cuộc gọi điện thoại vào ChatGPT, hoặc ít nhất là cung cấp một dạng truyền thông thời gian thực, không chỉ là văn bản. Điều này có thể chỉ là một phần nhỏ của sự kiện được công bố vào thứ Hai. Ông thậm chí còn cho biết, OpenAI đã triển khai máy chủ webRTC để thực hiện điều này và đã cấu hình máy chủ này gần đây.

Một dự án mã nguồn mở để cung cấp truyền thông thời gian thực trong ứng dụng – ví dụ như hội nghị video và thoại. Đây có thể là một phần của hành vi đại diện của ChatGPT. Với điều này, bạn có thể ra lệnh cho AI bắt đầu và thực hiện các tác vụ thay mặt bạn – cho phép nó thực hiện cuộc gọi đặt lịch hẹn hoặc xử lý cuộc gọi đến mà không cần sự tham gia của bạn.

Nên nhớ, Sam Altman gần đây đã chia sẻ trong một cuộc phỏng vấn với báo giới rằng ông sẽ không ngần ngại xây dựng Trí tuệ nhân tạo tổng quát (AGI). Trong một cuộc giao lưu với sinh viên Đại học Stanford, Altman nhấn mạnh rằng bất kỳ chi phí nào để phát triển AGI đều là hợp lý.

Theo tạp chí Fortune, ông nói: “Có thể có người trong OpenAI lo lắng về chi tiêu của chúng tôi, nhưng tôi không nghĩ vậy.” “Dù chúng tôi tiêu tốn 500 triệu đô la, 5 tỷ đô la hay 50 tỷ đô la mỗi năm, tôi thực sự không quan tâm, miễn là chúng tôi giữ được con đường đúng đắn, tôi tin rằng cuối cùng chúng tôi sẽ tạo ra giá trị lớn hơn cho xã hội, miễn là chúng tôi tìm ra cách trả tiền, giống như việc chúng tôi đang phát triển AGI, điều này sẽ tốn kém, nhưng hoàn toàn xứng đáng,” ông bổ sung.

OpenAI công bố mô hình flagship GPT-4o, hoàn toàn miễn phí, không rào cản giao tiếp với con người! Ultraman: Đây là mô hình tốt nhất của chúng tôi.

Khám phá biên giới mới của công nghệ trí tuệ nhân tạo, Báo cáo Theo dõi Quý 1 năm 2024 về Mô hình Mô hình Lớn của Trung Quốc chính thức được công bố! Việc ra mắt của mô hình lớn OpenAI Sora và NVIDIA Project GR00T, cùng với những đột phá trong robot hình người và các đại diện thông minh mã hóa, đang mở ra kỷ nguyên mới của mô hình lớn AI. Trong xu hướng mới song song giữa mã nguồn mở và mã nguồn đóng, việc đánh giá các công cụ viết và tạo PPT AI cho thấy tiềm năng khổng lồ của AI trong việc tạo nội dung và trình bày hình ảnh. Trung tâm Nghiên cứu InfoQ mời bạn cùng chứng kiến cách làn sóng AI đang định hình tương lai . Hãy quét mã QR để theo dõi tài khoản WeChat “AI Frontline” và nhận Báo cáo Quý!

Từ khóa: