Mô hình học sâu mới nhất của Google hứa hẹn mang lại những tiến bộ vượt bậc.

Vào ngày 12 tháng 9, OpenAI đã chính thức ra mắt mô hình mới của mình, được đặt tên là o1. Đây là thành viên đầu tiên trong gia đình mô hình suy luận của OpenAI, có khả năng giải quyết các vấn đề khoa học, mã hóa và toán học mà các mô hình AI hiện tại không thể giải quyết, thậm chí bao gồm cả mô hình mạnh nhất hiện tại của OpenAI, GPT-4o. Tuy nhiên, mô hình này cũng đắt hơn và chậm hơn so với GPT-4o.
Công ty cho biết, o1 không phải là người kế nhiệm của GPT-4o mà chỉ là một bổ sung mạnh mẽ. Mô hình này không đưa ra câu trả lời theo cách truyền thống, mà thay vào đó phân tích vấn đề và đưa ra các bước tư duy hiệu quả như con người, cuối cùng đưa ra kết quả chính xác. Đồng thời, OpenAI cũng đã phát hành phiên bản nhỏ hơn và rẻ hơn của o1, gọi là o1-mini.
Một người dùng trên mạng xã hội đã chia sẻ video hoàn chỉnh về việc tạo ra trò chơi Snake 3D trong vòng một phút bằng o1. Một người khác đã tạo ứng dụng thời tiết đầy đủ với đồ họa động cho iOS trong vòng 10 phút bằng cách hợp nhất o1 và Cursor Composer.
Một người dùng khác nhận xét rằng, khả năng mã hóa và toán học của o1 tăng lên theo cấp số nhân so với GPT-4o, và giờ đây mọi người đều có thể xây dựng bất cứ thứ gì họ muốn. Một số người khác cho rằng Cursor và Replit đang chịu áp lực lớn từ o1, và o1 có thể tiêu diệt Cursor, Replit và nhiều mô hình mã hóa khác.
OpenAI đã công bố một số ví dụ về việc sử dụng mô hình mới này để giải quyết các vấn đề mà GPT-4o không thể giải quyết, bao gồm hai bài toán toán học phức tạp. Ví dụ, mô hình đã hiểu được các biến khác nhau trong câu hỏi và xác định phương trình cần thiết để giải quyết vấn đề, cuối cùng đưa ra câu trả lời chính xác từng bước (hoàng tử 30 tuổi, công chúa 40 tuổi).
OpenAI cũng đã thiết kế giao diện để hiển thị quá trình suy luận của mô hình, trong đó đáng chú ý là việc mô hình dường như cố gắng mô phỏng suy nghĩ của con người bằng cách sử dụng các biểu đạt như “Tôi rất tò mò”, “Tôi đang suy nghĩ nghiêm túc” và “Được, hãy để tôi suy nghĩ”.

Bob McGrew, Giám đốc Nghiên cứu của OpenAI, cho biết: “So với các mô hình trước đó, o1 thực sự cảm thấy giống con người hơn ở một số khía cạnh.” Ông cũng lưu ý rằng, mô hình này thể hiện tốt hơn ông trong kỳ thi toán AP, mặc dù ông là người có chuyên môn về toán học. Mark Chen, Phó Chủ tịch Nghiên cứu của OpenAI, cho biết mô hình mới này đang học cách suy nghĩ độc lập thay vì cố gắng mô phỏng cách suy nghĩ của con người.
Một ví dụ khác, yêu cầu o1 đếm số lượng chữ cái ‘r’ trong từ “strawberry”. Mặc dù hầu hết các mô hình ngôn ngữ dựa trên việc xử lý các khối dữ liệu token (từ), nhưng o1 có khả năng tự phản ánh và hiểu cách đếm số lượng chữ cái mà không cần gợi ý từ người dùng.
Theo OpenAI, trong cuộc thi toán AIME dành cho sinh viên chuyên toán, tỷ lệ giải quyết đúng của GPT-4o là 13.4%, trong khi o1 đạt 83.3%. Trên nền tảng Codeforces, mô hình mới này đạt vị trí thứ 89 phần trăm trong số tất cả người tham gia.

Trong lĩnh vực vật lý, o1 cũng đã đạt được kết quả ấn tượng. Mô hình này đã đạt điểm 92.8 trong việc giải quyết các bài toán vật lý cấp tiến sĩ, so với GPT-4o chỉ đạt 59.5 điểm. Theo OpenAI, phiên bản cập nhật tiếp theo của o1 sẽ có khả năng giải quyết các bài toán khó khăn như vật lý, hóa học và sinh học ở mức độ tương đương với sinh viên tiến sĩ.
Tuy nhiên, có một số tranh cãi về kết quả đánh giá. Một số người dùng chỉ ra rằng điểm AP vật lý là 89, trong khi điểm tiến sĩ là 92.8, điều này có thể gây hiểu lầm. Trên thực tế, các bài toán tiến sĩ thường đến từ bộ đề chuẩn bị sẵn, chứ không phải từ các bài toán thông thường.
OpenAI cũng đã chia sẻ một ví dụ về việc o1 viết một câu cú pháp chính xác mà không lặp lại bất kỳ chữ cái nào. Cuối cùng, o1 đã mất 39 giây để đưa ra câu trả lời “Go fix my bed.”
Hiện tại, o1 vẫn còn nhiều hạn chế. Ví dụ, phiên bản xem trước của o1 không thể duyệt web hoặc nhận tệp và hình ảnh tải lên. OpenAI cho biết, đối với những tác vụ này, GPT-4o vẫn là lựa chọn tốt nhất.

Ethan Mollick, giáo sư tại Trường Wharton, đã thử nghiệm o1 với tám gợi ý về trò chơi ô chữ và yêu cầu mô hình dịch nội dung sang văn bản. Mô hình đã mất 108 giây để đưa ra câu trả lời, mặc dù kết quả hoàn toàn chính xác, nhưng đã tạo ra một gợi ý cụ thể mà Mollick không cung cấp.
Một người dùng khác cho biết, o1 không thể giải quyết vấn đề suy luận ngược.
Jerry Tworek, người phụ trách nghiên cứu tại OpenAI, giải thích rằng cách huấn luyện o1 khác hoàn toàn so với các mô hình trước đây. Mặc dù OpenAI chưa tiết lộ chi tiết cụ thể, nhưng họ thừa nhận rằng o1 sử dụng một thuật toán tối ưu hóa huấn luyện mới cùng với bộ dữ liệu huấn luyện được tùy chỉnh riêng.

OpenAI đã thành công trong việc dạy cho các mô hình GPT trước đây cách mô phỏng các mẫu trong dữ liệu huấn luyện. O1 sử dụng kỹ thuật học tăng cường để huấn luyện mô hình giải quyết vấn đề một cách độc lập. Kỹ thuật này hướng dẫn hành vi hệ thống thông qua cơ chế khen thưởng và trừng phạt, tức là đưa ra phản hồi dương khi mô hình trả lời đúng và phản hồi âm khi trả lời sai, từ đó cải thiện quá trình suy luận. Dựa trên điều này, o1 có thể sử dụng “chuỗi suy luận” để xử lý truy vấn, giống như cách con người giải quyết vấn đề theo từng bước.
OpenAI cho biết, nhờ phương pháp huấn luyện mới này, kết quả do mô hình o1 tạo ra nên chính xác hơn. Tworek lưu ý rằng, “chúng tôi nhận thấy ảo tưởng của mô hình giảm đi,” nhưng vẫn còn tồn tại vấn đề, “chúng ta chưa thể nói rằng chúng tôi đã loại bỏ hoàn toàn ảo tưởng.”

Theo OpenAI, sự khác biệt lớn nhất giữa o1 và GPT-4o nằm ở khả năng giải quyết các vấn đề mã hóa và toán học phức tạp, đồng thời mô hình này cũng có thể giải thích quy trình suy luận. Tworek nhấn mạnh rằng, OpenAI không coi suy luận của mô hình AI là tương đương với suy luận của con người. Tuy nhiên, giao diện suy luận có thể hiển thị cách mô hình dành nhiều thời gian để phân tích và giải quyết vấn đề.
Mark Chen giải thích rằng, OpenAI đã xây dựng được một hệ thống suy luận chung mạnh mẽ hơn. “Tôi tin rằng chúng tôi đã đạt được một bước đột phá trong lĩnh vực này, và đây cũng là một trong những lợi thế của OpenAI. Thực tế, nó thể hiện hiệu suất tốt trong việc suy luận ở mọi lĩnh vực.”
Tuy nhiên, o1 vẫn kém hơn GPT-4o trong nhiều lĩnh vực. Noam Brown, nhà nghiên cứu về suy luận của OpenAI và cha đẻ của AI Poker, cho biết, “mô hình o1 của chúng tôi không phải lúc nào cũng tốt hơn GPT-4o. Nhiều tác vụ không đòi hỏi suy luận, và đôi khi việc chờ đợi o1 phản hồi không đáng so với phản hồi nhanh chóng của GPT-4o.”

Về mặt giá cả, o1 khoảng 3.5 lần đắt hơn so với GPT-4o và 100 lần đắt hơn so với GPT-4o mini. Hiện tại, để truy cập o1, các nhà phát triển cần trả một khoản phí cao: trong API, mỗi 1 triệu token đầu vào (tức là các khối văn bản mà mô hình phân tích) có giá 15 đô la, mỗi 1 triệu token đầu ra có giá 60 đô la. So với GPT-4o, mỗi 1 triệu token đầu vào chỉ có giá 5 đô la và mỗi 1 triệu token đầu ra có giá 15 đô la.
Để cung cấp giải pháp hiệu quả hơn cho các nhà phát triển, OpenAI cũng đã phát hành phiên bản o1-mini hiệu quả hơn về mặt kinh tế, rẻ hơn 80% so với o1-preview, phù hợp cho các ứng dụng yêu cầu suy luận nhưng không cần kiến thức rộng rãi về thế giới. OpenAI cho biết, họ dự định mở quyền truy cập miễn phí cho o1-mini cho tất cả người dùng ChatGPT, nhưng ngày cụ thể chưa được xác định.
Ngay từ hôm nay, người dùng ChatGPT Plus và Team có thể truy cập o1-preview và o1-mini. Người dùng Enterprise và Edu sẽ bắt đầu truy cập từ tuần tới.
Đáng chú ý, trong đội ngũ nghiên cứu đứng sau mô hình o1, có nhiều nhà phát triển người Hoa. Từ danh sách đóng góp chính của mô hình o1 do OpenAI công bố, chúng ta cũng thấy được nhiều tên tuổi người Hoa: Chong Zhang, Mengyuan Xu, Mingxuan Wang, Lilian Weng.

Mira Murati, CTO của OpenAI, trong một cuộc phỏng vấn, cho biết: “Chúng tôi tin rằng đây sẽ trở thành một mô hình mới trong AI, và có hiệu suất tốt hơn rõ ràng trong việc giải quyết các nhiệm vụ suy luận phức tạp.”
Murati giải thích rằng, OpenAI đang tập trung vào việc xây dựng mô hình chính thế hệ tiếp theo, GPT-5, sẽ vượt xa kích thước của tiền nhiệm. Mặc dù OpenAI vẫn tin rằng việc mở rộng quy mô giúp AI khám phá ra những khả năng mới, nhưng GPT-5 cũng có thể kết hợp kỹ thuật suy luận được công bố này. Murati nhấn mạnh: “Có hai cách tiếp cận chính cho mô hình ngôn ngữ lớn, một là cách tiếp cận mở rộng truyền thống, và cách tiếp cận mới là suy luận. Chúng tôi hy vọng có thể kết hợp cả hai.”
Ngoài ra, công nghệ này cũng giúp đảm bảo rằng mô hình AI không đi chệch khỏi đường ray hành vi đúng. Murati chỉ ra rằng, mô hình mới đã chứng minh rằng nó có thể tránh tạo ra các kết quả không mong muốn hoặc có hại, bởi vì nó có thể hiển thị quy trình suy luận của hành vi. “Điều này giống như việc dạy trẻ em, miễn là chúng có thể lý giải tại sao làm một điều gì đó, chúng sẽ dễ dàng hơn trong việc tuân theo các quy tắc, hành vi và giá trị.”
Việc nâng cao khả năng suy luận của mô hình ngôn ngữ lớn đã luôn là một chủ đề nóng trong lĩnh vực nghiên cứu AI. Trên thực tế, các đối thủ cạnh tranh khác cũng đang tiến hành nghiên cứu tương tự. Vào tháng 7, Google đã công bố AlphaProof, có thể học cách suy luận và giải quyết các vấn đề toán học bằng cách xem đáp án đúng. Tuy nhiên, một thách thức quan trọng trong việc mở rộng cách học này là mô hình có thể gặp phải rất nhiều vấn đề không có đáp án đúng.
Noah Goodman, giáo sư tại Đại học Stanford, đã xuất bản một bài báo về việc nâng cao khả năng suy luận của mô hình lớn. Ông cho rằng, chìa khóa cho việc đào tạo chung có thể nằm ở việc sử dụng “các gợi ý được viết cẩn thận cùng dữ liệu được tạo thủ công” để huấn luyện mô hình ngôn ngữ. Ông bổ sung rằng, việc ổn định hơn trong việc đổi lấy tốc độ suy luận để có độ chính xác cao hơn chính là một bước tiến lớn.
Yoon Kim, trợ lý giáo sư tại MIT, cũng đề cập rằng quá trình giải quyết vấn đề của mô hình ngôn ngữ lớn hiện nay vẫn khá bí ẩn. Ngay cả khi mô hình tiến hành suy luận từng bước, cơ chế bên dưới có thể khác biệt đáng kể so với trí tuệ con người. Với việc ứng dụng rộng rãi công nghệ này, sự khác biệt này chắc chắn đáng được chú ý. “Những hệ thống này có thể được sử dụng để đưa ra các quyết định ảnh hưởng đến quần chúng. Và câu hỏi quan trọng hơn là liệu chúng ta có thể hoàn toàn tin tưởng vào quyết định của mô hình hay không.”
Oren Etzioni, giáo sư danh dự tại Đại học Washington và một chuyên gia AI nổi tiếng, nhận xét rằng, việc cho phép mô hình ngôn ngữ lớn tham gia vào việc giải quyết các vấn đề đa bước, sử dụng công cụ và giải quyết các vấn đề phức tạp là vô cùng quan trọng. Ông cũng bổ sung rằng, việc đơn thuần mở rộng quy mô không đủ để đạt được mục tiêu này. Tuy nhiên, Etzioni cũng thừa nhận rằng vẫn còn nhiều thách thức cần vượt qua. “Ngay cả khi vấn đề suy luận được giải quyết, chúng ta vẫn phải đối mặt với xung đột giữa ảo tưởng và sự thật.”
Mark Chen, Phó Chủ tịch Nghiên cứu của OpenAI, giải thích một cách lạc quan rằng, phương pháp suy luận mới mà công ty đang phát triển cho thấy việc phát triển AI không nhất thiết phải tiêu tốn nhiều năng lượng tính toán. “Điểm hấp dẫn nhất của mô hình này, theo chúng tôi, là chúng tôi tin rằng nó có thể giúp chúng tôi giao tiếp trí tuệ với giá rẻ hơn. Đây cũng chính là sứ mệnh cốt lõi của công ty OpenAI.”
### Từ khóa:
– AI
– OpenAI
– o1
– suy luận
– GPT
© Thông báo bản quyền
Bản quyền bài viết thuộc về tác giả, vui lòng không sao chép khi chưa được phép.
Những bài viết liên quan:
Không có đánh giá...