Phát triển khả năng suy luận của mô hình ngôn ngữ lớn

Tôi là Harish SG, một nhà nghiên cứu an ninh mạng đang theo học thạc sĩ tại Đại học Texas tại Dallas. Hiện tôi đang làm việc tại Cisco với tư cách là kỹ sư an ninh AI. Tôi từng tham gia chương trình tiền thưởng lỗ hổng của Microsoft và dự án VRP của Google.

Bài viết này nhằm nâng cao nhận thức công chúng và trao đổi kiến thức. Quan điểm trong bài viết hoàn toàn thuộc về cá nhân tôi và không liên quan đến vị trí công việc của tôi tại Cisco.

Đây không phải là một bài viết chuyên nghiệp về lĩnh vực AI, mà chỉ phản ánh hiểu biết và phân tích cá nhân của tôi về các mô hình ngôn ngữ lớn (LLM) và chức năng của chúng.

Bài viết này tập trung vào nghiên cứu gần đây của tôi trong lĩnh vực AI, với mục tiêu nâng cao hiệu suất của các mô hình nguồn mở để đạt hoặc vượt qua hiệu suất của các mô hình đóng, đặc biệt là cải thiện khả năng suy luận của mô hình hàng đầu hiện nay như Claude Sonnet 3.5.

Khả năng suy luận của LLM

Khả năng suy luận của LLM bao gồm:

Suy nghĩ logic
Đưa ra suy đoán
Gặp gỡ và giải quyết vấn đề phức tạp
Đưa ra quyết định hợp lý dựa trên thông tin có sẵn

Mặc dù LLM không được đào tạo đặc biệt để thực hiện các tác vụ suy luận, nhưng chúng đôi khi thể hiện khả năng tương tự.

Lý do quan trọng của khả năng suy luận LLM

Cải thiện sự hiểu biết sâu sắc hơn
Nâng cao khả năng giải quyết vấn đề
Tăng cường khả năng ra quyết định
Nâng cao khả năng tổng quát hóa
Ứng dụng trong thực tế

Thử nghiệm với mô hình nguồn mở

Tôi đã tạo ra một bộ dữ liệu từ các kỳ thi JEE Advanced và UPSC, được thiết kế để đánh giá sự hiểu biết sâu sắc, khả năng giải quyết vấn đề và ứng dụng kiến thức trong nhiều lĩnh vực.

Để đánh giá, tôi sử dụng một ứng dụng web được tạo bằng Streamlit, kết nối với API Groq cho các mô hình nguồn mở và các API khác cho các mô hình đóng như gpt4o, o1 và Claude.

Ứng dụng này sử dụng một hệ thống gợi ý từ “Bạn là một trợ lý AI, cần giải thích từng bước suy luận…” để hướng dẫn quá trình suy luận của AI.

Hệ thống gợi ý này chỉ đạo AI sử dụng phương pháp chuỗi suy nghĩ động, phản ánh và học tập bằng lời nói.

AI phân chia suy luận của mình thành các bước rõ ràng, mỗi bước có tiêu đề, nội dung, điểm tự tin và thời gian suy nghĩ.

Mỗi ba bước, AI sẽ thực hiện một quá trình phản ánh, xem xét các thiên kiến và góc nhìn khác nhau.

Ứng dụng này thực hiện ít nhất 15 bước trước khi đưa ra câu trả lời cuối cùng, đảm bảo phân tích kỹ lưỡng của câu hỏi được đưa ra.

Kết quả thử nghiệm

Ứng dụng phương pháp chuỗi suy nghĩ động, phản ánh và học tập bằng lời nói đã cải thiện đáng kể hiệu suất của hầu hết các mô hình, đặc biệt là Claude Sonnet và Llama 3.1 8b.

Claude Sonnet đạt được điểm số cao nhất (40/48), thể hiện tốt trong các vấn đề toán học, vật lý và hóa học. Llama 3.1 8b (33/48) và GPT-4O (36/48) cũng cải thiện đáng kể sau khi áp dụng phương pháp này.

Một số mô hình, ngoại trừ O1, giảm hiệu suất khi không áp dụng phương pháp này. O1 đạt 39/48 mà không cần bất kỳ phương pháp nào, cho thấy khả năng giải quyết vấn đề mạnh mẽ.

Claude Sonnet 3.5 có thể vượt qua O1 nếu được thử lại nhiều lần.

Putnam Competition

Putnam Competition là cuộc thi toán học khó khăn nhất dành cho sinh viên đại học ở Mỹ và Canada. Cuộc thi này bao gồm hai phần, mỗi phần kéo dài 3 giờ và có 6 câu hỏi, mỗi câu có giá trị 10 điểm.

Điểm số trung bình thường là 0 hoặc 1 trên tổng điểm tối đa 120 điểm. Chỉ có năm thí sinh trong lịch sử đã đạt được điểm tối đa.

Từ các bài kiểm tra Putnam từ năm 2013 đến 2023, llama3.1 70B, Claude Sonnet và o1 mini đã giải quyết được 14 câu hỏi, trong khi O1 giải quyết được 13 câu hỏi, và gpt4o giải quyết được 9 câu hỏi.

Các quan sát về LLM

LLM có khả năng tạo ra kịch bản giả tưởng.
Một số LLM, như Claude Sonnet 3.5 và gpt4o, cần hơn 50 bước suy luận nội bộ để giải quyết các vấn đề toán học phức tạp.
LLM hoạt động tốt hơn trong việc trả lời câu hỏi lựa chọn đáp án so với câu hỏi mở.
Claude Sonnet 3.5 đã sử dụng khoảng 1 triệu token để giải quyết 7 vấn đề.

Qua các quan sát này, tôi tin rằng LLM giống như một người đã đọc hàng triệu cuốn sách, nhưng chưa biết cách sử dụng dữ liệu này để giải quyết vấn đề. Do đó, chúng ta cần hướng dẫn LLM cách sử dụng kiến thức này một cách hiệu quả.

**Từ khóa:** AI, Mô hình ngôn ngữ lớn, Nguồn mở, Suy luận, Cải thiện

Chúng ta có thể làm cho các mô hình nhỏ mã nguồn mở thông minh hơn con người không?

Phát triển khả năng suy luận của mô hình ngôn ngữ lớn

Khả năng suy luận của LLM

Lý do quan trọng của khả năng suy luận LLM

Thử nghiệm với mô hình nguồn mở

Kết quả thử nghiệm

Putnam Competition

Các quan sát về LLM

OpenAI đe dọa người dùng rút quyền truy cập o1, chỉ vì hỏi về nguyên lý chuỗi suy nghĩ của o1!

Thuần hóa mô hình lớn không kiểm soát, cần giải quyết những vấn đề gì? | Phỏng vấn Phó Giám đốc Wang Wenguang của Daguan Data.

Những bài viết liên quan:

Cha đẻ AI Yann LeCun chỉ trích: Mô hình lớn ngày nay ngu hơn cả mèo, chỉ biết dự đoán văn bản mà không hề suy luận!

Microsoft Copilot tạo ra hình ảnh bạo lực tình dục mà không chịu thay đổi, kỹ sư nội bộ tuyệt vọng báo cáo lên chính phủ!

Andrej Karpathy đề xuất ý tưởng mới: Máy tính tương lai 2.0 sẽ hoàn toàn được điều khiển bởi mạng nơ-ron.

Phát hành 100 mô hình mã nguồn mở cùng lúc, giảm giá mạnh cho mô hình chủ lực! Alibaba: Nếu không, làm sao có thể nói về sự bùng nổ ứng dụng?!

Chưa có đánh giá nào

Tin tức mới nhất

Chúng ta có thể làm cho các mô hình nhỏ mã nguồn mở thông minh hơn con người không?

Khả năng suy luận của LLM

Lý do quan trọng của khả năng suy luận LLM

Thử nghiệm với mô hình nguồn mở

Kết quả thử nghiệm

Putnam Competition

Các quan sát về LLM

OpenAI đe dọa người dùng rút quyền truy cập o1, chỉ vì hỏi về nguyên lý chuỗi suy nghĩ của o1!

Thuần hóa mô hình lớn không kiểm soát, cần giải quyết những vấn đề gì? | Phỏng vấn Phó Giám đốc Wang Wenguang của Daguan Data.

Những bài viết liên quan:

Cha đẻ AI Yann LeCun chỉ trích: Mô hình lớn ngày nay ngu hơn cả mèo, chỉ biết dự đoán văn bản mà không hề suy luận!

Microsoft Copilot tạo ra hình ảnh bạo lực tình dục mà không chịu thay đổi, kỹ sư nội bộ tuyệt vọng báo cáo lên chính phủ!

Andrej Karpathy đề xuất ý tưởng mới: Máy tính tương lai 2.0 sẽ hoàn toàn được điều khiển bởi mạng nơ-ron.

Phát hành 100 mô hình mã nguồn mở cùng lúc, giảm giá mạnh cho mô hình chủ lực! Alibaba: Nếu không, làm sao có thể nói về sự bùng nổ ứng dụng?!

Chưa có đánh giá nào

Tin tức mới nhất

Nhãn

Nhãn