Mới đây, OpenAI lại một lần nữa không ra mắt! Không đợi được “Strawberry”, chỉ phát hành bộ đánh giá, người dùng mạng: Đưa cái này để tranh thủ sự chú ý từ hội nghị của Google?

Đánh giá và cải tiến của SWE-bench trong việc đánh giá mô hình AI

Mới đây, OpenAI lại một lần nữa không ra mắt! Không đợi được

Những người hâm mộ đang chờ đợi một trận đấu hoành tráng giữa OpenAI và Google đã phải thất vọng khi cả hai đều chỉ tung ra những đòn tấn công không gây hại. Mặc dù mọi người đều đang tập trung vào kế hoạch “Strawberry”, OpenAI vẫn tiếp tục làm theo cách riêng của mình, thậm chí còn cung cấp một bộ công cụ đánh giá mới.

Ngày 14 tháng 8, OpenAI đã công bố một tập con được xác minh của SWE-bench, có thể đánh giá đáng tin cậy hơn khả năng giải quyết vấn đề phần mềm thực tế của các mô hình AI. Bộ công cụ này nhằm mục đích cung cấp một cách chính xác hơn để đánh giá năng lực của mô hình AI.

Một trong những thách thức lớn nhất khi đánh giá năng lực của mô hình AI là độ phức tạp của các tác vụ phần mềm, khó khăn trong việc đánh giá mã nguồn được tạo ra và thách thức trong việc mô phỏng môi trường phát triển thực tế. Vì vậy, việc đánh giá chính xác năng lực này đòi hỏi sự cẩn trọng.

SWE-bench, một trong những bộ công cụ đánh giá phần mềm phổ biến nhất, đã được sử dụng để đánh giá liệu các mô hình ngôn ngữ lớn có thể giải quyết các vấn đề phần mềm thực tế từ GitHub hay không. Tuy nhiên, một số nhiệm vụ trong SWE-bench có thể khó giải quyết hoặc không thể giải quyết, dẫn đến việc hệ thống này đã hệ thống hóa việc đánh giá thấp năng lực tự chủ của mô hình.

Để giải quyết vấn đề này, OpenAI đã hợp tác với các nhà phát triển phần mềm chuyên nghiệp để thực hiện một hoạt động đánh dấu thủ công, nhằm lọc và cải thiện chất lượng của tập dữ liệu SWE-bench. Kết quả là phiên bản đã được xác minh của SWE-bench, chứa 500 mẫu đã được kiểm tra kỹ lưỡng.

Bên cạnh đó, OpenAI cũng đã phát triển các công cụ đánh giá mới cho SWE-bench, sử dụng môi trường Docker để đánh giá dễ dàng và đáng tin cậy hơn.

Mặc dù không có trận chiến “Strawberry” như mong đợi, nhưng việc cải tiến SWE-bench chắc chắn sẽ giúp nâng cao độ chính xác và độ tin cậy trong việc đánh giá năng lực của các mô hình AI.

Trong thời đại số hóa này, công nghệ AI đang thay đổi ngành công nghiệp và cuộc sống hàng ngày. Từ giáo dục cá nhân đến tiếp thị bán lẻ chính xác, từ truyền thông ổn định hiệu quả đến quản lý rủi ro tài chính thông minh, AI đang không ngừng cải tiến và thúc đẩy sự phát triển kinh tế xã hội. Hãy cùng dõi theo những bước tiến mới trong lĩnh vực AI.

Từ khóa: SWE-bench, AI, OpenAI, phần mềm, đánh giá

công nghệ số

Bản quyền bài viết thuộc về tác giả, vui lòng không sao chép khi chưa được phép.

Những bài viết liên quan:

Bạn đã từng “phá hỏng” AI chưa? Quy trình làm việc của bạn có bị AI đảo lộn không?

công nghệ số

10tháng trước

0840

Hàng trăm kỹ sư nội bộ có thể tự do truy cập vào các mô hình tiên tiến của OpenAI! Cựu nhân viên OpenAI tiết lộ: Khuyên bảo thì bị sa thải, cầu nguyện công ty không trả thù.

công nghệ số

10tháng trước

0740

Kỹ sư ngân hàng xóa kho dữ liệu khi nghỉ việc, bị kết án hai năm tù; Huawei bị chỉ trích vì cơ chế “tài phân nhân tập”; GPT-4.5 bị nghi ngờ có giá gấp 6 lần GPT-4 | Tin tức tuần về AI.

công nghệ số

12tháng trước

01040

ChatGPT đã làm một công ty niêm yết phá sản! Giá trị hàng trăm tỷ đã biến mất, CEO 10 năm bị buộc phải từ chức, người dùng trả phí cảm thấy bị lừa.

công nghệ số

10tháng trước

0710

Chưa có đánh giá nào

Không có đánh giá...

Mới đây, OpenAI lại một lần nữa không ra mắt! Không đợi được “Strawberry”, chỉ phát hành bộ đánh giá, người dùng mạng: Đưa cái này để tranh thủ sự chú ý từ hội nghị của Google?

Ngành nhân văn cũng có thể đăng ký chuyên ngành AI! Một lớp có 60 lớp, Đại học Công nghệ Thái Nguyên dẫn đầu, hàng chục trường đại học mở rộng tuyển sinh mạnh mẽ ngành kỹ thuật phần mềm!

Không ngờ các công ty mô hình lớn trong nước lại một lần nữa phấn khởi, là do OpenAI ngừng cung cấp!

Những bài viết liên quan:

Bạn đã từng “phá hỏng” AI chưa? Quy trình làm việc của bạn có bị AI đảo lộn không?

Hàng trăm kỹ sư nội bộ có thể tự do truy cập vào các mô hình tiên tiến của OpenAI! Cựu nhân viên OpenAI tiết lộ: Khuyên bảo thì bị sa thải, cầu nguyện công ty không trả thù.

Kỹ sư ngân hàng xóa kho dữ liệu khi nghỉ việc, bị kết án hai năm tù; Huawei bị chỉ trích vì cơ chế “tài phân nhân tập”; GPT-4.5 bị nghi ngờ có giá gấp 6 lần GPT-4 | Tin tức tuần về AI.

ChatGPT đã làm một công ty niêm yết phá sản! Giá trị hàng trăm tỷ đã biến mất, CEO 10 năm bị buộc phải từ chức, người dùng trả phí cảm thấy bị lừa.

Chưa có đánh giá nào

Tin tức mới nhất

Mới đây, OpenAI lại một lần nữa không ra mắt! Không đợi được “Strawberry”, chỉ phát hành bộ đánh giá, người dùng mạng: Đưa cái này để tranh thủ sự chú ý từ hội nghị của Google?

Ngành nhân văn cũng có thể đăng ký chuyên ngành AI! Một lớp có 60 lớp, Đại học Công nghệ Thái Nguyên dẫn đầu, hàng chục trường đại học mở rộng tuyển sinh mạnh mẽ ngành kỹ thuật phần mềm!

Không ngờ các công ty mô hình lớn trong nước lại một lần nữa phấn khởi, là do OpenAI ngừng cung cấp!

Những bài viết liên quan:

Bạn đã từng “phá hỏng” AI chưa? Quy trình làm việc của bạn có bị AI đảo lộn không?

Hàng trăm kỹ sư nội bộ có thể tự do truy cập vào các mô hình tiên tiến của OpenAI! Cựu nhân viên OpenAI tiết lộ: Khuyên bảo thì bị sa thải, cầu nguyện công ty không trả thù.

Kỹ sư ngân hàng xóa kho dữ liệu khi nghỉ việc, bị kết án hai năm tù; Huawei bị chỉ trích vì cơ chế “tài phân nhân tập”; GPT-4.5 bị nghi ngờ có giá gấp 6 lần GPT-4 | Tin tức tuần về AI.

ChatGPT đã làm một công ty niêm yết phá sản! Giá trị hàng trăm tỷ đã biến mất, CEO 10 năm bị buộc phải từ chức, người dùng trả phí cảm thấy bị lừa.

Chưa có đánh giá nào

Tin tức mới nhất

Nhãn

Nhãn