Mới đây, OpenAI lại một lần nữa không ra mắt! Không đợi được “Strawberry”, chỉ phát hành bộ đánh giá, người dùng mạng: Đưa cái này để tranh thủ sự chú ý từ hội nghị của Google?

công nghệ số5tháng trướccập nhật AIANT
37 00





Đánh giá và cải tiến của SWE-bench trong việc đánh giá mô hình AI


Mới đây, OpenAI lại một lần nữa không ra mắt! Không đợi được

Những người hâm mộ đang chờ đợi một trận đấu hoành tráng giữa OpenAI và Google đã phải thất vọng khi cả hai đều chỉ tung ra những đòn tấn công không gây hại. Mặc dù mọi người đều đang tập trung vào kế hoạch “Strawberry”, OpenAI vẫn tiếp tục làm theo cách riêng của mình, thậm chí còn cung cấp một bộ công cụ đánh giá mới.

Ngày 14 tháng 8, OpenAI đã công bố một tập con được xác minh của SWE-bench, có thể đánh giá đáng tin cậy hơn khả năng giải quyết vấn đề phần mềm thực tế của các mô hình AI. Bộ công cụ này nhằm mục đích cung cấp một cách chính xác hơn để đánh giá năng lực của mô hình AI.

Một trong những thách thức lớn nhất khi đánh giá năng lực của mô hình AI là độ phức tạp của các tác vụ phần mềm, khó khăn trong việc đánh giá mã nguồn được tạo ra và thách thức trong việc mô phỏng môi trường phát triển thực tế. Vì vậy, việc đánh giá chính xác năng lực này đòi hỏi sự cẩn trọng.

SWE-bench, một trong những bộ công cụ đánh giá phần mềm phổ biến nhất, đã được sử dụng để đánh giá liệu các mô hình ngôn ngữ lớn có thể giải quyết các vấn đề phần mềm thực tế từ GitHub hay không. Tuy nhiên, một số nhiệm vụ trong SWE-bench có thể khó giải quyết hoặc không thể giải quyết, dẫn đến việc hệ thống này đã hệ thống hóa việc đánh giá thấp năng lực tự chủ của mô hình.

Để giải quyết vấn đề này, OpenAI đã hợp tác với các nhà phát triển phần mềm chuyên nghiệp để thực hiện một hoạt động đánh dấu thủ công, nhằm lọc và cải thiện chất lượng của tập dữ liệu SWE-bench. Kết quả là phiên bản đã được xác minh của SWE-bench, chứa 500 mẫu đã được kiểm tra kỹ lưỡng.

Bên cạnh đó, OpenAI cũng đã phát triển các công cụ đánh giá mới cho SWE-bench, sử dụng môi trường Docker để đánh giá dễ dàng và đáng tin cậy hơn.

Mặc dù không có trận chiến “Strawberry” như mong đợi, nhưng việc cải tiến SWE-bench chắc chắn sẽ giúp nâng cao độ chính xác và độ tin cậy trong việc đánh giá năng lực của các mô hình AI.

Trong thời đại số hóa này, công nghệ AI đang thay đổi ngành công nghiệp và cuộc sống hàng ngày. Từ giáo dục cá nhân đến tiếp thị bán lẻ chính xác, từ truyền thông ổn định hiệu quả đến quản lý rủi ro tài chính thông minh, AI đang không ngừng cải tiến và thúc đẩy sự phát triển kinh tế xã hội. Hãy cùng dõi theo những bước tiến mới trong lĩnh vực AI.

Từ khóa: SWE-bench, AI, OpenAI, phần mềm, đánh giá


© Thông báo bản quyền

Những bài viết liên quan:

Chưa có đánh giá nào

none
Không có đánh giá...