Giáo sư Huang Minlie từ Đại học Tsinghua: Làm thế nào để biến mô hình lớn thành thứ mà chúng ta có thể yên tâm?
Mô hình lớn và vấn đề an ninh: Một cuộc tranh luận không ngừng nghỉ
Trong ngành công nghiệp trí tuệ nhân tạo, mâu thuẫn giữa nhóm an toàn của OpenAI và ban lãnh đạo công ty đã kéo dài từ lâu. Sự ra đi của nhà khoa học hàng đầu Ilya Sutskever đã làm nổi bật lại vấn đề an ninh của mô hình lớn. Có hai phe trong ngành công nghiệp này: một phe do Yann LeCun dẫn đầu, cho rằng sự lo ngại về an ninh bị phóng đại quá mức, trong khi phe kia, bao gồm cả Ilya, nhấn mạnh rằng vấn đề an ninh cần được giải quyết ngay lập tức.
Khi chúng ta chuyển sự chú ý sang Trung Quốc, chúng ta thấy rằng mức độ chấp nhận đối với vấn đề an ninh mô hình lớn ở đây còn thấp hơn nữa. Mặc dù có sự khác biệt văn hóa, nhưng trọng tâm của việc giám sát cũng có những điểm chung. Tại Diễn đàn Mô hình Lớn CCF vào ngày 6 tháng 6, Giáo sư thường trực Huang Minlie từ Đại học Thanh Hoa đã giới thiệu các nghiên cứu mà ông đang thực hiện, hầu hết đều liên quan đến vấn đề an ninh của mô hình lớn.
Giáo sư Huang Minlie cho biết, Siêu căn chỉnh (Superalignment) không chỉ là vấn đề an ninh, mà còn là cách thức để đạt được quá trình học tập tự tiến hóa và tự lặp lại. Vấn đề an ninh chỉ là một tính chất hiển thị bên ngoài của Siêu căn chỉnh.
Ngày nay, công nghệ Siêu căn chỉnh đối mặt với nhiều thách thức, như xử lý mô hình thưởng không chính xác và vấn đề phân loại nhãn yếu. Trong hệ thống hiện tại, không thể tạo ra một hệ thống Siêu căn chỉnh hoàn hảo ngay lập tức, nhưng việc giải quyết các vấn đề nhỏ sẽ giúp đạt được khả năng đó dần dần.
Giáo sư Huang Minlie nói rằng, hiện tại trong khung Siêu căn chỉnh, nhóm nghiên cứu của ông đã phát triển thuật toán chính xác EXO để đảm bảo hiệu ứng căn chỉnh chính xác về mặt lý thuyết. Đối với tấn công vào mô hình lớn, nhóm đã tối ưu hóa mục tiêu ưu tiên (Goal Prioritization) và phát triển trình phát hiện an ninh ShieldLM để kiểm tra xem nội dung đầu ra có an toàn hay không.
Bên cạnh đó, nhóm cũng đã nghiên cứu phương pháp tối ưu hóa gợi ý hộp đen (Black-box prompt Optimization) để khắc phục sự khác biệt giữa gợi ý do con người viết và gợi ý mà mô hình có thể hiểu. Nhóm cũng đã thực hiện nhiều nghiên cứu về việc tự động sửa lỗi của mô hình để cải thiện tiềm năng của nó. Trong tương lai, nhóm sẽ tiếp tục nghiên cứu về sự ổn định của hàm thưởng, hợp tác giữa con người và AI, và việc nhận diện rủi ro mới.
Tại sự kiện, AI Frontline đã có cơ hội phỏng vấn Giáo sư Huang Minlie, người đã chia sẻ quan điểm của mình về an ninh và sự phát triển của mô hình lớn. Giáo sư Huang Minlie cho rằng vấn đề an ninh không bị phóng đại quá mức, và tư duy phát triển đi đôi với quản lý là đúng đắn. Đồng thời, ông cũng nhấn mạnh rằng tương lai là sự kết hợp giữa trí tuệ máy móc, trí tuệ tình cảm và trí tuệ xã hội, đa giác quan hợp nhất và trí tuệ thể hiện cũng là hướng đi quan trọng.
Tóm tắt 5 từ khóa:
- Trí tuệ nhân tạo
- Mô hình lớn
- An ninh
- Siêu căn chỉnh
- Hợp tác con người-AI
© Thông báo bản quyền
Bản quyền bài viết thuộc về tác giả, vui lòng không sao chép khi chưa được phép.
Những bài viết liên quan:
Không có đánh giá...