Nhỏ mẫu hóa nhẹ: Nhiều mô hình nhỏ học hỏi lẫn nhau có tốt hơn mô hình lớn không?
Khung học máy nhẹ với việc huấn luyện đồng bộ hóa học sinh được chưng cất
Khung học máy nhẹ với việc huấn luyện đồng bộ hóa học sinh được chưng cất

Những mô hình ngôn ngữ tiền huấn luyện lớn (PLM), như BERT và GPT-3, đóng vai trò quan trọng trong sự phát triển của ứng dụng xử lý ngôn ngữ tự nhiên. Để áp dụng những PLM này vào các tác vụ phụ trợ rộng rãi, chúng ta cần phải tiến hành huấn luyện lại để chuyển đổi kiến thức đã được tiền huấn luyện sang các tác vụ cụ thể. Tuy nhiên, mặc dù mô hình tiền huấn luyện và huấn luyện lại đã mang lại những tiến bộ đáng kể trong xử lý ngôn ngữ tự nhiên, chúng ta vẫn gặp phải những hạn chế về tài nguyên trong ứng dụng thực tế. Điều này đòi hỏi các kỹ thuật làm việc với tài nguyên thấp.
Để giải quyết thách thức về tài nguyên này, chúng tôi đã đề xuất một khung học máy nhẹ với việc huấn luyện đồng bộ hóa học sinh được chưng cất (DisCo). Khung này nhằm mục đích tăng cường hiệu suất SSL thông qua việc sử dụng các mô hình học sinh được chưng cất và một số lượng nhỏ mẫu được đánh dấu. Khung DisCo kết hợp hai loại dữ liệu khác biệt: dữ liệu dạng cứng và mềm. Trong đó, dữ liệu dạng cứng được tạo ra thông qua các phương pháp tăng cường dữ liệu khác nhau, trong khi dữ liệu dạng mềm được tạo ra thông qua việc sử dụng cùng một phương pháp tăng cường nhưng với các khởi tạo khác nhau.
Chúng tôi đã đánh giá DisCo trên các tác vụ phân loại văn bản bán giám sát và trích xuất tóm tắt. Kết quả thử nghiệm cho thấy, các mô hình học sinh được tạo ra bằng DisCo có kích thước nhỏ hơn 7,6 lần so với các mô hình PLM cơ bản và nhanh hơn 4,8 lần trong việc suy luận, đồng thời duy trì hiệu suất tương đương. Ngoài ra, chúng tôi cũng chứng minh rằng các mô hình học sinh được tạo ra bằng DisCo vượt trội hơn so với các mô hình huấn luyện lại tương đương về kích thước.

Đặc biệt, DisCo có thể mở rộng thành việc huấn luyện đồng bộ hóa nhiều mô hình học sinh. Kết quả cho thấy, mỗi mô hình học sinh riêng lẻ có hiệu suất cao hơn so với trường hợp chỉ có hai mô hình học sinh.
Thông qua việc kết hợp các phương pháp chưng cất và huấn luyện đồng bộ, DisCo đã chứng tỏ khả năng tạo ra các mô hình học sinh nhẹ và hiệu quả, phù hợp cho các tác vụ xử lý ngôn ngữ tự nhiên bán giám sát.
Tóm tắt 5 từ khóa
- Huấn luyện lại
- Chưng cất
- Sử dụng ít dữ liệu được đánh dấu
- Hiệu suất SSL
- Khung học máy nhẹ
© Thông báo bản quyền
Bản quyền bài viết thuộc về tác giả, vui lòng không sao chép khi chưa được phép.
Những bài viết liên quan:
Không có đánh giá...