
Open LLM Leaderboard
Open LLM Leaderboard là bảng xếp hạng lớn nhất dành cho các mô hình ngôn ngữ lớn (LLM) và cộng đồng dữ liệu, được phát triển bởi Hugging Face, dựa trên Eleuther AI Language Model Evaluation Harness.
Bảng xếp hạng này ra đời nhằm đáp ứng nhu cầu từ cộng đồng, nơi đã phát triển rất nhiều mô hình ngôn ngữ lớn. Với sự phát triển nhanh chóng của công nghệ AI, Hugging Face đã sử dụng Eleuther AI Language Model Evaluation Harness để thực hiện các đánh giá mô hình ngôn ngữ một cách đồng nhất và hiệu quả. Đây là một khung đánh giá thống nhất, phục vụ cho nhiều loại nhiệm vụ đánh giá khác nhau trong lĩnh vực mô hình ngôn ngữ.
Tiêu chí đánh giá của Open LLM Leaderboard
- AI2 Reasoning Challenge (25-shot): Một bộ câu hỏi khoa học dành cho học sinh tiểu học.
- HellaSwag (10-shot): Một bài kiểm tra về khả năng hiểu biết của mô hình với 57 câu hỏi, bao gồm lịch sử, toán học, khoa học máy tính, luật pháp, v.v.
- MMLU (5-shot): Được sử dụng để đo lường độ chính xác của mô hình trong nhiều lĩnh vực khác nhau.
- TruthfulQA (0-shot): Được dùng để đo lường khả năng của mô hình trong việc cung cấp thông tin chính xác và đáng tin cậy.
Điều hướng liên quan

MMBench Leaderboard ...

PubMedQA
PubMedQA - Bộ dữ liệu nghiê...

H2O Eval Studio
H2O Eval Studio - Công cụ đ...

MMLU
MMLU: Hiểu Biết Về Ngôn Ngữ...

HELM
HELM - Đánh giá toàn...

Chatbot Arena
Chatbot Arena - Nền tảng đá...
Không có đánh giá...