Mặc dù có cuộc chiến “trăm mô hình”, thực tế là chỉ có một số ít nhóm trong nước thành công trong việc huấn luyện mô hình lớn và nắm vững công nghệ liên quan.” – Tseng Kuo-yang, CTO của FaceWall Intelligence chia sẻ. FaceWall Intelligence bắt đầu từ một nhóm những người đam mê học thuật vào năm 2021. Nhóm này được dẫn dắt bởi Liu Zhiyuan, giáo sư lâu dài tại Khoa Máy tính Đại học Thanh Hoa, với các thành viên chủ yếu đến từ Phòng thí nghiệm NLP của Đại học Thanh Hoa.
Tseng Kuo-yang, hiện được biết đến với biệt danh “thiếu niên thiên tài”, đã tham gia vào việc phát triển mã từ khi còn nhỏ và trở thành người đầu tiên thử nghiệm GitHub Copilot. Ông xem AI như một đối tác giúp hoàn thành các tác vụ nhất định, trong khi các lập trình viên tập trung vào công việc sáng tạo và chiến lược hơn.
Năm ngoái, sau khi mở rộng quy mô, FaceWall Intelligence đã thiết lập các đội khác nhau để xử lý dữ liệu, huấn luyện mô hình, đánh giá mô hình, thuật toán, cơ sở hạ tầng và bảo trì. Điều này đã giúp họ nâng cao hiệu suất của các mô hình lớn.
Năm 2023, FaceWall Intelligence đã phát hành mô hình CPM-Bee có 10 tỷ thông số và mô hình đa phương thức CPM-Cricket có 1 nghìn tỷ thông số, với năng lực tổng hợp tương đương GPT-3.5 và vượt qua LLaMA 2.
Năm 2024, FaceWall Intelligence tiếp tục tập trung vào việc nghiên cứu và tối ưu hóa mô hình. Mô hình MiniCPM được giới thiệu vào tháng 2 đã chứng minh khả năng hoạt động hiệu quả trên thiết bị di động như điện thoại di động.
FaceWall Intelligence cũng tin rằng sự kết hợp giữa mô hình lớn và mô hình nhỏ sẽ thúc đẩy sự tiến bộ trong ngành. Với sự hỗ trợ từ cộng đồng và thị trường, FaceWall Intelligence hy vọng sẽ tiếp tục phát triển và đạt được mục tiêu hướng tới trí tuệ nhân tạo tổng thể.