“Vị vua mới đã lên ngôi”! Claude 3 ra mắt, mô hình mạnh nhất đã thay chủ | Tin tức tuần về mô hình lớn.
Claude 3 và Những Đột Phá Công Nghệ Mới Trong Thế Giới AI
Anthropic, một công ty nghiên cứu tiên phong trong lĩnh vực trí tuệ nhân tạo (AI), vừa ra mắt bộ sưu tập mô hình lớn mới mang tên Claude 3. Bộ sưu tập này đã chứng minh sự vượt trội về mặt kỹ thuật và hiệu suất so với các đối thủ hàng đầu khác như GPT-4/3.5. Điều này đánh dấu một bước tiến đáng kể trong việc cải thiện khả năng xử lý văn bản dài và dữ liệu đa phương thức, cũng như đạt được thành tựu nổi bật trong nhiều bài kiểm tra chuẩn.
Một trong những điểm nổi bật của Claude 3 là khả năng tương tác trong cuộc trò chuyện, giúp hiểu rõ hơn nhu cầu của người dùng và cung cấp phản hồi thông minh. Điều này mang lại trải nghiệm tương tác mượt mà và tự nhiên hơn, đặc biệt hữu ích trong các lĩnh vực như sáng tạo nội dung, tạo mã và giao tiếp đa ngôn ngữ.
Bên cạnh đó, đội ngũ nghiên cứu đã chú trọng đến tính giải thích và độ an toàn của mô hình. Họ đã thực hiện nhiều nỗ lực để tránh tạo ra các phản hồi quá cá nhân hóa, không hợp lý hoặc không đạo đức. Đồng thời, họ cố gắng hạn chế việc kết nối với dữ liệu công khai có thể tạo ra định kiến hoặc thông tin nguy hiểm, nhằm giảm thiểu rủi ro về sự thiên vị và quyết định sai lầm, từ đó tăng cường niềm tin của người dùng vào hệ thống AI.
Vào ngày 5 tháng 3, Thủ tướng Quốc vụ viện Lý Kiệt đã nhấn mạnh trong báo cáo chính phủ rằng cần phải thúc đẩy sự đổi mới số hóa kỹ thuật số. Các chính sách hỗ trợ sẽ được ban hành để thúc đẩy phát triển số hóa chất lượng cao, đồng thời tích hợp công nghệ số với nền kinh tế thực. Việc nghiên cứu và ứng dụng công nghệ như big data và AI sẽ được khuyến khích thông qua các chương trình như “Hành động AI+”, với mục tiêu xây dựng các cụm công nghiệp số có sức cạnh tranh quốc tế.
Anthropic cũng đã ra mắt bộ sưu tập mô hình mới vào ngày 3 tháng 3, đánh dấu một bước tiến đáng kể so với GPT-4, đối thủ cạnh tranh chính của họ. Theo kết quả đánh giá chính thức, Claude 3 đã vượt qua tất cả các mô hình khác, bao gồm cả GPT-4, trong các bài kiểm tra về suy luận, toán học, lập trình, hiểu biết đa ngôn ngữ và khả năng đa phương thức.
Công ty MyShell đã công bố việc mở cửa nguồn cho thư viện chuyển đổi văn bản sang giọng nói đa ngôn ngữ và đa âm điệu có tên là MeloTTS. Thư viện này hỗ trợ nhiều ngôn ngữ như tiếng Anh, Tây Ban Nha, Pháp, Trung, Nhật và Hàn, cung cấp cho các nhà phát triển một loạt lựa chọn phong phú.
Công ty ZeroOneWanWu đã mở cửa nguồn cho mô hình Yi-9B, được mô tả là “học giả khoa học” của loạt mô hình Yi. Yi-9B, với 8.8 tỷ tham số và độ dài ngữ cảnh tối đa 4K token, là mô hình trong loạt Yi có khả năng lập trình và toán học mạnh nhất.
Nhóm nghiên cứu từ Đại học Fudan, MAP và Phòng thí nghiệm AI Thượng Hải đã đề xuất mô hình ngôn ngữ đa phương thức có tên AnyGPT. Mô hình này có khả năng hiểu và suy luận về nội dung từ nhiều phương thức khác nhau, bao gồm văn bản, giọng nói, hình ảnh và âm nhạc.
Stability AI, sau khi ra mắt Stable Difussion 3 và Stable Video, đã tiếp tục mở rộng phạm vi hoạt động của mình vào lĩnh vực 3D. Họ đã công bố hợp tác với nhóm VAST để mở cửa nguồn cho mô hình 3D TripoSR, có khả năng tạo ra mô hình 3D chất lượng cao từ một bức ảnh duy nhất trong vòng 0.5 giây, thậm chí có thể chạy mà không cần GPU.
Nhóm nghiên cứu từ Apple đã giới thiệu khung làm việc Keyframer, cho phép người dùng tạo ra animation từ các bức ảnh tĩnh bằng cách sử dụng các gợi ý ngôn ngữ tự nhiên.
Một nhóm nghiên cứu từ Đại học Thanh Hoa, Đại học California, Đại học Zhongshan, Đại học Tô Châu, Công ty Công nghệ Shenzhou và Viện Khoa học Máy tính Khoa học Trí tuệ (AISI) đã đề xuất khung đại diện học máy lớn Uni-MOF, chuyên được thiết kế để dự đoán khí đa mục đích.
Nhóm nghiên cứu từ Đại học Oxford đã phát hiện ra rằng các mô hình ngôn ngữ lớn được huấn luyện trên cơ mã (codon) thể hiện hiệu suất xuất sắc trong nhiều nhiệm vụ, vượt trội so với các mô hình tiên tiến khác, đặc biệt là trong việc nhận dạng loài và dự đoán protein.
OpenAI đã ra mắt chức năng mới có tên là “Đọc Aloud” cho ChatGPT, cho phép đọc các đoạn văn bằng 37 ngôn ngữ khác nhau, đồng thời tự động phát hiện ngôn ngữ của văn bản.
Phiên bản mới nhất của Midjourney, phiên bản 6, đã thêm tính năng /describe, cho phép người dùng tải lên hình ảnh và nhận được các mô tả chi tiết hơn.
Plugin sd-forge-layerdiffuse đã được phát hành, cho phép Stable Diffusion tạo ra hình ảnh PNG có kênh trong suốt.
Ứng dụng AI mới có tên DUSt3R đã trở thành một trong những dự án phổ biến nhất trên GitHub, có khả năng tạo ra mô hình 3D từ hai bức ảnh chỉ trong 2 giây.
Nhóm nghiên cứu từ Đại học Bắc Kinh đã công bố mô hình mới ManipLLM, có khả năng điều khiển cánh tay cơ khí theo hướng dẫn từ mô hình ngôn ngữ lớn.
Nhóm nghiên cứu từ Đại học Thanh Hoa và Đại học Cáp Nhĩ Tân đã đề xuất một phương pháp mới để nén tham số mô hình xuống 1 bit, đảm bảo ít nhất 83% hiệu suất của mô hình LLaMA ban đầu.
Một cựu nhân viên của OpenAI đã phát triển một khung làm việc mới gọi là “Chat with MLX”, cho phép chạy các mô hình lớn trên máy tính Mac với chỉ hai dòng mã.
Adobe đã chính thức đưa công nghệ AI tạo hình sinh động Firefly vào các ứng dụng di động. Người dùng giờ đây có thể tạo và chỉnh sửa hình ảnh bằng cách nhập các gợi ý văn bản.
IEEE Standard Association đã chính thức công bố tiêu chuẩn về kiến trúc giải thích AI, cung cấp hướng dẫn kỹ thuật để xây dựng, triển khai và quản lý các mô hình học máy.
Nhóm nghiên cứu từ Đại học Stanford và Georgia Tech đã đề xuất một bài kiểm tra chuẩn mới gọi là Design2Code, nhằm đánh giá khả năng của các mô hình ngôn ngữ lớn trong việc chuyển đổi thiết kế web thành mã.
Một nhóm nghiên cứu từ Đại học Thanh Hoa, Đại học Harvard, Đại học Bắc Kinh và Đại học Zhejiang đã đề xuất khung UniEdit, một khung thống nhất cho việc chỉnh sửa video dựa trên mô tả văn bản.
Trường Đại học Thanh Hoa, Đại học Harvard, Đại học Bắc Kinh và Đại học Zhejiang đã đề xuất thuật toán OmniQuant, hỗ trợ việc lượng tử hóa các mô hình ngôn ngữ lớn.
Nhóm nghiên cứu từ Đại học Thanh Hoa đã đề xuất mô hình phân tách âm thanh đa phương thức mới gọi là RTFS-Net, cải thiện hiệu suất phân tách âm thanh.
Nhóm nghiên cứu từ Đại học Zhejiang và ByteDance đã đề xuất một pipeline mô hình hóa cảnh động dựa trên rasterization, kết hợp trường biến dạng và Gaussian 3D splatting.
Nhóm nghiên cứu từ Đại học Stanford đã đề xuất phương pháp “potential transparency” để tạo ra hình ảnh trong suốt từ mô hình lan truyền tiềm ẩn.



Tóm Lược và Từ Khóa
Những đột phá công nghệ mới trong thế giới AI đã mở ra nhiều cơ hội và tiềm năng mới, từ cải thiện khả năng tương tác và giải thích, đến việc tạo ra các mô hình và công cụ mạnh mẽ hơn.
Từ Khóa:
- Claude 3
- Trí tuệ nhân tạo
- Mô hình lớn
- Đổi mới công nghệ
- Thiết kế web
© Thông báo bản quyền
Bản quyền bài viết thuộc về tác giả, vui lòng không sao chép khi chưa được phép.
Những bài viết liên quan:
Không có đánh giá...