Xuất hiện bùng nổ! Robot trang bị ChatGPT mạnh mẽ đến mức nào? | Tin tức tuần về mô hình lớn.
Figure 01: Mô hình AI mới với khả năng vượt trội
Vào tuần trước, robot Figure 01 đã trở thành tâm điểm của sự chú ý nhờ những tính năng ưu việt của nó. Điều này có được là nhờ vào việc sử dụng mô hình lớn OpenAI và công nghệ ChatGPT, giúp nó thể hiện khả năng đáng kinh ngạc trong nhiều lĩnh vực. Đầu tiên, Figure 01 được trang bị hệ thống thính giác tiên tiến, không chỉ hiểu được lệnh thoại từ con người và phản ứng chính xác mà còn có khả năng giao tiếp một cách tự nhiên như con người. Thứ hai, hệ thống điều khiển cử động của nó cũng dẫn đầu ngành công nghiệp. Dù là thao tác tay phức tạp hay chuyển động toàn thân, nó đều có thể thực hiện một cách dễ dàng, cho thấy độ chính xác và linh hoạt cao.
Ngoài khả năng nghe và cử động linh hoạt, Figure 01 còn có khả năng học hỏi và thích nghi. Bằng cách sử dụng công nghệ học máy, nó có thể liên tục học hỏi từ kinh nghiệm của mình để tối ưu hóa các mô hình hành vi, phù hợp hơn với môi trường và yêu cầu công việc khác nhau.
Một công ty khởi nghiệp về trí tuệ nhân tạo có tên Cohere đã giới thiệu mô hình ngôn ngữ lớn mới mang tên Command-R, chuyên dụng cho công việc sản xuất quy mô lớn. Hiện tại, Cohere đã mở cửa cho cộng đồng trên Huggingface để truy cập vào trọng số của mô hình.
Nhà máy điện hạt nhân Ningde đã phát hành mô hình ngôn ngữ lớn tự đào tạo có tên là Jinshu, chuyên dụng cho ngành công nghiệp hạt nhân. Với quy mô tới 72 tỷ tham số, Jinshu được coi là mô hình ngôn ngữ hạt nhân lớn nhất thế giới.
Laboratory Noah’s Ark của Huawei đã cùng các tổ chức nghiên cứu khác giới thiệu mô hình PixArt-Σ, một biến thể của mô hình chuyển đổi lan truyền (diffusion transformer), có khả năng tạo ra hình ảnh với độ phân giải lên đến 4K dựa trên văn bản. Nhờ việc sử dụng dữ liệu huấn luyện chất lượng cao và kỹ thuật nén token hiệu quả, PixArt-Σ có kích thước nhỏ hơn (0,6 tỷ tham số) so với các mô hình chuyển đổi lan truyền hiện tại, nhưng vẫn duy trì chất lượng hình ảnh và khả năng tuân thủ hướng dẫn người dùng tốt hơn.
Nhóm nghiên cứu của Giáo sư Ding Guiguang từ Đại học Thanh Hoa và nhóm bảo mật Alibaba đã công bố mô hình màng bán thấm khái niệm (concept semi-permeable membrane, SPM), có khả năng xóa bỏ các khái niệm cụ thể hoặc trừu tượng một cách chính xác và kiểm soát được trong các mô hình vẽ hình AI dựa trên kiến trúc Diffusion, đồng thời giữ nguyên các khái niệm không liên quan. Kết quả đã được ghi lại trong bài báo “One-dimensional Adapter to Rule Them All: Concepts, Diffusion Models and Erasing Applications”.
Công ty Apple đã công bố mô hình ngôn ngữ đa mô thức lớn mới – MM1, với quy mô 30 tỷ tham số, sử dụng cấu trúc biến thể MoE. Kết quả nghiên cứu đã được ghi lại trong bài báo “MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training”.
Ngày 12 tháng 3, Basecamp Research, một công ty hàng đầu trong lĩnh vực thiết kế protein và hệ thống sinh học khác bằng AI, đã công bố mô hình học sâu mới BaseFold. So với các mô hình AI khác, mô hình này có thể dự đoán cấu trúc 3D của protein phức tạp một cách chính xác hơn.
Ngày 12 tháng 3, Jan Leike, nhà nghiên cứu máy học tại OpenAI, đã công bố công cụ phân tích cấu trúc nội bộ của mô hình Transformer – Transformer Debugger (TDB). TDB kết hợp khả năng giải thích tự động và bộ mã hóa tự động mỏng đặc biệt, cho phép khám phá cấu trúc mô hình mà không cần viết mã, cung cấp công cụ nghiên cứu ban đầu để khám phá khả năng tự giải thích của mô hình ngôn ngữ.
Midjourney đã công bố tính năng mới có tên Role Reference, cho phép người dùng duy trì tính nhất quán của nhân vật trong các hình ảnh mới được tạo, tức là thêm cùng một nhân vật vào các cảnh khác nhau.
Pika đã công bố tính năng mới tạo âm thanh cho video một cách liền mạch – Sound Effects. Người dùng có thể mô tả âm thanh họ muốn thông qua lệnh hoặc để Pika tự động tạo ra âm thanh phù hợp với nội dung video.
Google đã ra mắt phiên bản mới nhất của robot RT – RT-H, có khả năng cải thiện độ chính xác và hiệu quả học tập bằng cách chia nhỏ nhiệm vụ phức tạp thành các lệnh ngôn ngữ đơn giản, sau đó chuyển đổi chúng thành hành động của robot. Kết quả nghiên cứu đã được công bố trong bài báo “RT-H: Action Hierarchies Using Language”.
Ngày 13 tháng 3, công ty startup Figure đã công bố video về robot Figure 01 đầu tiên được hỗ trợ bởi mô hình lớn OpenAI. Video cho thấy, với sự hỗ trợ của mô hình đa mô thức lớn của OpenAI, robot không chỉ có thể hiểu nội dung cuộc trò chuyện mà còn có thể thực hiện các nhiệm vụ theo yêu cầu của con người (như đưa táo, dọn bàn, đặt cốc và đĩa vào vị trí chỉ định). Đồng thời, tốc độ của Figure 01 cũng tăng đáng kể, gần bằng tốc độ của con người.
Google đã công bố một đại diện AI tổng quát cho môi trường ảo 3D – SIMA (Scalable Instructable Multiworld Agent). Qua các lệnh từ SIMA, đại diện AI có thể hoàn thành 60% nhiệm vụ mà con người có thể làm trong trò chơi.
Công ty AI và Robot Covariant đã chính thức công bố mô hình cơ bản tổng quát cho ngành robot – RFM-1 (Robot Foundation Model), giống như ChatGPT trong ngành công nghiệp robot. Do RFM-1 đã tích hợp dữ liệu ngôn ngữ liên quan, người dùng chỉ cần sử dụng ngôn ngữ tự nhiên để hướng dẫn robot hoàn thành công việc.
Ngày 12 tháng 3, phòng thí nghiệm nhận thức của Công ty Cognition AI đã giới thiệu phần mềm kỹ sư AI toàn tự chủ đầu tiên trên thế giới – Devin. Nó có thể hoàn thành toàn bộ dự án phần mềm trong vài phút, thực hiện suy luận đa bước phức tạp và không mắc lỗi ngay cả khi thực hiện hàng nghìn tác vụ.
Ngày 13 tháng 3, tại buổi trình bày công nghệ AI PC của Honor, công ty đã công bố kiến trúc AI PC, sẽ tích hợp AI vào trải nghiệm người dùng, từ phần cứng thông minh, tương tác người-máy đến hệ sinh thái đa thiết bị, mở ra kỷ nguyên mới của AI PC. Công nghệ AI PC này sẽ được triển khai đầy đủ trên laptop MagicBook Pro 16 của Honor.
Công ty siêu máy tính AI Cerebras đã công bố chip AI wafer-scale thế hệ tiếp theo – Wafer Scale Engine 3, chứa 4 nghìn tỷ transistor. Nhờ công nghệ chế tạo chip mới, WSE 3 có thể huấn luyện mô hình lớn hơn 10 lần so với GPT-4.
Laboratory Noah’s Ark của Huawei đã đề xuất phương pháp mới DenseSSM trong bài báo “DenseMamba: State Space Models with Dense Hidden Connection for Efficient Large Language Models”, nhằm tăng cường luồng thông tin ẩn giữa các lớp trong mô hình trạng thái không gian (SSM). Phương pháp này chọn lọc trạng thái ẩn từ lớp nông để tích hợp vào lớp sâu, giữ nguyên thông tin chi tiết quan trọng từ lớp nông, tăng cường khả năng nhận biết thông tin gốc từ lớp sâu.
Nhóm nghiên cứu tại Georgia Institute of Technology đã giới thiệu khung học sâu scDisInFact trong bài báo “scDisInFact: disentangled learning for integration and prediction of multi-batch multi-condition single-cell RNA-sequencing data”, có khả năng mô hình hóa các hiệu ứng lô và điều kiện trong dữ liệu chuỗi RNA đơn tế bào (scRNA-seq).
Nhóm nghiên cứu từ Đại học Nam California, Microsoft đã đề xuất chiến lược gợi ý dựa trên thuật toán phân chia để giảm thiểu ảnh hưởng của ảo tưởng và sai lầm giữa các bước trong các mô hình ngôn ngữ lớn (LLM) trong bài báo “Guiding Large Language Models with Divide-and-Conquer Program for Discerning Problem Solving”.
Nhóm nghiên cứu từ Tencent và Đại học Fudan đã đề xuất khung AI tạo phim MovieLLM trong bài báo “MovieLLM: Enhancing Long Video Understanding with AI-Generated Movies”, có khả năng tạo ra dữ liệu video chất lượng cao và đa dạng, cũng như tự động tạo ra các bộ dữ liệu câu hỏi liên quan, giảm bớt đáng kể sự can thiệp của con người.
Nhóm nghiên cứu từ Đại học Thanh Hoa và Đại học Công nghệ Harbin đã đề xuất khung nén mô hình lớn 1 bit OneBit trong bài báo “OneBit: Towards Extremely Low-bit Large Language Models”, cho phép mô hình lớn nén tới 90% mà vẫn giữ lại 83% khả năng.
Nhóm nghiên cứu từ Đại học Zhejiang, Viện Phần mềm Trung Quốc và các tổ chức khác đã đề xuất chiến lược tiến hóa mới cho đại diện Agent-Pro trong bài báo “Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization”, cho phép tạo ra đại diện thông minh có khả năng chơi poker Texas Hold’em một cách thông minh, sử dụng các chiến lược trò chơi cao cấp như đánh lừa và bỏ cuộc.
Ngày 11 tháng 3, công ty Zero One Wanwu đã công bố cơ sở dữ liệu vectơ mới có tên Descartes dựa trên bản đồ định hướng toàn diện. Đồng thời, công ty cũng cho biết cơ sở dữ liệu vectơ này sẽ được sử dụng trong sản phẩm AI sắp ra mắt và trong tương lai sẽ cung cấp cho các nhà phát triển.
Ngày 13 tháng 3, Meta, công ty công nghệ và mạng xã hội hàng đầu, đã công bố tiến trình huấn luyện mô hình Llama-3 và công bố hai cụm GPU mới với 24 nghìn card (tổng cộng 49152 card H100). Meta cũng chia sẻ thông tin chi tiết về phần cứng, mạng lưới, lưu trữ, thiết kế, hiệu suất và phần mềm của các cụm mới, cung cấp khả năng xử lý và độ tin cậy cao cho các công việc trí tuệ nhân tạo.
Bên cạnh việc cập nhật hàng tuần, Trung tâm Nghiên cứu InfoQ cũng sẽ công bố Báo cáo Theo dõi Mô hình Lớn theo quý, theo dõi xu hướng và sản phẩm mới trong ngành mô hình lớn. Báo cáo Theo dõi Mô hình Lớn quý 4 năm 2023 dự kiến sẽ được công bố vào cuối tháng 3 năm 2024, cùng với cuộc đánh giá sản phẩm tạo hình từ văn bản. Cuộc đánh giá sản phẩm tạo hình từ văn bản này sẽ dựa trên năm tiêu chí: đối tượng thực thể, khả năng phong cách, khó khăn chi tiết, giá trị và đặc trưng tiếng Trung.
Từ khóa
- Mô hình lớn
- Robot
- Trí tuệ nhân tạo
- Học máy
- Phát triển công nghệ
© Thông báo bản quyền
Bản quyền bài viết thuộc về tác giả, vui lòng không sao chép khi chưa được phép.
Những bài viết liên quan:
Không có đánh giá...