Mô hình lớn đã đạt đến đỉnh cao, còn những cơ hội mới nào trong lĩnh vực AI?

Trong những năm gần đây, công nghệ trí tuệ nhân tạo (AI) đã trở thành một trong những xu hướng công nghệ quan trọng nhất. Mới đây, vào ngày 28 tháng 5, OpenAI đã thông báo rằng họ đang bắt đầu huấn luyện một mô hình AI mới, sẽ thay thế cho mô hình GPT-4 hiện tại đang điều khiển ChatGPT. Cho đến nay, OpenAI vẫn được coi là công ty nắm giữ bí quyết cốt lõi của các mô hình lớn, vị thế dẫn đầu của họ chưa bị lung lay, và các công ty khác vẫn đang cố gắng đuổi kịp.
Sau cuộc cạnh tranh “trăm mô hình” năm 2023, cuộc đua giữa các mô hình lớn ở Trung Quốc cũng đã bước vào giai đoạn cuối cùng. Tháng 5 năm nay, nhiều sản phẩm như mô hình GLM-3 Turbo của Qwen AI, mô hình Doudou của ByteDance, và mô hình Wenxin của Baidu đã cùng nhau khởi xướng một đợt giảm giá mạnh mẽ cho các mô hình lớn. Trong số này, Alibaba Cloud đã có động thái lớn nhất khi 9 mô hình chính của họ đều công bố việc giảm giá. Các công ty đang nhanh chóng chiếm lĩnh thị trường, nhằm thúc đẩy việc thương mại hóa nhanh chóng.
Từ việc “cuộc chiến công nghệ” chuyển sang “cuộc chiến về giá cả”, cuộc cạnh tranh về mô hình lớn vẫn chưa kết thúc, nhưng nó đã trở thành trò chơi của một số ít người chơi. Trong cuốn sách “Trung Quốc trên mây 3: Kỷ nguyên AI biến đổi”, Wu Xiaobo đã dẫn dắt nhóm tác giả thực hiện nghiên cứu thực địa và phỏng vấn sâu rộng để ghi lại sự phát triển và đổi mới kỹ thuật trong ngành AI gần 2 năm qua, phản ánh một cách khách quan tình trạng hiện tại của ngành và các ứng dụng đổi mới trong các lĩnh vực khác nhau, đồng thời khám phá giá trị thương mại thực sự của AI sinh sản.
ChatGPT không làm thay đổi thế giới, nhưng nó đã hoàn toàn thay đổi cách mọi người nhìn nhận công nghệ trí tuệ nhân tạo, đồng thời thổi còi cho cuộc chạy đua vũ trang mô hình lớn giữa các doanh nghiệp công nghệ toàn cầu, dự báo sự xuất hiện của một kỷ nguyên AI mới.
Trong năm qua, trong lĩnh vực trí tuệ nhân tạo ở Trung Quốc, “cuộc chiến trăm mô hình” chắc chắn là một chủ đề không thể bỏ qua. Ngày 16 tháng 3 năm 2023, Baidu đã chính thức công bố phiên bản mới của mô hình ngôn ngữ lớn Wénxīn Yīyán bắt đầu thử nghiệm mời. Vào tháng 4 năm 2023, mô hình Qwen lớn của Alibaba Cloud đã được tiết lộ tại hội nghị của Alibaba Cloud. Ngày 7 tháng 9 năm 2023, tại Hội nghị Sinh thái Số hóa Toàn cầu hàng năm, mô hình Hùnhuán của Tencent đã chính thức ra mắt công chúng.
Tiếp theo đó, Huawei, JD.com, ByteDance, Meituan, và iFlytek, những công ty công nghệ và Internet lớn, cũng lần lượt tham gia. Ngoài ra, ba nhà khai thác viễn thông lớn – China Mobile, China Unicom, và China Telecom, cùng với các trường đại học và viện nghiên cứu như Tsinghua, Fudan, và Harbin Institute of Technology, cũng như các công ty khởi nghiệp đổi mới AI như Daga Data, BaiChuan Intelligence, Fourth Paradigm, và ChuMenQingWen, đều đã công bố mô hình lớn của riêng mình trong năm 2023.
Bất kỳ công ty công nghệ nào có hoài bão lớn và khả năng nghiên cứu đều muốn nắm giữ quyền chủ động trong việc phát triển mô hình lớn. Trên thực tế, từ đầu, cuộc chơi này đã được định sẵn là một trò chơi “cao cấp”. Nếu không có sự hỗ trợ tài chính vững chắc, ngay cả việc có vé vào cửa cũng không dễ dàng. Theo báo cáo của Guosheng Securities, chi phí huấn luyện một lần cho GPT-3 ước tính khoảng 1,4 triệu đô la Mỹ. Tại buổi công bố GPT-4, Giám đốc điều hành của OpenAI, Sam Altman, tiết lộ rằng tổng chi phí huấn luyện GPT-4 vượt quá 100 triệu đô la Mỹ.
Sau khi huấn luyện xong, chi phí vận hành mô hình lớn cũng không hề nhỏ. Với số lượng độc giả độc lập trung bình 13 triệu người vào tháng 1 năm 2023, thì nhu cầu chip của ChatGPT là hơn 30.000 chiếc A100, với chi phí ban đầu khoảng 800 triệu đô la Mỹ, và chi phí điện mỗi ngày khoảng 500.000 đô la Mỹ.
Tiếng nói chỉ trích cũng bắt đầu xuất hiện: Mô hình lớn không tạo ra giá trị trực tiếp, bất kể “cuộc chiến” về nghiên cứu và phát triển mô hình lớn như thế nào, cuối cùng cũng phải quay trở lại bản chất kinh doanh, công ty không thể chỉ đơn thuần tiêu tiền, mà phải hướng tới mục tiêu lợi nhuận.
Tháng 4 năm 2023, các sản phẩm như DingTalk và Tmall Genie đã bắt đầu thử nghiệm với Qwen, trở thành những sản phẩm hoặc ứng dụng đầu tiên trong nước “thử nghiệm” mô hình lớn. Điều này thể hiện rõ lợi thế của các công ty công nghệ Internet, với đủ loại và phong phú các cảnh quan kinh doanh, ngay cả khi không có khách hàng bên ngoài, mô hình lớn vẫn có đủ cảnh quan để kiểm tra và tối ưu hóa.
Rất nhanh sau đó, Alibaba đã tìm thấy ứng dụng đầu tiên thành công trong lĩnh vực AIGC – ứng dụng Miya Camera. Ngày 17 tháng 7 năm 2023, Miya Camera chính thức ra mắt trên WeChat Mini Program. Người dùng chỉ cần trả 9,9 nhân dân tệ, tải lên 20 bức ảnh, có thể tạo ra một “bản sao số”, sử dụng “bản sao số” này có thể tạo ra nhiều bộ ảnh chân dung với phong cách khác nhau. Đây là một sản phẩm tạo ảnh AI chưa từng có, ra mắt nhanh chóng đã lan truyền trên mạng xã hội.
Redwood Capital đã chỉ ra trong bài viết “Act Two của AI sinh sản” rằng vấn đề lớn nhất của các ứng dụng AI sinh sản hiện tại là chứng minh giá trị của chúng, vì hiện tại, tỷ lệ người dùng giữ chân trong các ứng dụng dựa trên mô hình lớn cơ bản thấp hơn đáng kể. Tỷ lệ giữ chân người dùng trong tháng đầu tiên của các ứng dụng tiêu dùng hàng đầu đạt 60% đến 65%, thậm chí có thể đạt 85%. Tỷ lệ giữ chân người dùng của các ứng dụng AI sinh sản chỉ đạt trung bình 14%. Điều này có nghĩa là người dùng chưa tìm thấy đủ giá trị trong các sản phẩm AI sinh sản, không thể sử dụng hàng ngày. Nếu các nhà phát triển muốn xây dựng một doanh nghiệp bền vững, họ cần giải quyết vấn đề giữ chân người dùng.
Người chịu trách nhiệm về Miya Camera, Zhang Xu, cũng đề cập rằng họ đang suy nghĩ liệu có thể thỏa mãn nhu cầu hoặc giải quyết vấn đề thông qua công nghệ AIGC hay không. Đó không phải là việc họ đi tìm nơi thích hợp để áp dụng công nghệ vì họ có khả năng AIGC. Đó nên là một quá trình ngược, bắt đầu từ nhu cầu của người dùng.
Trong giai đoạn cuối của cuộc chiến “trăm mô hình”, các công ty công nghệ Internet đã hoạt động trong lĩnh vực AI đã bắt đầu xây dựng hệ sinh thái mô hình lớn: ở phía C, các công ty lớn cung cấp dịch vụ cho các nhà sáng tạo và nhà phát triển; ở phía B, tập trung vào việc cung cấp giải pháp, đặc biệt là trong các ngành tài chính, du lịch, truyền thông, y tế, và quản lý chính phủ, đồng thời cung cấp cơ sở hạ tầng như tính toán, quản lý dữ liệu cho các công ty khác đang phát triển mô hình lớn.
Nếu tính toán vẫn có thể giải quyết bằng cách tiêu tiền, thì thiếu hụt dữ liệu chất lượng cao là một vấn đề không thể tránh khỏi trong quá trình phát triển mô hình lớn. Từ việc huấn luyện đến việc triển khai ứng dụng và cải tiến, việc áp dụng vào nhiều cảnh quan chuyên biệt, khám phá các lĩnh vực tiên tiến như trí tuệ tổng quát và trí tuệ thể hiện, đều phụ thuộc vào dữ liệu cảnh quan chất lượng cao và chuyên môn hóa.
Trong đó, công việc đánh dấu dữ liệu đóng vai trò quan trọng trong giai đoạn đầu. Nhóm chuyên gia giàu kinh nghiệm hoặc những người được đào tạo chuyên biệt sẽ thực hiện các công việc chi tiết như đánh dấu, phân loại, chú thích và đánh dấu trên bộ dữ liệu gốc cấu trúc và không cấu trúc. Những dữ liệu gốc này bao gồm hình ảnh, văn bản, âm thanh, video, và thậm chí là dữ liệu phức tạp như dữ liệu tự lái xe.
Nhớ lại thời kỳ đầu phát triển ngành, việc đánh dấu dữ liệu hoàn toàn phụ thuộc vào công việc thủ công. Điều này giúp xây dựng và phong phú hóa bộ dữ liệu huấn luyện cần thiết cho mô hình học máy. Mặc dù phương pháp này tốn kém thời gian và công sức, nhưng việc đánh dấu thủ công thực sự thể hiện sự vượt trội về độ chính xác.
Trong cơ sở dữ liệu đánh dấu thủ công, nổi tiếng nhất là ImageNet, được tạo ra bởi Fei-Fei Li của Đại học Princeton và giáo sư Kai Li. Mỗi 200 miligiây, mắt con người di chuyển một lần, nếu coi mắt như một máy ảnh, thì một đứa trẻ 3 tuổi đã xem hàng trăm triệu bức ảnh. Fei-Fei Li cho rằng chính nhờ việc học hỏi từ số lượng lớn dữ liệu này, não bộ con người mới có khả năng nhận diện hình ảnh, và để máy tính có khả năng nhận diện hình ảnh, cần một lượng lớn tài liệu huấn luyện.
Do việc đánh dấu hình ảnh yêu cầu nhiều lao động thủ công, ImageNet đã sử dụng công nghệ đám mây để thực hiện việc đánh dấu cộng đồng, mời gần 50.000 người dùng từ hơn 160 quốc gia trên thế giới đánh dấu hình ảnh trên internet. Đến năm 2009, ImageNet đã chứa hơn 15 triệu bức ảnh đã được làm sạch, phân loại và đánh dấu, thuộc 22.000 loại. Cơ sở dữ liệu này hoàn toàn mở, miễn phí cho tất cả các nhà nghiên cứu trên toàn thế giới. Có thể nói, ImageNet do Fei-Fei Li tạo ra đã thúc đẩy đáng kể sự phát triển của công nghệ nhận diện hình ảnh AI, và cũng cho thấy tiềm năng vô tận của học sâu.
Do việc đánh dấu dữ liệu không phải là ngành kinh doanh chính của nhiều công ty khách hàng, họ thường xuyên đặt việc này cho bên thứ ba, và do đó đã tạo ra một loạt các công ty khởi nghiệp chuyên về việc đánh dấu dữ liệu, ví dụ như Scale AI, Dataloop, và SuperAnnotate. Các công ty này bắt đầu thử nghiệm mô hình mới với sự hợp tác giữa người và máy, sử dụng mô hình để sàng lọc và đánh dấu sơ bộ dữ liệu, sau đó giao cho người đánh dấu kiểm tra và hiệu chỉnh. So với phương pháp đánh dấu thủ công truyền thống, phương pháp đánh dấu hỗ trợ AI này đã cải thiện đáng kể tốc độ đánh dấu.
Tất nhiên, đánh dấu dữ liệu chỉ là bước đầu tiên. Nếu việc đánh dấu dữ liệu là để cung cấp mẫu huấn luyện cho mô hình, thì việc vector hóa dữ liệu là chuyển đổi dữ liệu thành ngôn ngữ mà mô hình lớn có thể hiểu. Nói cách khác, vector là đơn vị cơ bản mà mô hình lớn sử dụng để truyền tải dữ liệu. Dù là một câu văn, hay một bức ảnh, để mô hình lớn hiểu thông tin này, chúng cần được chuyển đổi thành một vector. Với cơ sở dữ liệu vector, mô hình lớn có thể tương tác và suy luận thêm với dữ liệu, giúp mô hình lớn hiểu các khái niệm và dữ liệu chuyên biệt, và giảm thiểu ảo tưởng.
Với sự bùng nổ của mô hình lớn vào cuối năm 2022, cơ sở dữ liệu vector cũng đã bước vào thời điểm “iPhone” của mình.
Năm 2023, một công ty khởi nghiệp về cơ sở hạ tầng AI của Trung Quốc và sản phẩm của họ đã được hai ông lớn AI là OpenAI và NVIDIA khuyến nghị là đối tác, đó là Zilliz, với sản phẩm cơ sở dữ liệu vector là Milvus và Zilliz Cloud, khiến Zilliz trở thành công ty khởi nghiệp AI nổi tiếng trong ngành.
Hiện tại, hai khó khăn chính trong việc áp dụng mô hình lớn là tính thời gian của dữ liệu và vấn đề bảo mật dữ liệu riêng tư. Ví dụ, dữ liệu huấn luyện của ChatGPT không được cập nhật theo thời gian thực. Nguyên tắc làm việc của mô hình ngôn ngữ lớn – chế độ tiền huấn luyện – đòi hỏi một lượng lớn chi phí tính toán và thời gian để huấn luyện lại mô hình.
Giải pháp phổ biến bao gồm hai cách: một là cải tiến mô hình thông qua việc điều chỉnh mô hình nhỏ, để mô hình học hỏi thêm kiến thức; hai là sử dụng phương pháp tìm kiếm vector để lưu trữ kiến thức mới trong cơ sở dữ liệu vector, sau đó tìm kiếm dựa trên ngữ nghĩa trong cơ sở dữ liệu vector khi cần.
Tuy nhiên, chi phí của hai phương pháp này chênh lệch rất lớn. Chi phí sử dụng cơ sở dữ liệu vector chỉ bằng một phần nghìn so với việc điều chỉnh mô hình. Đó cũng là lý do tại sao các nhà cung cấp mô hình lớn đều khuyên các nhà phát triển sử dụng phương pháp tìm kiếm vector để quản lý kho kiến thức, để mô hình có thể tương tác tốt hơn và giảm chi phí sử dụng.
Vấn đề thứ hai là vấn đề bảo vệ dữ liệu riêng tư. Giả sử chúng ta sử dụng dữ liệu riêng tư của doanh nghiệp, như tri thức bằng sáng chế, để huấn luyện mô hình lớn công cộng, thì điều đó có nghĩa là mở cửa cho tất cả mọi người truy cập vào những tri thức này. Đối với doanh nghiệp, điều này là không thực tế, và thông qua cách sử dụng cơ sở dữ liệu vector, việc chuyển đổi tri thức riêng tư của doanh nghiệp thành các cụm từ gợi ý sẽ không được sử dụng để huấn luyện và điều chỉnh.
Sau hơn một năm cuộc chiến mô hình, cuộc thảo luận về AI sinh sản đang chuyển từ “so sánh tham số, chạy điểm, và xếp hạng” sang “ai có mô hình mở hơn, chi phí suy luận thấp hơn và tính toán rẻ hơn”.
Đồng lòng trong ngành công nghiệp, với việc cạnh tranh trên đường đua mô hình lớn cơ bản đã kết thúc, nhiều đổi mới và tạo giá trị đang tập trung vào tầng ứng dụng. Báo cáo nghiên cứu của McKinsey cho biết, AI sinh sản có thể đóng góp khoảng 7 nghìn tỷ đô la cho nền kinh tế toàn cầu, và hiện tại, các ứng dụng đổi mới chính của mô hình lớn chủ yếu bao gồm hai cách. Cách thứ nhất là sử dụng mô hình lớn để cải tiến các phần mềm và ứng dụng hiện có, tức là “sử dụng AI để làm lại tất cả các ứng dụng”; cách thứ hai là đổi mới gốc rễ, tức là sử dụng khả năng của mô hình lớn để tạo ra các dịch vụ và ứng dụng hoàn toàn mới.
Khác với hầu hết các công nghệ AI vẫn đang tập trung vào chức năng thực hiện nhiệm vụ và truyền tải thông tin, Lingxin Intelligence đã hợp tác với nhóm nghiên cứu CoAI của Đại học Thanh Hoa, tập trung vào việc nghiên cứu làm thế nào để AI có thể thiết lập mối liên kết cảm xúc sâu sắc với con người.
Nghiên cứu năm 2020 ở Trung Quốc cho thấy hơn 60% thanh niên từ 18 đến 29 tuổi thường xuyên gặp phải cảm giác cô đơn. Cô đơn không chỉ có thể gây ra vấn đề ức chế cảm xúc, mà còn có tác động đáng kể đến sức khỏe vật lý và tinh thần của cá nhân.
Dựa trên nền tảng nghiên cứu học thuật vững chắc, nhóm nghiên cứu CoAI và Lingxin Intelligence đã hợp tác ra mắt phiên bản ban đầu của robot trị liệu tâm lý Emohaa, robot này đã phục vụ hơn 24.000 người dùng trong thời gian ngắn, với tổng số lần giao tiếp lên tới 497.000 lần.
Điều đáng chú ý hơn nữa, nhóm nghiên cứu đã hợp tác với Khoa Tâm lý học của Đại học Bắc Kinh để thực hiện một thí nghiệm cho thấy sau ba tuần can thiệp tâm lý liên tục với phiên bản sơ khai của Emohaa, những người tham gia thí nghiệm đã có sự cải thiện rõ ràng về các triệu chứng lo âu, xu hướng trầm cảm, cảm xúc tiêu cực và chất lượng giấc ngủ.
Dựa trên kết quả nghiên cứu học thuật và hiệu quả ứng dụng thực tế, Lingxin Intelligence và nhóm nghiên cứu CoAI đã hợp tác ra mắt phiên bản nâng cấp của mô hình đồng cảm và đồng hành Emohaa. Phiên bản mới của Emohaa bao gồm nhiều mô hình con với các mức tham số khác nhau, tích hợp công nghệ tổng hợp giọng nói thân thiện và nhẹ nhàng, lưu trữ cơ sở dữ liệu kiến thức khổng lồ, và có khả năng đáp ứng nhanh chóng và linh hoạt nhu cầu của người dùng.
Không chỉ vậy, khả năng của Emohaa trong việc hiểu sâu sắc cảm xúc của người dùng, cảm thông với trải nghiệm của người dùng, hướng dẫn cuộc trò chuyện và khám phá thế giới nội tâm cùng người dùng đã được cải thiện đáng kể, củng cố thêm mối liên kết cảm xúc giữa Emohaa và người dùng. Mục tiêu của đội ngũ Lingxin Intelligence là biến Emohaa thành một mô hình lớn mà con người có thể tin tưởng, với đặc điểm kiên trì và kiên nhẫn, luôn duy trì thái độ trung lập và thiện chí với người dùng, sẵn sàng cung cấp hỗ trợ không điều kiện. Trong tương lai không xa, có lẽ mỗi người gặp khó khăn về cảm xúc đều có thể sở hữu một người bạn AI có thể lắng nghe tiếng lòng của họ.
Trong bối cảnh các mô hình lớn đang dần xuất hiện và thúc đẩy mọi ngành nghề, Wu Xiaobo đã dẫn dắt nhóm tác giả thực hiện nghiên cứu thực địa và phỏng vấn sâu rộng, từ bốn góc độ chính: các dòng chảy công nghệ AI, các công ty đổi mới AIGC, đổi mới trong các ứng dụng truyền thống, và chuỗi cung ứng AI, để ghi lại và phân tích gần 50 trường hợp điển hình đại diện từ các ngành công nghiệp và lĩnh vực như máy tính, internet, năng lượng mới, dược phẩm, nghiên cứu khoa học, thiết kế, thương mại điện tử, trò chơi, âm thanh, tài chính, hình ảnh, hội họa, tư vấn tâm lý, và phần cứng thông minh.
Để cảm ơn sự ủng hộ từ độc giả, “AI Trước Mắt” đã chuẩn bị 3 quyển sách in “Trung Quốc trên Mây 3: Kỷ nguyên AI Biến Đổi”. Hãy theo dõi trang “AI Trước Mắt” và phản hồi “Trung Quốc trên Mây” để tham gia quay thưởng, thời gian quay thưởng: 12 tháng 6 lúc 17:00.
### Từ khóa:
– Trí tuệ nhân tạo
– Mô hình lớn
– Công nghệ AI
– Hệ sinh thái AI
– Đánh dấu dữ liệu
© Thông báo bản quyền
Bản quyền bài viết thuộc về tác giả, vui lòng không sao chép khi chưa được phép.
Những bài viết liên quan:
Không có đánh giá...