Từ dữ liệu cộng đồng, nhìn toàn cảnh và xu hướng phát triển của hệ sinh thái mô hình lớn.

công nghệ số5tháng trướccập nhật AIANT
51 00





Quan cảnh và Xu hướng Phát triển của Hệ sinh thái Đại mô hình

Vào ngày 19 tháng 10, tôi và Tiểu Nhã đã có bài thuyết trình tại Hội nghị Toàn cầu về Phát triển Phần mềm QCon 2024 (Thượng Hải) với chủ đề “Quan cảnh và Xu hướng Phát triển của Hệ sinh thái Đại mô hình thông qua dữ liệu cộng đồng”. Với vai trò là người chủ trì phiên thảo luận này, tôi, một người đã hai lần nhận giải “Người chủ trì xuất sắc” tại QCon, đã quyết định tham gia bài thuyết trình này vì tôi cũng đang tự hỏi hệ sinh thái mã nguồn mở đã thay đổi như thế nào và chúng ta nên học được điều gì từ đó. Bài thuyết trình này chỉ là một phần nhỏ của nghiên cứu tiếp tục mà chúng tôi đang tiến hành.

Mỗi người trong chúng ta đều cảm nhận được tác động từ các đại mô hình, nhưng khi chúng ta nhìn vào các thông tin trước mắt và phải đối mặt với nhu cầu huấn luyện và suy luận, câu hỏi đặt ra là: Xu hướng là gì? Quan cảnh toàn diện như thế nào? Điểm đột phá nằm ở đâu? Chúng ta nên từ bỏ điều gì hoặc theo đuổi điều gì? Đây là những câu hỏi mà mỗi nhà phát triển vẫn đang tìm hiểu, bao gồm cả tôi.

Nhưng, với tư cách là một kiến trúc sư, khi tôi cố gắng tìm hiểu những thay đổi trong hệ thống hiện tại và tổ chức, tôi thấy rằng ranh giới đang được củng cố và hệ thống cũ đang được mở rộng. Dù có vấn đề hay không, sự thay đổi trong ranh giới và cấu trúc không phải là cách diễn tiến mà hệ sinh thái nên có. Tuy nhiên, từ góc độ của tổ chức hiện tại, điều này dường như là tất yếu.

Tôi nhớ rằng mình vẫn chỉ là một phân tử nhỏ trong thế giới mã nguồn mở. Khi tham gia vào thế giới này, tôi đã thấy sự xuất hiện của nhiều dự án mới, đặc biệt là sau khi llama2 được công bố. Tôi cũng nhận thấy sự chuyển hướng của các dự án hiện có và sự chìm nghỉm của nhiều dự án khác. Thế giới mã nguồn mở là một hệ sinh thái tự trị hoặc nhiều hệ sinh thái, sự biến đổi từ dưới lên có thể cung cấp cho chúng ta thông tin để xem xét – “Những ngôi sao ngày hôm qua đang ở đâu? Bối cảnh toàn diện của hệ sinh thái như thế nào? Ai nắm giữ chìa khóa quan trọng?” Điều này khiến tôi muốn tham gia vào hệ sinh thái này và trở thành một phần của nó.

May mắn thay, nhóm nghiên cứu của chúng tôi đã bắt đầu nghiên cứu dữ liệu từ rất sớm, và chúng tôi còn có Tiểu Nhã, một sinh viên tiến sĩ đã nghiên cứu cộng đồng trong nhiều năm. Vì vậy, tôi đã mời cô ấy cùng thực hiện phân tích này. Kết quả là, chúng tôi đã cùng nhau tạo ra một số biểu đồ (có thể tương tác trực tuyến tại địa chỉ: https://xiaoya-yaya.github.io/ant-ospo-insights/).

Từ dữ liệu cộng đồng, nhìn toàn cảnh và xu hướng phát triển của hệ sinh thái mô hình lớn.
Từ dữ liệu cộng đồng, nhìn toàn cảnh và xu hướng phát triển của hệ sinh thái mô hình lớn.
Từ dữ liệu cộng đồng, nhìn toàn cảnh và xu hướng phát triển của hệ sinh thái mô hình lớn.

Trong những biểu đồ này, chúng tôi đã tập trung vào các dự án phổ biến và khám phá các dự án liên kết với chúng thông qua ba cấp độ kết nối. Trọng lượng của từng dự án được tính toán dựa trên giá trị của nó trong toàn bộ hệ sinh thái, sử dụng hệ thống đánh giá OpenRank do phòng thí nghiệm X-lab đề xuất. Trọng lượng của mối liên kết giữa các dự án cũng được xem xét.

Chúng tôi cũng đã thử nghiệm bằng cách thay đổi điểm xuất phát, sau đó đưa ra một số kết luận sơ bộ. Mọi người có thể tiếp tục phân tích sâu hơn:

  • Độ ổn định của các dự án cốt lõi trong hệ sinh thái – thay đổi điểm xuất phát sẽ thay đổi danh sách các dự án được chọn, nhưng một số dự án nóng bỏng, dù từ điểm xuất phát nào cũng dễ dàng được đưa vào, ví dụ như PyTorch, llama.cpp, huggingface/transformers. Điều này cho thấy mọi người quan tâm đến hệ sinh thái LLM đều sẽ tham gia vào các dự án này.
  • Hiệu ứng tập trung của các nhà phát triển – ví dụ, các nhà phát triển Trung Quốc dễ dàng tương tác với nhau. Khi lấy Langchain-Chatchat làm điểm xuất phát, các dự án như MetaGPT, DB-GPT (do người Trung Quốc phát triển chính) sẽ dễ dàng được liên kết lại.
  • Các dự án khó được đưa vào các dự án liên quan đến đại mô hình – ví dụ, Kubernetes không được đưa vào, mặc dù mọi người đều sử dụng nó. Có thể do API của nó đã ổn định, nên không cần tương tác với cộng đồng.
  • Hệ thống không mang tính cộng đồng – ví dụ, các dự án của Nvidia được sử dụng nhiều nhưng ít tương tác, có thể do sử dụng đơn phương hoặc cộng đồng lạnh lẽo.

Để vẽ ra một bức tranh toàn cảnh, chúng tôi cần xem xét các mối quan hệ giữa các dự án. Dựa trên giả định về các mối quan hệ này, chúng tôi đã tạo ra một số biểu đồ, bao gồm:

  • Phụ thuộc mã hoặc thực thi: Ví dụ, khi tôi phụ thuộc vào thư viện toán học để thực hiện phép tính ma trận, tôi có thể yêu cầu hỗ trợ từ cộng đồng.
  • Mối quan hệ hợp tác giữa các dự án: Ví dụ, một ứng dụng có quy trình làm việc từ đầu cuối đến dịch vụ web và ứng dụng, đến phần mềm trung gian, cuối cùng là cơ sở dữ liệu. Các dự án này có thể cần hỗ trợ lẫn nhau.
  • Mối quan hệ thay thế/đối đầu: Ví dụ, OB thay thế Oracle, hoặc các dự án sử dụng cơ sở dữ liệu đồ thị thay vì cơ sở dữ liệu quan hệ.

Những mối quan hệ này tạo nên các bản đồ kiến trúc, nhưng chỉ khi có sự thay thế và cạnh tranh giữa các dự án, và sự công nhận của các giao diện, thì hệ sinh thái mới rõ ràng. Điều này giải thích câu nói trước đó: “Hệ sinh thái không tồn tại một cách vô nghĩa. Như những giao diện công cộng; các dự án không có giao diện công cộng, nhưng khi các dự án tương tự được tạo ra nhiều lần, chúng cũng trở thành giao diện.”

Bản đồ toàn cảnh của chúng tôi không phải là duy nhất, nhưng nó cung cấp một góc nhìn khách quan dựa trên dữ liệu hành vi cộng đồng. Các biểu đồ xu hướng cũng có sẵn trên trang của Tiểu Nhã (https://xiaoya-yaya.github.io/ant-ospo-insights/).

Từ dữ liệu cộng đồng, nhìn toàn cảnh và xu hướng phát triển của hệ sinh thái mô hình lớn.
Từ dữ liệu cộng đồng, nhìn toàn cảnh và xu hướng phát triển của hệ sinh thái mô hình lớn.
Từ dữ liệu cộng đồng, nhìn toàn cảnh và xu hướng phát triển của hệ sinh thái mô hình lớn.
Từ dữ liệu cộng đồng, nhìn toàn cảnh và xu hướng phát triển của hệ sinh thái mô hình lớn.

Điều này cho thấy các xu hướng như:

  • Trong lĩnh vực huấn luyện, PyTorch vẫn là lựa chọn hàng đầu. Tensorflow cũng đang hồi sinh, nhưng chưa rõ nguyên nhân.
  • Trong lĩnh vực suy luận, vLLM là dự án hot nhất, tiếp theo là llama.cpp và sglang.
  • Các công cụ IDE như Cursor đang nhanh chóng phát triển, giúp chuyển đổi việc phát triển cá nhân thành một quá trình hợp tác.

Trở lại với các bản đồ kiến trúc, chúng tôi nhận thấy một số xu hướng rõ ràng trong các lĩnh vực chính.

Quan sát đơn giản:

  • Phong cách phát triển của đại mô hình đang dần hình thành, giống như LAMP cách đây 20 năm.
  • Để tạo ra dự án riêng, việc tận dụng một vị trí tốt trong hệ sinh thái hoặc tương tác hiệu quả với các dự án trung tâm là rất quan trọng.
  • Hiện tại, vẫn còn các hệ sinh thái con chưa được phân tích đầy đủ.
  • Chúng tôi vẫn chưa tận dụng hết các thông tin bổ sung như dependency từ GitHub và dữ liệu cộng đồng có hướng, nên sẽ tiếp tục phân tích và quan sát.


Từ khóa:

  • Hệ sinh thái mã nguồn mở
  • Đại mô hình
  • Phân tích dữ liệu cộng đồng
  • Xu hướng phát triển
  • Kiến trúc hệ thống
© Thông báo bản quyền

Những bài viết liên quan:

Chưa có đánh giá nào

none
Không có đánh giá...