Giảm chi phí 90%, rút ngắn độ trễ 80%! Anthropic đã đưa API vào một trò chơi mới, người dùng mạng: Nên trở thành tiêu chuẩn ngành.

Anthropic, một công ty công nghệ hàng đầu, đã giới thiệu một cơ chế mới cho API của mình có tên là bộ nhớ gợi ý (prompt caching), giúp giảm chi phí của các gợi ý dài tới 90% và giảm độ trễ xuống 80%. Bộ nhớ gợi ý này cho phép hệ thống ghi nhớ bối cảnh giữa các cuộc gọi API và giúp các nhà phát triển tránh việc nhập lại các gợi ý trùng lặp. Hiện tại, tính năng này đang được thử nghiệm trên hai phiên bản của mô hình Claude là Sonnet và Haiku.

Khái niệm về bộ nhớ gợi ý bắt nguồn từ một nghiên cứu năm 2023, cho phép người dùng giữ lại bối cảnh thường sử dụng trong các cuộc hội thoại. Nhờ đó, người dùng có thể thêm thông tin bối cảnh mà không cần phải trả phí cho mỗi lần nhắc lại. Điều này đặc biệt quan trọng đối với những trường hợp người dùng cần gửi nhiều thông tin bối cảnh và phải nhắc lại trong các cuộc hội thoại khác nhau với mô hình.

Anthropic cho biết, người dùng ban đầu đã quan sát thấy sự cải thiện đáng kể về tốc độ và chi phí khi sử dụng bộ nhớ gợi ý – từ việc xử lý toàn bộ cơ sở dữ liệu kiến thức đến việc xử lý 100 ví dụ mẫu và việc bao gồm mỗi lượt trò chuyện trong gợi ý.

Bộ nhớ gợi ý cũng giúp giảm chi phí và độ trễ khi xử lý các hướng dẫn dài và tài liệu tải lên, tăng tốc độ hoàn thành mã tự động, và hỗ trợ việc gửi nhiều lệnh vào công cụ tìm kiếm của trí tuệ nhân tạo. Một lợi ích chính của bộ nhớ gợi ý là giá tiền cho mỗi token thấp hơn, theo Anthropic, việc sử dụng tính năng này sẽ rẻ hơn rất nhiều so với việc nhập trực tiếp token.

Đối với người dùng của Claude 3.5 Sonnet, chi phí cho mỗi triệu token (MTok) ban đầu là 3,75 đô la Mỹ, nhưng sau đó giảm xuống còn 0,30 đô la Mỹ cho mỗi triệu token khi sử dụng gợi ý đã lưu trữ. Đối với người dùng của Claude 3 Haiku, chi phí là 0,30 đô la Mỹ cho mỗi triệu token khi sử dụng gợi ý mới và giảm xuống chỉ còn 0,03 đô la Mỹ cho mỗi triệu token khi sử dụng gợi ý đã lưu trữ.

Mặc dù Claude 3 Opus chưa hỗ trợ bộ nhớ gợi ý, nhưng Anthropic đã công bố mức giá cụ thể. Chi phí để ghi vào bộ nhớ là 18,75 đô la Mỹ cho mỗi triệu token, trong khi mức giá cho việc truy cập các gợi ý đã lưu trữ là 1,50 đô la Mỹ cho mỗi triệu token.

Mặc dù bộ nhớ gợi ý của Anthropic chỉ tồn tại trong 5 phút và sẽ được làm mới mỗi khi sử dụng, nhưng nó vẫn là một bước tiến quan trọng trong việc cải thiện hiệu quả tương tác AI. Đặc biệt, so với các phương pháp thay thế như tăng cường tìm kiếm (RAG) hoặc các mô hình có ngữ cảnh dài khác, bộ nhớ gợi ý của Claude cung cấp một số ưu điểm như đơn giản, nhất quán và nhanh chóng.

Một số nền tảng khác cũng đang cung cấp phiên bản tương tự của bộ nhớ gợi ý. Lamina, một hệ thống suy luận mô hình ngôn ngữ lớn, đã thử nghiệm sử dụng bộ nhớ khóa-giá trị (KV cache) để giảm chi phí sử dụng GPU. Trên diễn đàn nhà phát triển của OpenAI hoặc GitHub, bạn cũng có thể tìm thấy nhiều cuộc thảo luận liên quan đến bộ nhớ gợi ý.

Trong tương lai, bộ nhớ gợi ý của Claude sẽ mở ra khả năng tương tác AI hiệu quả hơn và tiết kiệm chi phí hơn, đồng thời đơn giản hóa việc tích hợp kiến thức phức tạp. Đây là một bước tiến quan trọng trong việc thúc đẩy sự phát triển của AI trong nhiều ngành công nghiệp khác nhau.

**Từ khóa:** trí tuệ nhân tạo, cập nhật công nghệ, bộ nhớ gợi ý, chi phí, hiệu suất
© Thông báo bản quyền
Bản quyền bài viết thuộc về tác giả, vui lòng không sao chép khi chưa được phép.
Những bài viết liên quan:
Không có đánh giá...