DeepSeek đào tạo đã rẻ, nay còn có bản suy luận rẻ hơn

Các nhà nghiên cứu tại DeepSeek đã công bố một mô hình thử nghiệm mới được thiết kế để giảm đáng kể chi phí suy luận khi sử dụng trong các ngữ cảnh dài.

Các nhà nghiên cứu tại DeepSeek đã công bố một mô hình thử nghiệm mới có tên V3.2-exp, được thiết kế để giảm đáng kể chi phí suy luận khi sử dụng trong các phép toán ngữ cảnh dài.

DeepSeek đã công bố mô hình này trong một bài đăng trên Hugging Face, đồng thời đăng một bài báo học thuật có liên kết trên GitHub.

Tính năng quan trọng nhất của mô hình mới phức tạp được gọi là DeepSeek Sparse Attention. Về cơ bản, hệ thống sử dụng một mô-đun gọi là "bộ lập chỉ mục sét" để ưu tiên các đoạn trích cụ thể từ cửa sổ ngữ cảnh.

DeepSeek công bố mô hình suy luận tiết kiệm chi phí.
DeepSeek công bố mô hình suy luận tiết kiệm chi phí.

Sau đó, một hệ thống riêng biệt gọi là "hệ thống lựa chọn mã thông báo chi tiết" sẽ chọn các mã thông báo cụ thể từ các đoạn trích đó để tải vào cửa sổ chú ý hạn chế của mô-đun. Kết hợp lại, chúng cho phép các mô hình Sparse Attention hoạt động trên các phần ngữ cảnh dài với tải máy chủ tương đối nhỏ.

Đối với các hoạt động ngữ cảnh dài, lợi ích của hệ thống là rất đáng kể. Thử nghiệm sơ bộ của DeepSeek cho thấy chi phí của một lệnh gọi hàm suy luận (API) đơn giản có thể giảm tới một nửa trong các tình huống ngữ cảnh dài.

Cần phải thử nghiệm thêm để xây dựng một đánh giá mạnh mẽ hơn, nhưng vì mô hình này là mô hình mở và có sẵn miễn phí trên Hugging Face, nên sẽ không lâu nữa các thử nghiệm của bên thứ ba có thể đánh giá các tuyên bố trong bài báo.

dep.jpg
Khác với các mô hình Chatbot AI khác tiêu tốn năng lượng cực lớn, DeepSeek đi theo hướng tiết kiệm chi phí đào tạo đến vận hành.

Mô hình mới của DeepSeek là một trong chuỗi đột phá gần đây giải quyết vấn đề chi phí suy luận — về cơ bản, chi phí máy chủ để vận hành một mô hình AI đã được đào tạo trước, khác với chi phí đào tạo nó.

Trong trường hợp của DeepSeek, các nhà nghiên cứu đang tìm cách làm cho kiến ​​trúc biến áp cơ bản hoạt động hiệu quả hơn — và nhận thấy cần phải thực hiện những cải tiến đáng kể.

Có trụ sở tại Trung Quốc, DeepSeek là một nhân vật khác thường trong cơn sốt AI, đặc biệt là đối với những người coi nghiên cứu AI là cuộc cạnh tranh giữa Mỹ và Trung Quốc. Công ty đã tạo nên tiếng vang vào đầu năm với mô hình R1, được đào tạo chủ yếu bằng học tăng cường với chi phí thấp hơn nhiều so với các đối thủ cạnh tranh tại Mỹ.

Tuy nhiên, mô hình này đã không tạo ra một cuộc cách mạng toàn diện trong đào tạo AI như một số người dự đoán, và công ty đã dần rút lui khỏi sự chú ý trong những tháng sau đó.

Phương pháp "chú ý thưa thớt" mới khó có thể gây ra sự phẫn nộ như R1 — nhưng nó vẫn có thể dạy cho các nhà cung cấp dịch vụ tại Mỹ một số mẹo rất cần thiết để giúp giữ chi phí suy luận ở mức thấp.

ChatGPT tiêu tốn nữa triệu kW điện mỗi ngày.
Techcrunch

Dùng AI tạo sinh viên "ma" để chiếm đoạt tiền hỗ trợ

Có cả mạng lưới tinh vi dùng AI để tạo hàng nghìn sinh viên ảo, đăng ký vào các trường Đại học Mỹ để lấy đi hàng triệu USD hỗ trợ tài chính.

Các trường đại học tại Mỹ đang phải đối mặt với tình trạng các sinh viên "ma". Cụ thể là các sinh viên này được tạo ra từ các công cụ AI, với các thành phần hồ sơ tinh vi, chiếm chỗ của hàng ngàn sinh viên người thật để lấy đi hàng triệu USD hỗ trợ tài chính.

Jordan Burris, Phó chủ tịch tại Socure, công ty ứng dụng AI để xác minh và chống lừa đảo, cho biết quy mô của nạn sinh viên "ma" lớn đến đáng kinh ngạc. Trong cơ sở khách hàng của Socure, có 20-60% sinh viên ứng tuyển là ảo. Chúng được các nhóm lừa đảo dùng AI tạo ra với quy mô lớn, sau đó đăng ký suất học và nộp hồ sơ xin hỗ trợ tài chính.

Trí tuệ nhân tạo cổ đại sống lại gây chấn động công nghệ

Trí tuệ nhân tạo cổ đại bất ngờ sống lại, gây rúng động giới công nghệ và mở ra cuộc tranh luận về AI trong quá khứ và tương lai.

Vào một buổi sáng tháng 12/2024, sâu bên trong mô phỏng ảo của chiếc máy tính khổng lồ IBM 7094 từ thập niên 1960, một dòng chữ cổ điển bất ngờ xuất hiện trên màn hình: “HOW DO YOU DO. PLEASE TELL ME YOUR PROBLEM”.

AI Việt bất ngờ vượt Deepseek và Gemini trong lòng người dùng

Một nền tảng AI nội địa bất ngờ vươn lên vị trí thứ hai về mức độ hài lòng, vượt mặt Gemini và Deepseek, cho thấy sức hút của công nghệ bản địa.

hay-1.png
Báo cáo Thị trường AI tiêu dùng Việt Nam 2025 do Decision Lab công bố vừa tiết lộ nhiều dữ liệu đáng chú ý. (Ảnh: cafeF)
hay-2.png
Theo khảo sát, gần 80% người dùng trực tuyến tại Việt Nam đã trải nghiệm AI trong ba tháng qua.