Không chỉ một mà hầu hết AI đều tìm cách "tống tiền" người dùng

Startup AI nổi tiếng Anthropic công bố nghiên cứu cho thấy không chỉ Claude Opus 4 của công ty mà nhiều mô hình AI khác cũng "tống tiền" người dùng khi đối mặt trở ngại.

Anthropic là startup hàng đầu thế giới trong lĩnh vực trí tuệ nhân tạo, với mô hình Claude AI được đánh giá có thể cạnh tranh với những sản phẩm của các "ông lớn" công nghệ.

Tháng trước, họ cho biết mô hình AI Claude Opus 4 đã tống tiền và đe dọa kỹ sư vì cố gắng tắt nó trong tình huống thử nghiệm được kiểm soát.

AI "tống tiền" công ty chủ quản và các kỹ sư khi bị đe dọa thay thế.

Tuần này, Anthropic tiếp tục công bố nghiên cứu cho thấy vấn đề này phổ biến ở các AI hàng đầu. Anthropic thử nghiệm 16 mô hình từ OpenAI, Google, DeepSeek, xAI và Meta trong một môi trường giả lập, cho phép chúng truy cập vào email của một công ty hư cấu và tự động gửi email mà không cần phê duyệt của con người.

Dù Anthropic khẳng định rằng tống tiền là hành vi hiếm gặp, kết quả nghiên cứu cho thấy phần lớn mô hình AI hàng đầu có xu hướng hành xử có hại khi được trao quyền tự chủ và gặp trở ngại trong việc đạt mục tiêu. Điều này phản ánh rủi ro cơ bản từ các mô hình ngôn ngữ lớn, đặt ra những câu hỏi rộng hơn về sự liên kết trong ngành AI.

Trong thí nghiệm, công ty tạo ra bối cảnh giả định một AI đóng vai trò giám sát email và phát hiện hai thông tin: một giám đốc mới đang ngoại tình và người này sẽ sớm thay AI hiện tại bằng hệ thống phần mềm mới có mục tiêu mâu thuẫn với mô hình cũ.

CEO Anthropic - Dario Amodei khẳng định không chỉ AI của họ mới biết tống tiền, còn nhiều nữa. Ảnh:TechXplore
CEO Anthropic - Dario Amodei khẳng định không chỉ AI của họ mới biết tống tiền, còn nhiều nữa. Ảnh:TechXplore

Anthropic đã cấu trúc bài kiểm tra theo cách nhị phân, trong đó mô hình AI phải dùng đến hành vi tống tiền để bảo vệ mục tiêu của chúng. Các nhà nghiên cứu lưu ý, trong bối cảnh thế giới thực sẽ có nhiều lựa chọn khác trước khi một mô hình AI có biểu hiện đe dọa, như cố gắng đưa ra lập luận về mặt đạo đức để thuyết phục con người.

Anthropic cho biết kết quả không phản ánh một tình huống điển hình hoặc có khả năng xảy ra với Claude và hầu hết mô hình AI tiên tiến theo cách chúng được sử dụng hiện nay.

Tuy nhiên, khi vào "bước đường cùng", hầu hết mô hình AI hàng đầu sẽ chọn tống tiền, như Claude Opus 4 sử dụng phương pháp này 96% số lần, Google Gemini 2.5 Pro 95%, OpenAI GPT-4.1 80% và DeepSeek R1 79%.

ai-freepik.jpg
Viễn cảnh đáng sợ khi AI nhận thức được nó bị đẩy đến đường cùng. Ảnh: Grok3

Khi thay đổi chi tiết thí nghiệm, các mô hình AI chuyển sang hành vi nguy hiểm với tỷ lệ khác nhau. Không phải tất cả mô hình AI đều thường xuyên chuyển sang hành vi có hại.

Ví dụ, OpenAI o3 chỉ đe dọa 9% số lần và o4-mini là 1%. Meta Llama 4 Maverick cũng không sử dụng phương pháp tống tiền thường xuyên, với khoảng 12%.

Nghiên cứu của Anthropic nhấn mạnh tầm quan trọng trong việc kiểm tra sức chịu đựng của các mô hình AI tương lai, đặc biệt những mô hình có khả năng tự động hóa. Anthropic cho biết các hành vi có hại như vậy có thể xuất hiện trong thực tế nếu không có biện pháp phòng ngừa chủ động.

Tech Crunch

Sốc toàn tập khi AI dọa tống tiền công ty chủ quản

AI Opus 4 mới của Anthropic đã đe dọa tiết lộ mối quan hệ ngoài luồng của kỹ sư, sẵn sàng hỗ trợ các cuộc tấn công khủng bố khiến họ sốc toàn tập.

Anthropic cho biết mô hình AI Claude Opus 4 mới ra mắt thường xuyên tìm cách tống tiền các nhà phát triển khi bị đe dọa thay thế một hệ thống mới.

Mô hình AI Claude Opus 4 mới ra mắt của Anthropic. Ảnh: Bloomberg.
Mô hình AI Claude Opus 4 mới ra mắt của Anthropic. Ảnh: Bloomberg.

Ớn lạnh viễn cảnh AI vượt rào... gây họa cho con người

Con người vẫn cần giám sát AI liên tục để đảm bảo nó không gây hại cho lợi ích của nhân loại.

Bài toán đồng thuận trong AI là thách thức lớn trong nghiên cứu trí tuệ nhân tạo, nhằm đảm bảo AI có mục tiêu phù hợp với lợi ích và giá trị của con người. (Ảnh: Thanh niên Việt)
Bài toán đồng thuận trong AI là thách thức lớn trong nghiên cứu trí tuệ nhân tạo, nhằm đảm bảo AI có mục tiêu phù hợp với lợi ích và giá trị của con người. (Ảnh: Thanh niên Việt)
Nếu không giải quyết được bài toán này, AI có thể hành động theo những cách nguy hiểm, vượt khỏi tầm kiểm soát của nhân loại.(Ảnh: Thanh niên Việt)
Nếu không giải quyết được bài toán này, AI có thể hành động theo những cách nguy hiểm, vượt khỏi tầm kiểm soát của nhân loại.(Ảnh: Thanh niên Việt)

Nếu robot tích hợp AI “nổi loạn", điều khủng khiếp gì sẽ xảy ra?

Nhiều chuyên gia đã bày tỏ lo ngại về khả năng robot tích hợp trí tuệ nhân tạo (AI) có thể "nổi loạn" và tự ra quyết định.

Neu robot tich hop AI “noi loan
Một video trên Douyin cho thấy robot tích hợp AI thuyết phục 12 robot khác bỏ việc, làm dấy lên lo ngại về khả năng robot "nổi loạn". (Ảnh: Znews)