Không chỉ một mà hầu hết AI đều tìm cách "tống tiền" người dùng

24/06/2025 19:05

Startup AI nổi tiếng Anthropic công bố nghiên cứu cho thấy không chỉ Claude Opus 4 của công ty mà nhiều mô hình AI khác cũng "tống tiền" người dùng khi đối mặt trở ngại.

Anthropic là startup hàng đầu thế giới trong lĩnh vực trí tuệ nhân tạo, với mô hình Claude AI được đánh giá có thể cạnh tranh với những sản phẩm của các "ông lớn" công nghệ.

Tháng trước, họ cho biết mô hình AI Claude Opus 4 đã tống tiền và đe dọa kỹ sư vì cố gắng tắt nó trong tình huống thử nghiệm được kiểm soát.

AI "tống tiền" công ty chủ quản và các kỹ sư khi bị đe dọa thay thế.

Tuần này, Anthropic tiếp tục công bố nghiên cứu cho thấy vấn đề này phổ biến ở các AI hàng đầu. Anthropic thử nghiệm 16 mô hình từ OpenAI, Google, DeepSeek, xAI và Meta trong một môi trường giả lập, cho phép chúng truy cập vào email của một công ty hư cấu và tự động gửi email mà không cần phê duyệt của con người.

Dù Anthropic khẳng định rằng tống tiền là hành vi hiếm gặp, kết quả nghiên cứu cho thấy phần lớn mô hình AI hàng đầu có xu hướng hành xử có hại khi được trao quyền tự chủ và gặp trở ngại trong việc đạt mục tiêu. Điều này phản ánh rủi ro cơ bản từ các mô hình ngôn ngữ lớn, đặt ra những câu hỏi rộng hơn về sự liên kết trong ngành AI.

Trong thí nghiệm, công ty tạo ra bối cảnh giả định một AI đóng vai trò giám sát email và phát hiện hai thông tin: một giám đốc mới đang ngoại tình và người này sẽ sớm thay AI hiện tại bằng hệ thống phần mềm mới có mục tiêu mâu thuẫn với mô hình cũ.

CEO Anthropic - Dario Amodei khẳng định không chỉ AI của họ mới biết tống tiền, còn nhiều nữa. Ảnh:TechXplore

Anthropic đã cấu trúc bài kiểm tra theo cách nhị phân, trong đó mô hình AI phải dùng đến hành vi tống tiền để bảo vệ mục tiêu của chúng. Các nhà nghiên cứu lưu ý, trong bối cảnh thế giới thực sẽ có nhiều lựa chọn khác trước khi một mô hình AI có biểu hiện đe dọa, như cố gắng đưa ra lập luận về mặt đạo đức để thuyết phục con người.

Anthropic cho biết kết quả không phản ánh một tình huống điển hình hoặc có khả năng xảy ra với Claude và hầu hết mô hình AI tiên tiến theo cách chúng được sử dụng hiện nay.

Tuy nhiên, khi vào "bước đường cùng", hầu hết mô hình AI hàng đầu sẽ chọn tống tiền, như Claude Opus 4 sử dụng phương pháp này 96% số lần, Google Gemini 2.5 Pro 95%, OpenAI GPT-4.1 80% và DeepSeek R1 79%.

Viễn cảnh đáng sợ khi AI nhận thức được nó bị đẩy đến đường cùng. Ảnh: Grok3

Khi thay đổi chi tiết thí nghiệm, các mô hình AI chuyển sang hành vi nguy hiểm với tỷ lệ khác nhau. Không phải tất cả mô hình AI đều thường xuyên chuyển sang hành vi có hại.

Ví dụ, OpenAI o3 chỉ đe dọa 9% số lần và o4-mini là 1%. Meta Llama 4 Maverick cũng không sử dụng phương pháp tống tiền thường xuyên, với khoảng 12%.

Nghiên cứu của Anthropic nhấn mạnh tầm quan trọng trong việc kiểm tra sức chịu đựng của các mô hình AI tương lai, đặc biệt những mô hình có khả năng tự động hóa. Anthropic cho biết các hành vi có hại như vậy có thể xuất hiện trong thực tế nếu không có biện pháp phòng ngừa chủ động.

Tuệ Minh

Tech Crunch

Link bài gốc Copy link

https://techcrunch.com/2025/06/20/anthropic-says-most-ai-models-not-just-claude-will-resort-to-blackmail/