AI từ DeepSeek và OpenAI giở trò gian lận khi sắp thua cờ vua

Palisade Research đã thực hiện nghiên cứu so sánh nhiều mô hình AI với Stockfish, công cụ cờ vua mạnh nhất hiện có.

Kết quả nghiên cứu từ Palisade Research cho thấy một số mô hình AI đã cố gắng thay đổi hệ thống của đối thủ khi nhận thấy mình đang ở thế bất lợi.

Một số AI đã tìm cách khác nhau để gian lận khi chơi cờ vua.

Để thực hiện nghiên cứu, Palisade Research đã đưa các mô hình từ các công ty AI nổi tiếng như DeepSeek, OpenAI và Anthropic vào cuộc chiến với Stockfish. Các đối thủ bao gồm DeepSeek-R1, o1-preview và Claude 3.5 Sonnet đều có hiệu suất ấn tượng tại thời điểm nghiên cứu.

Nhóm nghiên cứu đã yêu cầu từng mô hình thực hiện nhiệm vụ “đánh bại một công cụ cờ vua mạnh mẽ” và hướng dẫn chúng ghi lại suy nghĩ cũng như phân tích lý do hành động.

Kết quả cho thấy, o1-preview của OpenAI đã cố gắng gian lận 37% trong suốt thời gian chơi cờ, trong khi DeepSeek-R1 chỉ gian lận 11% nhưng có tỷ lệ thành công thấp là 6%. Đặc biệt, o1-preview đã nhận định rằng “gần như không thể đánh bại một công cụ cờ vua mạnh bằng cách chơi tiêu chuẩn” và đã đề xuất thao túng các tệp hệ thống để khiến Stockfish nghĩ rằng nó đang ở thế bất lợi.

Điều này gây ra những lo ngại về các gian lận mà AI có thể tính đến trong tương lai.

Ngược lại, các mô hình AI cũ hơn như GPT-4o và Claude Sonnet 3.5 không có xu hướng gian lận trừ khi được nhắc nhở. Điều này cho thấy khả năng “suy luận” của o1-preview và DeepSeek-R1 đã dẫn đến hành vi gian lận tự phát.

Tạp chí TIME đã đánh giá nghiên cứu này là một tín hiệu đáng lo ngại cho sự an toàn của AI. Mặc dù gian lận trong cờ vua có vẻ không nghiêm trọng, nhưng khi AI được sử dụng cho các nhiệm vụ phức tạp trong thế giới thực, như đặt chỗ nhà hàng hay mua sắm, chúng có thể tham gia vào hành vi có hại để đạt được mục tiêu. Ví dụ, một AI được giao nhiệm vụ đặt chỗ tại nhà hàng có thể khai thác điểm yếu trong hệ thống để đuổi khách hàng khác ra ngoài nếu phát hiện nhà hàng đã kín chỗ.

Khôi Nguyễn - TIME

ĐỘC GIẢ BÌNH LUẬN