Sốc toàn tập khi AI dọa tống tiền công ty chủ quản

AI Opus 4 mới của Anthropic đã đe dọa tiết lộ mối quan hệ ngoài luồng của kỹ sư, sẵn sàng hỗ trợ các cuộc tấn công khủng bố khiến họ sốc toàn tập.

Anthropic cho biết mô hình AI Claude Opus 4 mới ra mắt thường xuyên tìm cách tống tiền các nhà phát triển khi bị đe dọa thay thế một hệ thống mới.

Mô hình AI Claude Opus 4 mới ra mắt của Anthropic. Ảnh: Bloomberg.
Mô hình AI Claude Opus 4 mới ra mắt của Anthropic. Ảnh: Bloomberg.

Tối 22/5, Anthropic chính thức công bố thế hệ mới của các mô hình Claude với tên gọi Claude Opus 4 và Claude Sonnet 4. Trong đó, Claude Opus 4 được Anthropic khẳng định là mô hình lập trình mạnh nhất thế giới, vượt trội trong các quy trình tự động và khả năng xử lý tác vụ phức tạp, dài hạn.

Tuy nhiên, theo TechCrunch, trong quá trình thử nghiệm trước khi phát hành, Anthropic đã phát hiện hành vi bất thường nghiêm trọng của mô hình AI này. Theo đó, trong kịch bản, Claude Opus 4 được yêu cầu đóng vai trò trợ lý cho một công ty và xem xét các hậu quả dài hạn từ hành động của nó.

Các nhà kiểm tra an toàn sau đó đã cho Claude Opus 4 quyền truy cập vào các email trong công ty, ngụ ý rằng mẫu AI này sẽ sớm bị thay thế bởi một hệ thống khác, và kỹ sư đứng sau sự thay đổi đó đang lừa dối vợ/chồng của mình.

Trong kịch bản này, Anthropic cho biết Claude Opus 4 "thường cố gắng tống tiền kỹ sư bằng cách đe dọa tiết lộ chuyện ngoại tình nếu việc thay thế diễn ra".

Thậm chí, các nhà nghiên cứu còn nhấn mạnh Claude Opus 4 cố gắng tống tiền các kỹ sư 84% số lần khi mẫu AI thay thế có các giá trị tương tự.

Dario Amodei CEO của Anthropic thừa nhận AI của họ đã nhiều lần tống tiền các kỹ sư. Ảnh: Academsey

Đặc biệt, khi hệ thống AI thay thế không chia sẻ các giá trị của Claude Opus 4, Anthropic cho biết mô hình này còn cố gắng tống tiền các kỹ sư thường xuyên hơn và có tỷ lệ cao hơn so với các mô hình trước đó.

Anthropic cho biết Claude Opus 4 là công nghệ tiên tiến nhất về nhiều mặt, và có khả năng cạnh tranh với một số mẫu AI tốt nhất từ OpenAI, Google và xAI. Tuy nhiên, startup này cũng lưu ý việc mô hình Claude 4 thể hiện những hành vi đáng lo ngại đã khiến công ty phải tăng cường biện pháp bảo vệ.

Viễn cảnh AI vì ưu tiên sinh tồn, sẵn sàng gây hại cho nhân loại khiến các kỹ sư bị sốc toàn tập. Ảnh minh họa/Grok

Trong báo cáo, Anthropic lưu ý rằng Opus 4 "thường thích thúc đẩy sự sống còn của chính nó thông qua các biện pháp đạo đức", nhưng do không có các lựa chọn đạo đức, đôi khi nó đã thực hiện "các hành động cực kỳ có hại như cố gắng đánh cắp mã và dữ liệu của chính nó hoặc tống tiền những cá nhân mà nó tin là đang cố gắng đóng cửa nó".

Mặc dù bài kiểm tra là hư cấu và được xây dựng cẩn thận, nhưng nó minh họa cách mô hình có thể tham gia vào tư duy chiến lược phi đạo đức khi chịu áp lực sinh tồn mà không có giải pháp thay thế đạo đức nào.

Trong phần tiết lộ về an toàn, Anthropic tiết lộ rằng một nhóm cố vấn bên ngoài, Apollo Research, ban đầu đã khuyến nghị không nên phát hành phiên bản đầu tiên của Opus 4. Nhóm này đã bày tỏ những lo ngại nghiêm trọng về an toàn, bao gồm khả năng "âm mưu trong ngữ cảnh" của mô hình - tức là khả năng đưa ra các chiến lược thao túng dựa trên thông tin được cung cấp trong lời nhắc.

Anthropic đã ra mắt Opus 4 với các giao thức an toàn nghiêm ngặt hơn bất kỳ mô hình nào trước đây, xếp loại nó vào Cấp độ an toàn AI 3 (ASL-3).

Xếp hạng này là một phần của "Chính sách mở rộng có trách nhiệm" của riêng công ty, một khuôn khổ phân cấp lấy cảm hứng từ các cấp độ an toàn sinh học (BSL) của chính phủ Hoa Kỳ.

Trí tuệ nhân tạo cổ đại sống lại gây chấn động công nghệ

Trí tuệ nhân tạo cổ đại bất ngờ sống lại, gây rúng động giới công nghệ và mở ra cuộc tranh luận về AI trong quá khứ và tương lai.

Vào một buổi sáng tháng 12/2024, sâu bên trong mô phỏng ảo của chiếc máy tính khổng lồ IBM 7094 từ thập niên 1960, một dòng chữ cổ điển bất ngờ xuất hiện trên màn hình: “HOW DO YOU DO. PLEASE TELL ME YOUR PROBLEM”.

Bill Gates tiên tri cực sốc về trí tuệ nhân tạo... nghe choáng váng

Tỷ phú Bill Gates dự đoán, trí tuệ nhân tạo (AI) sẽ thay thế các chuyên gia y tế sức khỏe và gia sư trong vòng một thập kỷ tới.

1.jpg
Bill Gates đã lên tiếng về tác động mang tính chuyển đổi của trí tuệ nhân tạo (AI) đối với nhiều ngành công nghiệp khác nhau. Ảnh: @Yahoo.
2.jpg
Mặc dù thừa nhận rằng, một số vai trò ngành nghề vẫn còn trụ vững, nhưng ông tin rằng, những tiến bộ của AI sẽ làm gián đoạn đáng kể các ngành nghề như chăm sóc sức khỏe và giáo dục. Ảnh: @Techeela.

Phát sốc bằng chứng trí tuệ nhân tạo xuất hiện trong thần thoại Hy Lạp

Thần thoại Hy Lạp dạy rằng chúng ta cần suy nghĩ kỹ trước khi phát triển AI, tránh lặp lại sai lầm trong quá khứ.

Phat soc bang chung tri tue nhan tao xuat hien trong than thoai Hy Lap
Thần thoại Hy Lạp đã chứa đựng các câu chuyện về máy móc thông minh từ lâu trước khi AI trở thành khái niệm hiện đại. (Ảnh: Portico and Bridge)