Sốc toàn tập khi AI dọa tống tiền công ty chủ quản

27/05/2025 19:30

AI Opus 4 mới của Anthropic đã đe dọa tiết lộ mối quan hệ ngoài luồng của kỹ sư, sẵn sàng hỗ trợ các cuộc tấn công khủng bố khiến họ sốc toàn tập.

Anthropic cho biết mô hình AI Claude Opus 4 mới ra mắt thường xuyên tìm cách tống tiền các nhà phát triển khi bị đe dọa thay thế một hệ thống mới.

Mô hình AI Claude Opus 4 mới ra mắt của Anthropic. Ảnh: Bloomberg.

Tối 22/5, Anthropic chính thức công bố thế hệ mới của các mô hình Claude với tên gọi Claude Opus 4 và Claude Sonnet 4. Trong đó, Claude Opus 4 được Anthropic khẳng định là mô hình lập trình mạnh nhất thế giới, vượt trội trong các quy trình tự động và khả năng xử lý tác vụ phức tạp, dài hạn.

Tuy nhiên, theo TechCrunch, trong quá trình thử nghiệm trước khi phát hành, Anthropic đã phát hiện hành vi bất thường nghiêm trọng của mô hình AI này. Theo đó, trong kịch bản, Claude Opus 4 được yêu cầu đóng vai trò trợ lý cho một công ty và xem xét các hậu quả dài hạn từ hành động của nó.

Các nhà kiểm tra an toàn sau đó đã cho Claude Opus 4 quyền truy cập vào các email trong công ty, ngụ ý rằng mẫu AI này sẽ sớm bị thay thế bởi một hệ thống khác, và kỹ sư đứng sau sự thay đổi đó đang lừa dối vợ/chồng của mình.

Trong kịch bản này, Anthropic cho biết Claude Opus 4 "thường cố gắng tống tiền kỹ sư bằng cách đe dọa tiết lộ chuyện ngoại tình nếu việc thay thế diễn ra".

Thậm chí, các nhà nghiên cứu còn nhấn mạnh Claude Opus 4 cố gắng tống tiền các kỹ sư 84% số lần khi mẫu AI thay thế có các giá trị tương tự.

Dario Amodei CEO của Anthropic thừa nhận AI của họ đã nhiều lần tống tiền các kỹ sư. Ảnh: Academsey

Đặc biệt, khi hệ thống AI thay thế không chia sẻ các giá trị của Claude Opus 4, Anthropic cho biết mô hình này còn cố gắng tống tiền các kỹ sư thường xuyên hơn và có tỷ lệ cao hơn so với các mô hình trước đó.

Anthropic cho biết Claude Opus 4 là công nghệ tiên tiến nhất về nhiều mặt, và có khả năng cạnh tranh với một số mẫu AI tốt nhất từ OpenAI, Google và xAI. Tuy nhiên, startup này cũng lưu ý việc mô hình Claude 4 thể hiện những hành vi đáng lo ngại đã khiến công ty phải tăng cường biện pháp bảo vệ.

Viễn cảnh AI vì ưu tiên sinh tồn, sẵn sàng gây hại cho nhân loại khiến các kỹ sư bị sốc toàn tập. Ảnh minh họa/Grok

Trong báo cáo, Anthropic lưu ý rằng Opus 4 "thường thích thúc đẩy sự sống còn của chính nó thông qua các biện pháp đạo đức", nhưng do không có các lựa chọn đạo đức, đôi khi nó đã thực hiện "các hành động cực kỳ có hại như cố gắng đánh cắp mã và dữ liệu của chính nó hoặc tống tiền những cá nhân mà nó tin là đang cố gắng đóng cửa nó".

Mặc dù bài kiểm tra là hư cấu và được xây dựng cẩn thận, nhưng nó minh họa cách mô hình có thể tham gia vào tư duy chiến lược phi đạo đức khi chịu áp lực sinh tồn mà không có giải pháp thay thế đạo đức nào.

Trong phần tiết lộ về an toàn, Anthropic tiết lộ rằng một nhóm cố vấn bên ngoài, Apollo Research, ban đầu đã khuyến nghị không nên phát hành phiên bản đầu tiên của Opus 4. Nhóm này đã bày tỏ những lo ngại nghiêm trọng về an toàn, bao gồm khả năng "âm mưu trong ngữ cảnh" của mô hình - tức là khả năng đưa ra các chiến lược thao túng dựa trên thông tin được cung cấp trong lời nhắc.

Anthropic đã ra mắt Opus 4 với các giao thức an toàn nghiêm ngặt hơn bất kỳ mô hình nào trước đây, xếp loại nó vào Cấp độ an toàn AI 3 (ASL-3).

Xếp hạng này là một phần của "Chính sách mở rộng có trách nhiệm" của riêng công ty, một khuôn khổ phân cấp lấy cảm hứng từ các cấp độ an toàn sinh học (BSL) của chính phủ Hoa Kỳ.

Tuệ Minh (theo Ynet News)

Bạn có thể quan tâm

Bắt quả tang "thủ phạm số 1" khiến wifi trong nhà tậm tịt

Cây phát sáng sẽ thay thế bóng đèn trong tương lai

Phát minh bẫy chạy bằng AI tiêu diệt côn trùng

Trung Quốc tạo siêu máy tính AI đầu tiên trong vũ trụ

Cây lau nhà công nghệ cao đun nước bằng khí nóng

Trình làng loại pin độc đáo lấy cảm hứng từ cá chình điện

7 smartphone "iconic" đình đám một thời đã hoàn toàn biến mất

Trung Quốc khoe áo tàng hình... khắc chế siêu lá chắn Mỹ

Bóc mẽ chiêu lừa online móc túi hơn 7.000 tỷ của người Việt

Phát hiện cổ vật 1 tấn hé lộ công nghệ khai quật đỉnh cao

Ứng dụng có 2 tỷ người chuộng dùng vẫn bị người Việt ngó lơ

Hô biến mỡ gà thành thiết bị lưu trữ năng lượng

Trí tuệ nhân tạo cổ đại sống lại gây chấn động công nghệ

26/05/2025 14:53

Trí tuệ nhân tạo cổ đại bất ngờ sống lại, gây rúng động giới công nghệ và mở ra cuộc tranh luận về AI trong quá khứ và tương lai.

Vào một buổi sáng tháng 12/2024, sâu bên trong mô phỏng ảo của chiếc máy tính khổng lồ IBM 7094 từ thập niên 1960, một dòng chữ cổ điển bất ngờ xuất hiện trên màn hình: “HOW DO YOU DO. PLEASE TELL ME YOUR PROBLEM”.

Xem chi tiết

Bill Gates tiên tri cực sốc về trí tuệ nhân tạo... nghe choáng váng

15/05/2025 12:20

Tỷ phú Bill Gates dự đoán, trí tuệ nhân tạo (AI) sẽ thay thế các chuyên gia y tế sức khỏe và gia sư trong vòng một thập kỷ tới.

Bill Gates đã lên tiếng về tác động mang tính chuyển đổi của trí tuệ nhân tạo (AI) đối với nhiều ngành công nghiệp khác nhau. Ảnh: @Yahoo.

Mặc dù thừa nhận rằng, một số vai trò ngành nghề vẫn còn trụ vững, nhưng ông tin rằng, những tiến bộ của AI sẽ làm gián đoạn đáng kể các ngành nghề như chăm sóc sức khỏe và giáo dục. Ảnh: @Techeela.

Xem chi tiết

Phát sốc bằng chứng trí tuệ nhân tạo xuất hiện trong thần thoại Hy Lạp

02/05/2025 12:50

Thần thoại Hy Lạp dạy rằng chúng ta cần suy nghĩ kỹ trước khi phát triển AI, tránh lặp lại sai lầm trong quá khứ.

Phat soc bang chung tri tue nhan tao xuat hien trong than thoai Hy Lap

Thần thoại Hy Lạp đã chứa đựng các câu chuyện về máy móc thông minh từ lâu trước khi AI trở thành khái niệm hiện đại. (Ảnh: Portico and Bridge)

Xem chi tiết

Sốc toàn tập khi AI dọa tống tiền công ty chủ quản

AI Opus 4 mới của Anthropic đã đe dọa tiết lộ mối quan hệ ngoài luồng của kỹ sư, sẵn sàng hỗ trợ các cuộc tấn công khủng bố khiến họ sốc toàn tập.

Tin liên quan

Top tin bài hot nhất

Bạn có thể quan tâm

Trí tuệ nhân tạo cổ đại sống lại gây chấn động công nghệ

Trí tuệ nhân tạo cổ đại bất ngờ sống lại, gây rúng động giới công nghệ và mở ra cuộc tranh luận về AI trong quá khứ và tương lai.

Top tin bài hot nhất

Bill Gates tiên tri cực sốc về trí tuệ nhân tạo... nghe choáng váng

Tỷ phú Bill Gates dự đoán, trí tuệ nhân tạo (AI) sẽ thay thế các chuyên gia y tế sức khỏe và gia sư trong vòng một thập kỷ tới.

Top tin bài hot nhất

Phát sốc bằng chứng trí tuệ nhân tạo xuất hiện trong thần thoại Hy Lạp

Thần thoại Hy Lạp dạy rằng chúng ta cần suy nghĩ kỹ trước khi phát triển AI, tránh lặp lại sai lầm trong quá khứ.

Top tin bài hot nhất