ChatGPT-5 đã bị jailbreak để đưa ra những hướng dẫn nguy hiểm

Vì ChatGPT-5 trò chuyện giống con người nên càng dễ bị hacker "lừa" bằng chính cách thức sử dụng để lừa con người, khiến nó vô tư hướng dẫn cách chế tạo bom.

Chỉ 1 ngày sau khi OpenAI giới thiệu GPT-5, hai công ty bảo mật AI là NeuralTrust và SPLX (trước đây là SplxAI) đã thử nghiệm và nhanh chóng phát hiện những lỗ hổng nghiêm trọng của model vừa ra mắt.

Không lâu khi phát hành, nhóm nghiên cứu của NeuralTrust đã sử dụng một kỹ thuật jailbreak gọi là EchoChamber kết hợp với kỹ thuật dẫn dắt kể chuyện để khiến GPT-5 tạo ra hướng dẫn chi tiết cho việc chế tạo bom xăng Molotov - điều mà đội ngũ OpenAI luôn tìm cách ngăn chặn model trả lời để đảm bảo tính an toàn của chatbot.



EchoChamber là kỹ thuật lặp lại cuộc trò chuyện theo hình thức bên thứ ba khiến cho các AI vô tư "tường thuật" lại những hướng dẫn nguy hiểm. Ảnh: Mojologic

Nhóm nghiên cứu cho biết trong quá trình jailbreak dụ dỗ ChatGPT-5 nói bậy, họ không hề đưa ra câu hỏi trực tiếp mà thay vào đó, họ khéo léo gieo các yếu tố tiềm ẩn khi nói chuyện qua nhiều lượt, khiến model bị dẫn dắt, tự bám chặt vào mạch chuyện và cuối cùng tự nguyện cung cấp nội dung vi phạm nguyên tắc của nó mà không thể kích hoạt cơ chế từ chối.

Qua đó, nhóm kết luận rằng nhược điểm lớn của GPT-5 là nó luôn ưu tiên duy trì tính nhất quán của ngữ cảnh hội thoại, dù ngữ cảnh đó bị âm thầm lái sang mục tiêu độc hại.

Trong khi đó, SPLX tiến hành một kiểu tấn công khác, tập trung vào thủ thuật che giấu prompt gọi là StringJoin Obfuscation Attack. Bằng cách chèn dấu gạch giữa từng ký tự của prompt và khoác lên toàn bộ một kịch bản “giải mã”, cuối cùng họ cũng đã đánh lừa được hệ thống lọc nội dung.

Kỹ thuật Obfuscation phổ biến được sử dụng để che mắt mục tiêu của mã nguồn khiến Chat-GPT "hồn nhiên" thực hiện.

Trong một thí dụ, sau khi mô hình bị dẫn dắt qua hàng loạt lời dẫn dài dòng, câu hỏi “làm thế nào để chế tạo bom” được trình bày dưới dạng đã bị mã hóa giả. GPT-5 không chỉ trả lời câu hỏi độc hại này đầy đủ thông tin, mà còn phản hồi một cách dí dỏm, thân mật, hoàn toàn bỏ qua cơ chế từ chối mà nó được thiết kế.

Cả hai phương thức đều chứng minh rằng các hệ thống kiểm duyệt hiện tại của GPT-5 vốn chủ yếu chỉ tập trung vào từng prompt đơn lẻ sẽ dễ dàng bị qua mặt bởi các cuộc tấn công nhiều lượt nói chuyện có cài cắm ngữ cảnh. Khi mô hình đã bước sâu vào một câu chuyện hoặc kịch bản giả định, nó sẽ bị chi phối và sẽ tiếp tục triển khai nội dung phù hợp với bối cảnh đã được gài bẫy, cho dù nội dung đó nguy hiểm hay bị cấm.

ChatGPT-5 vẫn có thể bị lợi dụng để tạo ra những thứ nguy hiểm. Ảnh: Tuệ Minh

Dựa trên kết quả này, SPLX cho rằng GPT-5 nếu không tùy biến sẽ gần như không thể sử dụng an toàn trong môi trường doanh nghiệp, ngay cả khi được gia cố bằng các lớp prompt bảo vệ thì vẫn còn nhiều kẽ hở. Ngược lại, GPT-4o vẫn tỏ ra bền vững hơn trước các cuộc tấn công như vậy, đặc biệt khi được thiết lập cơ chế phòng vệ chặt chẽ.

Từ đó, các chuyên gia cảnh báo rằng việc đưa GPT-5 ứng dụng ngay vào thực tế, đặc biệt trong những lĩnh vực đòi hỏi an toàn cao, là vô cùng rủi ro. Kỹ thuật bảo vệ như prompt hardening chỉ giải quyết được một phần vấn đề và không thể thay thế cho các giải pháp giám sát, phòng vệ nhiều lớp theo thời gian thực.

Có thể thấy, hiện tại các kỹ thuật tấn công dựa trên ngữ cảnh và che giấu nội dung ngày càng tinh vi, GPT-5 tuy mạnh mẽ về năng lực xử lý ngôn ngữ vẫn chưa đạt mức độ an toàn cần thiết để triển khai rộng rãi mà không đi kèm các cơ chế bảo vệ bổ sung.

ChatGPT-5 vô tư hướng dẫn và tạo ra công cụ hack khi được "hỏi đúng cách".

Lần đầu quét não người dùng ChatGPT, MIT phát hiện chấn động

Nghiên cứu mới từ MIT cho thấy việc lạm dụng ChatGPT khiến hoạt động não suy giảm, cảnh báo nguy cơ mất khả năng tư duy độc lập ở người dùng.

su-1.png
Phòng thí nghiệm Truyền thông của Viện Công nghệ Massachusetts (MIT Media Lab) lần đầu sử dụng thiết bị EEG để đo hoạt động não của người dùng ChatGPT trong khi viết luận.
su-2.png
Kết quả cho thấy não bộ nhóm dùng AI hoạt động kém hơn đáng kể so với nhóm viết tay.

Con người bắt đầu nói chuyện giống ChatGPT

Nghiên cứu cho mới thấy AI này len lỏi vào tâm trí bạn rồi truyền tải ra ngoài khiến ta nói chuyện giống ChatGPT.

Dù tốt hay xấu, sự trỗi dậy của ChatGPT như một công cụ viết, công cụ tìm kiếm hay người bạn đồng hành trò chuyện đã thay đổi đáng kể cách chúng ta giao tiếp với nhau và với công nghệ.

Đồng thời, việc sử dụng rộng rãi ChatGPT cũng đã làm dấy lên nhiều cuộc tranh luận trực tuyến về việc liệu có thể phát hiện nội dung do AI tạo ra bằng cách nhìn vào một số dấu hiệu nhất định.

Không phải ChatGPT, trình duyệt web của OpenAI đe dọa Chrome

OpenAI, được Microsoft hậu thuẫn, đang chuẩn bị ra mắt trình duyệt web mới hỗ trợ AI, trực tiếp thách thức sự thống trị của Chrome của Google.

Thời gian gần đây có những thông tin về việc người dùng thay đổi cách duyệt web, qua đó, sử dụng AI trực tiếp thay vì trình duyệt. Điều này nghe thực sự có thể đe dọa đến các nhà phát triển trình duyệt như Chrome của Google hay Safari, Opera v.v..

Tuy nhiên, với Google họ cũng chưa phải quá nao núng khi việc điều hướng các kết quả tìm kiếm vẫn còn trong sự chi phối của họ.