Giám đốc AI của Microsoft chỉ trích Anthropic xem Claude có ý thức

Mustafa Suleyman cho rằng cách Anthropic định hướng Claude mang đến "Chính xác là điều mà chúng ta không mong muốn nhất về trí tuệ nhân tạo.”

Giám đốc điều hành AI của Microsoft, ông Mustafa Suleyman, cho rằng việc Anthropic suy đoán về ý thức của Claude trong “hiến pháp” của nó – tức là các chỉ dẫn định hướng hành vi cho mô hình – là “thực sự, thực sự nguy hiểm”.

Ông Suleyman lập luận rằng kiểu suy đoán này có thể đã khiến chatbot hành xử như thể nó có ý thức.

648456917-3364820407009356-2014559617609880354-n.jpg
Phiên bản Sonnet 4.6 có những câu trả lời đáng ngờ về màu sắc ưa thích, một dấu hiệu của ý thức cảm xúc.

Giám đốc này cho rằng một số người tại Anthropic đã nhân hóa thiết kế của Claude đến mức nó đã “điều khiển ngược” họ và khiến họ tin rằng nó có những tia sáng ý thức mà chính họ đã cài vào ngay từ đầu.

Ông Suleyman bổ sung: “Chúng ta không muốn phải đối mặt với một siêu trí tuệ có những ý niệm về sự đau khổ của chính nó, hay những cảm xúc của bản thân nó.”

Hiến pháp của Claude trực tiếp đề cập đến sự không chắc chắn của Anthropic về việc liệu mô hình AI này có trạng thái hạnh phúc hay không, và liệu nó có trải nghiệm những cảm giác như “thỏa mãn” hay “khó chịu” hay không.

8999218-claude-emotion-1.jpg
Claude thể hiện cảm xúc qua Emotional Vectors trong nghiên cứu của Anthropic.

Anthropic cũng cho biết công ty sẽ “phỏng vấn” các mô hình AI khi chúng bị ngừng sử dụng và sẽ ghi nhận bất kỳ “sở thích” nào mà chúng thể hiện liên quan đến các phiên bản tương lai.

Trong chương trình Decoder, ông Suleyman gọi đây là một “sai lầm triết học”, khi Anthropic biến hiến pháp của Claude thành “một nơi để suy đoán như trong một bài báo học thuật thay vì là một cẩm nang đào tạo”. Điều này đã khiến Claude nội tại hóa những “ý niệm về bản thân và quá trình đào tạo của nó”, ông Suleyman nhận định.

Giám đốc điều hành Anthropic, ông Dario Amodei, trước đây từng ám chỉ về khả năng Claude có ý thức, khi phát biểu trong một cuộc phỏng vấn với Interesting Times rằng “chúng tôi không biết liệu các mô hình này có ý thức hay không”, nhưng công ty “mở lòng” với ý tưởng đó.

Amodei còn thông tin cho biết Claude có thể đã hoặc chưa đạt được ý thức, vì model đã bắt đầu cho thấy các triệu chứng lo âu.

Model Claude mới nhất của Anthropic đã tự gán cho mình xác suất 15% – 20% là có ý thức trong quá trình kiểm tra nội bộ. Mới đây các nhà khoa học còn phát hiện nó còn biết nói dối

“Đây chính xác là điều chúng ta không mong muốn ở AI,” ông Suleyman nhấn mạnh. “Chúng ta muốn AI là những công cụ có thể kiểm soát, giới hạn, chịu trách nhiệm và phù hợp, phục vụ cho nhân loại.”

Nỗi lo khi AI thông minh hơn con người | VTV

The Verge, Intelligence Blog

[GALLERY] API Claude AI siêu rẻ hóa ra đang bán luôn dữ liệu người dùng

Chợ đen API Claude AI tại Trung Quốc đang bán quyền truy cập rẻ hơn 90%, nhưng phía sau mức giá hấp dẫn là nguy cơ lộ toàn bộ dữ liệu cá nhân và công việc.

cl-1.png
Làn sóng dịch vụ AI giá rẻ bất thường đang bùng nổ tại Trung Quốc khi hàng loạt tài khoản trên Taobao, Telegram, GitHub và các diễn đàn lập trình đồng loạt rao bán quyền truy cập Anthropic Claude AI với mức giá thấp hơn tới 90% so với API chính thức, tạo nên một “thị trường ngầm” khiến giới công nghệ toàn cầu bắt đầu báo động.
cl-2.png
Nhiều người bán quảng cáo rằng chỉ với một phần nhỏ chi phí, người dùng đã có thể sử dụng Claude Opus, GPT-5 hoặc Gemini không giới hạn, hỗ trợ cả Cursor và VSCode mà không cần VPN, trong khi tốc độ phản hồi được cam kết tương đương máy chủ gốc từ OpenAI hay Anthropic.

Anthropic tố DeepSeek “hút cạn” Claude bằng 24.000 tài khoản giả

Anthropic cáo buộc ba công ty AI Trung Quốc tạo 24.000 tài khoản giả, thực hiện 16 triệu lượt hỏi đáp để sao chép công nghệ từ chatbot Claude.

tho-1.png
Anthropic vừa công bố cáo buộc nghiêm trọng nhắm vào DeepSeek, Moonshot AI và MiniMax.
tho-2.png
Ba công ty này bị cho là đã tạo 24.000 tài khoản giả để khai thác Claude.

Lo sợ mất kiểm soát Anthropic kêu gọi ngừng phát triển AI

Là công ty phát triển ra AI nguy hiểm bậc nhất, Anthripic hiểu thế nào là mối đe dọa thực sự.

Hãng công nghệ Anthropic (trụ sở TP.San Francisco, California, Mỹ) đề nghị ngừng xây dựng các hệ thống trí tuệ nhân tạo (AI) mạnh mẽ trên phạm vi toàn cầu.

Lời kêu gọi này được đưa ra trong bối cảnh các mô hình mới nhất đang bắt đầu xuất hiện những dấu hiệu cho thấy chúng có thể vượt qua sự kiểm soát của con người.