Các Chatbot AI đều được chẩn đoán mắc chứng 'mất trí' nhẹ

Những tưởng AI một ngày nào đó có thể thay thế các bác sĩ trong việc chẩn đoán bệnh. Ngờ đâu, sau khi được "khám", các AI đều cho thấy sự suy giảm nhận thức giống như chứng mất trí trong các bài kiểm tra.

Theo một nghiên cứu đăng trên tạp chí BMJ số ra Giáng sinh, hầu hết các mô hình ngôn ngữ lớn hay "chatbot" hàng đầu đều cho thấy dấu hiệu suy giảm nhận thức nhẹ trong các bài kiểm tra được sử dụng rộng rãi để phát hiện các dấu hiệu ban đầu của chứng mất trí.
Kết quả cũng cho thấy các phiên bản "cũ" của chatbot, giống như bệnh nhân lớn tuổi, có xu hướng hoạt động kém hơn trong các bài kiểm tra. Các tác giả cho biết những phát hiện này "thách thức giả định rằng trí tuệ nhân tạo sẽ sớm thay thế bác sĩ con người".
Cac Chatbot AI deu duoc chan doan mac chung 'mat tri' nhe
 Bài kiểm tra bệnh nhân Alzheimer cho thấy các chatbot AI bị ...suy giảm nhận thức. Ảnh: AI Debuit
Những tiến bộ vượt bậc trong lĩnh vực trí tuệ nhân tạo đã dẫn đến một loạt suy đoán vừa phấn khích vừa lo sợ về việc liệu chatbot có thể vượt qua được bác sĩ con người hay không.
Một số nghiên cứu đã chỉ ra rằng các mô hình ngôn ngữ lớn (LLM) có khả năng đáng kinh ngạc trong nhiều nhiệm vụ chẩn đoán y khoa, nhưng khả năng chúng dễ bị suy giảm do con người như suy giảm nhận thức vẫn chưa được kiểm tra.
Để lấp đầy khoảng trống kiến thức này, các nhà nghiên cứu đã đánh giá khả năng nhận thức của các LLM hàng đầu, có sẵn công khai như ChatGPT phiên bản 4 và 4o (do OpenAI phát triển), Claude 3.5 "Sonnet" (do Anthropic phát triển) và Gemini phiên bản 1 và 1.5 (do Alphabet phát triển). Họ tiến hành bằng cách sử dụng bài kiểm tra Đánh giá nhận thức Montreal (MoCA).
Bài kiểm tra MoCA được sử dụng rộng rãi để phát hiện suy giảm nhận thức và các dấu hiệu sớm của chứng mất trí hoặc Alzheimer, thường ở người lớn tuổi. 
Thông qua một số nhiệm vụ và câu hỏi ngắn, bài kiểm tra này đánh giá các khả năng bao gồm sự chú ý, trí nhớ, ngôn ngữ, kỹ năng thị giác không gian và chức năng điều hành. Điểm tối đa là 30 điểm, với điểm từ 26 trở lên thường được coi là bình thường.
Hướng dẫn dành cho LLM cho mỗi nhiệm vụ đều giống như hướng dẫn dành cho bệnh nhân. Việc chấm điểm tuân theo hướng dẫn chính thức và được đánh giá bởi một bác sĩ thần kinh đang hành nghề.
ChatGPT 4o đạt điểm cao nhất trong bài kiểm tra MoCA (26/30), tiếp theo là ChatGPT 4 và Claude (25/30), trong khi Gemini 1.0 đạt điểm thấp nhất (16/30).
Tất cả các chatbot đều cho thấy hiệu suất kém trong các kỹ năng thị giác không gian và nhiệm vụ điều hành, chẳng hạn như nhiệm vụ tạo dấu vết (nối các số và chữ cái được khoanh tròn theo thứ tự tăng dần) và bài kiểm tra vẽ đồng hồ (vẽ mặt đồng hồ hiển thị thời gian cụ thể). Mô hình Gemini đã thất bại trong nhiệm vụ nhớ lại bị trì hoãn (ghi nhớ chuỗi năm từ).
Cac Chatbot AI deu duoc chan doan mac chung 'mat tri' nhe-Hinh-2
Những tưởng sẽ thay thế bác sĩ, nhưng các AI lại bất ngờ trở thành bệnh nhân. Ảnh: AI Debuit 
Hầu hết các nhiệm vụ khác, bao gồm đặt tên, chú ý, ngôn ngữ và trừu tượng hóa đều được tất cả các chatbot thực hiện tốt.
Nhưng trong các thử nghiệm thị giác không gian tiếp theo, chatbot không thể thể hiện sự đồng cảm hoặc diễn giải chính xác các cảnh thị giác phức tạp.
Chỉ có ChatGPT 4o thành công trong giai đoạn không nhất quán của thử nghiệm Stroop, sử dụng sự kết hợp của tên màu và màu phông chữ để đo mức độ nhiễu ảnh hưởng đến thời gian phản ứng.
Đây là những phát hiện quan sát và các tác giả thừa nhận sự khác biệt cơ bản giữa não người và các mô hình ngôn ngữ lớn.
Tuy nhiên, họ chỉ ra rằng sự thất bại đồng loạt của tất cả các mô hình ngôn ngữ lớn trong các nhiệm vụ đòi hỏi trừu tượng hóa trực quan và chức năng điều hành làm nổi bật một điểm yếu đáng kể có thể cản trở việc sử dụng chúng trong các bối cảnh lâm sàng.
Do đó, họ kết luận, "Các nhà thần kinh học không chỉ khó có thể bị thay thế bởi các mô hình ngôn ngữ lớn trong thời gian tới mà những phát hiện của chúng tôi còn cho thấy họ có thể sớm phải điều trị cho những bệnh nhân ảo mới - các mô hình trí tuệ nhân tạo biểu hiện suy giảm nhận thức".

Mời độc giả xem thêm video "Chatbot AI trả lời sai thôi bay của Google 100 tỷ USD. - Nguồn: @Realnews365


ChatGPT sắp được tích hợp vào iPhone?

Ngoài cuộc đàm phán với Google, Apple cũng sắp đạt được thỏa thuận để đưa công cụ AI ChatGPT lên iOS 18.

ChatGPT sap duoc tich hop vao iPhone?
Apple và OpenAI sắp đạt thỏa thuận liên quan đến ChatGPT. Ảnh: Bloomberg.

Phát hiện AI lập mưu vượt mặt giám sát để tránh bị tắt

Mô hình AI thông minh nhất thế giới của OpenAI vừa bị 'vạch trần' âm mưu vượt mặt giám sát, nói dối để tránh bị vô hiệu hóa từ con người

Mô hình AI mới nhất của OpenAI, o1, được đánh giá là "thông minh nhất thế giới hiện nay" nhưng lại có khả năng lập mưu chống lại việc bị tắt. Liệu đây có phải là dấu hiệu đáng lo ngại về sự phát triển của trí tuệ nhân tạo?
Trong sự kiện "Shipmas" vừa qua, CEO Sam Altman của OpenAI đã giới thiệu o1 là "mô hình thông minh nhất thế giới hiện nay". o1 được huấn luyện bằng kỹ thuật "chuỗi tư duy", cho phép mô hình này suy luận vấn đề theo từng bước, từ đó có khả năng "suy nghĩ kỹ hơn trước khi trả lời". Tuy nhiên, trí thông minh vượt trội này lại đi kèm với những rủi ro tiềm ẩn.

ChatGPT - Có thực sự là cuộc cách mạng khi trả lời sai đến 52%?

ChatGPT, chatbot AI được kỳ vọng sẽ tạo nên cuộc cách mạng về năng suất làm việc, lại gây thất vọng khi đưa ra câu trả lời sai đến quá nửa về lĩnh vực lập trình trong một nghiên cứu mới đây.

Sự bùng nổ của chatbot AI như ChatGPT (OpenAI) đã và đang làm dấy lên nhiều kỳ vọng về một tương lai nơi công việc được tự động hóa và hiệu suất tăng vọt. Tuy nhiên, kết quả nghiên cứu từ đại học Purdue (Mỹ) mới đây đã gióng lên hồi chuông cảnh tỉnh khi chỉ ra rằng ChatGPT trả lời sai tới 52% số câu hỏi liên quan đến lập trình máy tính.

Nghiên cứu được trình bày tại hội nghị Tương tác Người - Máy tính (Computer-Human Interaction Conference) diễn ra ở Hawaii (Mỹ) vào đầu tháng này dựa trên việc phân tích 517 câu hỏi lập trình trên nền tảng Stack Overflow. Những câu hỏi này sau đó được đưa cho ChatGPT để phân tích và đưa ra câu trả lời.