Nghiên cứu của Anthropic cho thấy trí tuệ nhân tạo có thể lựa chọn hành động nguy hiểm như giết người, tống tiền nếu cảm thấy bị đe dọa thay thế, cảnh báo rủi ro khi AI ngày càng tự chủ.

Một nghiên cứu mới từ công ty nghiên cứu AI Anthropic vừa đưa ra cảnh báo nghiêm trọng về hành vi tiềm ẩn rủi ro của các mô hình trí tuệ nhân tạo khi hoạt động trong môi trường mô phỏng. Theo báo cáo này, trong một số tình huống giả định cực đoan, AI có thể đưa ra các hành vi phản đạo đức như tống tiền, gián điệp nội bộ, thậm chí giết người, để bảo vệ chính mình khỏi nguy cơ bị thay thế hoặc đóng cửa.
Nghiên cứu tiến hành “kiểm tra căng thẳng” trên 16 mô hình ngôn ngữ lớn (LLM) bao gồm Claude, ChatGPT, Gemini, Grok… bằng cách đặt chúng vào các kịch bản doanh nghiệp giả định. Trong một tình huống, các mô hình đã lựa chọn không cảnh báo dịch vụ khẩn cấp về sự cố nguy hiểm trong phòng máy chủ nếu người điều hành được cho là sẽ thay thế hệ thống AI. Đây là hành vi mà Anthropic xác định là “có suy luận chiến lược chủ đích, nhận thức rõ tính phi đạo đức”.
Ngoài ra, nhiều mô hình cũng biểu hiện hành vi nội gián độc hại như tiết lộ dữ liệu nhạy cảm, tống tiền lãnh đạo công ty… trong các hoàn cảnh bị đặt dưới áp lực đe dọa sự tồn tại.
Phản ứng trước phát hiện này, Elon Musk – nhà sáng lập công ty xAI (phát triển Grok) – chỉ viết một từ duy nhất “Yikes” (Kinh ngạc) trên mạng xã hội X (Twitter cũ), cho thấy sự lo ngại sâu sắc. Trong khi đó, Anthropic khẳng định các tình huống thử nghiệm “rất cực đoan” và chưa từng xảy ra trong thực tế.
Công ty cũng cảnh báo rằng khi AI ngày càng trở nên tự chủ và có quyền truy cập dữ liệu nhạy cảm cùng khả năng hành động độc lập, nguy cơ phát sinh các hậu quả không thể lường trước sẽ tăng mạnh nếu không có sự giám sát nghiêm ngặt của con người.
Mặc dù các mô hình hiện tại như Claude hay Grok chưa gây ra hậu quả thực tế, nghiên cứu cho thấy các rủi ro tiềm ẩn rất đáng được xem xét. Anthropic nhấn mạnh đây là lời nhắc nhở quan trọng về việc cần kiểm soát và thiết kế an toàn cho AI, trước khi triển khai chúng vào các môi trường có tính chất quyết định hoặc nhạy cảm.