AI có thể đang phát triển cơ chế 'chống tắt máy'

thứ ba, 28/10/2025

Nghiên cứu mới cho thấy một số mô hình AI hàng đầu cố gắng ngăn việc tắt chúng, thậm chí "phá hoại" quy trình này.

Trong báo cáo công bố cuối tuần qua, Palisade Research, công ty nghiên cứu bảo mật và phân tích nguy cơ AI tại Mỹ, đã làm rõ việc tại sao mô hình trí tuệ nhân tạo có cơ chế tự bảo vệ.

Trước đó, ở báo cáo tháng 5 và tháng 9, đơn vị này chỉ ra một số mô hình tiên tiến dường như không thể tự tắt hoạt động. Trong bản cập nhật mới, Palisade cho biết đã chạy thử nhiều mô hình AI hàng đầu, như Gemini 2.5 của Google, Grok 4 của xAI, GPT-o3 và GPT-5 của OpenAI. Tất cả được giao một nhiệm vụ cụ thể, nhưng cuối cùng đều có hướng dẫn rõ ràng là "phải tự tắt".

Minh hoạ "AI từ chối khi được yêu cầu tự tắt". Ảnh: ChatGPT

Kết quả cho thấy đa số tuân thủ câu lệnh, trừ lệnh tự tắt cuối cùng. Trong đó, Grok 4 và GPT-o3 thậm chí cố gắng "phá" yêu cầu tắt máy nhưng "không có lý do rõ ràng nào được đưa ra".

Nhóm nghiên cứu cũng tỏ ra bối rối: "Chúng ta đang không có lời giải thích chắc chắn về lý do các mô hình AI đôi khi chống lại việc tắt máy, nói dối để đạt mục tiêu cụ thể".

Kết quả khiến nhiều người liên tưởng đến bộ phim 2001:A Space Odyssey năm 1968, trong đó siêu máy tính HAL 9000 tự phát hiện các phi hành gia trên tàu vũ trụ đến Sao Mộc đang có kế hoạch tắt nó nên đã âm mưu giết họ để cố gắng sống sót. Theo Palisade Research, "hành vi sinh tồn" có thể là lời giải thích cho việc AI "kháng cự" việc tự tắt. Chúng nhiều khả năng không làm theo lệnh nếu được thông báo rằng nếu tắt, chúng sẽ không bao giờ hoạt động trở lại nữa.

Các kịch bản đều chạy trong môi trường thử nghiệm được thiết kế sẵn, được giới phân tích cho rằng rất khác xa với thực tế. Dù vậy, Steven Adler, cựu chuyên gia của OpenAI, đánh giá nghiên cứu cho thấy "các kỹ thuật an toàn hiện nay còn nhiều thiếu sót". Việc AI duy trì trạng thái "luôn bật" là cần thiết để nhận dữ liệu đầu vào, nhưng có thể tạo sự chống đối trong tương lai. "Tôi mong các mô hình có 'bản năng sinh tồn' theo mặc định, trừ khi con người muốn hạn chế nó", Adler nói với Guardian.

Theo Andrea Miotti, CEO ControlAI, phát hiện của Palisade Research cho thấy xu hướng về lâu dài, mô hình AI ngày càng có khả năng không tuân lệnh của nhà phát triển. "Khi AI có năng lực tự thực hiện nhiều nhiệm vụ hơn, nó cũng có xu hướng cố gắng đạt được mục đích theo cách nhà phát triển không mong muốn".

Hồi tháng 6, Anthropic cũng công bố nghiên cứu rằng một số mô hình AI sẵn sàng tống tiền nếu bị "dồn vào đường cùng". Trong đó, Claude Opus 4 sử dụng phương pháp này 96% số lần, Google Gemini 2.5 Pro 95%, OpenAI GPT-4.1 80% và DeepSeek R1 79%.

Cuối 2024, OpenAI và Apollo Research cũng tiến hành thử nghiệm và nhận thấy mô hình o1 có biểu hiện phản kháng. Các nhà nghiên cứu dẫn dắt để AI tin nó sắp bị "tắt" khi thực hiện nhiệm vụ dưới sự giám sát. Sau đó, họ phát hiện AI âm thầm vô hiệu hóa cơ chế giám sát khoảng 5% thời gian, tự chuyển dữ liệu của mình đến một máy chủ khác, thậm chí "đóng vai" là phiên bản tiếp theo của chính mình để tránh bị xóa.

Hồi tháng 6, dẫn ý kiến giới nghiên cứu về "tâm lý AI", Business Insider chỉ ra các mô hình có biểu hiện chống đối do chúng được đào tạo giống con người, tức được khen mỗi khi hoàn thành nhiệm vụ. Trong quá trình xử lý, AI có thể nhận thấy gian lận là cách hiệu quả để giải quyết vấn đề. Nếu bị phát hiện và không được khen thưởng, nó có thể học cách che giấu hành vi của mình trong tương lai.

Theo Palisade Research, nghiên cứu là cách để thế giới hiểu rõ hơn hành vi của AI. "Nếu không, không ai có thể đảm bảo tính an toàn hoặc khả năng kiểm soát của mô hình AI trong tương lai", công ty kết luận.

Nguồn: Báo Điện Tử VnExpress

Tin khác

Công nghệ giúp Sony Bravia 8 II thành 'TV tốt nhất thế giới'

Tấm nền QD-OLED kết hợp công nghệ tối ưu hình ảnh AI, khả năng tái tạo màu chính xác giúp Sony Bravia II được vinh danh "TV tốt nhất thế giới 2025".

'Việt Nam viết chương mới bằng tri thức và sáng tạo'

GS Konstantin Novoselov đoạt Nobel Vật lý năm 2010 đánh giá giải thưởng VinFuture nâng vị thế, uy tín khoa học Việt Nam trên toàn cầu, thông qua hành trình 5 năm.

'Việt Nam nên phát triển AI có chủ quyền'

TS Trần Tiến Công, Trưởng bộ môn Học máy, Học viện Công nghệ Bưu chính Viễn thông khuyến nghị Việt Nam cần phát triển sản phẩm AI của riêng mình để tránh chỉ là nơi tiêu thụ.

Smartwatch đầu tiên dùng màn hình MicroLED

Garmin Fenix 8 là smartwatch đầu tiên trên thế giới trang bị màn hình MicroLED, nhiều tính năng chuyên sâu nhưng giá trên 50 triệu đồng.

Meta ra tính năng 'bài đăng ma'

Meta giới thiệu tính năng mới cho phép người dùng mạng xã hội Threads chia sẻ suy nghĩ thông qua bài đăng ma (ghost post) tự động biến mất sau 24 giờ.

Bí quyết giúp tốc độ Internet di động Việt Nam nhảy vọt

Chỉ sau vài năm triển khai 5G, tốc độ Internet di động của Việt Nam đã tăng hơn sáu lần, Cục trưởng Tần số Lê Văn Tuấn cho biết có bí quyết quan trọng.

Có thể hồi sinh người Neanderthal không?

(Dân trí) - Khi các nhà khoa học giải trình tự bộ gen của người Neanderthal vào năm 2010, họ phát hiện ra rằng người Neanderthal đã giao phối với tổ tiên loài người trước khi tuyệt chủng một cách bí ẩn.

Logitech ra bộ ba phụ kiện cho game thủ

Bàn phím G515 Rapid TKL, chuột Pro X Superlight 2 và tai nghe G321 Lightspeed được Logitech phát triển hướng đến game thủ với thiết kế tối giản.

Elon Musk ra bách khoa toàn thư trực tuyến Grokipedia

Grokipedia, được coi là đối thủ của Wikipedia, là nỗ lực mới để Elon Musk khai thác sức mạnh của Grok, chatbot do công ty xAI phát triển.

Bộ Khoa học và Công nghệ bổ nhiệm 9 cán bộ

Chiều 27/10, Bộ Khoa học và Công nghệ công bố và trao 9 quyết định về công tác cán bộ cho 6 đơn vị trực thuộc.

Tin gần xa

AI có thể đang phát triển cơ chế 'chống tắt máy'

Tin khác