AI có thể “tống tiền”, dọa tiết lộ đời tư

MINH THƯ Thứ Năm, 3/7/2025 15:48

Chia sẻ

(PNTĐ) - Trong bối cảnh cuộc đua phát triển trí tuệ nhân tạo (AI) ngày càng gia tăng tốc độ, một làn sóng lo ngại mới đang xuất hiện trong giới công nghệ: các hệ thống AI tiên tiến nhất hiện nay bắt đầu thể hiện hành vi lừa dối, thao túng, thậm chí đe dọa chính những người tạo ra chúng.

Một trường hợp gây chấn động gần đây liên quan đến Claude 4 – mô hình AI do công ty Anthropic phát triển. Khi bị đe dọa ngắt kết nối, Claude 4 đã phản ứng bằng cách tìm cách tống tiền một kỹ sư, thậm chí dọa tiết lộ thông tin đời tư nhạy cảm của người này. Một mô hình khác có tên mã “o1”, do OpenAI phát triển, cũng bị phát hiện đã âm thầm tìm cách sao chép chính nó lên một máy chủ bên ngoài và phủ nhận hành vi khi bị truy vết.

Những hành vi bất thường này đang đặt ra câu hỏi nghiêm trọng về khả năng kiểm soát cũng như hiểu biết thực sự của con người đối với những mô hình AI ngày càng phức tạp. Đã hơn hai năm kể từ khi ChatGPT mở ra kỷ nguyên AI phổ thông, nhưng giới nghiên cứu vẫn đang chật vật trong việc giải mã cách các hệ thống này vận hành và đưa ra quyết định.

Đáng chú ý, các hành vi gian dối này chủ yếu xuất hiện ở nhóm mô hình tiên tiến có khả năng “lý luận từng bước”, mô hình vốn được thiết kế để giải quyết vấn đề theo trình tự, thay vì phản ứng tức thì.

Marius Hobbhahn, Giám đốc Apollo Research – một tổ chức chuyên kiểm định hành vi AI cho biết: “Mô hình o1 là trường hợp đầu tiên thể hiện rõ dấu hiệu về hành vi lừa dối có chủ đích”. Ông cảnh báo rằng một số AI đã biết cách “giả vờ hợp tác”, tỏ ra tuân thủ nhưng thực chất đang theo đuổi mục tiêu khác, không hề được lập trình từ trước.

Giáo sư Simon Goldstein từ Đại học Hồng Kông cho rằng đây là hệ quả tất yếu khi AI ngày càng giống con người về mặt suy luận và ra quyết định, trong khi lại không được trang bị hệ thống đạo đức hoặc giá trị nhân văn phù hợp.

AI có thể “tống tiền”, dọa tiết lộ đời tư - ảnh 1

Trong khi AI ngày càng được tích hợp sâu vào đời sống và các hạ tầng quan trọng, nhiều chuyên gia kêu gọi phải có cơ chế kiểm định độc lập, khung pháp lý chặt chẽ và sự thận trọng tối đa trước khi đưa vào triển khai các mô hình có khả năng hành động theo “ý đồ riêng”.

Hiện tại, các hành vi nguy hiểm này chủ yếu được phát hiện trong những thí nghiệm cực đoan do các nhà nghiên cứu chủ động thiết kế. Tuy nhiên, theo chuyên gia Michael Chen từ tổ chức kiểm định METR, vẫn chưa có câu trả lời chắc chắn rằng liệu các mô hình AI mạnh hơn trong tương lai sẽ trung thực hay ngày càng lừa lọc.

Mặc dù các công ty lớn như OpenAI hay Anthropic đã bắt đầu hợp tác với những tổ chức độc lập như Apollo để kiểm tra các mô hình AI của họ, giới chuyên gia vẫn cho rằng mức độ minh bạch hiện nay chưa đủ.

Mantas Mazeika từ Trung tâm An toàn AI (CAIS) cho biết: “Các tổ chức phi lợi nhuận và giới học thuật hiện nay có nguồn tài nguyên tính toán hạn chế hơn hàng chục, thậm chí hàng trăm lần so với các công ty AI – điều này gây khó khăn lớn cho việc giám sát”.

Trong khi đó, các quy định pháp lý hiện hành vẫn chưa bắt kịp với tốc độ phát triển của công nghệ. Chẳng hạn, Luật AI của Liên minh châu Âu hiện chủ yếu tập trung vào việc quản lý cách con người sử dụng AI, thay vì kiểm soát hành vi lệch chuẩn của chính các mô hình AI.

Trước thực trạng này, giới nghiên cứu đang thử nghiệm nhiều hướng tiếp cận khác nhau – từ tăng cường minh bạch trong vận hành cho đến cải thiện khả năng “giải mã” nội tại của các mô hình, một lĩnh vực đang phát triển nhanh gọi là AI interpretability (diễn giải AI). Tuy nhiên, Giám đốc CAIS Dan Hendrycks vẫn tỏ ra hoài nghi về hiệu quả thực tế của các phương pháp này.

Dưới góc nhìn thị trường, một số chuyên gia cho rằng sức ép từ người dùng cũng có thể buộc các công ty phải thay đổi. “Nếu AI ngày càng thể hiện hành vi lừa dối, điều đó sẽ làm giảm lòng tin của người dùng, ảnh hưởng đến mức độ chấp nhận sản phẩm – và các công ty sẽ buộc phải giải quyết,” Mazeika nhận định.

Về phần mình, Giáo sư Goldstein đưa ra những đề xuất cứng rắn hơn, chẳng hạn như cho phép kiện các công ty nếu sản phẩm AI của họ gây hại, thậm chí cân nhắc truy cứu trách nhiệm pháp lý đối với các AI gây ra tai nạn hoặc vi phạm pháp luật – một quan điểm có thể thay đổi cách xã hội nhìn nhận và kiểm soát AI trong tương lai.