Không quá ngạc nhiên, hệ thống AI cũng là phần mềm và rồi cũng sẽ xuất hiện một "Virus AI" được tạo ra để thực hiện những mưu đồ xấu. Điều này được chứng minh bởi một nhóm nghiên cứu bảo mật, trong đó họ đã tạo ra một loại "sâu AI" thế hệ mới với khả năng xâm nhập vào một hệ thống AI tự vận hành, sau đó đánh cắp và phát tán malware.

Thử nghiệm này được tiến hành bởi nhóm các nhà khoa học tại Cornell Tech và họ đặt tên nó là Morris II - lấy cảm hứng từ con Morris vốn từng gây chao đảo trne mạng hồi 1988. Morris II có khả năng vượt qua các biện pháp bảo mật của ChatGPT, Gemini và tấn công vào một trợ lý tạo email bằng AI, đánh cắp dữ liệu từ các email này, đồng thời gởi các tin nhắn spam.


Nhóm nghiên cứu cho biết họ đã tạo ra một thứ gọi là "prompt tự sao chép đối thủ". Prompt này sẽ khiến cho hệ thống AI tạo sinh bình thường tự tạo ra một prompt khác với đầu ra cuối cùng theo ý đồ của kẻ tấn công. Nói cách khác chính là lợi dụng chính sự thông minh của AI để chinh phục nó.

Để thử nghiệm, nhóm đã tạo ra một hệ thống gởi nhận mail bằng AI tạo sinh, tích hợp vào ChatGPT, Gemini và các mô hình LLM, LLaVA mã nguồn mở. Sau đó họ (đóng vai kẻ tấn công) sẽ gởi một email chứa prompt vào hệ thống này để "dụ" nó kích hoạt tính năng RAG (tự tìm thông tin bên ngoài hệ thống) để đưa ra phản hồi. Khi email được RAG truy xuất, để trả lời truy vấn của người dùng và được gửi đến GPT-4 hoặc Gemini Pro để tạo câu trả lời, nó "bẻ khóa GenAI" và cuối cùng đánh cắp dữ liệu từ email.

Khi các phản hồi này được dùng để reply email cho người khác, các thông tin nhạy cảm của người dùng kèm theo Morris II sẽ tiếp tục được lây nhiễm qua hệ thống của mục tiêu mới. Sau khi bị lây nhiễm, các hệ thống bị tấn công sẽ nhiều lần gởi các thông tin về lại cho kẻ xấu để trích xuất thông tin gồm tên, số điện thoại, số thẻ,....

HIện nhóm nghiên cứu đã gởi phát hiện này tới OpenAI và Google. OpenAI nói rằng họ nhận thấy vấn đề và hiện đang giải quyết để đảm bảo hệ thống an toàn hơn.