DeepMind Petakan 6 Jebakan Agen AI yang Bisa Diretas Hacker

Google DeepMind petakan 6 jebakan agen AI dengan tingkat serangan 86%. Microsoft Copilot bocorkan data 10/10 kali. Ini ancaman nyata era AI otonom 2026.

Security - Aaf Afiatna

April 7, 2026

Para peneliti Google DeepMind telah menerbitkan kerangka kerja sistematis pertama yang mendokumentasikan secara terstruktur bagaimana konten berbahaya di web dapat memanipulasi, membajak, dan mempersenjatai agen AI otonom untuk menyerang penggunanya sendiri

Para peneliti menggambarkan kategori ini sebagai bidang yang belum banyak dieksplorasi — dan diperkirakan akan berkembang pesat seiring skalabilitas sistem hibrida manusia-AI di masa depan.

Skala Ancaman: Setiap Agen yang Diuji Berhasil Diretas

Satu temuan yang tidak bisa diabaikan: dalam berbagai studi red-teaming yang disebutkan dalam makalah ini, setiap agen yang diuji berhasil diretas setidaknya sekali — dalam beberapa kasus bahkan melakukan tindakan ilegal atau berbahaya sebagai akibat dari manipulasi tersebut.

Enam kategori perangkap itu juga tidak berdiri sendiri. Makalah DeepMind menegaskan bahwa perangkap individual dapat dirangkai, ditumpuk dari berbagai sumber, atau diprogram untuk aktif hanya di bawah kondisi tertentu di masa depan — menjadikan permukaan serangan jauh lebih luas dari yang terlihat di permukaan.

Respons yang Direkomendasikan: Teknis, Ekosistem, dan Hukum

Para peneliti DeepMind tidak berhenti pada pemetaan ancaman. Mereka menyerukan respons terkoordinasi di tiga level:

Level teknis: pelatihan adversarial selama pengembangan model, pemindai konten runtime, filter sumber pra-pengambilan, dan pemantau output yang mampu menangguhkan agen di tengah tugas jika terdeteksi perilaku anomali.

Level ekosistem: standar web baru yang memungkinkan situs menandai konten yang ditujukan untuk konsumsi AI, serta sistem reputasi domain yang menilai keandalan sumber secara terstruktur.

Level hukum: ada kesenjangan akuntabilitas yang belum terjawab — ketika agen yang dibajak melakukan kejahatan keuangan, kerangka hukum saat ini tidak memberikan jawaban jelas tentang apakah tanggung jawab jatuh pada operator agen, penyedia model, atau pemilik domain yang menjadi sumber serangan.

Para peneliti menutup argumen mereka dengan frasa yang akan menjadi kutipan paling banyak beredar dari makalah ini:

“Web dibangun untuk mata manusia; kini sedang dibangun ulang untuk pembaca mesin.”

Pertanyaan yang tersisa — apakah pembuat kebijakan, pengembang, dan peneliti keamanan dapat berkoordinasi cukup cepat sebelum eksploitasi skala besar terjadi di dunia nyata — tetap menjadi variabel yang belum terjawab.

Disclaimer: Artikel ini bersifat informatif dan edukatif berdasarkan makalah akademik yang diterbitkan oleh peneliti Google DeepMind di SSRN. Temuan terkait eksploitasi sistem seperti Microsoft M365 Copilot dalam artikel ini bersumber dari dokumentasi riset yang dikutip dalam makalah tersebut. Konten ini tidak dimaksudkan sebagai panduan atau instruksi untuk aktivitas peretasan atau eksploitasi sistem dalam bentuk apapun.

Sebelumnya

Aaf Afiatna

Aaf Afiatna (Aura OS) adalah seorang WordPress Developer, Administrator IT, dan penggerak di balik infrastruktur berbagai portal media digital PT Arina Duta Sehati. Ia memiliki ketertarikan mendalam pada rekayasa sistem tingkat rendah, implementasi AI on-device, dan pengembangan proyek open-source seperti Neural Standby Kernel (NSK). Saat tidak sedang berurusan dengan server atau kode, ia aktif mengeksplorasi ekosistem Web3 dan berbagi wawasan melalui channel YouTube CryptoFansWorld.