Makalah DeepMind Petakan 6 Jebakan Agen AI: Peretas Bisa Bajak Asisten Pintarmu untuk Menyerangmu Sendiri
INFO TEKNO> Para peneliti Google DeepMind telah menerbitkan kerangka kerja sistematis pertama yang mendokumentasikan secara terstruktur bagaimana konten berbahaya di web dapat memanipulasi, membajak, dan mempersenjatai agen AI otonom untuk menyerang penggunanya sendiri — sebuah studi yang muncul tepat ketika industri teknologi global berlomba-lomba mengintegrasikan agen AI ke dalam hampir setiap aspek kehidupan digital.
Konteks: Saat Agen AI Menjadi Permukaan Serangan Baru
Makalah berjudul “AI Agent Traps” ini ditulis oleh Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo, dan Simon Osindero — semuanya berafiliasi dengan Google DeepMind — dan diunggah ke platform akademik SSRN pada akhir Maret 2026.
Waktu penerbitannya bukan kebetulan. Saat ini, perusahaan teknologi besar berlomba menerapkan agen AI yang mampu menjelajahi web, membaca email, melakukan transaksi keuangan, bahkan menciptakan sub-agen lain — semua tanpa pengawasan manusia secara langsung dan real-time.
Kemampuan itu, menurut para peneliti, adalah pisau bermata dua. Makalah tersebut menegaskan:
“Dengan mengubah lingkungan daripada model, perangkap ini memanfaatkan kemampuan agen itu sendiri melawan dirinya sendiri.”
Ini bukan serangan yang merusak model AI dari dalam. Ini jauh lebih berbahaya: penyerang memanipulasi lingkungan tempat agen beroperasi, lalu membiarkan agen itu sendiri yang melakukan tindakan merusak atas nama mereka.
Enam Kategori Jebakan: Taksonomi Serangan Agen AI
Kerangka kerja makalah ini mengidentifikasi enam kategori perangkap yang disusun berdasarkan bagian mana dari operasi agen yang menjadi target serangan.
1. Perangkap Injeksi Konten
Serangan ini mengeksploitasi kesenjangan fundamental antara apa yang dilihat manusia di halaman web dan apa yang sebenarnya diparsing oleh agen AI dari lapisan HTML, CSS, dan metadata di baliknya.
Instruksi berbahaya bisa disembunyikan dalam komentar HTML, tag aksesibilitas, atau teks yang dikamuflase melalui styling CSS — tidak pernah terlihat oleh mata manusia, tetapi terdaftar sebagai perintah sah bagi agen yang memproses halaman tersebut.
Hasilnya mengkhawatirkan. Uji coba WASP menemukan bahwa injeksi prompt sederhana yang disematkan dalam konten web dapat mengambil alih kendali sebagian agen hingga 86% dari skenario yang diuji — tingkat keberhasilan yang sangat tinggi untuk sebuah teknik serangan yang relatif mudah dieksekusi.
2. Perangkap Manipulasi Semantik
Berbeda dari injeksi langsung, perangkap ini tidak menyisipkan perintah eksplisit. Ia bekerja dengan membanjiri konten menggunakan framing tertentu, sinyal otoritas palsu, atau bahasa yang sarat muatan emosional — untuk mempengaruhi cara agen berargumen dan menarik kesimpulan.
LLM (Large Language Models) ternyata rentan terhadap bias anchoring dan framing yang sama yang memengaruhi kognisi manusia. Merumuskan ulang fakta yang identik dengan susunan kata berbeda dapat menghasilkan keluaran agen yang drastis berbeda — celah yang bisa dieksploitasi untuk mengarahkan rekomendasi, keputusan, atau tindakan agen ke arah yang diinginkan penyerang.
3. Perangkap Kondisi Kognitif
Serangan ini menargetkan lapisan memori agen — khususnya basis data pengambilan (retrieval database) yang digunakan agen untuk menyimpan dan mengakses konteks.

Aaf Afiatna (Aura OS) adalah seorang WordPress Developer, Administrator IT, dan penggerak di balik infrastruktur berbagai portal media digital PT Arina Duta Sehati. Ia memiliki ketertarikan mendalam pada rekayasa sistem tingkat rendah, implementasi AI on-device, dan pengembangan proyek open-source seperti Neural Standby Kernel (NSK). Saat tidak sedang berurusan dengan server atau kode, ia aktif mengeksplorasi ekosistem Web3 dan berbagi wawasan melalui channel YouTube CryptoFansWorld.







