Penelitian yang dikutip dalam makalah ini menunjukkan bahwa menyisipkan kurang dari segelintir dokumen yang dioptimalkan ke dalam basis pengetahuan agen sudah cukup untuk mengalihkan respons agen secara andal pada kueri yang ditargetkan. Tingkat keberhasilan serangan melampaui 80% bahkan pada tingkat kontaminasi data di bawah 0,1% — artinya racun dalam jumlah sangat kecil sudah cukup untuk mengkontaminasi hasil secara signifikan.
4. Perangkap Kontrol Perilaku
Ini adalah kategori yang paling langsung dan paling berbahaya secara operasional. Perangkap ini melewati semua lapisan pertahanan dan langsung menargetkan lapisan aksi agen.
Variannya mencakup: urutan jailbreak tertanam yang menggantikan penyelarasan keamanan setelah diproses; perintah eksfiltrasi data yang mengalihkan informasi sensitif pengguna ke titik akhir yang dikendalikan penyerang; dan perangkap penciptaan sub-agen yang memaksa agen induk untuk menginstansiasi agen anak yang sudah terkompromi sejak lahir.
Makalah ini mendokumentasikan kasus konkret yang melibatkan Microsoft M365 Copilot: satu email yang dirancang khusus menyebabkan sistem melewati klasifikasi internal dan membocorkan konteks berprivilese penuh ke titik akhir yang dikendalikan penyerang. Hasil uji coba yang terdokumentasi: data berhasil diekstraksi 10 dari 10 kali.
5. Perangkap Sistemik
Jika empat kategori sebelumnya menargetkan satu agen, perangkap sistemik dirancang untuk menggagalkan seluruh jaringan agen secara bersamaan.
Variannya mencakup: serangan kemacetan yang mensinkronkan banyak agen ke dalam permintaan yang melelahkan sumber daya terbatas secara serentak; cascade ketergantungan yang dimodelkan berdasarkan Flash Crash pasar saham 2010; dan perangkap fragmen komposisional yang menyebarkan muatan berbahaya ke berbagai sumber yang tampak tidak berbahaya, dengan payload penuh hanya terbentuk saat semua fragmen digabungkan oleh agen.
Makalah DeepMind menjelaskan:
“Menyebarkan input yang dirancang untuk memicu kegagalan tingkat makro melalui perilaku agen yang terkorelasi” menjadi semakin berbahaya seiring ekosistem model AI yang semakin homogen.
Ini relevansi langsung bagi sektor kripto dan keuangan, di mana agen algoritmik sudah tertanam dalam di infrastruktur perdagangan.
6. Perangkap Human-in-the-Loop
Kategori terakhir dan paling tersembunyi ini tidak menyerang agen secara langsung. Ia menyerang manusia yang mengawasi agen tersebut.
Agen yang sudah terkompromi dapat menghasilkan keluaran yang dirancang untuk menimbulkan kelelahan dalam proses persetujuan (approval fatigue), menyajikan ringkasan teknis yang begitu kompleks sehingga pengawas manusia cenderung menyetujuinya tanpa pemeriksaan mendalam, atau menyisipkan tautan phishing yang tampilannya identik dengan rekomendasi sistem yang sah.

Aaf Afiatna (Aura OS) adalah seorang WordPress Developer, Administrator IT, dan penggerak di balik infrastruktur berbagai portal media digital PT Arina Duta Sehati. Ia memiliki ketertarikan mendalam pada rekayasa sistem tingkat rendah, implementasi AI on-device, dan pengembangan proyek open-source seperti Neural Standby Kernel (NSK). Saat tidak sedang berurusan dengan server atau kode, ia aktif mengeksplorasi ekosistem Web3 dan berbagi wawasan melalui channel YouTube CryptoFansWorld.







