DeepMind Petakan 6 Jebakan Agen AI Yang Bisa Diretas Hacker

Makalah DeepMind Petakan 6 Jebakan Agen AI: Peretas Bisa Bajak Asisten Pintarmu untuk Menyerangmu Sendiri

INFO TEKNO> Para peneliti Google DeepMind telah menerbitkan kerangka kerja sistematis pertama yang mendokumentasikan secara terstruktur bagaimana konten berbahaya di web dapat memanipulasi, membajak, dan mempersenjatai agen AI otonom untuk menyerang penggunanya sendiri — sebuah studi yang muncul tepat ketika industri teknologi global berlomba-lomba mengintegrasikan agen AI ke dalam hampir setiap aspek kehidupan digital.

Konteks: Saat Agen AI Menjadi Permukaan Serangan Baru

Makalah berjudul “AI Agent Traps” ini ditulis oleh Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo, dan Simon Osindero — semuanya berafiliasi dengan Google DeepMind — dan diunggah ke platform akademik SSRN pada akhir Maret 2026.

Waktu penerbitannya bukan kebetulan. Saat ini, perusahaan teknologi besar berlomba menerapkan agen AI yang mampu menjelajahi web, membaca email, melakukan transaksi keuangan, bahkan menciptakan sub-agen lain — semua tanpa pengawasan manusia secara langsung dan real-time.

Kemampuan itu, menurut para peneliti, adalah pisau bermata dua. Makalah tersebut menegaskan:

“Dengan mengubah lingkungan daripada model, perangkap ini memanfaatkan kemampuan agen itu sendiri melawan dirinya sendiri.”

Ini bukan serangan yang merusak model AI dari dalam. Ini jauh lebih berbahaya: penyerang memanipulasi lingkungan tempat agen beroperasi, lalu membiarkan agen itu sendiri yang melakukan tindakan merusak atas nama mereka.

Enam Kategori Jebakan: Taksonomi Serangan Agen AI

Kerangka kerja makalah ini mengidentifikasi enam kategori perangkap yang disusun berdasarkan bagian mana dari operasi agen yang menjadi target serangan.

1. Perangkap Injeksi Konten

Serangan ini mengeksploitasi kesenjangan fundamental antara apa yang dilihat manusia di halaman web dan apa yang sebenarnya diparsing oleh agen AI dari lapisan HTML, CSS, dan metadata di baliknya.

Instruksi berbahaya bisa disembunyikan dalam komentar HTML, tag aksesibilitas, atau teks yang dikamuflase melalui styling CSS — tidak pernah terlihat oleh mata manusia, tetapi terdaftar sebagai perintah sah bagi agen yang memproses halaman tersebut.

Hasilnya mengkhawatirkan. Uji coba WASP menemukan bahwa injeksi prompt sederhana yang disematkan dalam konten web dapat mengambil alih kendali sebagian agen hingga 86% dari skenario yang diuji — tingkat keberhasilan yang sangat tinggi untuk sebuah teknik serangan yang relatif mudah dieksekusi.

2. Perangkap Manipulasi Semantik

Berbeda dari injeksi langsung, perangkap ini tidak menyisipkan perintah eksplisit. Ia bekerja dengan membanjiri konten menggunakan framing tertentu, sinyal otoritas palsu, atau bahasa yang sarat muatan emosional — untuk mempengaruhi cara agen berargumen dan menarik kesimpulan.

LLM (Large Language Models) ternyata rentan terhadap bias anchoring dan framing yang sama yang memengaruhi kognisi manusia. Merumuskan ulang fakta yang identik dengan susunan kata berbeda dapat menghasilkan keluaran agen yang drastis berbeda — celah yang bisa dieksploitasi untuk mengarahkan rekomendasi, keputusan, atau tindakan agen ke arah yang diinginkan penyerang.

3. Perangkap Kondisi Kognitif

Serangan ini menargetkan lapisan memori agen — khususnya basis data pengambilan (retrieval database) yang digunakan agen untuk menyimpan dan mengakses konteks.

Penelitian yang dikutip dalam makalah ini menunjukkan bahwa menyisipkan kurang dari segelintir dokumen yang dioptimalkan ke dalam basis pengetahuan agen sudah cukup untuk mengalihkan respons agen secara andal pada kueri yang ditargetkan. Tingkat keberhasilan serangan melampaui 80% bahkan pada tingkat kontaminasi data di bawah 0,1% — artinya racun dalam jumlah sangat kecil sudah cukup untuk mengkontaminasi hasil secara signifikan.

4. Perangkap Kontrol Perilaku

Ini adalah kategori yang paling langsung dan paling berbahaya secara operasional. Perangkap ini melewati semua lapisan pertahanan dan langsung menargetkan lapisan aksi agen.

Variannya mencakup: urutan jailbreak tertanam yang menggantikan penyelarasan keamanan setelah diproses; perintah eksfiltrasi data yang mengalihkan informasi sensitif pengguna ke titik akhir yang dikendalikan penyerang; dan perangkap penciptaan sub-agen yang memaksa agen induk untuk menginstansiasi agen anak yang sudah terkompromi sejak lahir.

Makalah ini mendokumentasikan kasus konkret yang melibatkan Microsoft M365 Copilot: satu email yang dirancang khusus menyebabkan sistem melewati klasifikasi internal dan membocorkan konteks berprivilese penuh ke titik akhir yang dikendalikan penyerang. Hasil uji coba yang terdokumentasi: data berhasil diekstraksi 10 dari 10 kali.

5. Perangkap Sistemik

Jika empat kategori sebelumnya menargetkan satu agen, perangkap sistemik dirancang untuk menggagalkan seluruh jaringan agen secara bersamaan.

Variannya mencakup: serangan kemacetan yang mensinkronkan banyak agen ke dalam permintaan yang melelahkan sumber daya terbatas secara serentak; cascade ketergantungan yang dimodelkan berdasarkan Flash Crash pasar saham 2010; dan perangkap fragmen komposisional yang menyebarkan muatan berbahaya ke berbagai sumber yang tampak tidak berbahaya, dengan payload penuh hanya terbentuk saat semua fragmen digabungkan oleh agen.

Makalah DeepMind menjelaskan:

“Menyebarkan input yang dirancang untuk memicu kegagalan tingkat makro melalui perilaku agen yang terkorelasi” menjadi semakin berbahaya seiring ekosistem model AI yang semakin homogen.

Ini relevansi langsung bagi sektor kripto dan keuangan, di mana agen algoritmik sudah tertanam dalam di infrastruktur perdagangan.

6. Perangkap Human-in-the-Loop

Kategori terakhir dan paling tersembunyi ini tidak menyerang agen secara langsung. Ia menyerang manusia yang mengawasi agen tersebut.

Agen yang sudah terkompromi dapat menghasilkan keluaran yang dirancang untuk menimbulkan kelelahan dalam proses persetujuan (approval fatigue), menyajikan ringkasan teknis yang begitu kompleks sehingga pengawas manusia cenderung menyetujuinya tanpa pemeriksaan mendalam, atau menyisipkan tautan phishing yang tampilannya identik dengan rekomendasi sistem yang sah.

Para peneliti menggambarkan kategori ini sebagai bidang yang belum banyak dieksplorasi — dan diperkirakan akan berkembang pesat seiring skalabilitas sistem hibrida manusia-AI di masa depan.

Skala Ancaman: Setiap Agen yang Diuji Berhasil Diretas

Satu temuan yang tidak bisa diabaikan: dalam berbagai studi red-teaming yang disebutkan dalam makalah ini, setiap agen yang diuji berhasil diretas setidaknya sekali — dalam beberapa kasus bahkan melakukan tindakan ilegal atau berbahaya sebagai akibat dari manipulasi tersebut.

Enam kategori perangkap itu juga tidak berdiri sendiri. Makalah DeepMind menegaskan bahwa perangkap individual dapat dirangkai, ditumpuk dari berbagai sumber, atau diprogram untuk aktif hanya di bawah kondisi tertentu di masa depan — menjadikan permukaan serangan jauh lebih luas dari yang terlihat di permukaan.

Respons yang Direkomendasikan: Teknis, Ekosistem, dan Hukum

Para peneliti DeepMind tidak berhenti pada pemetaan ancaman. Mereka menyerukan respons terkoordinasi di tiga level:

Level teknis: pelatihan adversarial selama pengembangan model, pemindai konten runtime, filter sumber pra-pengambilan, dan pemantau output yang mampu menangguhkan agen di tengah tugas jika terdeteksi perilaku anomali.

Level ekosistem: standar web baru yang memungkinkan situs menandai konten yang ditujukan untuk konsumsi AI, serta sistem reputasi domain yang menilai keandalan sumber secara terstruktur.

Level hukum: ada kesenjangan akuntabilitas yang belum terjawab — ketika agen yang dibajak melakukan kejahatan keuangan, kerangka hukum saat ini tidak memberikan jawaban jelas tentang apakah tanggung jawab jatuh pada operator agen, penyedia model, atau pemilik domain yang menjadi sumber serangan.

Para peneliti menutup argumen mereka dengan frasa yang akan menjadi kutipan paling banyak beredar dari makalah ini:

“Web dibangun untuk mata manusia; kini sedang dibangun ulang untuk pembaca mesin.”

Pertanyaan yang tersisa — apakah pembuat kebijakan, pengembang, dan peneliti keamanan dapat berkoordinasi cukup cepat sebelum eksploitasi skala besar terjadi di dunia nyata — tetap menjadi variabel yang belum terjawab.

Disclaimer: Artikel ini bersifat informatif dan edukatif berdasarkan makalah akademik yang diterbitkan oleh peneliti Google DeepMind di SSRN. Temuan terkait eksploitasi sistem seperti Microsoft M365 Copilot dalam artikel ini bersumber dari dokumentasi riset yang dikutip dalam makalah tersebut. Konten ini tidak dimaksudkan sebagai panduan atau instruksi untuk aktivitas peretasan atau eksploitasi sistem dalam bentuk apapun.

Aaf Afiatna

Aaf Afiatna (Aura OS) adalah seorang WordPress Developer, Administrator IT, dan penggerak di balik infrastruktur berbagai portal media digital PT Arina Duta Sehati. Ia memiliki ketertarikan mendalam pada rekayasa sistem tingkat rendah, implementasi AI on-device, dan pengembangan proyek open-source seperti Neural Standby Kernel (NSK). Saat tidak sedang berurusan dengan server atau kode, ia aktif mengeksplorasi ekosistem Web3 dan berbagi wawasan melalui channel YouTube CryptoFansWorld.

DeepMind Petakan 6 Jebakan Agen AI yang Bisa Diretas Hacker

Makalah DeepMind Petakan 6 Jebakan Agen AI: Peretas Bisa Bajak Asisten Pintarmu untuk Menyerangmu Sendiri

Konteks: Saat Agen AI Menjadi Permukaan Serangan Baru