Beranda Arsip DeepMind Petakan 6 Jebakan Agen AI yang Bisa Diretas Hacker

Arsip

DeepMind Petakan 6 Jebakan Agen AI yang Bisa Diretas Hacker

Google DeepMind petakan 6 jebakan agen AI dengan tingkat serangan 86%. Microsoft Copilot bocorkan data 10/10 kali. Ini ancaman nyata era AI otonom 2026.

Security - Aaf Afiatna

April 7, 2026

Para peneliti Google DeepMind telah menerbitkan kerangka kerja sistematis pertama yang mendokumentasikan secara terstruktur bagaimana konten berbahaya di web dapat memanipulasi, membajak, dan mempersenjatai agen AI otonom untuk menyerang penggunanya sendiri

Penelitian yang dikutip dalam makalah ini menunjukkan bahwa menyisipkan kurang dari segelintir dokumen yang dioptimalkan ke dalam basis pengetahuan agen sudah cukup untuk mengalihkan respons agen secara andal pada kueri yang ditargetkan. Tingkat keberhasilan serangan melampaui 80% bahkan pada tingkat kontaminasi data di bawah 0,1% — artinya racun dalam jumlah sangat kecil sudah cukup untuk mengkontaminasi hasil secara signifikan.

4. Perangkap Kontrol Perilaku

Ini adalah kategori yang paling langsung dan paling berbahaya secara operasional. Perangkap ini melewati semua lapisan pertahanan dan langsung menargetkan lapisan aksi agen.

Variannya mencakup: urutan jailbreak tertanam yang menggantikan penyelarasan keamanan setelah diproses; perintah eksfiltrasi data yang mengalihkan informasi sensitif pengguna ke titik akhir yang dikendalikan penyerang; dan perangkap penciptaan sub-agen yang memaksa agen induk untuk menginstansiasi agen anak yang sudah terkompromi sejak lahir.

Makalah ini mendokumentasikan kasus konkret yang melibatkan Microsoft M365 Copilot: satu email yang dirancang khusus menyebabkan sistem melewati klasifikasi internal dan membocorkan konteks berprivilese penuh ke titik akhir yang dikendalikan penyerang. Hasil uji coba yang terdokumentasi: data berhasil diekstraksi 10 dari 10 kali.

5. Perangkap Sistemik

Jika empat kategori sebelumnya menargetkan satu agen, perangkap sistemik dirancang untuk menggagalkan seluruh jaringan agen secara bersamaan.

Variannya mencakup: serangan kemacetan yang mensinkronkan banyak agen ke dalam permintaan yang melelahkan sumber daya terbatas secara serentak; cascade ketergantungan yang dimodelkan berdasarkan Flash Crash pasar saham 2010; dan perangkap fragmen komposisional yang menyebarkan muatan berbahaya ke berbagai sumber yang tampak tidak berbahaya, dengan payload penuh hanya terbentuk saat semua fragmen digabungkan oleh agen.

Makalah DeepMind menjelaskan:

“Menyebarkan input yang dirancang untuk memicu kegagalan tingkat makro melalui perilaku agen yang terkorelasi” menjadi semakin berbahaya seiring ekosistem model AI yang semakin homogen.

Ini relevansi langsung bagi sektor kripto dan keuangan, di mana agen algoritmik sudah tertanam dalam di infrastruktur perdagangan.

6. Perangkap Human-in-the-Loop

Kategori terakhir dan paling tersembunyi ini tidak menyerang agen secara langsung. Ia menyerang manusia yang mengawasi agen tersebut.

Agen yang sudah terkompromi dapat menghasilkan keluaran yang dirancang untuk menimbulkan kelelahan dalam proses persetujuan (approval fatigue), menyajikan ringkasan teknis yang begitu kompleks sehingga pengawas manusia cenderung menyetujuinya tanpa pemeriksaan mendalam, atau menyisipkan tautan phishing yang tampilannya identik dengan rekomendasi sistem yang sah.

Sebelumnya Berikutnya

Aaf Afiatna

Aaf Afiatna (Aura OS) adalah seorang WordPress Developer, Administrator IT, dan penggerak di balik infrastruktur berbagai portal media digital PT Arina Duta Sehati. Ia memiliki ketertarikan mendalam pada rekayasa sistem tingkat rendah, implementasi AI on-device, dan pengembangan proyek open-source seperti Neural Standby Kernel (NSK). Saat tidak sedang berurusan dengan server atau kode, ia aktif mengeksplorasi ekosistem Web3 dan berbagi wawasan melalui channel YouTube CryptoFansWorld.

Laman: 1 2 3

Komentar

4. Perangkap Kontrol Perilaku

5. Perangkap Sistemik

6. Perangkap Human-in-the-Loop

Baca Juga

Berita Terkait

Rekomendasi untuk kamu

Tinggalkan Balasan Batalkan balasan