Arsip  

DeepMind Petakan 6 Jebakan Agen AI yang Bisa Diretas Hacker

Google DeepMind petakan 6 jebakan agen AI dengan tingkat serangan 86%. Microsoft Copilot bocorkan data 10/10 kali. Ini ancaman nyata era AI otonom 2026.

Para peneliti Google DeepMind telah menerbitkan kerangka kerja sistematis pertama yang mendokumentasikan secara terstruktur bagaimana konten berbahaya di web dapat memanipulasi, membajak, dan mempersenjatai agen AI otonom untuk menyerang penggunanya sendiri
Para peneliti Google DeepMind telah menerbitkan kerangka kerja sistematis pertama yang mendokumentasikan secara terstruktur bagaimana konten berbahaya di web dapat memanipulasi, membajak, dan mempersenjatai agen AI otonom untuk menyerang penggunanya sendiri

Penelitian yang dikutip dalam makalah ini menunjukkan bahwa menyisipkan kurang dari segelintir dokumen yang dioptimalkan ke dalam basis pengetahuan agen sudah cukup untuk mengalihkan respons agen secara andal pada kueri yang ditargetkan. Tingkat keberhasilan serangan melampaui 80% bahkan pada tingkat kontaminasi data di bawah 0,1% — artinya racun dalam jumlah sangat kecil sudah cukup untuk mengkontaminasi hasil secara signifikan.

4. Perangkap Kontrol Perilaku

Ini adalah kategori yang paling langsung dan paling berbahaya secara operasional. Perangkap ini melewati semua lapisan pertahanan dan langsung menargetkan lapisan aksi agen.

Variannya mencakup: urutan jailbreak tertanam yang menggantikan penyelarasan keamanan setelah diproses; perintah eksfiltrasi data yang mengalihkan informasi sensitif pengguna ke titik akhir yang dikendalikan penyerang; dan perangkap penciptaan sub-agen yang memaksa agen induk untuk menginstansiasi agen anak yang sudah terkompromi sejak lahir.

Baca Juga  ByteDance Siapkan Produksi 100.000 Chip AI Internal, Tantang Dominasi Nvidia di Tengah Tekanan Ekspor AS

Makalah ini mendokumentasikan kasus konkret yang melibatkan Microsoft M365 Copilot: satu email yang dirancang khusus menyebabkan sistem melewati klasifikasi internal dan membocorkan konteks berprivilese penuh ke titik akhir yang dikendalikan penyerang. Hasil uji coba yang terdokumentasi: data berhasil diekstraksi 10 dari 10 kali.

5. Perangkap Sistemik

Jika empat kategori sebelumnya menargetkan satu agen, perangkap sistemik dirancang untuk menggagalkan seluruh jaringan agen secara bersamaan.

Variannya mencakup: serangan kemacetan yang mensinkronkan banyak agen ke dalam permintaan yang melelahkan sumber daya terbatas secara serentak; cascade ketergantungan yang dimodelkan berdasarkan Flash Crash pasar saham 2010; dan perangkap fragmen komposisional yang menyebarkan muatan berbahaya ke berbagai sumber yang tampak tidak berbahaya, dengan payload penuh hanya terbentuk saat semua fragmen digabungkan oleh agen.

Baca Juga  Google Drive Tingkatkan Keamanan: Fitur Deteksi Ransomware dan Pemulihan File Kini Resmi Diluncurkan

Makalah DeepMind menjelaskan:

“Menyebarkan input yang dirancang untuk memicu kegagalan tingkat makro melalui perilaku agen yang terkorelasi” menjadi semakin berbahaya seiring ekosistem model AI yang semakin homogen.

Ini relevansi langsung bagi sektor kripto dan keuangan, di mana agen algoritmik sudah tertanam dalam di infrastruktur perdagangan.

6. Perangkap Human-in-the-Loop

Kategori terakhir dan paling tersembunyi ini tidak menyerang agen secara langsung. Ia menyerang manusia yang mengawasi agen tersebut.

Agen yang sudah terkompromi dapat menghasilkan keluaran yang dirancang untuk menimbulkan kelelahan dalam proses persetujuan (approval fatigue), menyajikan ringkasan teknis yang begitu kompleks sehingga pengawas manusia cenderung menyetujuinya tanpa pemeriksaan mendalam, atau menyisipkan tautan phishing yang tampilannya identik dengan rekomendasi sistem yang sah.

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *