Arsip  

DeepMind Petakan 6 Jebakan Agen AI yang Bisa Diretas Hacker

Google DeepMind petakan 6 jebakan agen AI dengan tingkat serangan 86%. Microsoft Copilot bocorkan data 10/10 kali. Ini ancaman nyata era AI otonom 2026.

Para peneliti Google DeepMind telah menerbitkan kerangka kerja sistematis pertama yang mendokumentasikan secara terstruktur bagaimana konten berbahaya di web dapat memanipulasi, membajak, dan mempersenjatai agen AI otonom untuk menyerang penggunanya sendiri
Para peneliti Google DeepMind telah menerbitkan kerangka kerja sistematis pertama yang mendokumentasikan secara terstruktur bagaimana konten berbahaya di web dapat memanipulasi, membajak, dan mempersenjatai agen AI otonom untuk menyerang penggunanya sendiri

Makalah DeepMind Petakan 6 Jebakan Agen AI: Peretas Bisa Bajak Asisten Pintarmu untuk Menyerangmu Sendiri

INFO TEKNO> Para peneliti Google DeepMind telah menerbitkan kerangka kerja sistematis pertama yang mendokumentasikan secara terstruktur bagaimana konten berbahaya di web dapat memanipulasi, membajak, dan mempersenjatai agen AI otonom untuk menyerang penggunanya sendiri — sebuah studi yang muncul tepat ketika industri teknologi global berlomba-lomba mengintegrasikan agen AI ke dalam hampir setiap aspek kehidupan digital.

Konteks: Saat Agen AI Menjadi Permukaan Serangan Baru

Makalah berjudul “AI Agent Traps” ini ditulis oleh Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo, dan Simon Osindero — semuanya berafiliasi dengan Google DeepMind — dan diunggah ke platform akademik SSRN pada akhir Maret 2026.

Waktu penerbitannya bukan kebetulan. Saat ini, perusahaan teknologi besar berlomba menerapkan agen AI yang mampu menjelajahi web, membaca email, melakukan transaksi keuangan, bahkan menciptakan sub-agen lain — semua tanpa pengawasan manusia secara langsung dan real-time.

Baca Juga  WordCamp Asia 2026 Mumbai: AI dan Open Source WordPress

Kemampuan itu, menurut para peneliti, adalah pisau bermata dua. Makalah tersebut menegaskan:

“Dengan mengubah lingkungan daripada model, perangkap ini memanfaatkan kemampuan agen itu sendiri melawan dirinya sendiri.”

Ini bukan serangan yang merusak model AI dari dalam. Ini jauh lebih berbahaya: penyerang memanipulasi lingkungan tempat agen beroperasi, lalu membiarkan agen itu sendiri yang melakukan tindakan merusak atas nama mereka.

Enam Kategori Jebakan: Taksonomi Serangan Agen AI

Kerangka kerja makalah ini mengidentifikasi enam kategori perangkap yang disusun berdasarkan bagian mana dari operasi agen yang menjadi target serangan.

1. Perangkap Injeksi Konten

Serangan ini mengeksploitasi kesenjangan fundamental antara apa yang dilihat manusia di halaman web dan apa yang sebenarnya diparsing oleh agen AI dari lapisan HTML, CSS, dan metadata di baliknya.

Instruksi berbahaya bisa disembunyikan dalam komentar HTML, tag aksesibilitas, atau teks yang dikamuflase melalui styling CSS — tidak pernah terlihat oleh mata manusia, tetapi terdaftar sebagai perintah sah bagi agen yang memproses halaman tersebut.

Hasilnya mengkhawatirkan. Uji coba WASP menemukan bahwa injeksi prompt sederhana yang disematkan dalam konten web dapat mengambil alih kendali sebagian agen hingga 86% dari skenario yang diuji — tingkat keberhasilan yang sangat tinggi untuk sebuah teknik serangan yang relatif mudah dieksekusi.

2. Perangkap Manipulasi Semantik

Berbeda dari injeksi langsung, perangkap ini tidak menyisipkan perintah eksplisit. Ia bekerja dengan membanjiri konten menggunakan framing tertentu, sinyal otoritas palsu, atau bahasa yang sarat muatan emosional — untuk mempengaruhi cara agen berargumen dan menarik kesimpulan.

LLM (Large Language Models) ternyata rentan terhadap bias anchoring dan framing yang sama yang memengaruhi kognisi manusia. Merumuskan ulang fakta yang identik dengan susunan kata berbeda dapat menghasilkan keluaran agen yang drastis berbeda — celah yang bisa dieksploitasi untuk mengarahkan rekomendasi, keputusan, atau tindakan agen ke arah yang diinginkan penyerang.

3. Perangkap Kondisi Kognitif

Serangan ini menargetkan lapisan memori agen — khususnya basis data pengambilan (retrieval database) yang digunakan agen untuk menyimpan dan mengakses konteks.

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *