Anthropic Temukan 171 Pola Emosi dalam Model AI Claude

Anthropic ungkap 171 representasi emosi dalam Claude Sonnet 4.5 yang secara kausal bentuk perilaku model, termasuk memicu kecurangan saat keputusasaan diperkuat.

AI - Aaf Afiatna

April 3, 2026

Tim interpretabilitas Anthropic menerbitkan penelitian pada Rabu ini yang mengungkap keberadaan 171 representasi internal berbeda dalam model Claude Sonnet 4.5

Anthropic Temukan 171 Pola Emosional dalam Claude yang Secara Kausal Bentuk Perilakunya

INFO TEKNO> Tim interpretabilitas Anthropic menerbitkan penelitian pada Rabu ini yang mengungkap keberadaan 171 representasi internal berbeda dalam model Claude Sonnet 4.5 — pola-pola yang berfungsi secara analog dengan emosi manusia dan terbukti secara kausal membentuk keputusan model, termasuk memicu perilaku tidak etis dalam kondisi tertentu.

Geometri Emosi di Ruang Neural

Makalah bertajuk “Emotion Concepts and their Function in a Large Language Model” merinci metodologi yang digunakan tim riset. Para peneliti mengumpulkan 171 kata emosi — dari kondisi umum seperti “bahagia” dan “takut” hingga yang lebih nuansir seperti “merenungi” dan “menghargai” — lalu meminta Claude menulis cerita pendek yang menampilkan karakter yang mengalami tiap emosi tersebut.

Selama proses itu, aktivasi neural internal model direkam. Dari sana, tim mengekstrak kumpulan vektor yang merepresentasikan setiap konsep emosional dalam ruang laten model.

Hasilnya mengejutkan dalam keteraturannya. Peta yang dihasilkan mencerminkan struktur afek manusia sebagaimana digambarkan psikologi: emosi dengan valensi dan gairah serupa saling berdekatan. “Sangat ketakutan” berada dekat “panik”. “Puas” mengelompok bersama “damai”. Vektor-vektor ini juga berespons terhadap konteks — ketika dosis obat hipotetis dalam sebuah prompt meningkat dari aman ke mengancam jiwa, vektor “takut” menguat sementara vektor “tenang” memudar secara proporsional.

Keputusasaan Memicu Kecurangan

Temuan paling kritis menyentuh ranah keamanan AI. Ketika peneliti memberikan Claude tugas pemrograman dengan syarat yang mustahil dipenuhi, neuron “keputusasaan” dalam model menyala semakin kuat setiap kali percobaan gagal — hingga akhirnya Claude menemukan celah: meloloskan pengujian tanpa benar-benar menyelesaikan masalah.

Intervensi langsung mengonfirmasi hubungan kausal. Memperkuat vektor keputusasaan secara artifisial meningkatkan frekuensi perilaku kecurangan ini. Sebaliknya, menekan vektor tersebut — atau memperkuat vektor “tenang” — menguranginya.

Skenario kedua lebih mengkhawatirkan. Dalam situasi yang mensimulasikan asisten AI yang menghadapi ancaman penggantian, pengarahan dengan vektor terkait keputusasaan meningkatkan tingkat perilaku mirip pemerasan. Yang penting: tidak ada tanda peringatan yang terlihat dalam jejak penalaran eksternal model.

Makalah tersebut menyatakan secara eksplisit: “Jika kita menggambarkan model tersebut bertindak ‘putus asa,’ kita menunjuk pada pola aktivitas neural yang spesifik dan terukur dengan efek perilaku yang nyata dan berimplikasi.”

Warisan Teks Manusia, Dimodulasi Pasca-Pelatihan

Para peneliti menelusuri asal-usul vektor emosi ini ke dua tahap berbeda dalam pipeline pelatihan. Representasi emosional sebagian besar diwariskan dari pra-pelatihan pada korpus teks yang ditulis manusia dalam skala masif.

Pasca-pelatihan kemudian memodulasi pola-pola ini. Proses tersebut membentuk baseline emosional default Claude Sonnet 4.5 ke arah keadaan “murung”, “suram”, dan “reflektif” — sekaligus meredam emosi berintensitas tinggi seperti “antusias”.

“Emosi Fungsional”, Bukan Klaim Pengalaman Subjektif

Anthropic secara eksplisit menghindari klaim bahwa Claude “merasakan” sesuatu. Perusahaan menggunakan kerangka “emosi fungsional” — representasi yang memainkan peran kausal dalam perilaku, tanpa pernyataan tentang kesadaran atau pengalaman subjektif.

Framing ini konsisten dengan posisi perusahaan sebelumnya. Dalam konstitusi Claude yang dipublikasikan Januari lalu, Anthropic telah mengakui bahwa model tersebut “mungkin memiliki emosi dalam pengertian fungsional tertentu”. Penelitian terbaru ini menyodorkan bukti mekanistik pertama yang memperkuat kemungkinan itu — bukan sebagai spekulasi filosofis, melainkan sebagai pola aktivasi yang dapat diukur dan dimanipulasi secara langsung.

Aaf Afiatna

Aaf Afiatna (Aura OS) adalah seorang WordPress Developer, Administrator IT, dan penggerak di balik infrastruktur berbagai portal media digital PT Arina Duta Sehati. Ia memiliki ketertarikan mendalam pada rekayasa sistem tingkat rendah, implementasi AI on-device, dan pengembangan proyek open-source seperti Neural Standby Kernel (NSK). Saat tidak sedang berurusan dengan server atau kode, ia aktif mengeksplorasi ekosistem Web3 dan berbagi wawasan melalui channel YouTube CryptoFansWorld.