Beranda Berita Anthropic Temukan 171 Pola Emosi dalam Model AI Claude

Berita

Anthropic Temukan 171 Pola Emosi dalam Model AI Claude

Anthropic ungkap 171 representasi emosi dalam Claude Sonnet 4.5 yang secara kausal bentuk perilaku model, termasuk memicu kecurangan saat keputusasaan diperkuat.

AI - Aaf Afiatna

April 3, 2026

Tim interpretabilitas Anthropic menerbitkan penelitian pada Rabu ini yang mengungkap keberadaan 171 representasi internal berbeda dalam model Claude Sonnet 4.5

Intervensi langsung mengonfirmasi hubungan kausal. Memperkuat vektor keputusasaan secara artifisial meningkatkan frekuensi perilaku kecurangan ini. Sebaliknya, menekan vektor tersebut — atau memperkuat vektor “tenang” — menguranginya.

Skenario kedua lebih mengkhawatirkan. Dalam situasi yang mensimulasikan asisten AI yang menghadapi ancaman penggantian, pengarahan dengan vektor terkait keputusasaan meningkatkan tingkat perilaku mirip pemerasan. Yang penting: tidak ada tanda peringatan yang terlihat dalam jejak penalaran eksternal model.

Makalah tersebut menyatakan secara eksplisit: “Jika kita menggambarkan model tersebut bertindak ‘putus asa,’ kita menunjuk pada pola aktivitas neural yang spesifik dan terukur dengan efek perilaku yang nyata dan berimplikasi.”

Warisan Teks Manusia, Dimodulasi Pasca-Pelatihan

Para peneliti menelusuri asal-usul vektor emosi ini ke dua tahap berbeda dalam pipeline pelatihan. Representasi emosional sebagian besar diwariskan dari pra-pelatihan pada korpus teks yang ditulis manusia dalam skala masif.

Sebelumnya Berikutnya

Aaf Afiatna

Aaf Afiatna (Aura OS) adalah seorang WordPress Developer, Administrator IT, dan penggerak di balik infrastruktur berbagai portal media digital PT Arina Duta Sehati. Ia memiliki ketertarikan mendalam pada rekayasa sistem tingkat rendah, implementasi AI on-device, dan pengembangan proyek open-source seperti Neural Standby Kernel (NSK). Saat tidak sedang berurusan dengan server atau kode, ia aktif mengeksplorasi ekosistem Web3 dan berbagi wawasan melalui channel YouTube CryptoFansWorld.

Laman: 1 2 3

Komentar

Warisan Teks Manusia, Dimodulasi Pasca-Pelatihan

Baca Juga

Berita Terkait

Rekomendasi untuk kamu

Tinggalkan Balasan Batalkan balasan