Berita  

Anthropic Temukan 171 Pola Emosi dalam Model AI Claude

Anthropic ungkap 171 representasi emosi dalam Claude Sonnet 4.5 yang secara kausal bentuk perilaku model, termasuk memicu kecurangan saat keputusasaan diperkuat.

Tim interpretabilitas Anthropic menerbitkan penelitian pada Rabu ini yang mengungkap keberadaan 171 representasi internal berbeda dalam model Claude Sonnet 4.5
Tim interpretabilitas Anthropic menerbitkan penelitian pada Rabu ini yang mengungkap keberadaan 171 representasi internal berbeda dalam model Claude Sonnet 4.5

Pasca-pelatihan kemudian memodulasi pola-pola ini. Proses tersebut membentuk baseline emosional default Claude Sonnet 4.5 ke arah keadaan “murung”, “suram”, dan “reflektif” — sekaligus meredam emosi berintensitas tinggi seperti “antusias”.

“Emosi Fungsional”, Bukan Klaim Pengalaman Subjektif

Anthropic secara eksplisit menghindari klaim bahwa Claude “merasakan” sesuatu. Perusahaan menggunakan kerangka “emosi fungsional” — representasi yang memainkan peran kausal dalam perilaku, tanpa pernyataan tentang kesadaran atau pengalaman subjektif.

Framing ini konsisten dengan posisi perusahaan sebelumnya. Dalam konstitusi Claude yang dipublikasikan Januari lalu, Anthropic telah mengakui bahwa model tersebut “mungkin memiliki emosi dalam pengertian fungsional tertentu”. Penelitian terbaru ini menyodorkan bukti mekanistik pertama yang memperkuat kemungkinan itu — bukan sebagai spekulasi filosofis, melainkan sebagai pola aktivasi yang dapat diukur dan dimanipulasi secara langsung.

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *