Furiosa AI Perkenalkan RNGD, Akselerator Inferensi Pusat Data yang Tantang Dominasi GPU

Furiosa AI memperkenalkan akselerator inferensi RNGD berbasis Tensor Contraction Processor untuk pusat data, diklaim lebih efisien dari GPU dalam beban kerja LLM.

Prosesor - Aaf Afiatna

Maret 4, 2026

Furiosa AI memperkenalkan RNGD sebagai akselerator inferensi pusat data berbasis arsitektur Tensor Contraction Processor (TCP)

Pendekatan ini, menurut perusahaan, memungkinkan:

Pemanfaatan ulang data (data reuse) secara maksimal
Pengurangan pergerakan data yang tidak perlu
Eksekusi deterministik
Minimasi kompleksitas cache dinamis

Eksekusi Deterministik dan Efisiensi Energi

GPU modern mengandalkan penjadwalan dinamis dan hierarki cache kompleks. Sebaliknya, TCP dijadwalkan oleh kompiler dan diorkestrasi sebelumnya. Pergerakan data serta komputasi telah ditentukan sebelum eksekusi, sehingga hambatan dapat ditekan dan prediktabilitas meningkat.

Dalam konteks pusat data, memindahkan data seringkali membutuhkan daya lebih besar dibandingkan melakukan komputasi itu sendiri. Dengan meminimalkan pergerakan data, arsitektur TCP berupaya menjawab tantangan konsumsi energi yang semakin kritis dalam infrastruktur AI.

Spesifikasi Teknis RNGD untuk Pusat Data

Fabrikasi 5nm dan TDP 150W

Chip TCP pada RNGD diproduksi menggunakan proses fabrikasi 5 nanometer. Daya desain termal (Thermal Design Power/TDP) chip ini berada di kisaran 150 watt.

Angka TDP tersebut penting karena menentukan kebutuhan pendinginan. Dengan TDP 150W, RNGD dapat dijalankan pada server berpendingin udara standar tanpa memerlukan sistem pendingin cairan khusus. Hal ini membuatnya kompatibel dengan infrastruktur pusat data perusahaan yang sudah ada.

Sebagai perbandingan, tren akselerator AI terkini banyak mengarah ke GPU dengan konsumsi daya 600W atau lebih, yang sering kali membutuhkan sistem pendingin cairan dan superpod khusus.

Konfigurasi Server dan Kepadatan Rak

Furiosa AI mengemas TCP dalam bentuk kartu akselerator PCIe atau server rackmount 4U berisi delapan kartu. Delapan kartu tersebut, ditambah overhead host, mengonsumsi sekitar 3kW per server.

Dalam rak berpendingin udara standar 15kW, operator dapat menempatkan hingga lima server. Konfigurasi ini diklaim menghasilkan sekitar 20 peta-operasi per detik (setara INT8) per rak, tanpa modifikasi besar pada infrastruktur.

Fokus pada Token Per Second per Watt

Metrik Ekonomi Inferensi

Menurut Alex Liu, metrik FLOPS mentah semakin kurang relevan dalam konteks ekonomi inferensi LLM. Furiosa AI lebih menekankan Token Per Second per Watt (TPS/Watt), yang secara langsung berkaitan dengan biaya operasional produksi.

Dalam validasi produksi bersama LG AI Research, RNGD disebut menunjukkan performa 2,25 kali lebih baik per watt dibandingkan infrastruktur GPU NVIDIA yang digunakan sebelumnya. Selain itu, dalam batasan daya rak yang sama, throughput diklaim 3,5 kali lebih besar dibandingkan sistem berbasis H100.

Sebelumnya Berikutnya

Laman: 1 2 3