Pendekatan ini, menurut perusahaan, memungkinkan:
- Pemanfaatan ulang data (data reuse) secara maksimal
- Pengurangan pergerakan data yang tidak perlu
- Eksekusi deterministik
- Minimasi kompleksitas cache dinamis
Eksekusi Deterministik dan Efisiensi Energi
GPU modern mengandalkan penjadwalan dinamis dan hierarki cache kompleks. Sebaliknya, TCP dijadwalkan oleh kompiler dan diorkestrasi sebelumnya. Pergerakan data serta komputasi telah ditentukan sebelum eksekusi, sehingga hambatan dapat ditekan dan prediktabilitas meningkat.
Dalam konteks pusat data, memindahkan data seringkali membutuhkan daya lebih besar dibandingkan melakukan komputasi itu sendiri. Dengan meminimalkan pergerakan data, arsitektur TCP berupaya menjawab tantangan konsumsi energi yang semakin kritis dalam infrastruktur AI.
Spesifikasi Teknis RNGD untuk Pusat Data
Fabrikasi 5nm dan TDP 150W
Chip TCP pada RNGD diproduksi menggunakan proses fabrikasi 5 nanometer. Daya desain termal (Thermal Design Power/TDP) chip ini berada di kisaran 150 watt.
Angka TDP tersebut penting karena menentukan kebutuhan pendinginan. Dengan TDP 150W, RNGD dapat dijalankan pada server berpendingin udara standar tanpa memerlukan sistem pendingin cairan khusus. Hal ini membuatnya kompatibel dengan infrastruktur pusat data perusahaan yang sudah ada.
Sebagai perbandingan, tren akselerator AI terkini banyak mengarah ke GPU dengan konsumsi daya 600W atau lebih, yang sering kali membutuhkan sistem pendingin cairan dan superpod khusus.
Konfigurasi Server dan Kepadatan Rak
Furiosa AI mengemas TCP dalam bentuk kartu akselerator PCIe atau server rackmount 4U berisi delapan kartu. Delapan kartu tersebut, ditambah overhead host, mengonsumsi sekitar 3kW per server.
Dalam rak berpendingin udara standar 15kW, operator dapat menempatkan hingga lima server. Konfigurasi ini diklaim menghasilkan sekitar 20 peta-operasi per detik (setara INT8) per rak, tanpa modifikasi besar pada infrastruktur.
Fokus pada Token Per Second per Watt
Metrik Ekonomi Inferensi
Menurut Alex Liu, metrik FLOPS mentah semakin kurang relevan dalam konteks ekonomi inferensi LLM. Furiosa AI lebih menekankan Token Per Second per Watt (TPS/Watt), yang secara langsung berkaitan dengan biaya operasional produksi.
Dalam validasi produksi bersama LG AI Research, RNGD disebut menunjukkan performa 2,25 kali lebih baik per watt dibandingkan infrastruktur GPU NVIDIA yang digunakan sebelumnya. Selain itu, dalam batasan daya rak yang sama, throughput diklaim 3,5 kali lebih besar dibandingkan sistem berbasis H100.







