Furiosa AI Perkenalkan RNGD, Akselerator Inferensi Pusat Data yang Tantang Dominasi GPU

Furiosa AI memperkenalkan akselerator inferensi RNGD berbasis Tensor Contraction Processor untuk pusat data, diklaim lebih efisien dari GPU dalam beban kerja LLM.

Furiosa AI memperkenalkan RNGD sebagai akselerator inferensi pusat data berbasis arsitektur Tensor Contraction Processor (TCP)
Furiosa AI memperkenalkan RNGD sebagai akselerator inferensi pusat data berbasis arsitektur Tensor Contraction Processor (TCP)

Furiosa AI Perkenalkan RNGD, Akselerator Inferensi Pusat Data yang Tantang Dominasi GPU

Info Tekno> Furiosa AI memperkenalkan RNGD sebagai akselerator inferensi pusat data berbasis arsitektur Tensor Contraction Processor (TCP) yang dirancang khusus untuk beban kerja kecerdasan buatan (AI) modern, khususnya model bahasa besar (LLM). Perusahaan rintisan semikonduktor ini menyatakan pendekatannya berbeda dari GPU konvensional karena sejak awal dibangun dengan kontraksi tensor sebagai primitif fundamental perangkat keras.

Pengumuman dan penjelasan mengenai teknologi ini disampaikan oleh Alex Liu, SVP Produk dan Bisnis di Furiosa AI, dalam perbincangan mengenai arah pengembangan chip AI yang dinilai semakin dibatasi oleh konsumsi daya, pendinginan, dan biaya operasional pusat data.

Dari Inspirasi Mad Max ke Arsitektur AI Modern

Asal-usul Nama Furiosa AI

Nama Furiosa AI terinspirasi dari karakter Furiosa dalam waralaba film Mad Max yang kemudian berkembang melalui sejumlah sekuel seperti Mad Max 2, Mad Max Beyond Thunderdome, Mad Max: Fury Road, hingga Furiosa: A Mad Max Saga. Pendiri dan CEO perusahaan disebut sebagai penggemar berat seri tersebut dan mengadopsi semangat ketangguhan serta momentum karakter Furiosa sebagai identitas perusahaan.

Namun, alih-alih membangun kendaraan tempur pasca-apokaliptik, Furiosa AI mengembangkan chip akselerator inferensi pusat data bernama RNGD—dibaca “Renegade”—yang secara eksplisit diposisikan sebagai alternatif arsitektur terhadap GPU tradisional.

Mengapa Furiosa AI Menilai GPU Tidak Ideal untuk Inferensi Jangka Panjang?

GPU Diciptakan untuk Piksel, AI Membutuhkan Tensor

Menurut Furiosa AI, GPU pada dasarnya dirancang untuk memproses piksel dan beban kerja grafis berbasis Single Instruction Multiple Threads (SIMT). Dalam perkembangannya, GPU memang diadaptasi untuk menangani komputasi AI melalui unit matriks dan core khusus, tetapi secara arsitektural bukan dibangun dari awal untuk inferensi model bahasa besar.

Perusahaan berargumen bahwa AI modern—khususnya transformer dan LLM—bertumpu pada operasi kontraksi tensor multidimensi. Jika perkalian matriks adalah operasi dua dimensi, maka kontraksi tensor merupakan generalisasi multidimensi yang lebih kompleks dan menjadi fondasi hampir seluruh perhitungan model AI kontemporer.

Baca Juga  Topologi Jaringan Jadi Fondasi Infrastruktur Digital yang Menentukan Kinerja Konektivitas

Di sinilah letak pendekatan berbeda Furiosa AI: mereka memperlakukan kontraksi tensor sebagai primitif fundamental perangkat keras, bukan sekadar beban kerja yang dipetakan ke unit matriks seperti pada GPU.

Arsitektur Tensor Contraction Processor (TCP)

Alih-alih memetakan kontraksi tensor ke unit matriks tetap, arsitektur Tensor Contraction Processor (TCP) milik Furiosa AI memperlakukan kontraksi tensor sebagai model eksekusi asli (native execution model).
Alih-alih memetakan kontraksi tensor ke unit matriks tetap, arsitektur Tensor Contraction Processor (TCP) milik Furiosa AI memperlakukan kontraksi tensor sebagai model eksekusi asli (native execution model).

Konsep Dasar Kontraksi Tensor

Secara matematis, kontraksi tensor adalah proses perkalian dan penjumlahan pada dimensi yang sama dalam struktur multidimensi. Dalam praktiknya pada model AI, operasi ini menjadi tulang punggung komputasi, terutama dalam arsitektur transformer.

Alih-alih memetakan kontraksi tensor ke unit matriks tetap, arsitektur Tensor Contraction Processor (TCP) milik Furiosa AI memperlakukan kontraksi tensor sebagai model eksekusi asli (native execution model). Artinya, perangkat keras “berpikir” dalam struktur tensor sejak awal desain.

Pendekatan ini, menurut perusahaan, memungkinkan:

  • Pemanfaatan ulang data (data reuse) secara maksimal
  • Pengurangan pergerakan data yang tidak perlu
  • Eksekusi deterministik
  • Minimasi kompleksitas cache dinamis

Eksekusi Deterministik dan Efisiensi Energi

GPU modern mengandalkan penjadwalan dinamis dan hierarki cache kompleks. Sebaliknya, TCP dijadwalkan oleh kompiler dan diorkestrasi sebelumnya. Pergerakan data serta komputasi telah ditentukan sebelum eksekusi, sehingga hambatan dapat ditekan dan prediktabilitas meningkat.

Dalam konteks pusat data, memindahkan data seringkali membutuhkan daya lebih besar dibandingkan melakukan komputasi itu sendiri. Dengan meminimalkan pergerakan data, arsitektur TCP berupaya menjawab tantangan konsumsi energi yang semakin kritis dalam infrastruktur AI.

Spesifikasi Teknis RNGD untuk Pusat Data

Fabrikasi 5nm dan TDP 150W

Chip TCP pada RNGD diproduksi menggunakan proses fabrikasi 5 nanometer. Daya desain termal (Thermal Design Power/TDP) chip ini berada di kisaran 150 watt.

Angka TDP tersebut penting karena menentukan kebutuhan pendinginan. Dengan TDP 150W, RNGD dapat dijalankan pada server berpendingin udara standar tanpa memerlukan sistem pendingin cairan khusus. Hal ini membuatnya kompatibel dengan infrastruktur pusat data perusahaan yang sudah ada.

Sebagai perbandingan, tren akselerator AI terkini banyak mengarah ke GPU dengan konsumsi daya 600W atau lebih, yang sering kali membutuhkan sistem pendingin cairan dan superpod khusus.

Baca Juga  Detail Infinix Note 60 Series Terungkap, Resmi Terdaftar di SDPPI

Konfigurasi Server dan Kepadatan Rak

Furiosa AI mengemas TCP dalam bentuk kartu akselerator PCIe atau server rackmount 4U berisi delapan kartu. Delapan kartu tersebut, ditambah overhead host, mengonsumsi sekitar 3kW per server.

Dalam rak berpendingin udara standar 15kW, operator dapat menempatkan hingga lima server. Konfigurasi ini diklaim menghasilkan sekitar 20 peta-operasi per detik (setara INT8) per rak, tanpa modifikasi besar pada infrastruktur.

Fokus pada Token Per Second per Watt

Metrik Ekonomi Inferensi

Menurut Alex Liu, metrik FLOPS mentah semakin kurang relevan dalam konteks ekonomi inferensi LLM. Furiosa AI lebih menekankan Token Per Second per Watt (TPS/Watt), yang secara langsung berkaitan dengan biaya operasional produksi.

Dalam validasi produksi bersama LG AI Research, RNGD disebut menunjukkan performa 2,25 kali lebih baik per watt dibandingkan infrastruktur GPU NVIDIA yang digunakan sebelumnya. Selain itu, dalam batasan daya rak yang sama, throughput diklaim 3,5 kali lebih besar dibandingkan sistem berbasis H100.

Meski demikian, perusahaan mengakui bahwa tolok ukur selalu bergantung pada kondisi pengujian. Fokus utama mereka bukan sekadar angka pemasaran, melainkan efisiensi daya, kepadatan rak, dan total biaya kepemilikan (TCO).

Produksi Massal dan Ekosistem Perangkat Lunak

Bukan Sekadar Startup Presentasi

Didirikan pada 2017, Furiosa AI kini mempekerjakan sekitar 200 insinyur dengan latar belakang semikonduktor. RNGD telah memasuki produksi massal dengan ribuan unit dikirim melalui mitra manufaktur termasuk TSMC dan ASUS.

Langkah ini menandai transisi dari konsep arsitektur ke silikon yang dapat dikirim secara komersial—sebuah tahap krusial dalam industri akselerator AI.

SDK dan Integrasi Produksi

Selain perangkat keras, Furiosa AI juga menghadirkan perangkat lunak pendukung melalui Software Development Kit (SDK) yang menargetkan lingkungan produksi, mencakup:

  • Pengelompokan hibrida dan penjadwalan pra-isi/dekode cerdas
  • Caching awalan untuk beban kerja RAG dan agenik
  • Dukungan Kubernetes dengan operator NPU
  • Kerangka kerja inferensi terdistribusi
  • Integrasi OpenTelemetry berbasis Rust
  • Kompatibilitas langsung dengan vLLM
  • Kompatibilitas API OpenAI
Baca Juga  Samsung One UI 8.5 Resmi Melebar ke Galaxy S24 hingga Tab S10, Ini Fiturnya

Pendekatan ini menunjukkan bahwa Furiosa AI tidak hanya mengandalkan inovasi arsitektur, tetapi juga membangun ekosistem perangkat lunak agar dapat diadopsi secara luas dalam lingkungan produksi nyata.

Strategi “Renegade” di Tengah Dominasi GPU

Di pasar yang saat ini didominasi satu vendor GPU besar, pendekatan Furiosa AI terbilang konfrontatif namun terukur. Perusahaan tidak berupaya mengungguli GPU dalam pelatihan model, melainkan berfokus pada inferensi—fase di mana model yang sudah dilatih dijalankan untuk menghasilkan respons.

Furiosa AI berargumen bahwa inferensi memiliki “fisika” berbeda dari pelatihan. Jika GPU diibaratkan mobil sport berdaya tinggi untuk lintasan balap, maka RNGD dirancang seperti kendaraan logistik jarak jauh yang dioptimalkan untuk throughput berkelanjutan dalam batasan daya dan pendinginan dunia nyata.

Dengan meningkatnya tekanan terhadap anggaran daya pusat data global, strategi ini menempatkan efisiensi energi dan kepadatan rak sebagai variabel utama, bukan sekadar performa puncak.

Kesimpulan

Furiosa AI melalui RNGD dan arsitektur Tensor Contraction Processor menawarkan pendekatan alternatif terhadap akselerator inferensi AI pusat data. Dengan desain berbasis kontraksi tensor, eksekusi deterministik, TDP 150W, serta fokus pada metrik Token Per Second per Watt, perusahaan ini berupaya menjawab tantangan daya dan biaya operasional yang kian krusial dalam era model bahasa besar.

Di tengah perlombaan perangkat keras AI yang semakin intensif, kehadiran RNGD memperluas spektrum solusi, terutama bagi operator pusat data yang ingin meningkatkan efisiensi tanpa merombak infrastruktur pendinginan secara besar-besaran.

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *