Gemini Omni Resmi Diperkenalkan: Model AI Google yang Bisa Edit Video Lewat Perintah Suara
INFO TEKNO> Google memperkenalkan Gemini Omni di panggung Google I/O 2026—keluarga model multimodal baru yang dirancang untuk pembuatan dan pengeditan video berbasis AI melalui perintah percakapan alami. Model pertama dari lini ini, Gemini Omni Flash, mulai diluncurkan hari ini ke aplikasi Gemini, Google Flow, dan YouTube Shorts.
Diumumkan Demis Hassabis, Dibangun di Atas Model Dunia DeepMind
Pengumuman Gemini Omni disampaikan langsung oleh Demis Hassabis, CEO Google DeepMind, dalam pidato utama Google I/O 2026. Hassabis memposisikan Omni sebagai kelanjutan logis dari keahlian bertahun-tahun DeepMind dalam pengembangan world model—sistem AI yang tidak sekadar memproses teks, melainkan memodelkan dan mensimulasikan realitas secara aktif.
Tujuan jangka panjang yang ditetapkan Hassabis untuk Omni sangat ambisius: menghasilkan semua jenis output dari semua jenis input. Itu berarti satu model yang mampu menerima gambar, audio, video, dan teks secara bersamaan—lalu memproduksi output dalam format apa pun yang diminta pengguna.
CEO Google Sundar Pichai menambahkan konteks strategis dalam pidato yang sama. “Ketika kami pertama kali mengumumkan Gemini, itu adalah model AI pertama kami yang secara bawaan bersifat multimodal,” ujar Pichai. “Kami tahu bahwa melatihnya dengan kombinasi teks, kode, audio, gambar, dan video akan memberinya pemahaman yang lebih dalam tentang dunia. Dengan model dunia, AI bergerak dari memprediksi teks ke mensimulasikan realitas. Gemini Omni adalah langkah selanjutnya ke arah itu.”
Cara Kerja: Pengeditan Percakapan dan Pemahaman Konteks Dunia Nyata
Fitur utama yang membedakan Gemini Omni dari model generasi video konvensional adalah pengeditan percakapan—kemampuan mengedit elemen video menggunakan perintah suara alami tanpa perlu antarmuka pengeditan tradisional.
Pengguna dapat mengubah karakter, mengganti latar belakang, memodifikasi aksi, menambahkan objek baru, atau mengubah sudut pandang—semuanya cukup dengan instruksi verbal. Google mendeskripsikan pendekatan ini dengan cara yang menarik: “Video Anda menjadi titik awal untuk sesuatu yang tidak mungkin Anda rekam sendiri.”
Kemampuan ini dimungkinkan oleh pemahaman kontekstual yang lebih dalam. Gemini Omni dilatih dengan pengetahuan tentang fisika, budaya, sejarah, dan sains—bukan hanya pola visual—sehingga output yang dihasilkan lebih realistis dan kontekstual secara situasional. Sistem ini memahami bahwa objek memiliki berat, cahaya memiliki arah, dan karakter memiliki konsistensi visual yang harus dipertahankan lintas adegan.
Avatar Digital AI Berbasis Suara dan Penampilan Pengguna
Salah satu kapabilitas paling menonjol yang diungkapkan Google adalah kemampuan Gemini Omni untuk membuat avatar digital pengguna yang dihasilkan AI—dibangun berdasarkan suara dan penampilan fisik pengguna itu sendiri.
Dengan avatar ini, pengguna dapat memproduksi video di mana versi AI dari diri mereka berbicara atau muncul di layar tanpa perlu merekam setiap adegan secara manual. Implikasi praktisnya luas: dari konten kreator yang ingin memproduksi video dalam skala tinggi, hingga profesional yang membutuhkan kehadiran visual tanpa jadwal syuting yang padat.
SynthID: Watermark Tak Terlihat pada Setiap Output AI
Google secara eksplisit menanggapi kekhawatiran autentisitas konten dengan mengintegrasikan SynthID ke setiap video yang dihasilkan oleh Gemini Omni. SynthID adalah sistem penanda air digital tak terlihat (invisible digital watermark) milik Google yang dirancang untuk mengidentifikasi dan memverifikasi bahwa sebuah konten diproduksi menggunakan AI.
Penanda ini tidak dapat dilihat secara kasat mata oleh pemirsa biasa, namun tetap dapat dideteksi secara teknis—bahkan setelah video mengalami kompresi, pengeditan ulang, atau distribusi di platform pihak ketiga. Ini merupakan langkah konkret Google dalam menghadapi proliferasi konten deepfake dan disinformasi berbasis AI generatif.
Peluncuran Bertahap: Omni Flash Mulai Hari Ini
Gemini Omni Flash—model pertama dari keluarga Omni—sudah mulai diluncurkan secara bertahap ke tiga platform mulai hari ini: aplikasi Gemini, Google Flow, dan YouTube Shorts. Versi-versi Omni berikutnya dijadwalkan hadir pada musim panas ini, meski Google belum merinci jadwal spesifik untuk setiap varian.
Integrasi langsung ke YouTube Shorts menjadi sinyal yang kuat. Google memposisikan Omni bukan hanya sebagai alat kreasi profesional, melainkan juga sebagai akselerator ekosistem konten pendek yang saat ini menjadi arena persaingan utama platform video global.
FAQ
Q: Apa itu Gemini Omni dan apa fungsi utamanya?
A: Gemini Omni adalah keluarga model multimodal AI baru dari Google yang dirancang untuk pembuatan dan pengeditan video menggunakan perintah percakapan alami. Model ini mendukung input gambar, audio, video, dan teks secara bersamaan, dengan tujuan jangka panjang menghasilkan semua jenis output dari semua jenis input.
Q: Bagaimana cara kerja pengeditan percakapan di Gemini Omni?
A: Pengguna cukup memberikan perintah suara atau teks untuk mengedit elemen video—mengubah karakter, latar belakang, aksi, sudut pandang, atau menambahkan objek baru—tanpa perlu software pengeditan tradisional. Gemini Omni mempertahankan konsistensi karakter dan elemen visual di seluruh adegan secara otomatis.
Q: Apa itu SynthID dan mengapa diintegrasikan ke Gemini Omni?
A: SynthID adalah sistem watermark digital tak terlihat milik Google yang disematkan pada setiap video yang dihasilkan Gemini Omni. Penanda ini tidak terlihat secara kasat mata namun dapat dideteksi secara teknis untuk memverifikasi bahwa konten tersebut diproduksi menggunakan AI—langkah Google menangani kekhawatiran deepfake dan disinformasi.
Q: Apa itu Gemini Omni Flash dan di mana tersedia?
A: Gemini Omni Flash adalah model pertama dari keluarga Gemini Omni yang mulai diluncurkan di Google I/O 2026. Model ini tersedia di aplikasi Gemini, Google Flow, dan YouTube Shorts mulai hari ini, dengan varian Omni tambahan dijadwalkan hadir musim panas ini.
Q: Apakah Gemini Omni bisa membuat avatar digital pengguna?
A: Ya. Gemini Omni dapat membuat avatar digital berbasis AI yang dibangun dari suara dan penampilan fisik pengguna. Avatar ini memungkinkan pengguna memproduksi video di mana versi AI dari diri mereka muncul atau berbicara tanpa perlu merekam setiap adegan secara manual.

Aaf Afiatna (Aura OS) adalah seorang WordPress Developer, Administrator IT, dan penggerak di balik infrastruktur berbagai portal media digital PT Arina Duta Sehati. Ia memiliki ketertarikan mendalam pada rekayasa sistem tingkat rendah, implementasi AI on-device, dan pengembangan proyek open-source seperti Neural Standby Kernel (NSK). Saat tidak sedang berurusan dengan server atau kode, ia aktif mengeksplorasi ekosistem Web3 dan berbagi wawasan melalui channel YouTube CryptoFansWorld.






