Alibaba Cloud Rilis AI Video Dengan Input Teks, Gambar, Audio

Alibaba Rilis Wan2.7-Video, Model AI Multimodal untuk Generasi Video Tingkat Lanjut

INFO TEKNO> Alibaba melalui unit risetnya, Tongyi Lab, meluncurkan model kecerdasan buatan terbaru bernama Wan2.7-Video pada 3 April. Model ini dirancang untuk menghasilkan video berbasis berbagai jenis input—teks, gambar, video, hingga audio—sekaligus memperluas kapabilitas ekosistem AI kreatif yang sedang dibangun perusahaan.

Peluncuran ini terjadi hanya dua hari setelah debut Wan2.7-Image pada 1 April. Tempo rilisnya cepat. Terukur.

Dengan tambahan ini, lini model Wan kini diposisikan sebagai salah satu paket alat generatif paling lengkap dalam ranah produksi video berbasis AI terbuka.

Arsitektur Multimodal dan Kontrol Produksi yang Presisi

Integrasi Empat Jenis Input

Wan2.7-Video dibangun untuk memproses berbagai sumber input secara simultan. Teks, visual statis, klip video, dan audio dapat digabung dalam satu pipeline generasi. Fleksibilitas ini menjadi fondasi utama.

Pengguna tidak lagi terbatas pada satu format. Kombinasi input membuka ruang eksplorasi yang lebih luas dalam produksi konten visual berbasis AI.

Kendali Detail dalam Komposisi dan Narasi

Model ini memungkinkan pengaturan detail yang sangat spesifik. Komposisi adegan dapat diatur. Alur cerita bisa diarahkan.

Elemen visual seperti pencahayaan, transisi waktu, hingga dinamika antar frame dapat dikontrol secara presisi. Hasilnya lebih konsisten. Lebih sinematik.

Wan2.7-Video juga mendukung penentuan frame awal dan akhir. Kreator dapat mendefinisikan titik masuk dan keluar sebuah adegan tanpa harus menyerahkan sepenuhnya pada sistem generatif.

Fitur Produksi Lanjutan: Multi-Sudut dan Referensi Video

Grid 3×3 untuk Struktur Adegan

Salah satu fitur kunci adalah alur kerja image-to-video berbasis grid 3×3. Sistem ini memungkinkan pembuatan adegan dengan banyak sudut pandang dalam satu proses.

Pendekatan ini menyerupai storyboard digital. Terstruktur. Modular.

Dukungan Multi-Referensi Video

Wan2.7-Video mampu menerima hingga lima referensi video dalam satu generasi. Ini peningkatan signifikan dibanding versi sebelumnya.

Dengan lebih banyak referensi, model dapat menghasilkan output yang lebih kaya konteks visual. Konsistensi antar adegan juga meningkat.

Editing Berbasis Instruksi: Intervensi Tanpa Produksi Ulang

Modifikasi Visual Instan

Model ini memperkenalkan sistem pengeditan berbasis perintah bahasa alami. Pengguna dapat menghapus objek tertentu atau mengganti latar belakang hanya dengan instruksi teks.

Contohnya sederhana. Adegan musim panas dapat diubah menjadi musim dingin tanpa merender ulang seluruh video.

Perubahan Naratif dan Karakter

Intervensi tidak berhenti di visual. Wan2.7-Video juga mendukung modifikasi pada level cerita.

Dialog bisa diubah. Aksi karakter dapat disesuaikan. Sudut kamera dapat diganti setelah video dibuat.

Fitur sinkronisasi bibir juga memungkinkan penyesuaian audio di tahap pasca-produksi. Ini mengurangi kebutuhan pengambilan ulang. Menghemat waktu produksi.

Adopsi Cepat dan Evolusi Model Wan

Ekosistem Wan menunjukkan pertumbuhan yang agresif. Sejak peluncuran Wan2.1 sebagai open-source pada Februari 2025, model ini telah diunduh lebih dari 2,2 juta kali melalui Hugging Face dan ModelScope.

Setelah versi awal, Alibaba merilis iterasi lanjutan: 2.2, 2.5, dan 2.6. Masing-masing membawa peningkatan spesifik.

Versi 2.2 memperkenalkan penceritaan multi-shot. Versi 2.5 menambahkan sinkronisasi audio-visual native. Sementara 2.6 meningkatkan kualitas output hingga resolusi 1080p dengan durasi maksimum 15 detik.

Persaingan Ketat dalam Generasi Video AI

Baik dari komunitas open-source maupun platform proprietary, pengembangan berfokus pada tiga hal utama: kualitas visual, durasi video, dan tingkat kontrol pengguna.

Wan2.7-Video masuk ke arena ini dengan diferensiasi pada fleksibilitas input dan kontrol granular. Strateginya jelas.

Peta Jalan Pengembangan Selanjutnya

Alibaba telah mengisyaratkan tahap berikutnya dalam pengembangan model Wan. Versi Wan2.8 dijadwalkan hadir pada kuartal kedua 2026.

Setelah itu, perusahaan menargetkan peluncuran awal arsitektur terpadu video-gambar dalam kerangka Wan 3.0 pada akhir tahun yang sama. Ini akan menjadi langkah menuju sistem generatif yang lebih terintegrasi.

Ritmenya agresif. Arah pengembangannya konsisten.

Aaf Afiatna

Aaf Afiatna (Aura OS) adalah seorang WordPress Developer, Administrator IT, dan penggerak di balik infrastruktur berbagai portal media digital PT Arina Duta Sehati. Ia memiliki ketertarikan mendalam pada rekayasa sistem tingkat rendah, implementasi AI on-device, dan pengembangan proyek open-source seperti Neural Standby Kernel (NSK). Saat tidak sedang berurusan dengan server atau kode, ia aktif mengeksplorasi ekosistem Web3 dan berbagi wawasan melalui channel YouTube CryptoFansWorld.