China Kembangkan Model Text-to-Video Mirip 'Sora' OpenAI
Para profesor dari Peking University dan perusahaan AI Rabbitpre, yang berbasis di Shenzhen, mengumumkan sebuah kolaborasi untuk mereproduksi model canggih penciptaan video buatan yang mirip seperti Sora yang dimiliki OpenAI.
Proyek ini diberi nama "Open-Sora" dan telah diumumkan dalam postingan GitHub pada hari Jumat lalu. Inisiatif ini berjalan melalui Rabbitpre AIGC Joint Lab, sebuah laboratorium bersama antara perusahaan dan fakultas pascasarjana universitas tersebut.
Tim Open-Sora bertujuan untuk "mereproduksi model video generation dari OpenAI" dengan sebuah penyimpanan kode yang "sederhana dan terukur". Kelompok ini sedang mencari bantuan dari komunitas open-source untuk pengembangan proyek tersebut .
Progres sejauh ini
Menggunakan sebuah kerangka kerja dengan tiga komponen: Video VQ-VAE, Denoising Diffusion Transformer, dan Condition Encoder, tim ini telah sukses menciptakan beberapa contoh video yang bervariasi dalam aspek rasio, resolusi dan durasi, termasuk klip berdurasi 10 dan 18 detik.
Apa itu Sora?
Sora sendiri merupakan model text to video yang dikembangkan oleh Open AI, dan telah diperkenalkan pada 15 Februari lalu.
Sora merupakan model text-to-video pertama dari OpenAI yang dapat dengan instan menghasilkan video berkualitas tinggi dan realistis hanya dengan prompt atau perintah berupa teks. Hingga saat ini, durasi video yang dapat dihasilkan bertahan hingga satu menit.
Meski teknologinya telah diumumkan, OpenAI mengungkapkan bahwa mereka belum berencana untuk membuat Sora tersedia untuk penggunaan umum dalam waktu dekat. Perusahaan ini masih perlu menangani beberapa isu seperti pengurangan misinformasi, konten berunsur kebencian dan bias, serta pelabelan produk jadi secara memadai.
Langkah Berikutnya
Rabbitpre AIGC Joint Lab telah meringkas beberapa rencana masa depan untuk Open-Sora, termasuk pembuatan basis kode dan melatih model tak berkondisi dengan kumpulan data lanskap.
Berikutnya, mereka berencana untuk melatih model-model dalam rangka peningkatan resolusi dan durasi sebagai bagian dari tahap-tahap awal proyek ini.
Tim Open-Sora juga ingin melakukan eksperimen pada kumpulan data lanskap text-to-video, dan mengembangkan model kontrol dengan tambahan kondisi.
Sumber: NextShark