
Modello video AI di nuova generazione con narrazione multi-shot, output 720p e identità persistente dei personaggi di ByteDance.
Seedance 2.0 è costruito sull'architettura audio-video multimodale unificata di ByteDance. La documentazione ufficiale del modello elenca il supporto per riferimenti di testo, immagini, video e audio con output nativo 480p e 720p da 4 a 15 secondi. Questo generatore web espone i flussi di lavoro principali text-to-video e image-to-video con controlli audio nativi, risoluzione, durata e rapporto d'aspetto.
Specifiche chiave del modello Seedance 2.0.
Risoluzione Massima
Suono con Video
Durata Massima
Descrivi la scena in linguaggio naturale o passa a image-to-video e carica un'immagine iniziale da animare.
Scegli 480p o 720p, imposta la durata da 4 a 15 secondi, scegli un rapporto d'aspetto e abilita o disabilita il suono nativo.
Seedance 2.0 elabora il prompt e i riferimenti, quindi restituisce un clip audio-video sincronizzato. Il costo in crediti dipende da risoluzione, durata e modalità text-to-video rispetto a image-to-video.
Audio e video vengono generati insieme invece che come passaggio di doppiaggio separato. Dialogo, effetti sonori, musica e ambiente possono essere sincronizzati con le immagini.
Dolly zoom, rack focus, tracking shot, cambio POV e movimento handheld fluido possono essere descritti direttamente nel prompt.
ByteDance ha incorporato un addestramento consapevole della fisica che penalizza i movimenti impossibili durante la generazione. Il tessuto si drappeggia e si piega naturalmente, l'acqua schizza con il peso corretto, le collisioni hanno impatto e i personaggi spostano l'equilibrio quando camminano.
Usa la modalità image-to-video per preservare l'aspetto di un'immagine iniziale aggiungendo movimento della telecamera, movimento degli oggetti e azione ambientale.
16:9, 9:16, 1:1, 4:3, 3:4 e 21:9. Questi coprono video orizzontali, formati social verticali, feed quadrati, ritratti e scene ultrawide.
Un text-to-video Seedance 2.0 da 5 secondi parte da 20 crediti in 480p e 45 crediti in 720p. Image-to-video costa di più perché si basa su un'immagine di riferimento.
Esempi di text-to-video, image-to-video, movimento consapevole della fisica e audio nativo generati dai modelli Seedance.






Text-to-video e image-to-video con output 480p/720p, audio nativo e durata fino a 15 secondi.