
ByteDanceのSeedance 1.5 Proでネイティブオーディオと多言語リップシンク付きのシネマティック動画を生成。
Seedance 1.5 ProはByteDanceによる初の音声・動画同時生成モデルです。音声と動画は後から重ねるのではなく、同じDual-Branch Diffusion Transformerアーキテクチャを通じて一緒に生成されます。このアーキテクチャは後にSeedance 2.0にも採用されました。その際立った機能は音素レベルの多言語リップシンクです。キャラクターは英語、中国語、日本語、韓国語、スペイン語、フランス語、ドイツ語、ポルトガル語など、正確な口の形で話します。3つの解像度階層と4〜12秒の再生時間を組み合わせることで、短いソーシャルクリップから長い物語シーンまでカバーします。
テキストプロンプトを滑らかなモーション、ダイナミックなカメラワーク、時間的一貫性を持つ動画に変換します。
静止画像を元の構図とスタイルを保持しながら、流れるような動画シーケンスにアニメーション化します。
動画と同時に、同期された効果音、セリフ、環境音をワンパスで生成します。
複数の言語にわたって、音声に同期した正確な口の動きを生成します。
Write a text prompt or upload a reference image for your video scene.
Select the spoken language and enable multilingual lip-sync for speaking characters.
Generate a cinematic video with synchronized native audio and lip movements.
品質と速度の要件に応じて、480p、720p、1080pの解像度で動画を生成できます。
4秒から12秒までの動画を、細かな再生時間制御で作成できます。
16:9、9:16、1:1、4:3、3:4、21:9に対応し、あらゆるプラットフォームや用途に適合します。
安定したショットのためにカメラ位置を固定するか、AIに自然なカメラワークを任せることができます。
シード値を使用して、複数回の生成で一貫した結果を再現できます。
最終フレームを指定して、動画の終了構図をガイドし、滑らかなトランジションを作成できます。
Videos generated by Seedance models — joint audio-video output, multilingual lip-sync, and physics-aware motion across different genres and styles.






Joint audio-video generation with phoneme-level multilingual lip-sync. Three resolution tiers, 4-12 second duration, dynamic pricing from 20 credits.