
ByteDance의 Seedance 1.5 Pro로 8개 이상 언어에서 음소 레벨 립싱크를 갖춘 비디오를 생성하세요. 첫 번째 오디오-비디오 동시 생성 모델입니다.
Seedance 1.5 Pro는 ByteDance의 첫 번째 오디오-비디오 동시 생성 모델입니다. 오디오와 비디오는 나중에 레이어링되는 것이 아니라 함께 생성됩니다. 이는 나중에 Seedance 2.0에 채택된 동일한 Dual-Branch Diffusion Transformer 아키텍처를 통해 이루어집니다. 가장 뛰어난 기능은 음소 레벨의 다국어 립싱크입니다. 캐릭터는 영어, 중국어, 일본어, 한국어, 스페인어, 프랑스어, 독일어, 포르투갈어 등에서 정확한 입 모양으로 말합니다. 3가지 해상도 계층과 4~12초 길이를 결합하여 빠른 소셜 클립부터 긴 내러티브 장면까지 모든 것을 다룹니다.
장면을 설명하면 모션, 카메라 워크, 선택적으로 동기화된 대화 또는 사운드 이펙트가 포함된 비디오를 받습니다. 프롬프트는 감정적 톤과 환경 컨텍스트가 포함된 상세한 다중 파트 지침을 지원합니다.
사진이나 일러스트를 업로드하면 모델이 자연스러운 모션(머리카락 움직임, 천 흔들림, 신체 제스처)을 추론하면서 피부 질감, 액세서리, 배경 요소를 포함한 소스 이미지의 세부 사항을 보존합니다.
오디오는 Dual-Branch Diffusion Transformer를 통해 비디오와 동일한 추론 패스에서 생성됩니다. 출력에는 레이어드 사운드가 포함됩니다: 립싱크가 있는 음성 대화, 컨텍스트 인식 폴리 효과, 환경 앰비언스가 자동으로 믹싱 및 밸런싱됩니다.
말하는 캐릭터는 8개 이상의 언어에서 음소 레벨의 입 모양 정확도를 나타냅니다. 후반 작업 더빙과 달리 입 움직임은 오디오와 동시에 생성되어 수동 조정 없이 자연스러운 정렬을 생성합니다.
텍스트로 장면을 설명하거나 애니메이션할 참조 이미지를 업로드합니다. 이미지-투-비디오의 경우 최종 구성을 정의하는 종료 프레임도 제공할 수 있습니다.
480p, 720p 또는 1080p를 선택합니다. 4~12초 사이의 임의 길이로 설정합니다. 음성을 생성하는 경우 립싱크를 위한 대상 언어를 선택합니다.
모델은 한 번의 패스로 비디오와 오디오를 함께 생성합니다. 크레딧은 해상도, 화면 비율, 길이에 따라 동적으로 계산됩니다. 낮은 설정은 더 적은 크레딧을 소비합니다.
빠른 초안에는 480p, 표준 품질 대 비용 비율에는 720p, 최종 출력에는 1080p를 선택합니다. 크레딧은 픽셀 수에 따라 확장됩니다. 480p 비디오는 동일한 길이에서 1080p 비디오의 약 4분의 1 비용입니다.
4~12초 사이의 임의 길이를 설정합니다. 고정된 5초 또는 10초 길이만 제공하는 모델과 달리 1.5 Pro는 초 단위 제어를 제공합니다. 필요한 길이만큼만 지불합니다.
16:9, 9:16, 1:1, 4:3, 3:4, 21:9. 21:9 울트라와이드 옵션은 AI 비디오 생성기 중에서 드물며 와이드스크린 및 영화 예고편 형식에 적합합니다.
제품 데모, 인터뷰 프레이밍 또는 카메라 움직임이 산만한 샷을 위해 카메라를 고정 위치에 잠급니다. 잠금 해제하면 모델은 장면 콘텐츠를 기반으로 자연스러운 카메라 모션을 생성합니다.
시드 값을 전달하여 생성 간에 동일한 출력을 재현합니다. 시각적 스타일을 일관되게 유지하면서 다른 프롬프트를 A/B 테스트하는 데 유용합니다.
시작 이미지와 종료 이미지를 모두 제공하여 첫 번째와 마지막 프레임을 정의합니다. 모델은 그들 사이를 보간하여 제어된 전환과 예측 가능한 스토리 아크를 가능하게 합니다.
Seedance 모델로 생성된 비디오 — 오디오-비디오 동시 출력, 다국어 립싱크, 다양한 장르와 스타일에 걸친 물리 인식 모션.





