ℹ️ 选择长度3秒以上的WAV音频文件,尽量没有背景声音,录音质量越高,生成质量越高。 音频的文字内容对生成结果有很大影响,建议使用10秒左右的音频,自动转文字,并确认没有字符和标点错误。
ℹ️ 生成的长度按照音频长度计算
Inference Steps:
20
ℹ️ 用于控制生成视频的视觉质量与生成速度,默认值为20,推荐范围20-50,数值越高,生成的视觉质量越好,但相应地会延长生成时间
Guidance Scale:
1.5
ℹ️ 用于调节嘴唇同步准确性的参数,其值越高,唇同步的准确性越好,但可能导致视频失真或抖动,默认值1.5,推荐范围为1.0-3.0