3s极速复刻生成的音频存在多字或少字，少句子的问题 #778

JV-X · 2024-12-24T06:44:01Z

按照目前最新的代码和readme搭建好了环境以后，打开gradio页面，选择3s急速复刻，输入合成文本：一只小羊是养,两只小羊是养,三只小羊就不是养了,是喂。 ，输入prompt文本，录入prompt音频，点击生成按钮，生成出的音频不完整，或者少字或者少句子,偶尔会多字。比如用这个合成文本生成出来的音频就是：音频文件一只小羊是养,两只小羊就不是养,是喂。多了前面的音频文件四个字，少了中间的三只小羊的部分。

注：我用的是CosyVoice-300M-Instruct模型

The text was updated successfully, but these errors were encountered:

shirubei · 2024-12-26T02:27:28Z

同样300M-Instruct模型，用的prompt语音为5s，使用3s极速复刻功能，用上面的文本（一只小羊是养,两只小羊是养,三只小羊就不是养了,是喂。），一切正常

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

3s极速复刻生成的音频存在多字或少字，少句子的问题 #778

3s极速复刻生成的音频存在多字或少字，少句子的问题 #778

JV-X commented Dec 24, 2024 •

edited

Loading

shirubei commented Dec 26, 2024

3s极速复刻生成的音频存在多字或少字，少句子的问题 #778

3s极速复刻生成的音频存在多字或少字，少句子的问题 #778

Comments

JV-X commented Dec 24, 2024 • edited Loading

shirubei commented Dec 26, 2024

JV-X commented Dec 24, 2024 •

edited

Loading