We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
训练素材是1h纯人声素材
目前遇到的问题音频出现概率15%左右,类型如下: ①参考文本出现在生成音频中 ②生成音频出现哈哈哈声 ③生成音频错字 ④生成音频有较长的空白段
目前尝试过 a.时长判断,但是这种情况只对于④有效 b.ASR识别生成音频,然后跟生成文本比对,不过模型生成的音频发音不是很标准,识别效果不是很好,所以否掉
不知道大家有没有方法能够识别?如果可以的话,这算是变相解决错误音频的问题了,毕竟重ROLL总是能ROLL到好的生成音频的
The text was updated successfully, but these errors were encountered:
训练素材是1h纯人声素材 目前遇到的问题音频出现概率15%左右,类型如下: ①参考文本出现在生成音频中 ②生成音频出现哈哈哈声 ③生成音频错字 ④生成音频有较长的空白段 目前尝试过 a.时长判断,但是这种情况只对于④有效 b.ASR识别生成音频,然后跟生成文本比对,不过模型生成的音频发音不是很标准,识别效果不是很好,所以否掉 不知道大家有没有方法能够识别?如果可以的话,这算是变相解决错误音频的问题了,毕竟重ROLL总是能ROLL到好的生成音频的
说说我的个人经验吧,遇到参考音频问题比较大得情况,一般从这四个方面处理:
1,保证打标准确,虽然阿里的asr工具的常规文本准确率很高,但是在拟声词识别和文本标点符号,比如逗号、问号、叹号方面的识别不是很准确,所以需要手动处理一遍
2,调低gpt轮数,gpt轮数太高,出现问题频率以及英语能力的退化程度就越大。根据我的体感吧,2小时内的素材,gpt轮数10轮足够。
3,文本切分参数cut_punc,拉满,也就是设置成,.;?!、,。?!;:… 因为GPT-SoVITS主要是通过短句训练的,所以长句的推理效果都不太理想,用文本切分参数把长句切成断句,可以降低音频出现问题的概率
4,替换参考音频,不同参考音频出现问题的概率不同,有的很容易出现,有的很少出现。所以准备多条参考音频,比如20条,做批量推理,对推理结果做asr和文本相似度分析,从相似度分值高的里面找参考音频。
对于第4点,我做了一个筛选工具,有兴趣的话,你可以试下
#1044
上面是链接
Sorry, something went wrong.
感谢!很有帮助!
No branches or pull requests
训练素材是1h纯人声素材
目前遇到的问题音频出现概率15%左右,类型如下:
①参考文本出现在生成音频中
②生成音频出现哈哈哈声
③生成音频错字
④生成音频有较长的空白段
目前尝试过
a.时长判断,但是这种情况只对于④有效
b.ASR识别生成音频,然后跟生成文本比对,不过模型生成的音频发音不是很标准,识别效果不是很好,所以否掉
不知道大家有没有方法能够识别?如果可以的话,这算是变相解决错误音频的问题了,毕竟重ROLL总是能ROLL到好的生成音频的
The text was updated successfully, but these errors were encountered: