集思广益，有没有判断生成的音频是错误音频的好办法？方便重roll #1067

BOCEAN-FENG · 2024-05-08T14:29:28Z

训练素材是1h纯人声素材

目前遇到的问题音频出现概率15%左右，类型如下：
①参考文本出现在生成音频中
②生成音频出现哈哈哈声
③生成音频错字
④生成音频有较长的空白段

目前尝试过
a.时长判断，但是这种情况只对于④有效
b.ASR识别生成音频，然后跟生成文本比对，不过模型生成的音频发音不是很标准，识别效果不是很好，所以否掉

不知道大家有没有方法能够识别？如果可以的话，这算是变相解决错误音频的问题了，毕竟重ROLL总是能ROLL到好的生成音频的

Downupanddownup · 2024-05-09T01:30:13Z

训练素材是1h纯人声素材

目前遇到的问题音频出现概率15%左右，类型如下： ①参考文本出现在生成音频中 ②生成音频出现哈哈哈声 ③生成音频错字 ④生成音频有较长的空白段

目前尝试过 a.时长判断，但是这种情况只对于④有效 b.ASR识别生成音频，然后跟生成文本比对，不过模型生成的音频发音不是很标准，识别效果不是很好，所以否掉

不知道大家有没有方法能够识别？如果可以的话，这算是变相解决错误音频的问题了，毕竟重ROLL总是能ROLL到好的生成音频的

说说我的个人经验吧，遇到参考音频问题比较大得情况，一般从这四个方面处理：

1，保证打标准确，虽然阿里的asr工具的常规文本准确率很高，但是在拟声词识别和文本标点符号，比如逗号、问号、叹号方面的识别不是很准确，所以需要手动处理一遍

2，调低gpt轮数，gpt轮数太高，出现问题频率以及英语能力的退化程度就越大。根据我的体感吧，2小时内的素材，gpt轮数10轮足够。

3，文本切分参数cut_punc，拉满，也就是设置成,.;?!、，。？！；：… 因为GPT-SoVITS主要是通过短句训练的，所以长句的推理效果都不太理想，用文本切分参数把长句切成断句，可以降低音频出现问题的概率

4，替换参考音频，不同参考音频出现问题的概率不同，有的很容易出现，有的很少出现。所以准备多条参考音频，比如20条，做批量推理，对推理结果做asr和文本相似度分析，从相似度分值高的里面找参考音频。

对于第4点，我做了一个筛选工具，有兴趣的话，你可以试下

#1044

上面是链接

BOCEAN-FENG · 2024-05-09T05:41:46Z

感谢！很有帮助！

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

集思广益，有没有判断生成的音频是错误音频的好办法？方便重roll #1067

集思广益，有没有判断生成的音频是错误音频的好办法？方便重roll #1067

BOCEAN-FENG commented May 8, 2024

Downupanddownup commented May 9, 2024 •

edited

Loading

BOCEAN-FENG commented May 9, 2024

集思广益，有没有判断生成的音频是错误音频的好办法？方便重roll #1067

集思广益，有没有判断生成的音频是错误音频的好办法？方便重roll #1067

Comments

BOCEAN-FENG commented May 8, 2024

Downupanddownup commented May 9, 2024 • edited Loading

BOCEAN-FENG commented May 9, 2024

Downupanddownup commented May 9, 2024 •

edited

Loading