Skip to content

对照实验·实验记录

RVC-Boss edited this page Jul 26, 2023 · 3 revisions

一、对照实验数据集

训练集(target speaker)约8min。

采样试听(用于展示音色和训练集质量)来自 米津玄師《ピースサイン》

trainset_sample_audio.mp4

测试音频:夏真浔 翻唱 《冬之花》 第一段

input_audio_fuyu-no-hana_clip1.mp4

before-baseline-version(史前版本)混音结果完整版(《冬の花》coverd by AI米津玄師):

https://www.bilibili.com/video/BV1Kb411d7zC

二、faiss索引对照(updated20230428)

结论:

1、nprobe增大对效果影响不大,因此更新后从7降至1,检索速度7倍;

2、fastscan(PQ128)质量有损(注意 wa ta shi no i no "ch"i),暂时不采纳;

3、top8进行加权混合代替top1:显著削弱高频刺耳的现象,提升了音频质量,采纳。

baseline-nprobe1.mp4
baseline-nprobe7.mp4
fastscan.pq128rflat.-nprobe7.mp4
top8weighted_mix-nprobe1.mp4

三、backbone结构对照(底模+小训练集fine tune)

version:hubert_base(ContentVec)+add 3 period discriminators

harvest+邻域3的中值滤波+index_rate=1

hubert_base结构下,中间hidden size为768,结尾linear至256

C768:不使用final_proj

C256:使用final_proj

L9/L12:hubert的特征层数

baseline(当前版本):C256L9

结论:C768L12默秒全(呼吸+辅音齿音电流声)。

audio_c768l12.mp4
audio_c256l9.mp4
audio_c256l12.mp4
audio_c768l9.mp4

四、RVC_v3偷跑

大就是好!

rvc_v3.-.mp4
Clone this wiki locally