Skip to content

micelvrice/auto-TTS-bupt

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Training Parameters

  • Dataset Source: ./voice/下的文件夹
  • Language: 要转录(音频到文字)到的语言代码: { "英语": "en", "中文": "zh", "西班牙语": "es", "法语": "fr", "德语": "de", "日语": "ja", "韩语": "ko", "俄语": "ru", "阿拉伯语": "ar", "葡萄牙语": "pt", "意大利语": "it", "荷兰语": "nl", "瑞典语": "sv", "丹麦语": "da", "挪威语": "no", "芬兰语": "fi", "希腊语": "el", "土耳其语": "tr", "印地语": "hi", "波兰语": "pl", "泰语": "th" }
  • Validation Text Length Threshold: 低于此值的转录文本长度将被剔除并放入验证数据集中。设置为 0 则忽略该选项。
  • Validation Audio Length Threshold: 音频长度,同上。
  • Skip Existing: 如果已经存在whisper.json,则跳过转录。
  • Slice Segments: 根据whisper返回的时间戳修剪片源(请先人工检查一下whisper的转录结果,有时候并不总是准确的)。
  • Trim Segments: 使用TorchAudio的VAD来修剪静音,减小音频文件的实际大小,从而在训练时节省更多的处理时间和VRAM。
  • Slice Start Offset: 在分割音频文件时偏移起始时间戳。
  • Slice End Offset: 在分割音频文件时偏移结束时间戳。
  • Transcribe and Process: 开始转录,同时在必要时进行切片,并分割为训练集和验证集

Releases

No releases published

Packages

No packages published

Languages