关于识别几秒时长的语音 #204

xingjunhong · 2023-07-31T08:03:02Z

假设：有一段几秒的语音，其中有关键词在语音内，其余的都是杂音。
问题：如何找到关键词的开始位置和结束位置，并且将其识别？

majianjia · 2023-08-02T06:52:46Z

喂数据的时候是一帧一帧的滑动窗口，你可以结合vad来做起始和结束时间戳

xingjunhong · 2023-08-02T07:06:27Z

我看main_pc.c脚本，推理时，是每一秒都有一个推理结果，可以用这个结果来当做起始位置吗？

majianjia · 2023-08-02T09:38:36Z

取决于你用什么类型的模型，如果是RNN那种，是每十几毫秒就有一帧

Provide feedback