제주 사투리를 위한 음성인식 방언 번역기 만들기
2022년 현재, 방언 음성인식은 정확하지 않고, 특히 표준어와 차이가 큰 제주 방언은 인식이 더욱 힘들기에,
다양한 모델을 활용하여 방언 음성 인식 번역기를 제작한다.
- 김규인 : Transformer, Bart, KoBart
- 석민재 : Transformer, LED, Longformer
- 양병진 : Transformer, Bart, KoBart, M2M100
- 이재혁 : Transformer, DeepSpeach2, Tacotron2
- 최현호 : Transformer, koSpeach, Electra
- 텍스트 데이터 : AiHub - 한국어 방언 발화(제주도)
- 음성 데이터를 DeepSpeach2를 이용해 STT 수행
- 변환한 방언 텍스트를 TransFormer 모델을 사용해 표준어로 번역
- 번역된 텍스트를 Tacotron2, Naver CLOVA 를 사용해 오디오 파일로 변환
Transformer 4층의 결과가 제일 좋은 것을 알 수 있다.
위의 과정을 통해 제주 방언을 표준어로 충분히 번역하는 모델 생성에 성공
하지만 단조로운 데이터를 사용하고, 데이터의 양을 추가하고, 더 적합한 모델을 찾는다면 더 좋은 성능으로 개선이 가능할 것으로 보임