구글, 실제 목소리·억양 적용한 ‘번역기 모델’ 공개

[사진=cybrain/shutterstock]
번역 기능이 나날이 향상되고 있다. 하지만 통역기를 통해 흘러나오는 음성은 실제 자신의 목소리와 다르다.

이에 구글이 화자의 음성 그대로 번역이 되는 새로운 통역기 모델을 처음으로 공개했다.

이번에 공개된 ‘트랜슬레이토트론(Translatotron)’은 화자의 목소리와 억양을 반영해 번역 음성을 들려준다.

이 번역 솔루션은 화자의 음성을 텍스트로 번역한 다음 다시 음성으로 변환하는 과정에서 일어나는 오류를 개선하지는 못했다. 대신 변환돼 나온 음성이 화자의 목소리와 동일하도록 만들었다.

구글에 의하면 트랜슬레이토트론은 ‘시퀀스 투 시퀀스 네트워크 모델’을 사용해 번역이 이루어진다. 화자의 목소리를 입력하면 이를 시각적으로 표현하는 스펙트로그램 처리가 이뤄지고, 이를 번역 언어로 된 새로운 스펙트로그램으로 구현하는 것이다.

이러한 방식은 단계 과정이 많지 않아 중간에 소실되거나 오류가 나는 것을 최소화하면서도 빠르게 번역할 수 있다.

번역된 음성은 아직 로봇 기계 장치 같은 느낌을 줄 수 있다. 하지만 화자 음성의 기본적인 요소들은 효과적으로 유지했다.

구글은 최근 몇 달간 통역 기능이 보다 섬세하고 실제와 유사하도록 조정하는 작업에 집중하고 있다. 지난해에는 거주 지역의 억양과 강세를 고려해 언어들을 음성화할 수 있는 구글 번역기를 소개했다. 영어는 물론 프랑스어, 스페인어, 벵골어에 이 서비스를 적용했다. 가령 영어를 인도인의 억양과 강세로 들을 수 있는 것이다. 올해 초에는 구글 어시스턴트를 통해 “통역 모드를 켜라”라고 명령하면 26가지 언어에 대한 통역이 가능해지도록 서비스를 확대하기도 했다.

문세영 기자 pomy80@kormedi.com

저작권ⓒ '건강을 위한 정직한 지식' 코메디닷컴(http://www.kormedi.com) / 무단전재-재배포 금지