윈도우

마이크로소프트가 국내 대학 프로젝트에 지원한 사례 : 음성합성 기술


  • 이직 기자
    • 기사
    • 프린트하기
    • 크게
    • 작게

    입력 : 2015-04-02 00:58:08

    한국마이크로소프트는 31일 광화문 사옥에서 기자간담회를 갖고 마이크로소프트 리서치 인재육성 플랫폼의 지원을 받은 연구 프로젝트 사례를 발표 했다.

    이날 발표는 마이크로소프트 리서치(Microsoft Research)가 연세대학교 전자전기공학과 강홍구 교수의 음성합성 기술에 대한 연구를 지원해 수행한 성과에 대한 사례를 공개하는 자리였다.

    음성합성 기술은 마이크로소프트 코타나나 애플 시리 같은 서비스의 근간이 되는 기술이다.

    강홍구 교수는 마이크로소프트 인재 육성 플랫폼 중 연구 협력 분야와 인재 육성 분야의 지원을 받아 연구를 진행해 왔고, 음성신호처리 분야 중 문자를 음성으로 변환하는 TTS(Text-to-Speech)분야를 연구했다.

    연구 성과를 발표하는 연세대학교 전기전자공학과 강홍구 교수

     

    TTS는 입력 텍스트를 분석해 음성신호로 처리하는 기술로 지하철 등의 안내방송이나 대중교통 안내, 내비게이션, 장애인을 위한 스크린 리더, 음성합성기, 스마트 기기, 음성 번역기, 오락용/교육용 어플리케이션 등에 쓰이는 기술이다.

    TTS를 사용하면 안내방송 등에 사람이 직접 안내하는 것보다 편리하고 음성의 일관성을 유지할 수 있고, 시간 및 비용을 절감할 수 있어서 널리 쓰이고 있다.

    문자-음성 변환(TTS) 기술은 마이크로소프트 코타나(Cortana)나 애플 시리처럼 차세대 보조 입출력 방식으로 각광받고 있고, 마이크로소프트 밴드 같은 웨어러블 기기, 감정 로봇, 인공지능 로봇 등에도 널리 쓰이고 있는 기술이다.

    여러 분야 중 문자를 음성으로 변환하는 부분(TTS)에 대한 연구를 수행했다

     

    실제 사람이 말하는 것처럼 자연스러운 음성합성을 해 내는 것이 목표이며, 합성음질이 깨끗하고 자연스러운 운율이 가능하도록 연구하고 있다.

    음성합성 방식은 3가지가 있는데 포먼트 합성, 데이터베이스 기반의 음성조각 연결 합성,  데이터베이스 기반의 통계적 파라메트릭 모델합성 순으로 발전해 왔다.

     

    강홍구 교수팀은 지난 3년간 은닉 마르코프 모델(HMM ; Hidden Markov Model)을 이용한 통계기반 합성 방법의 성능 개선 연구를 수행했다. 또 최근 머신 러닝 분야에서 각광받고 있는 deep learning(DNN : Deep Neural Network) 기반의 음성합성 시스템 구현 및 성능 향상에 대한 연구를 수행했고, 다국어 지원이 가능한 음성합성 시스템으로 확장하기 위한 필수 기술 연구를 통해 향후 개인별 맞춤 시스템으로 활용 가능성을 타진했다.

    음성 데이터를 직접 사용하는 방법에 이어 이 데이터를 모델로 만들어서 사용하는 방법이 쓰여 왔는데, 데이터를 모델로 만들어서 쓰는 방법은 학계에서 사용하기는 거의 불가능에 가깝다. 왜냐하면 성우 등을 섭외해 수일간 녹음한 것을 이용해야하기 때문에 음성 파일이 너무나 방대하기 때문이다. 그래서 이런 방식은 기업에서 주로 써 왔다.

    그래서 이런 불편함을 해소하기 위해 세번째 방법을 이용하게 되었다. 음성을 만들어 내는 방법은 소스- 필터 모델을 쓴다. 성대가 울리는 유성음, 성대가 울리지 않는 무성음이 있다. 유성음은 성대가 떨리기 때문에 파장이 있고, 남성 보다 여성이 더 많은 진동이 있다. 이런 부분을 연구하는 것이 유성음 모델링이다. 무성음은 잡음처럼 모델링 하면 된다.

     

    유성음일 때는 주기함수, 무성음일 때는 노이즈(잡음) 등을 가지고 여기(익사이테이션, excitation)모델이라 한다.

    초기에는 유성음일 때와 무성음일 때를 구분해 각각 저장해 놓고, 그 부분들을 합성해 소리를 만들었는데, 이런 소리는 매우 부자연스러웠다.

    사람마다 다른 소리가 나는 것은 성도(Vocal Tract)의 모양이 다르기 때문이다. 따라서 익사이테이션과 보컬 트랙트(성도)를 알고 있으면 그 사람의 음성을 합성할 수 있다.

    익사이테이션 파트와 보컬 트랙트 파트를 파라미터로 잘 모델링해 놓고, 나중에 이를 잘 합성하면 자연스러운 음성을 만들어낼 수 있다. 그런데, 소스에 따라서 음성의 퀄리티는 매우 달라진다. 복잡하게 만들수록 더욱 소리는 자연스러워 지는데, 문제는 통계적인 특성이 달라 이것을 모델로 만들기가 매우 어렵다는 것이다.

     

    익사이테이션을 모델로 만드는 것이 음성합성 분야에서는 매우 중요한 분야다. 강홍구 교수팀이 수행한 첫번째 연구는 이 익사이테이션을 어떻게 모델링할 것이냐 하는 부분이었고, 두번째 연구는 이 모델을 히든 마르코프 모델이 아니라, 요즘 각광을 받고 있는 딥 러닝 (DNN : Deep Learning Network)기반의 음성합성 시스템으로 어떻게 확장할 것이냐에 대한 연구였다.

     

     

     세번째로 수행한 공동연구는 다국어 지원이 가능한 음성합서 시스템으로 확장하기 위한 필수 기술을 연구했다. 이를 통해 향후 개인별 맞춤 시스템으로 활용할 수 있을지 가능성을 타진할 예정이다.

    강홍구 교수는 이번 공동 연구를 수행하면서 특히 연구를 주도했던 연구원들이 마이크로소프트 본사에서 인턴으로 근무할 수 있었던 경험에 큰 만족을 느꼈다고 밝혔다. 마이크로소프트 연구소 아시아 멘토와 1:1 멘토링을 할 수 있어서 좋았고, 다양한 연구수행 방법을 경험한 것도 큰 도움이 되었다고 밝혔다.


    베타뉴스 이직 기자 (leejik@betanews.net)
    Copyrights ⓒ BetaNews.net