라인-네이버, 최고 권위 음성 신호처리 학회 ‘ICASSP’서 논문 14편 채택

2021.02.26 ALL

■ 라인 및 네이버의 공동연구논문 2편 포함해 총 14편 채택

■ 음성 합성 품질 개선 및 음성 인식률 향상 연구 면에서 우수성 입증

 

2021년 2월 26일 – 라인 주식회사(LINE Corporation/이하 라인, 대표이사 사장 신중호, 이데자와 다케시) 및 네이버 주식회사(대표이사 한성숙)는 최고 권위의 국제 음향∙음성∙신호처리 학술대회 ICASSP(International Conference on Acoustics, Speech, and Signal Processing, 이하 ICASSP)에 라인 및 네이버의 논문 14편이 채택되었다고 밝혔다.

올해로 46회차를 맞이하는 ICASSP는 국제전기전자협회 신호처리학회(IEEE Signal Processing Society)가 주최하는 음향∙음성∙신호처리 분야 세계 최대 규모의 국제학회이다. 올해는 3,600편 이상의 논문이 등록되었으며, 이 중 약 1,700편의 논문이 채택되어 오는 6월 온라인으로 개최되는 ‘ICASSP 2021’에서 발표될 예정이다.

 

음성 합성 기술, 음원 분리 기술, 환경음 식별 기술 등 음향∙음성∙신호처리 분야 기초연구에 주력

라인은 전략사업 중 하나인 AI 사업 발전을 가속화하기 위해 AI 연구개발 및 기술 활용 분야에서 네이버 클로바 및 AI LAB과 긴밀하게 협력하고 있다. 데이터 기반 개발, 데이터 분석, 머신러닝, AI 기술 개발, 기초연구 등을 담당하는 각 팀은 각자의 영역을 넘어 연계함으로써 연구, 개발, 사업화로 이어지는 사이클을 강화하고 있다.

이와 함께 라인 및 네이버는 AI관련 서비스 및 기능 개발을 뒷받침하는 기초연구에도 힘쓰고 있으며, 머신러닝 기반의 음성 처리, 언어 처리, 화상 처리 등에 주력하고 있다. 음향∙음성 및 신호처리의 경우 GPU를 활용한 ‘Parallel WaveGAN’을 이용해 빠른 속도와 높은 품질을 실현하는 ‘음성 합성 기술’, 음성 품질과 음성 인식률 향상을 위해 다양한 소리가 혼합된 소리를 각각의 소리로 분리하는 ‘음원 분리 기술’, 기계를 이용해 주변에서 발생하는 다양한 소리를 자동으로 검출 및 인식하는 ‘환경음 인식 기술’을 지속적으로 연구하고 있다.

 

음성 합성 품질 개선 및 음성 인식률 향상 연구 면에서 우수성 입증

이번 ‘ICASSP 2021’에서는 음성 합성 관련 ‘생성적 대립 신경망(Generative Adversarial Network, GAN)'*¹ 을 이용해 비 자기회귀형 음성 생성 모델*²  ‘Parallel WaveGAN’에서 유성음∙무성음 정보를 활용, 식별기를 개량한 연구를 소개했다. 단일 식별기를 이용한 기존 ‘Parallel WaveGAN’은 식별기의 표현력과 학습을 제한해 여러 화자의 말뭉치에 적용할 경우 품질이 저하된다는 문제점이 있었다. 이번 연구에서는 유성음과 무성음의 음성 성질이 상이하다는 점에 착안, 각 음성의 성질에 맞는 식별기를 설계해 합성 음성의 품질을 크게 개선시켰다. 또한, 순차적인 연구이기는 하지만 총 4명의 남녀 화자를 대상으로 대규모 주관평가실험을 실시, 해당 접근법의 유효성을 검증한 것이 높이 평가받았다.

또한, 음원 분리와 관련해 심층 학습을 사용하지 않는 음원 분리 방식인 ISS(Iterative Source Steering)와 심층 학습을 이용한 음원 모델 추정 방식을 접목시킨 새로운 방식을 제안했다. 기존 ISS보다 음성 인식률을 크게 향상시킨 점과 더불어 해당 접근법이 음원 수에 의존하지 않아도 적용 가능한 프레임워크라는 점에서 우수성을 입증했다.

*¹ 머신러닝의 분류모델 중 하나로, 두 가지 뉴럴 네트워크를 이용해 학습하며 입력된 데이터 및 이미지를 통해 새로운 유사 데이터를 생성한다.
*² 과거에 생성한 음성에 의존하지 않고 각 시점의 음성을 생성하는 모델. 병렬처리가 가능하기 때문에 계산 효율이 높다.

 

적극적인 AI 기초연구 통해 서비스 가치 높여 갈 것

라인과 네이버의 공동 AI 브랜드인 라인 클로바 및 네이버 클로바는 다양한 AI 기술 및 서비스를 통해 일상과 비즈니스의 번거로움을 해소함으로써 사용자의 삶의 질을 높이고 보다 편리하고 풍요로운 세상을 만들어가는 것을 목표로 한다. 현재 라인과 네이버의 음성 인식 기술 ‘클로바 스피치(CLOVA Speech)’와 음성 합성 기술 ‘클로바 보이스(CLOVA Voice)’를 활용한 솔루션을 제공하고 있다.

라인 클로바 및 네이버 클로바의 대표적 솔루션인 ‘AiCall’은 클로바 스피치, 클로바 보이스와 대화 제어 시스템을 결합해 사용자의 요청에 AI가 자연스럽게 응대하는 서비스로서 행정기관 및 음식점 등에서 활용되고 있다. 또, 지난 해 출시된 ‘클로바노트(CLOVA Note)’는 인터뷰나 업무 미팅 등 다양한 상황에서 이루어지는 대화를 인식하여 내용을 기록하고 관리할 수 있는 서비스로, 장시간 녹음 데이터 분석에 특화된 음성 인식 모델을 적용하여 높은 인식 정확도를 구현한다. AI 합성음으로 동영상을 더빙할 수 있는 '클로바 더빙'은 코로나19로 원격수업을 하는 교사들이 동영상 자료를 제작하는데 유용하다는 평가를 받고 있다. 책 읽어주는 AI 조명 '클로바 램프'에도 음성인식과 합성 기술이 적용됐다.

 

앞으로도 라인과 네이버는 적극적인 AI 기초 연구를 통해 기존 서비스의 품질을 더욱 높이고, 새로운 기능과 서비스를 선보일 계획이다. 

 

 

채택 논문 (라인 및 네이버 공동)

- PARALLEL WAVEFORM SYNTHESIS BASED ON GENERATIVE ADVERSARIAL NETWORKS WITH VOICING-AWARE CONDITIONAL DISCRIMINATORS / R. Yamamoto, E. Song, M. Hwang, and J. Kim

- TTS-BY-TTS: TTS-DRIVEN DATA AUGMENTATION FOR FAST AND HIGH-QUALITY SPEECH SYNTHESIS / M. Hwang, R. Yamamoto, E. Song, and J. Kim

 

채택 논문 (라인)

- END TO END LEARNING FOR CONVOLUTIVE MULTI-CHANNEL WIENER FILTERING / M. Togami

- DISENTANGLED SPEAKER AND LANGUAGE REPRESENTATIONS USING MUTUAL INFORMATION MINIMIZATION AND DOMAIN ADAPTATION FOR CROSS-LINGUAL TTS / D. Xin, T. Komatsu, S. Takamichi, H. Saruwatari

- SURROGATE SOURCE MODEL LEARNING FOR DETERMINED SOURCE SEPARATION / R. Scheibler, M. Togami

- REFINEMENT OF DIRECTION OF ARRIVAL ESTIMATORS BY MAJORIZATION-MINIMIZATION OPTIMIZATION ON THE ARRAY MANIFOLD / R. Scheibler, M. Togami

- JOINT DEREVERBERATION AND SEPARATION WITH ITERATIVE SOURCE STEERING / T. Nakashima, R. Scheibler, M. Togami, N. Ono

 

채택 논문 (네이버)

- NN-KOG2P: A NOVEL GRAPHEME-TO-PHONEME MODEL FOR KOREAN LANGUAGE / 김화연, 김종환, 김재민

- THE INS AND OUTS OF SPEAKER RECOGNITION: LESSONS FROM VOXSRC 2020 / 권유환, 허희수, 이봉진, 정준선

- PLAYING A PART: SPEAKER VERIFICATION AT THE MOVIES / Andrew Brown, 허재성, Arsha Nagrani, 정준선, Andrew Zisserman

- GRAPH ATTENTION NETWORKS FOR SPEAKER VERIFICATION / 정지원, 허희수, 유하진, 정준선

- INTERMEDIATE LOSS REGULARIZATION FOR CTC-BASED SPEECH RECOGNITION / 이재송, Shinji Watanabe

- TWO-STAGE TEXTUAL KNOWLEDGE DISTILLATION TO SPEECH ENCODER FOR SPOKEN LANGUAGE UNDERSTANDING / 김성빈, 김규완, 신성진, 이상민

- ST-BERT: CROSS-MODAL LANGUAGE MODEL PRE-TRAINING FOR END-TO-END SPOKEN LANGUAGE UNDERSTANDING  /김민정, 김규완, 이상우, 하정우

 

 

■ 라인 주식회사 소개

라인 주식회사 (LINE Corporation)은 ‘클로징 더 디스턴스(Closing The Distance)’를 미션으로 사람, 정보, 콘텐츠, 서비스를 한데 모으는 글로벌 스마트 포털을 구축하고 있다. 2011년 6월 라인 메신저 서비스를 시작한 이래 AI 기술과 핀테크 등 다양한 분야로 진출하며 글로벌 모바일 생태계를 조성하고 있다.