라인, 세계 최대 규모 음성 신호처리 학회 'ICASSP 2023'서 논문 8편 채택

2023.04.14 ALL

■음성 인식 및 음성 합성 연구 성과 우수성 인정

■채택 논문 8편 중 6편 라인이 주저자로 작성...지난해보다 2배 증가

2023년 4월 14일 – 라인 주식회사(LINE Corporation/이하 라인, 대표이사 사장: 이데자와 다케시/ Idezawa Takeshi)는 세계 최대 규모의 음성∙음향∙신호처리 학술대회인 ICASSP 2023에서 논문 8편이 채택되었다고 밝혔다.

올해로 48회차를 맞이하는 ICASSP(International Conference on Acoustics, Speech, and Signal Processing)는 국제전기전자협회 신호처리학회(IEEE Signal Processing Society)가 주최하는 음성∙음향∙신호처리 분야 내 세계 최대 규모의 국제학회이다.

채택된 논문 8편 중 6편은 라인이 주저자로, 해당 학회에 채택된 라인이 주저자인 논문 수는 지난해 3편에서 두 배 늘어나는 성과를 거두었다. 2편은 다른 저자와 공동 집필한 논문이며, 모두 학회 개최 기간인 6월 4일부터 10일 중 발표된다.

감정 음성 합성 및 음원 분리 시 보다 자연스러운 음성 합성을 실현하는 제안에 높은 평가

이번 ICASSP 2023에서 채택된 논문[4]에는 감정 음성 합성 시 텍스트에서 음성 파형으로 변환하는 과정에서 음성 피치 정보(음성 높이)를 이용하는 엔드투엔드(End-to-End) 모델에 관한 제안이 소개되었다. 기존 모델은 보다 풍부한 표현을 필요로 하는 감정 음성 합성 시 자연스러운 음성을 합성하기 어려운 사례가 많았으나, 변환 과정을 단일 모델로 수행하는 엔드투엔드(End-to-End) 모델은 양질의 음성을 생성할 수 있다.

제안 방법에서는 감정 음성 합성 시 보다 중요한 피치 정보를 양(陽)으로 모델링하였다. 이를 통해 생성 음성의 피치 정보를 보다 정확하게 표현할 수 있게 되어, 기존 방법으로는 생성이 어려웠던 피치가 극단적으로 높거나 낮은 발화에서도 보다 자연스럽고 안정된 결과를 얻을 수 있음을 입증했다. (※이미지1 참조)

또한, 논문[5]에서는 다수의 화자가 혼재된 음성을 분리하는 음원 분리 시 이미지 생성에도 활용되는 확산 모델을 이용하는 방식이 채택되었다. (※이미지2 참조) 머신러닝을 이용하는 기존의 음원 분리는 교사 데이터의 음성 분리도를 극대화하는 식별 모델을 이용하는 방식이 주류였으나, 분리도가 높은 음성이라도 인간이 듣기에는 부자연스러운 경우가 종종 있었다.

제안 방법에서는 이미지 생성에도 활용되는 생성 모델 중 하나인 확산 모델을 음원 분리에 활용함으로써 자연스러운 음성 생성을 실현했다. 확산 모델을 활용한 결과, 분리음의 왜곡이 줄어들어 인간의 지각 능력에 기반한 음성 품질 평가 지표(DNSMOS)에서 기존 방법을 상회했다.

/stf/linecorp/ko/pr/Image1.png

이미지1: 생성 음성 및 육성 음성의 멜 스펙트로그램

/stf/linecorp/ko/pr/Image2.png

이미지2: 디퓨전(Diffusion) 혼합 과정

라인은 AI 기술을 활용해 새로운 서비스를 창출하는 동시에 AI 기술 연구 개발 활동에도 적극 투자하고 있다. 특히 음성 처리 분야에서는 음성 인식 및 음성 합성 기술을 중심으로 여러 저명한 학회에서 영향력 있는 연구 성과를 발표한 바 있다. 예로, 고품질의 음성을 고속으로 합성할 수 있는 'Parallel WaveGAN'*1, 고속 음성 인식을 실현하는 기법인 비 자기회귀형 음성 인식*2 모델 중에서도 가장 정밀도가 높은 'Self-Conditioned CTC'*3 등의 최첨단 기술을 개발해 왔다. 또한, 환경음 분석에서는 국제 경진대회인 DCASE 2020에서 세계 1위를 차지하기도 했다.

라인은 앞으로도 AI 기술 기초 연구를 적극 추진해 기존 서비스의 품질 향상은 물론 새로운 기능 및 서비스 창출에 노력을 기울일 예정이다.

*1 Parallel WaveGAN(PWG): 머신러닝 생성 모델의 하나로, 2개의 신경망을 이용하여 학습을 수행하고 입력된 데이터에서 새로운 유사 데이터를 생성하는 '생성적 대립 신경망(Generative Adversarial Network/GAN)'을 이용한 비 자기회귀형 음성 생성 모델

*2 비 자기회귀형 음성 인식: 과거에 생성한 텍스트에 의존하지 않고 각 시점의 음성을 인식하는 기법

*3 Self-Conditioned CTC: End-to-End형 음성 인식 모델의 일종으로 뉴럴 네트워크의 중간층에서 예측한 텍스트를 참고하여 최종 예측을 하는 기법

채택 논문

1. R. Yamamoto et al., "NNSVS: NEURAL NETWORK BASED SINGING VOICE SYNTHESIS TOOLKIT"

2. R. Yoneyama et al., "Non-parallel High-Quality Audio Super Resolution with Domain Adaptation and Resampling CycleGANs"

3. M. Kawamura et al., "LIGHTWEIGHT AND HIGH-FIDELITY END-TO-END TEXT-TO-SPEECH WITH MULTI-BAND GENERATION AND INVERSE SHORT-TIME FOURIER TRANSFORM"

4. Y. Shirahata et al., "Period VITS: Variational inference with explicit pitch modeling for End-to-End emotional speech synthesis"

5. R. Scheibler et al., "DIFFUSION-BASED GENERATIVE SPEECH SOURCE SEPARATION"

6. Y. Fujita et al., "Neural Diarization with Non-autoregressive Intermediate Attractors"

7. T. Kawamura et al., "Effectiveness of Inter- and Intra-Subarray Spatial Features for Acoustic Scene Classification"

8. H. Zhao, et al., "Conversation-oriented ASR with multi-look-ahead CBS architecture"

※1~6번은 라인이 주저자로 집필했으며, 7번과 8번은 각각 도쿄도립대학, 와세다대학과의 공저 논문임.

■라인 주식회사 소개

라인 주식회사(LINE Corporation)는 ‘클로징 더 디스턴스(Closing The Distance)’를 미션으로 사람, 정보, 콘텐츠, 서비스를 한데 모으는 글로벌 스마트 포털을 구축하고 있다. 2011년 6월 라인 메신저 서비스를 시작한 이래 AI 기술과 핀테크 등 다양한 분야로 진출하며 글로벌 모바일 생태계를 조성하고 있다.