9월 18일부터 22일까지 인턴 송도 컨벤시아에서 AI 음성 및 신호처리 분야 국제학술대회, '인터스피치 2022(INTERSPEECH 2022)'가 개최됐습니다
인터스피치는 국제 스피치 통신 협회(International Speech Communication Association: ISCA)가 주최하는 음성처리 분야 세계 최대 규모 학술대회로 올해 무려 23회째를 맞이했어요 올해는 '인간과 인간화된 컴퓨터 인터페이스(Human and Humanizing Spoken Language)'를 주제로 인간과 인간, 인간과 사물, 사물과 사물 간 언어와 음성으로 주고받을 때 필요한 음성신호 처리, 음성인식, 음성합성, 다중언어 번역, 음성변환, 보조 음성치료 등에 대해 논의하는 시간을 가졌습니다.
(인터스피치 2022 내 LG 부스)
(학회에 참석해주신 많은 분들께서 부스를 방문해주셨어요)
LG 부스에는 LG AI연구원, LG전자, LG유플러스가 참여하여 음성인식 기술을 소개했어요!
LG AI연구원은 유튜브 뉴스 영상의 STT (speech to text) 기능을 시연했습니다. STT 기능은 유튜브 뉴스 영상의 음성을 실시간으로 텍스트로 변환해주면서 키워드까지 추출해내는 기술인데요, 해당 기술을 고객 상담 서비스에 적용하면 대응 메뉴얼을 빠르게 마련하거나 관련 전문가에게 신속하게 연결하는 등 효율성을 높일 수 있다고 해요!
음성 상담 내용의 핵심이 무엇인지 요약하는 기술도 함께 선보이며 이 기술을 활용하면 상담 내용이 불만, 환불 등 어떤 서비스 파트에 해당하는지, 문의한 고객이 긍정, 부정, 중립 중 어떤 감정 상태인지 분류 가능하다는 것을 보여주었습니다 (WOW! 정말 대단하지 않나요?!)
(LG 부스에서 유튜브 영상 STT를 시연해주고 있는 모습이에요!)
(학회에서 빠질 수 없는 LG AI연구원 Language Lab장 최정규님께서 Industry talk 발표를 해주셨어요)
학회 중 진행된 Industry talk 시간에는 Language Lab장 최정규님께서 발표에 나서 EXAONE의 음성과 언어 분야 기술 개발에 관해 발표해주셨어요! EXAONE Voice 연구는 자기 지도학습, E2E (End To End) 음성 기술, 최적화(optimization), 도메인 적용의 총 네 단계를 거치는데, 그중 최적화 기법 연구를 통해서는 보다 높은 정확도와 빠른 추론, 낮은 컴퓨팅 비용을 사용해 기술을 실현할 수 있다며 개별 연구 단계의 중요성에 대해 강조했습니다. LG AI연구원에서는 GPU 카드 없는 실시간 스트리밍 E2E STT 추론 기술도 개발했다고 소개하며, 내부 평가 결과 EXAONE이 안정적인 음성인식 정확도를 확보했다는 긍정적인 연구 성과를 알리기도 했습니다! 저희 Language Lab이 최근에 어떤 연구를 했는 지, 앞으로 AI연구에 어떤 변화를 줄 수 있는 지 알아볼 수 있는 유익한 시간이었습니다
INTERSPEECH 외에도 하반기에 다양한 학회에 참여하여 AI연구원을 소개할 예정이오니 많은 관심 부탁드려요