시각은 우리가 지니고 있는 감각 중에서도 가장 복잡하고 뛰어난 성능을 지닌 것이라 할 수 있어요. 실제로 우리는 주변 사물을 직접 만지거나 느껴보지 않고서도, 단 한 번 흘깃 쳐다보는 것만으로 현재나 과거, 그리고 미래에 일어날 상황을 예측해낼 수 있죠. 우리가 대화할 때, 상대자의 표정과 제스처를 보고 분위기에 맞추어 대화를 이어가거나, 야구에서 투수가 빠르게 던지는 공을 배트로 힘껏 쳐낼 수 있는 것도 모두 이러한 시각 능력을 선천적으로 보유하고 있기 때문입니다.
하지만 사람과 달리 로봇이나 자동차 그리고 가전에 이러한 시각 관련 지능을 부여하는 것은 매우 어려워요. Vision Lab은 이러한 인지와 판단, 수행에 필요한 시각 지능의 현실화를 주요 목표로, 인간의 생활에 보다 편리하고 안전하게 다가가기 위해 노력하고 있습니다.
Visual Analytics
객체 분류(Classification)와 검출(Detection)은 전통적인 컴퓨터 비전 분야의 기본 요소 기술로 그동안 많은 연구가 이루어진 주제이며, 비전 검사, CCTV, 자율주행 등 다양한 응용 분야에서 실제 많이 활용되고 있는 기술입니다. 딥러닝 모델을 학습하기 위해서는 많은 양의 데이터를 필요로 하지만 데이터를 수집하기 어려운 응용 분야도 존재하고 지도 학습을 위해 많은 양의 데이터에 정답을 달아주어야 하는 어려움이(Annotation Bottleneck)이 따릅니다.
이와 같은 데이터와 관련된 한계점들을 극복하고 효율적으로 응용분야에 AI를 적용하기 위해 Labeling 없이 이미지 데이터의 특징을 학습하는 Self-supervised Representation Learning, 과거에 학습하였던 정보를 잊어버리는 문제(Catastrophic Forgetting)를 해결하고 새로운 task를 수행할 수 있도록 학습하는 Continual Learning, Informative 데이터를 효율적으로 선택하여 Human Labeling하는 것을 반복 수행함으로써 소수의 데이터셋만으로도 신속하게 학습할 수 있는 Active Learning, 딥러닝 분류 모델의 판단 근거를 가시화할 수 있는 Explainable AI등을 연구하고 있어요.
Visual Understanding
Visual Understanding은 시각 정보를 추상화하여 사람이나 AI가 이해할 수 있는 데이터로 만드는 것을 목표로 합니다. 이를 통해 주변의 환경에 대한 종합적이고 고차원적인 이해를 바탕으로 AI의 사고와 판단 수준이 인간과 가까워지도록 노력하고 있습니다. 현재 Object Detection, Segmentation, Graph Network, Transformer, OCR 기술을 바탕으로 연구를 수행하고 있으며, 이 연구는 LG그룹의 디지털 트랜스포메이션에 중요한 역할을 담당하는 심층 문서 독해(Deep Document Understanding) 과제에서 활용되고 있습니다.
Meet our leader!
Vision Lab 김승환 랩장
“저희 Vision Lab은 Image/Video Analytics, Understanding, Generation에서 Low-level Vision, 3D Reconstruction & Synthesis까지 비전 분야를 폭 넓게 연구하고 있습니다.
LG AI연구원에 지원하시어 저희가 보유한 수 억장의 Dataset으로 최고 수준의 인프라 환경을 발판 삼아, 저희 연구원과 함께 성장해 나가고 있는 Vision 연구자들과 함께 새로운 미래를 만들어 나가시길 바랍니다.”
김승환 랩장님이 소개하는 Vision 연구에 대해 직접 알아보세요!