인간은 다양한 감각 중 시각을 통해 가장 많은 양의 정보를 얻습니다. 또한 인간은 수많은 정보를 추상화하고 상징화한 언어를 통해 세상을 이해합니다. 이렇듯 시각 정보와 언어 정보는 형태가 완전히 다르지만, 추상화된 공간에서 서로 연결되어 인간의 인지 능력을 제공합니다. 이 점에 주목하여 멀티모달 랩은 Visual Data와 Laguage Data 사이에서 얽혀있는 정보를 풀어내고 모델링하여 새로운 가능성을 제시합니다. 멀티모달 생성형 AI를 통해 텍스트로부터 이미지를 생성하거나, 반대로 이미지로부터 텍스트를 생성하는 모델을 개발하고 있습니다. 또한 의료 영상 데이터와 이종의 임상/검사 데이터를 융합하여 새로운 Translational Medicine 기술에 도전하고 있습니다.
Multimodal Model
서로 다른 형태의 데이터, 특히 2D 및 3D Visual Data와 Language Data 이종 간 데이터를 통합 이해하는 멀티모달 연구를 수행하고 응용 기술을 개발합니다. Generative Model을 통한 Image Generation 및 Image Captioning 기술, 실제 응용에서의 성능 제고를 위한 Prompt Engineering 및 모델 최적화 기술, 다양한 Vision Task의 기초가 되는 Vision Foundation Model을 연구합니다.
Medical Data Analysis
다양한 의료영상(Radiology, Tomography, Microscopy)과 임상 및 각종 검사 데이터를 아우르는 Medical Foundation Model 구축을 목표하고 있습니다. 방대하면서도 이종의 형태를 갖는 의료 데이터에 대한 정제 및 처리 기술을 기반으로 다양한 Medical Task를 수행할 수 있는 Multimodal Model 개발에 주력하여 Translational Medicine의 새로운 지평을 제시합니다.
Meet our leader!
Multimodal Lab 이순영 랩장
“인간은 주로 시각을 통해 다양하고 복잡한 외부 환경 정보를 습득하고, 추상적이고 상징적인 수단인 언어를 통해 시각 정보를 해석하여 세계를 이해합니다. 이처럼 시각 정보와 언어 정보는 형태와 특성이 완전히 다르지만, 추상적인 차원에서 상호적으로 연결되어 인간의 인지 능력을 형성합니다. 멀티모달 랩은 이러한 관찰에 주목하여, 시각 데이터와 언어 데이터 간에 존재하는 복잡한 상호작용을 해석하고 모델링하여 새로운 기회와 가능성을 제시합니다.
멀티모달 랩은 다양한 분야에서 생성형 인공지능의 혁신적인 가능성을 탐험하고, 이를 구현하며, 현실로 만들어 가고 싶습니다. 새로운 아이디어와 열정이 가득한 여러분을 기다리겠습니다.”