BLIVA: 텍스트 포함 이미지 해석을 위한 모델

최신 기술

BLIVA: 텍스트 포함 이미지 해석을 위한 모델

byoelcardi 2023. 8. 30. 18:36

728x90

오늘 말씀드릴 포스트는 최근에 발표된 비전 언어 모델(Vision Language Models, VLMs) 중중 BLIVA라는 모델을 소개해드리고자 합니다. BLIVA는 텍스트와 이미지를 함께 다루는 과제를 해결하기 위한 모델입니다.

기존의 VLMs는 시각적 이해 능력을 포함하여 대형 언어 모델(Large Language Models, LLM)을 확장한 것으로, 시각적 질의응답(Visual Question-Answering, VQA) 과제에서 성과를 보였습니다. 그러나 이러한 모델은 텍스트가 이미지와 결합된 상황을 정확하게 해석하지 못하는 한계가 있었습니다. 아무래도 기존의 VLMs 모델들은 단순히 LLM을 확장한 형태이기 때문에 텍스트와 이미지가 결합된 상황에서는 task에 대해서 정확히 파악하기가 힘듭니다.

BLIVA는 이러한 한계를 극복하기 위해 등장한 모델로, InstructBLIP와 시각적 어시스턴트를 통합하여 텍스트와 이미지를 함께 처리할 수 있는 능력을 가지고 있습니다. BLIVA는 InstructBLIP의 쿼리 임베딩을 활용하며, 동시에 인코딩된 이미지 패치 임베딩을 LLM으로 직접 투영하는 기술을 사용합니다. 때문에 텍스트와 이미지가 결합한 형태에서 더 좋은 결과를 가져올 수 있습니다.

소개자료에 따르면 BLIVA는 복잡한 이미지 속 세부 정보를 놓치는 문제를 해결하고, 텍스트가 풍부한 시나리오에서의 VQA 벤치마크 성능을 눈에 띄게 향상시켰다고 합니다. 또한, 일반적인 VQA 벤치마크에서도 우수한 성과를 보여준다고 합니다.

자세한 내용은 아래의 논문을 참고해 주시면 좋을 것 같습니다.

https://arxiv.org/abs/2308.09936