[24’ ECCV] BLINK: Multimodal Large Language Models Can See but Not Perceive
카테고리: Multimodal
태그: Perception Benchmark
🔍 Abstract
ECCV 2024 Benchmark Track에서 발표된 BLINK는 Multimodal Large Language Models의 Perception 능력을 평가하는 Benchmark이다. 본 리뷰에서는 결과 위주로 간단히 살펴보고자 한다.
- Problem: 현존하는 MLLM Benchmark는 대개 Recognition 능력을 평가한다. 즉, Visual Input을 유사한 Dense Caption으로 바꾼 후, LLM에게 평가하도록 해도 유사한 성능을 낼 수 있다.
- Method: BLINK는 Perception 능력을 평가하기 위해 Visual Input으로만 알 수 있는 정보들을 확인한다. 여기에는 Low-level Pattern Matching, Mid-level Reasoning, High-level Visual Understanding 등이 포함된다.
- Result: BLINK는 인간에게는 굉장히 쉬우나, 현존하는 MLLM에게는 어려운 Visual Perception Task가 있다는 것을 보여준다.
1. BLINK Benchmark
BLINK는 다른 Benchmark와 달리 Perception 능력을 평가한다. 이는 Visual Input으로만 알 수 있는 정보들을 확인하는 것을 의미한다. 구체적인 비교는 위 그림을 참고.
BLINK는 14개의 Task로 구성되어 있으며, 각각의 예시는 위 그림을 참고. Cambrian-1에서 제안했던 Vision-centric Task와 유사한 부분이 많다.
2. Result
2.1. Main Results
전체적인 결과는 위와 같다. 여기서 Take Home Message를 정리하자면,
- 필요한 Semantic Information의 수준에 따라 Low-level부터 High-level까지 분류해볼 때, Mid-level Task는 비교적 쉽게 해결할 수 있었다.
- 필요한 Granularity의 수준에 따라 Image-level부터 Pixel-level까지 분류해볼 때, Image-level Task는 비교적 쉽게 해결하였지만 Crop-level 및 Pixel-level Task는 어려웠다.
2.2. Analysis
- MMBench, MMMU와 같은 Benchmark는 Image를 Caption으로 변경해도 유사한 성능이 나온다. 이는 Recognition 능력만 평가하기 때문이다. 대신, BLINK는 Perception 능력을 평가하며, 이 때문에 Image를 Caption으로 변경하면 성능이 떨어진다.
- Visual Prompt의 경우 적절한 크기와 눈에 잘 띄는 색상을 사용하는 것이 중요하다.
- Specialist Model과 MLLM 사이의 Performance Gap이 크다. 따라서, Specialist Model의 능력을 Distillation하여 MLLM에게 전달하는 것이 앞으로의 가능한 연구 방향이 될 수 있다.
💡 Summary
해당 논문의 내용을 간단히 요약하면 다음과 같다.
- BLINK는 MLLM의 Perception 능력을 평가하는 Benchmark로, Recognition 능력만 평가하는 Benchmark와 차별화함
- 아직 MLLM은 Crop 및 Pixel Level Task를 잘 해결하지 못하는 Visual Perception Gap을 가지고 있으며, 이를 Specialist Model의 능력을 Distillation하여 해결할 수 있을 것으로 제안함
댓글 남기기