발표자: 고려대학교 DSBA 연구실 석사과정 마민정(minjeong_ma@korea.ac.kr)
1. 논문 제목 : BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation (ICML, 2022)
2. 원문 링크 : [ Ссылка ]
3. 요약
- Vision-Language Understanding/Generation Task에 유연하게 적용할 수 있는 새로운 VLP 프레임워크인 BLIP 제안
- Captioner가 Synthetic Caption을 생성하고 Filter가 노이즈 있는 캡션을 제거하는 Bootstrap 방식으로 노이즈가 있는 웹 데이터를 효과적으로 활용함
- Image-Text Retrieval, Image Captioning, VQA 등 다양한 Vision-Language Task에서 SOTA 달성
- Zero-shot 방식으로 Vision-Language Task에 직접 적용했을 때 강력한 일반화 능력을 보임
4. Keyword : #BLIP, #ALBEF, #VisionLanguage
5. 발표자료: [ Ссылка ]
![](https://i.ytimg.com/vi/Kgf7CigUfZc/maxresdefault.jpg)