Multimodal Large Languange Models | Adobe Media and Data Science Research (MDSR) Laboratory

Evaluating Variance in Visual Question Answering Benchmarks

Multimodal large language models (MLLMs) have emerged as powerful tools for visual question answering (VQA), enabling reasoning and …

HIRE: Lightweight High-Resolution Image Feature Enrichment for Multimodal LLMs

The integration of high-resolution image features in modern multimodal large language models has demonstrated significant improvements …

Nikitha SR, Aradhya Neeraj Mathur, Tarun Ram Menta, Rishabh Jain, Mausoom Sarkar