Hallusion Bench

multimodal

About

HallusionBench is an advanced diagnostic benchmark for evaluating visual-language models' susceptibility to hallucinations and visual illusions. Featuring 346 images with 1,129 questions, this benchmark tests models' image-context reasoning abilities, focusing on detecting entangled language hallucinations and visual illusions. HallusionBench provides comprehensive evaluation of multimodal models' reliability and accuracy in visual understanding tasks.

Evaluation Stats

Total Models2

Organizations1

Verified Results0

Self-Reported2

Benchmark Details

Max Score1

Language

Performance Overview

Score distribution and top performers

Score Distribution

2 models

Top Score

55.2%

Average Score

54.0%

High Performers (80%+)

Top Organizations

#1Alibaba Cloud / Qwen Team

2 models

54.0%

Leaderboard

2 models ranked by performance on Hallusion Bench

			License		Links
#01Qwen2.5 VL 72B Instruct	Alibaba Cloud / Qwen Team	Jan 26, 2025	tongyi-qianwen	55.2%
#02Qwen2.5 VL 7B Instruct	Alibaba Cloud / Qwen Team	Jan 26, 2025	Apache 2.0	52.9%

Resources

Research Paper