About

MiMo-V2-Omni is a frontier omni-modal model that natively processes image, video, and audio inputs within a unified architecture. It combines strong multimodal perception with agentic capability - visual grounding, multi-step planning, tool use, and code execution - making it well-suited for complex real-world tasks that span modalities. 256K context window.

Model Family

MiMo-V2-Pro2026-03-18 MiMo-V2-Flash (Feb 2026)2025-12-16 MiMo-V2-Flash (Reasoning)2025-12-16 MiMo-V2-Flash (Non-reasoning)2025-12-16

Benchmarks

MMLU-ProNot evaluated

GPQA Diamond

82.8%

HLE

19.9%

LiveCodeBenchNot evaluated

SciCode

36.7%

TerminalBench Hard

34.8%

MATH-500Not evaluated

AIMENot evaluated

AIME 2025Not evaluated

IFBench

53.5%

Long Context Recall

66.7%

Tau2

91.2%

Market AverageTop Score

mimo-v2-omni

About

Model Family

Market Position

Pricing

Cost Calculator

vs. Similar Models

Performance

Benchmarks

Quick Compare

Similar Models