Xiaomi hat mit MiMo-V2 eine Familie von KI-Modellen für agentische Systeme vorgestellt, die Planung, Wahrnehmung und Sprache integrieren. Das Spitzenmodell MiMo-V2-Pro, das auf einem Expertenmodell mit über einer Billion Parametern basiert, konkurriert in Benchmarks mit globalen Top-10-Modellen und zeichnet sich durch ein großes Kontextfenster von bis zu einer Million Tokens aus. Es ist über die API deutlich günstiger als vergleichbare Modelle wie Claude Sonnet und Opus. Das multimodale Modell MiMo-V2-Omni ergänzt die Planungskomponente um Wahrnehmung und Ausführung von Bild-, Video- und Audiodaten, während MiMo-V2-TTS die sprachliche Echtzeitkommunikation in Englisch und Chinesisch übernimmt. Die Modelle sollen zukünftig auch Open Source veröffentlicht werden, sobald sie stabil genug sind.