Google DeepMind hat Gemma 4 12B vorgestellt, ein neues, offenes KI-Modell mit 12 Milliarden Parametern, das multimodale Agenten direkt auf handelsüblichen Laptops mit 16 GByte RAM ermöglicht. Dieses Modell verarbeitet Text, Bilder und erstmals auch Audio nativ, was die Einstiegshürde für lokale KI-Agenten senkt. Gemma 4 12B verzichtet auf separate Vision- und Audio-Encoder und verarbeitet den Input direkt über das LLM-Backbone. Es positioniert sich zwischen kleineren Edge-Varianten und größeren MoE-Modellen und zeigte in ersten Tests eine signifikant schnellere Inferenzzeit und geringeren Token-Verbrauch im Vergleich zu anderen Modellen.