Große Sprachmodelle (LLMs) stoßen bei der Erklärung und Vorhersage physikalischer Prozesse an ihre Grenzen, da sie Wissen aus Texten replizieren, anstatt es zu verstehen. Um dieses Defizit zu beheben, konzentriert sich die KI-Forschung zunehmend auf Weltmodelle, die physikalische Mechanismen begreifen und logisch begründete Vorhersagen treffen können. Diese Modelle erfordern eine andere Struktur und andere Trainingsdaten als LLMs, können aber von deren Architektur und Trainingserfahrungen profitieren. Nvidia unterscheidet zwischen Vorhersagemodellen für Bewegungsdynamik, Stilübertragungsmodellen mit ControlNets für feingranulare Steuerung und Reasoning-Modellen für autonome Systeme, die multimodale Eingaben analysieren.