Peter Gostev, AI Capability Lead bei Arena und Entwickler des „BullshitBench“-Benchmarks, testet die Fähigkeit von Chatbots, unsinnige oder fehlerhafte Fragen zu erkennen. Sein Hauptziel ist es, die Intelligenz von Sprachmodellen zu bewerten, indem er prüft, ob sie erkennen, wenn eine Frage logisch nicht haltbar ist, wie beispielsweise die Berechnung des Haltbarkeitsdatums eines Unit-Tests. Gostev arbeitet bei Arena (früher LMArena an der Universität Berkeley), wo Chatbots im Blindtest verglichen werden, um eine Rangliste der Modelle von Anbietern wie Claude, Google und OpenAI zu erstellen. Er betont die Wichtigkeit, selbst unsinnige Fragen zu erkennen, um zu vermeiden, unbemerkt falsche Antworten zu erhalten, und warnt vor den Fallstricken von KI-Benchmarks, da selbst Arena bereits ausgetrickst wurde.