Das Problem mit Aufmerksamkeitsmetriken: Was KI-Videoanalyse sichtbar macht

Seit Jahren wird Video-Werbung anhand eines einzigen Indikators gemessen: ob jemand zugeschaut hat. View-through-Rate, durchschnittliche Betrachtungsdauer, Abschlussrate - diese Kennzahlen bestätigen, dass Augen auf dem Bildschirm waren. Was das Gehirn dabei gemacht hat, sagen sie nicht.

Jemand kann 30 Sekunden lang zuschauen und danach nichts Relevantes erinnern. Oder vier Sekunden einer Szene reichen aus, um eine starke Erinnerung zu hinterlassen. Dieser Unterschied zeigt sich nicht im Analytics-Dashboard. Er entsteht tief im Gehirn - im visuellen Kortex, in den Hörzentren, in den Gedächtnis- und Emotionsbereichen, die am Ende darüber entscheiden, ob deine Botschaft wirklich landet.

Genau diese Lücke zwischen dem, was jemand schaut, und dem, was im Kopf bleibt, ist das zentrale ungelöste Problem im Video-Marketing. Und der Grund, warum A/B-Tests dir fast nie erklären können, warum ein Creative besser performt als ein anderes.

700+
fMRT-Datensätze menschlicher Probanden, auf denen TRIBE v2 trainiert wurde
Meta AI Research, Algonauts 2025
20.000
kortikale Messpunkte werden pro Video-Frame erfasst
TRIBE v2 Neural Encoding Model
6
Gehirnregionen in Echtzeit: Visuell, Auditiv, Sprache, Emotion, Gedächtnis, Präfrontal
app.publicimpact.ai

Was TRIBE v2 tatsächlich macht

TRIBE v2 ist ein neuronales Kodierungsmodell, das bei Meta AI Research entwickelt wurde. Trainiert auf fMRT-Daten von über 700 Probanden, die echte Videos gesehen haben, hat das Modell in sehr feiner Auflösung gelernt, wie visuelle und auditive Signale auf Aktivierungsmuster im Gehirn einzahlen.

Wenn du ein Video auf app.publicimpact.ai hochlädst, analysiert das Modell jeden einzelnen Frame. Es extrahiert Audio- und Bildmerkmale und verarbeitet sie über dieselben Kodierungsmechanismen, die aus echten Gehirnscans gelernt wurden. Das Ergebnis sind vorhergesagte BOLD-Signale (Blood-Oxygen-Level-Dependent) über 20.000 kortikale Messpunkte - dieselben Signale, die ein Neurowissenschaftler im fMRT-Scanner messen würde. Allerdings liegen die Ergebnisse hier in Sekundenschnelle vor - nicht erst nach stundenlangen Laboranalysen.

Algonauts 2025-Gewinner: TRIBE v2 erzielte die höchste Vorhersagegenauigkeit aller Modelle im Algonauts Challenge 2025, dem führenden internationalen Benchmark für die neuronale Modellierung von Gehirnaktivität. Kein Marketing-Modell, das auf Klickdaten trainiert wurde. Echte Neurowissenschaft - jetzt im Browser.
Quelle: Meta AI Research / Algonauts Challenge 2025

Die sechs Gehirnregionen, die für Marketing zählen

Das Tool fasst die kortikalen Vorhersagen in sechs Bereiche zusammen, die sich direkt für Creative-Entscheidungen nutzen lassen:

ROI 1
Visueller Kortex
Reagiert auf Bewegung, Kontrast, Farbe und Bildkomplexität. Springt bei harten Schnitten, schnellen Bewegungen und starken Kontrasten besonders stark an.
ROI 2
Auditiver Kortex
Verfolgt Tonhöhe, Sprachrhythmus, Musik und Hintergrundklang. Zeigt, ob dein Audio das Bild unterstützt oder dagegen arbeitet.
ROI 3
Sprachareale
Verarbeitet Gesprochenes, Untertitel und eingeblendeten Text. Zeigt, welche Teile deiner Narration wirklich ankommen - und welche einfach nicht gehört werden.
ROI 4
Emotion (Amygdala)
Das kommerziell wichtigste Signal überhaupt. Emotionale Aktivierung ist ein zuverlässigerer Indikator für Erinnerung, Teilen und Kaufabsicht als jede Klickmetrik.
ROI 5
Gedächtnis (Hippocampus)
Springt dieser Bereich genau dann an, wenn deine Marke ins Bild kommt, ist das der neurologische Fingerabdruck von echtem Marken-Recall.
ROI 6
Präfrontaler Kortex
Zuständig für Abwägen, Bewerten und Entscheiden. Steigt die Aktivität hier während deines CTAs, ist das ein direktes Signal für bewusstes Nachdenken.

Wie die Analyse im Detail abläuft

Einfach ein Video auf app.publicimpact.ai hochladen - der Rest läuft automatisch auf einer A100-GPU:

1
TranskriptionWhisperX erkennt das gesprochene Wort auf Sekunden genau. Die Sprache wird automatisch erkannt - Deutsch, Englisch oder alles andere, ohne manuelle Einstellung.
2
MerkmalsextraktionTRIBE v2 verarbeitet Bild- und Audiosignale parallel und zieht die multimodalen Merkmale heraus, auf denen das Modell trainiert wurde.
3
Neuronale KodierungDas Modell berechnet die BOLD-Aktivierung über 20.000 kortikale Vertices, Frame für Frame. Das entspricht in etwa einem simulierten fMRT-Scan eines Zuschauers, der dein Video ansieht.
4
ROI-ZeitreihenDie Vorhersagen werden über die sechs Gehirnbereiche gemittelt und als Zeitkurven dargestellt. Du siehst auf der Zeitachse genau, wann Aktivierung steigt - und wann sie abfällt.
5
Gehirn-HeatmapsNilearn rendert Glass-Brain-Bilder für die Momente mit der höchsten und niedrigsten Gesamtaktivierung - eine direkte visuelle Darstellung, welche Kortexbereiche wann aktiv waren.
6
GPT-4o-AnalyseAuf Basis der ROI-Werte, des Transkripts und der Heatmaps schreibt GPT-4o eine qualitative Einschätzung mit konkreten, umsetzbaren Verbesserungsvorschlägen für dein Creative.

Was KI-Videoanalyse für deine Creative-Entscheidungen bedeutet

Nehmen wir einen konkreten Fall: einen 60-Sekunden-Markenfilm. Klassische Metriken sagen dir, wie lange die Leute zugeschaut haben und wo sie abgebrochen sind. Die neuronale Analyse stellt dir die Fragen, die wirklich zählen: Springt die Gedächtnisregion an, als dein Sprecher bei Sekunde 38 zum ersten Mal den Markennamen nennt? Aktiviert sich die Emotionsregion, wenn das Produkt bei Sekunde 52 ins Bild kommt? Und beim Call-to-Action: Steigt das präfrontale Engagement noch einmal an - oder ist die Aufmerksamkeit des Zuschauers da längst aufgebraucht?

Das sind die Fragen, die darüber entscheiden, ob ein Video konvertiert. Klickzahlen geben keine Antwort darauf. Die bekommst du nur, wenn du verstehst, was im Gehirn des Zuschauers tatsächlich passiert.

Was die Heatmaps immer wieder zeigen: In Tests mit bestehenden Ad-Creatives treten zwei Muster konsistent auf. Videos mit starker emotionaler Aktivierung und Gedächtnisaktivierung rund um die Markenmomente schneiden in Recall-Studien klar besser ab. Videos mit hoher visueller Aktivierung, aber flacher emotionaler Reaktion, erzeugen Aufmerksamkeit ohne Kaufabsicht - das klassische "Ich hab die Werbung gesehen, weiß aber nicht mehr wofür"-Phänomen.
Interne Analyse, app.publicimpact.ai

Warum das erst jetzt möglich ist

Zwei Dinge haben sich in den letzten 18 Monaten verändert. Erstens hat die TRIBE v2-Forschung bei Meta einen Reifegrad erreicht, bei dem neuronale Vorhersagen über verschiedene Probanden hinweg präzise genug sind, um außerhalb des Labors wirklich nützlich zu sein. Die Algonauts-2025-Ergebnisse haben das bestätigt: TRIBE v2-Vorhersagen korrelieren stark mit echten Hirnmessungen - sogar bei Probanden, die nicht im Training waren.

Zweitens sind die Kosten für GPU-Berechnungen stark gefallen. Eine Analyse dieser Art pro Video ist heute kommerziell machbar. Die gesamte Pipeline läuft auf einer einzigen A100-GPU in drei bis fünf Minuten. Noch vor einem Jahr hätte dieselbe Rechenleistung einen dedizierten Cluster und ein sechsstelliges Budget vorausgesetzt.

Eine Fähigkeit, die bisher nur in Forschungslaboren existierte, steht heute jedem offen - mit einer Video-Datei und einem Browser.

So setzt du es konkret ein

app.publicimpact.ai ist live. Lade einfach eine Video-Datei hoch. Beim ersten Mal dauert der Start rund drei Minuten, weil die GPU erst hochfahren muss. Danach geht es schneller. Du bekommst die vollständigen ROI-Zeitkurven, die Glass-Brain-Heatmaps, die Transkriptsynchronisierung und die GPT-4o-Auswertung mit konkreten Empfehlungen.