Rückspiegel, Glaskugeln und künstliche Instinkte: Warum historische Daten (nicht) alles sind

VON Helmut Barz

Hand aufs Herz: Wenn du das Wort »historisch« hörst, woran denkst du zuerst? Vielleicht an verstaubte Akten im Keller des Finanzamts, an das Domesday Book aus dem 11. Jahrhundert oder an die mäßig spannenden Geschichtsstunden in der neunten Klasse. Ich wusste das bis vor kurzem auch nicht so genau, aber in der Welt der Datenanalyse bedeutet »historisch« etwas ganz anderes. Es ist im Grunde alles, was nicht jetzt gerade passiert.

Die Pizza-Bestellung, die du gestern Abend aufgegeben hast? Historische Daten. Die Temperaturkurve der letzten 150 Jahre? Historische Daten. Die Tatsache, dass die NASA 1999 eine 193 Millionen Dollar teure Mars-Sonde verloren hat, weil jemand Pfund-Sekunden mit Newton-Sekunden verwechselt hat? Ein sehr schmerzhaftes Stück historischer Daten.

In diesem Artikel graben wir uns durch dieses digitale Sediment. Wir schauen uns an, warum wir diese Daten brauchen, warum sie uns manchmal frech ins Gesicht lügen und was eine Künstliche Intelligenz eigentlich macht, wenn sie plötzlich vor einer Situation steht, die so noch nie in ihren Geschichtsbüchern stand.

Dieser Beitrag als Podcast:

1. Was genau sind »historische Daten« (und was sind sie nicht)?

Fangen wir ganz simpel an. Historische Daten sind Informationen aus der Vergangenheit, die über einen bestimmten Zeitraum gesammelt und dokumentiert wurden. Im Grunde sind sie das digitale Gedächtnis unserer Welt.

Aber Vorsicht: »Historisch« ist ein relativer Begriff. In der Welt des Hochfrequenzhandels an der Börse sind Daten bereits nach wenigen Millisekunden »historisch«. Für einen Klimaforscher beginnt die Geschichte erst bei Jahrzehnten so richtig interessant zu werden. Laut t2informatik umfassen diese Daten im Unternehmen alles: von Projektplänen über Quellcode bis hin zu alten Budgets.

Was sie nicht sind: Sie sind keine unfehlbaren Propheten. Viele Menschen machen den Fehler zu glauben, dass Daten die Zukunft sind. Aber Daten beschreiben nur, was war. Wer nur in den Rückspiegel schaut, wird früher oder später gegen einen Baum fahren, der gestern noch nicht da stand. Historische Daten sind ein Korrektiv, eine Orientierungshilfe, aber niemals die ganze Wahrheit.

2. Wie wir diese Schätze bergen: Die Erfassung

Früher war Datenerfassung ein Knochenjob. Mönche haben jahrelang Bibeln abgeschrieben (und dabei sicher den einen oder anderen Tippfehler eingebaut), und Kapitäne haben händisch Logbücher geführt. Heute haben wir das zum Glück automatisiert, aber die menschliche Komponente ist immer noch unser größter Schwachpunkt.

Die gute alte Handarbeit (Manuelle Erfassung)

Wir Menschen sind beim Tippen erstaunlich kreativ, was Fehler angeht. Statistiken zeigen uns, dass uns bei der manuellen Eingabe von 10.000 Datensätzen im Schnitt mindestens 400 Fehler unterlaufen. Das sind 400 Momente, in denen wir ein Komma falsch setzen oder ein Datum verdrehen. Ein berühmtes Beispiel ist der »Spinat-Fehler« von 1870: Ein Chemiker setzte das Komma beim Eisengehalt falsch, und plötzlich galt Spinat für 60 Jahre als das übermenschliche Kraftfutter schlechthin – alles nur wegen eines Tippfehlers.

Die digitalen Fließbänder (Automatisierte Erfassung)

Heutzutage lassen wir lieber Maschinen Tagebuch führen. Laut Symestic nutzen Unternehmen heute Systeme wie:

IoT-Sensoren: Die in Echtzeit Temperatur, Druck oder Vibrationen messen.
OCR & ICR: Software, die gescannten Text oder sogar Handschriften erkennt.
Web Scraping: Digitale Archäologen, die das Internet nach Trends durchforsten.

Der Vorteil? Es geht rasend schnell und spart bis zu 90 % der Kosten im Vergleich zur manuellen Arbeit. Aber auch Maschinen können »lügen«, wenn sie falsch kalibriert sind – siehe das Mars-Orbiter-Debakel der NASA.

3. Der Werkzeugkasten: Wozu nutzen wir das Ganze?

Warum machen wir uns die Mühe? Weil historische Daten wie eine Landkarte sind. Ohne sie wüssten wir nicht, wo wir herkommen und wo wir vermutlich landen werden.

Die digitale Kristallkugel (Prognosen): Ein Einzelhändler analysiert die Verkaufsdaten der letzten fünf Jahre. Er sieht: Im November steigen die Chips-Umsätze immer um 40 %. Also bestellt er rechtzeitig nach. Das ist keine Magie, das ist Predictive Analytics.
Aus Fehlern lernen (Risikomanagement): Banken schauen sich historische Kreditausfälle an. Wenn Gastronomiebetriebe in Krisenzeiten öfter pleitegehen, werden die Zinsen dort angepasst. Grausam, aber logisch.
Wissenschaft & Forschung: Klimaforscher nutzen Temperaturdaten seit der Industrialisierung, um den Erwärmungstrend zu belegen. Ohne diese Historie wäre jede Diskussion über den Klimawandel nur Spekulation.

4. Die dunkle Seite: Risiken, Biases und gefährliche Halbwahrheiten

Jetzt wird es kritisch. Historische Daten haben ein massives Problem: Sie sind oft so voreingenommen wie wir Menschen es sind. Wenn wir eine KI mit Daten aus der Vergangenheit füttern, bringen wir ihr im Grunde unsere alten Vorurteile bei.

Das Bias-Problem im Alltag

Ein »Bias« ist eine systematische Verzerrung. In den Dokumenten finden wir zwei besonders krasse Beispiele:

Personalwesen (HR): Stell dir vor, ein Unternehmen hat in den letzten 20 Jahren hauptsächlich Männer in blauen Hemden für Führungspositionen eingestellt. Eine KI, die mit diesen Daten trainiert wird, lernt: »Männer in blauen Hemden = Erfolg«. Qualifizierte Frauen oder Männer in grünen Hemden werden aussortiert. Die KI ist nicht böse, sie spiegelt nur unsere eigene Vergangenheit wider.
Strafvollzug & Justiz: Wenn Kriminalitätsstatistiken zeigen, dass in bestimmten Vierteln öfter verhaftet wird, schickt die Polizei dort mehr Patrouillen hin. Dadurch werden dort noch mehr Menschen verhaftet. Die KI sieht diese Daten und sagt: »Dieses Viertel ist gefährlich«. Es entsteht eine selbsterfüllende Prophezeiung, die auf historischen Ungerechtigkeiten basiert.

Der Survivorship Bias

Das ist mein persönlicher Lieblingsfehler. Wir schauen oft nur auf die »Überlebenden«. Ein Investor sieht sich die Aktienkurse der Firmen an, die heute noch existieren, und stellt fest: »Schnitt von 12 % Rendite!«. Dass hunderte Firmen währenddessen pleitegegangen sind und aus der Statistik verschwunden sind, ignoriert er. Das Ergebnis ist eine gefährlich optimistische Verzerrung.

Kontext ist König

Historische Daten ohne Kontext sind wie ein Kompass in der Nähe eines Magneten. Wenn eine Fluglinie Buchungsdaten von 2019 nutzt, um 2020 zu planen, und dann eine globale Pandemie kommt, sind die Daten wertlos. Der Kontext hat sich fundamental geändert.

5. Das »Digitale Dunkle Zeitalter« und rechtliche Fallstricke

Wir leben in einer paradoxen Zeit. Wir produzieren mehr Daten als je zuvor, aber sie sind flüchtiger als ein Steinmeißel.

Technische Obsoleszenz: Kennst du das Domesday Book? Das Original von 1086 ist heute noch lesbar. Die digitale Version der BBC von 1986 war bereits nach 15 Jahren unlesbar, weil die LaserDiscs und die Software veraltet waren. Wir riskieren, dass unsere Nachfahren über uns weniger wissen als wir über die alten Ägypter.
Die DSGVO-Keule: Historische Daten enthalten oft personenbezogene Infos. Das »Recht auf Vergessenwerden« (Art. 17 DSGVO) kollidiert hier hart mit dem Wunsch, Archive zu pflegen. Zum Glück gibt es für die Forschung Ausnahmen (Art. 89 DSGVO), aber für Unternehmen ist das ein rechtliches Minenfeld.

6. KI ohne Vergangenheit: Wie lernt man, was man nicht kennt?

Jetzt wird es richtig spannend (und ein bisschen spacig). Was passiert eigentlich, wenn eine KI vor einer Situation steht, für die es absolut keine historischen Daten gibt? Wenn sie zum Beispiel einen Eisbären erkennen soll, aber noch nie ein Bild von einem gesehen hat?

Klassische KI-Systeme sind »datenhungrig«. Sie brauchen tausende Katzenbilder, um eine Katze zu erkennen. Aber moderne KI nutzt Techniken, die an menschliche Intuition erinnern.

Zero-Shot Learning: Das Einhorn-Prinzip

Stell dir vor, ich beschreibe dir ein Einhorn: »Es sieht aus wie ein Pferd, hat aber ein einzelnes, gedrehtes Horn auf der Stirn«. Obwohl du vermutlich noch nie ein echtes Einhorn gesehen hast (hoffe ich jedenfalls), würdest du es sofort auf einem Foto erkennen.

Genau das macht Zero-Shot Learning. Die KI lernt nicht nur Bilder, sondern semantische Begriffe. Sie weiß, was »Streifen«, »Pferd« und »schwarz-weiß« sind. Wenn sie dann ein Zebra sieht (das nicht im Training war), schlussfolgert sie: »Das muss ein Zebra sein«. Laut Brightdata ist das der Schlüssel zur Erkennung völlig neuer Kategorien.

Few-Shot Learning & Meta-Learning: Das Kind im Gehirn

Menschen brauchen nicht tausend Versuche. Ein Kind sieht ein paar Mal einen Hund und »versteht« das Konzept Hund. Few-Shot Learning gibt der KI nur 2 bis 5 Beispiele. Ermöglicht wird das durch Meta-Learning – das »Lernen zu lernen«. Die KI wird darauf trainiert, sich extrem schnell an neue Aufgaben anzupassen, anstatt nur auswendig zu lernen.

Synthetische Daten: Wenn wir uns die Welt basteln

Wenn wir keine Daten über seltene Autounfälle haben (weil sie zum Glück selten sind), dann bauen wir sie uns einfach im Computer. In Simulationen werden synthetische Daten erzeugt. Ein Roboter kann so in einer virtuellen Welt Millionen Greifversuche machen, bevor er in der echten Welt zum ersten Mal eine Kaffeetasse anfasst. Das ist sicher, günstig und befreit uns von der Abhängigkeit realer Historie.

Reinforcement Learning: AlphaGo Zero

Das beeindruckendste Beispiel ist AlphaGo Zero. Während frühere Versionen mit tausenden Partien menschlicher Go-Spieler trainiert wurden, kannte AlphaGo Zero nur die Regeln. Es spielte Millionen Partien gegen sich selbst. Ohne jegliche historischen Daten von Menschen wurde es innerhalb von drei Tagen unschlagbar. Es hat seine eigene »Geschichte« erschaffen.

Fazit: Kontext ist alles

Historische Daten sind ein Geschenk. Sie erlauben uns, Muster zu erkennen, die wir mit bloßem Auge niemals sehen würden. Sie sind die Basis für fast alles, was wir heute unter »Fortschritt« verstehen.

Aber wir müssen aufhören, sie als absolute Wahrheit zu betrachten. Daten brauchen immer einen Menschen (oder eine sehr kluge KI), der den Kontext versteht. Wir müssen uns der Biases bewusst sein, die wir in unsere Systeme einbacken, und wir müssen akzeptieren, dass die Vergangenheit zwar ein Lehrer, aber kein Diktator für die Zukunft ist.

In einer Welt, die sich immer schneller dreht, wird die Fähigkeit der KI, auch ohne Daten zu lernen, immer wichtiger. Aber am Ende des Tages sind es die historischen Daten – unsere Erfolge, unsere Hybris und sogar unsere Tippfehler –, die die Geschichte erzählen, wer wir sind.

Geh also ruhig mal wieder in deinen digitalen Keller und schau dir deine alten Daten an. Vielleicht entdeckst du dort dein ganz persönliches »Spinat-Komma«.

Literatur & Quellen (Auszug)

Zurück

Weiter