Gr├╝ner Schwan bezeichnet eine neue Klasse systemischer Risiken, vor allem aus dem Kontext des Klimawandels, die ebenso unvorhersehbar wie unumkehrbar sind und dabei die Stabilit├ñt von Wirtschaft und Gesellschaft tiefgreifend gef├ñhrden k├Ânnen. Er baut auf dem Begriff des ÔÇ×Schwarzen SchwansÔÇ£ von Taleb auf, der in seinem gleichnamigen Buch damit seltene Ereignisse mit enormer Wirkung, wie etwa die Finanzkrise 2008 beschreibt. Seinen Namen verdankt das Konzept der historischen Annahme, alle Schw├ñne seien wei├ƒ ÔÇô bis 1697 in Australien zum ersten Mal ein schwarzer Schwan tats├ñchlich beobachtet wurde. Gr├╝ne Schw├ñne hingegen existieren (nach wie vor) nicht.
Die Datenwirtschaft teilt seit vielen Jahren ihre Daten auf Lizenzbasis. Die Nutzer bezahlen f├╝r die Erstellung, Bereitstellung und Art der Datennutzung. Lizenz- und Preisstandards dazu gibt es nicht. Doch nicht nur das. Es fehlt dem Markt an Qualit├ñtsorientierung. Nehmen wir das Beispiel der Vollst├ñndigkeit. So lange alle Objekte unserer Welt nicht vollst├ñndig in Raum und Zeit digital erfasst sind, fehlt es an der objektiven Referenz. Was gibt es alles und wieviel davon? ├£ber die sogenannten ÔÇ×unknown unknownsÔÇ£ wissen wir nichts. Das ist gewiss. Mit welchem Ma├ƒ an Gewissheit k├Ânnen wir also sagen, dass der fehlende ÔÇ×Gr├╝ne SchwanÔÇ£ in unseren Daten wirklich fehlt oder ein m├Âglich enthaltener schwarze Schwan wirklich stimmt? ├£bertragen in die Praxis: Was stellt beispielsweise die Referenz dar, ob eine am Datenmarkt verf├╝gbare Liste aller Kinderg├ñrten, Kitas und privater ÔÇ×Tagesm├╝tterÔÇ£ f├╝r eine Versorgungsanalyse in Deutschland wirklich Vollst├ñndigkeit ist? Sie gibt es nicht.
Durch die fortschreitende Datafication, wie man auch die Digitalisierung unserer Welt nennt, mehren sich fortlaufend die Echtdaten. Schätzungen und Hochrechnungen werden entsprechend weniger notwendig. Doch die Ungewissheit (Uncertainty) darüber, ob Grundgesamtheit bzw. Teilpopulation in einem bestimmten Gebiet zu einem bestimmten Zeitpunkt (Aktualität) vollständig abgebildet ist, bleibt. Dazu zählen auch Präzision der Datenerfassung (Exaktheit) und Schätzung (Vorhersagegüte) bei nicht vorhandenen Echtdaten.
Den K├ñufern sowie Nutzern von Daten fehlt ein verl├ñssliches Ma├ƒ an ÔÇ×CertaintyÔÇ£. Der Datenmarkt setzt Lizenzbedingungen und Preise fest, ohne ein Ma├ƒ an Gewissheit zu liefern. Man schenkt lieber einer aufbereitenden Information, dem Outcome auf Daten, seinen Glauben und sinniert h├Âchstens noch ├╝ber die angewendete Analyse, als dass die Qualit├ñt der eingehenden Daten, das Income selbst hinterfragt wird. Ganz in der Hoffnung ÔÇ×no garbage in, no garbage outÔÇ£. Ob aber der gr├╝ne Schwan einfach nur vergessen wurde zu erfassen oder gewiss keiner vorhanden ist, wei├ƒ man nicht. Was jedoch gewiss fehlt: Ein Dateng├╝tesiegel.
Dateng├╝tesiegel der dai
Das data analytics institute hat es sich zur Aufgabe gemacht, die CERTAINTY als Qualitätsmaß für Daten zu entwickeln. Kontaktieren Sie uns gerne, wenn Sie Fragen dazu haben oder Ihre Daten in ihrer Qualität in unserem Data Lab überprüfen lassen wollen.
Weiterf├╝hrender Artikel zur Uncertainty & ML u.a. [2305.16703] Sources of Uncertainty in Supervised Machine Learning — A Statisticians‘ View