zurück zu den Data-Science Wurzeln

Im Bereich der Data Science beschäftigen wir uns mit Methoden und Ansätzen Muster zu finden, die Zukunft zu prognostizieren oder Einsicht in die Daten zu gewinnen. Dabei denken wir an Technologien wie Data Mining, Big Data und Pattern Detection oder Algorithmen und Modelle.

Aber heute möchte ich einmal auf eine extrem wichtige Thematik eingehen, an die man in diesem Kontext nur selten denkt.

Und zwar geht es um ein umfassendes (business) Metadata Management. Ein Thema das Sie sicher schon oft gehört haben und das auch in vielen größeren Unternehmen (meist als akademische Funktion) umgesetzt wurde. Bei genauerer Betrachtung ist es jedoch so, daß genau diese Arbeit den Erfolg oder Misserfolg jeder BI/Analytik Initiative maßgebend mitbestimmt. Darum ist dieses Metadatenmanagement für JEDES Unternehmen welches analytische Lösungen plant oder betreibt unerlässlich ist.

Warum das so ist und wie umfangreich dieses Thema ist möchte ich nun darstellen. Bei der Begriffskombination Metadaten und Analytik denken wir üblicherweise an KPIs o.Ä. – aber diese sind eigentlich die Spitze der Pyramide.

Die Bedeutung dieses Themas für die gesamte Analytik beginnt bei einem eindeutigen Vokabular. Damit sind nicht (nur) die Begriffe und Objekte, welche ausgewertet werden gemeint sondern die in dem Umfeld verwendeten Begriffe mit verschiedener Belegung. Beispielsweise erlebte ich die Situation in welcher ein bereich einen Definitionsunterschied zwischen Vorschau und Forecast machte während ein anderer bereich des gleichen Unternehmens die beiden Begriffe synonym verwendete.

Das führt weiter zu einer klaren Festlegung der Report-Items. Damit meine ich die Objekte, auf welche reportet bzw. analysiert wird. Wie ist Objekt x definiert und abgegrenzt, was ist enthalten, was nicht und wie passt sich das alles in eine Begriffshirarchie ein. Wenn von einem Objekt gesprochen wird sollten alle Beteiligten das Gleiche darunter verstehen – denkt man. Ich selbst habe bei einem Aviation-Projekt unter dem begriff Landezeitpunkt eines Flugzeuges vier verschiedene Definitionen vorgefunden. Neben der klaren Definition und Abgrenzung im Unternehemen sollte an der Stelle auch weiter geblickt werden und Standards, Best Practices o.Ä, herangezogen werden um einen firmenübergreifende Vergleichbarkeit sicherzustellen (Benchmarking).

Zu guter Letzt möchte ich auf die Metriken eingehen. Egal ob es sich um PI, KPI, RI, KRI,.. handelt (dieses Thema werde ich einem der folgenden Blogs aufarbeiten) gilt es sicherzustellen, dass die Formeln, Filterungen, Einheiten, Aggregationen etc. klar festgelegt sind und im Unternhemen bzw. über Unternehmensgrenzen hinweg die neutrale Vergleichbarkeit sicherstellen.

Zusammengefasst – klare Metadaten im analytischen Bereich sind die unerlässliche Basis für vertrauenswürdige und vergleichbare analytische Ergebnisse. Aus diesem Grund sollte das Metadatenmanagement nicht als Randthema gesehen werden sondern zum integralen Bestandteil der Analytik werden.

Advertisements

Neuer Job

Längere Zeit habe ich jetzt nichts von mir gegeben.

In den letzten Wochen hat sich viel getan, Urlaub, alten Job gekündigt, neuen Job aufgenommen, neue Umgebung, neues Aufgabenfeld, neue Branche….  – kurz gesagt der Blog hat ein Dornröschendasein geführt. Aber ich gelobe Besserung. Alles Neu macht der Mai und so werde ich ab jetzt wieder regelmäßig meine Ideen und Erfahrungen zum besten geben.

buddhistische Segnung & Namensgebung

Diesen Samstag durfte ich gemeinsam mit meiner Lehrerin, Ursula Lyon eine Zeremonie zur Segnung und Namensgebung eines Kindes durchführen. Es war eine sehr schöne und Intime Zeremonie. Ich fand es wunderbar, dass die Zeremonie nicht so strikt und vorgegeben durchgezogen werden konnte sondern der Spontanität, den Ideen und den Bedürfnissen von Kindern folgen musste.

Klar – dass für ein zweijähriges Kind nicht wirklich einsichtig ist warum man jetzt mit den Erwachsenen ruhig sitzen soll und sich irgendwelches Gerede anhören soll, wo man doch mit Papa oder den anderen Kindern rumtollen kann. Aber genau so soll es sein – es geht ja schließlich um das Kind und nicht um eine formelle Zeremonie.

Was mich aber sehr berührt hat war dann der Moment der Segnung selbst. Vorher (und auch nachher) war das Kind ein Wirbelwind – aber bei der Segnung selbst war sie ganz ruhig und ergriffen. Ich war echt beeindruckt mit welcher Intensität die Kleine ihren Segen und spirituellen Namen empfangen hat.

Ich bin mir sicher sie wird einen guten Weg gehen!

Microsoft Big Data Tag

Microsoft Big Data Tag

Ich freue mich am 25.11. einen Vortrag halten darf, der ein paar interessante Einblicke in den Betrieb eines Flughafens gibt.

Vorhersage (Prediction) der zukünftigen Realität per Modell – ist das legitim?

Ein großer Aufgabenbereich der Data Science sind Prediction Queries, also die Idee mit einem technischen Modell, mit Algorithmen und Big-Data Technologien die Zukunft vorherzusagen.

Ist es legitim mit Modellen verlässlichen Aussagen über die Zukunft zu treffen?

Das ist eine sehr philosophische Frage, welche ich aus der Basis der buddhistischen Philosophie als Startpunkt einer Diskussion adressieren möchte.

In einer ersten Überlegung würde ich sagen: Nein – Warum?

In der Lehre Buddhas geht man davon aus, daß man (bewußt) nur im Hier und Jetzt leben kann. Die Vergangenheit ist bereits vorüber (manche sagen tot) und die Zukunft ist noch nicht entschieden. Die Zukunft ist zum jetzigen Zeitpunkt völlig ungewiss. So ist es aus dieser Überlegung heraus nicht statthaft, zu glauben mit Wissen aus der Vergangenheit die Zukunft abschätzen zu können.

Eine weitere Einschränkung liegt darin, dass wir versuchen die zukünftige Realität mit einem abstrakten mathematisch-statistischen Modell zu beschreiben und abzuschätzen. Auch das sehe ich als massive Einschränkung dieses Vorhabens.

Wie Sie richtig vermuten gibt es aber auch zustimmende Überlegungen, da der Eintrag sonst bereits an dieser Stelle zu Ende wäre.

Zuerst einmal die Replik auf die Variabilität der Zukunft: Ja, es stimmt – sie ist offen und kann bzw. wird sich jederzeit ändern. Aus den vielen möglichen Zukünften gibt es einige, welche aufgrund von Vergangenheit  und Gegenwart wahrscheinlicher sind. Wenn man mit dieser Unschärfe leben kann ist die Nutzung eines Modells legitim.

(philiosophisch) herausfordernder ist der Umgang mit der Diskrepanz von zukünftiger Realität und der Modellabschätzung. Auf den ersten Blick ein No-Go. Aber wenn man auch hier wieder den Ideen des Buddhismus anhängt realisiert man, dass man die Vergangenheit in Modellen erinnert. Diese Funktionsweise unseres Gehirns ist bereits medizinisch nachgewiesen. Aber auch die Gegenwart nehmen wir als Modell wahr. In diesem Moment erleben wir nicht die direkte Wahrnehmung unserer Sinne sondern eine Reduktion und Abstraktion (sonst könnten wir die auf uns einprasselnde Datenmenge gar nicht verarbeiten) auf der Basis unserer Gesinnung, Prägungen und mentaler Muster. Wir nehmen die Realität bereits als Modell wahr!

Dieser Punkt zeigt uns: ja es ist legitim mittels Modellen Predictions zu treffen.

Aus vergangenen und gegenwärtigen Modellen kann man mit gutem Gewissen valide Modelle der möglichen Zukunft ableiten.

Data Scientist – eine neue Rolle ?

Neben Big Data als technologischen Ansatz wird auch die Rolle des Data Scientist immer wieder als neu und cool genannt.

Ich möchte an der Stelle eine Diskussion zur Begrifflichkeit des Data Scientist beginnen. Darum bitte ich, meine folgenden Aussagen nicht als Absolutum, sondern als Startpunkt einer hoffentlich interessanten Diskussion zu sehen.

Zwei Aspekte aus vielen, welche noch folgen werden, sind es heute, die ich ansprechen möchte: Zum einen die Frage, was an der Rolle so neu ist (Business Intelligence, die etablierten Prozesse und die entsprechenden Rollen gibt es ja bereits längere Zeit) und zum anderen die Überlegung ob es sich bei Data Science um eine einzelne Rolle handeln kann.

Bei Data Science handelt es sich nach meinem Empfinden um eine Disziplin, die aus vier einander ergänzenden Rollen besteht. Je nach Unternehmensgröße wird eine Person eine, mehrere oder alle dieser Rollen übernehmen. Ich finde es aber sehr wichtig immer unter der übergeordneten Prämisse von Data Science zu bleiben, selbst wenn man nur eine Rolle inne hat muss man die anderen Rollen tief verstehen. Bei den Rollen handelt es sich um:

  • Data Manager: Das ist eine sehr technische Aufgabe und umfasst es Lösungen zum Sammeln, Transformieren, Speichern, bereinigen und Analysieren von Daten bereitzustellen. Die Veränderung zu bestehenden Aufgaben resultiert aus der technologischen Weiterentwicklung in Form neuer Produkte (z.B. Hadoop, NoSQL, HANA) bzw. der funktionalen Erweiterung bestehender Analysesysteme. Die technischen Möglichkeiten wo/wann analytische Schritte gesetzt werden hat sich erweitert als dass einzelne Schritte im eigenen Rechenzentrum oder aber in der Cloud durchgeführt werden können. So muss der Inhaber dieser Rolle den besten Weg finden, diese Aufgaben effizient, zeitnahe, ohne die Poduktionssysteme zu beeinträchtigen und kostengünstig abzudecken. Das ist also keine neue Rolle sondern eine bestehende Rolle mit einer deutlich angewachsenen Bandbreite.
  • Data Analyst: Der Inhaber dieser Rolle hat als Aufgabe Einsichten in die Daten zu schaffen. Die Aufgabe ist es, die richtigen Fragestellungen mit passenden Methoden, Algorithmen, Mustererkennung und Big-Data Methoden in Verbindung zu bringen. Diese Rolle ist nötig, weil sich das professionelle Umfeld verändert hat. Bis dato wusste der Fachbereich in klassischer Business Intelligence was er wie ausgewertet braucht. Heute, nicht erst mit Big Data ist es so, daß dem Fachbereich vielmehr ein Problem oder eine Frage bewusst ist, für die eine Lösung aus dem umfangreichen Methodenschatz benötigt wird. Das ist eine neue Rolle, die gebraucht wird. Wer aber bisher ein guter BI-Analytiker war, und den Blick über den Tellerrand hatte nimmt die Rolle bereits ein, auch wenn sie noch nicht den Namen hatte.
  • Data Artist ist im Kontext der Analytik eine neue Rolle. Spätestens seit den ersten Big-Data Darstellungen war klar, dass der analytische Output nicht immer ein Report ist. Der Data Analyst hilft dabei aus einem weiten Feld der technisch-optisch möglichen Darstellungsmöglichkeiten die beste für die offenen Fragen zu finden. Im Business Intelligence Bereich beschränkte sich das Thema der Darstellung häufig darauf Reports oder Dashboards schöner erscheinen zu lassen – diese Rolle geht deutlich darüber hinaus.
  • Data Establisher ist eine Rolle, die bestehende Aufgaben erweitert. Der Business Analyst oder Requirements Engineer kennt jetzt schon die Prozesse, das Business sehr gut, häufig aber abgegrenzt auf die konkrete analytische Aufgabe. Aber echte Data Science ist umfangreicher und eine 2-Weg Aufgabe. Einerseits ist darin gefordert in die tiefe der Prozesse zu gehen, sie umfassend zu verstehen aber auch Erkenntnisse der Analytik wieder zurück in den Prozess zu bringen.  Es ist also eine klare Weiterentwicklung einer bestehenden Rolle.

Data Science als Ganzes ist eine neue Disziplin, die aus neuen und erweiterten Rollen unter einem umfassenden Paradigma besteht.