Archiv | IT-Technik RSS for this section

Microsoft Big Data Tag

Microsoft Big Data Tag

Ich freue mich am 25.11. einen Vortrag halten darf, der ein paar interessante Einblicke in den Betrieb eines Flughafens gibt.

Advertisements

Vorhersage (Prediction) der zukünftigen Realität per Modell – ist das legitim?

Ein großer Aufgabenbereich der Data Science sind Prediction Queries, also die Idee mit einem technischen Modell, mit Algorithmen und Big-Data Technologien die Zukunft vorherzusagen.

Ist es legitim mit Modellen verlässlichen Aussagen über die Zukunft zu treffen?

Das ist eine sehr philosophische Frage, welche ich aus der Basis der buddhistischen Philosophie als Startpunkt einer Diskussion adressieren möchte.

In einer ersten Überlegung würde ich sagen: Nein – Warum?

In der Lehre Buddhas geht man davon aus, daß man (bewußt) nur im Hier und Jetzt leben kann. Die Vergangenheit ist bereits vorüber (manche sagen tot) und die Zukunft ist noch nicht entschieden. Die Zukunft ist zum jetzigen Zeitpunkt völlig ungewiss. So ist es aus dieser Überlegung heraus nicht statthaft, zu glauben mit Wissen aus der Vergangenheit die Zukunft abschätzen zu können.

Eine weitere Einschränkung liegt darin, dass wir versuchen die zukünftige Realität mit einem abstrakten mathematisch-statistischen Modell zu beschreiben und abzuschätzen. Auch das sehe ich als massive Einschränkung dieses Vorhabens.

Wie Sie richtig vermuten gibt es aber auch zustimmende Überlegungen, da der Eintrag sonst bereits an dieser Stelle zu Ende wäre.

Zuerst einmal die Replik auf die Variabilität der Zukunft: Ja, es stimmt – sie ist offen und kann bzw. wird sich jederzeit ändern. Aus den vielen möglichen Zukünften gibt es einige, welche aufgrund von Vergangenheit  und Gegenwart wahrscheinlicher sind. Wenn man mit dieser Unschärfe leben kann ist die Nutzung eines Modells legitim.

(philiosophisch) herausfordernder ist der Umgang mit der Diskrepanz von zukünftiger Realität und der Modellabschätzung. Auf den ersten Blick ein No-Go. Aber wenn man auch hier wieder den Ideen des Buddhismus anhängt realisiert man, dass man die Vergangenheit in Modellen erinnert. Diese Funktionsweise unseres Gehirns ist bereits medizinisch nachgewiesen. Aber auch die Gegenwart nehmen wir als Modell wahr. In diesem Moment erleben wir nicht die direkte Wahrnehmung unserer Sinne sondern eine Reduktion und Abstraktion (sonst könnten wir die auf uns einprasselnde Datenmenge gar nicht verarbeiten) auf der Basis unserer Gesinnung, Prägungen und mentaler Muster. Wir nehmen die Realität bereits als Modell wahr!

Dieser Punkt zeigt uns: ja es ist legitim mittels Modellen Predictions zu treffen.

Aus vergangenen und gegenwärtigen Modellen kann man mit gutem Gewissen valide Modelle der möglichen Zukunft ableiten.

Data Scientist – eine neue Rolle ?

Neben Big Data als technologischen Ansatz wird auch die Rolle des Data Scientist immer wieder als neu und cool genannt.

Ich möchte an der Stelle eine Diskussion zur Begrifflichkeit des Data Scientist beginnen. Darum bitte ich, meine folgenden Aussagen nicht als Absolutum, sondern als Startpunkt einer hoffentlich interessanten Diskussion zu sehen.

Zwei Aspekte aus vielen, welche noch folgen werden, sind es heute, die ich ansprechen möchte: Zum einen die Frage, was an der Rolle so neu ist (Business Intelligence, die etablierten Prozesse und die entsprechenden Rollen gibt es ja bereits längere Zeit) und zum anderen die Überlegung ob es sich bei Data Science um eine einzelne Rolle handeln kann.

Bei Data Science handelt es sich nach meinem Empfinden um eine Disziplin, die aus vier einander ergänzenden Rollen besteht. Je nach Unternehmensgröße wird eine Person eine, mehrere oder alle dieser Rollen übernehmen. Ich finde es aber sehr wichtig immer unter der übergeordneten Prämisse von Data Science zu bleiben, selbst wenn man nur eine Rolle inne hat muss man die anderen Rollen tief verstehen. Bei den Rollen handelt es sich um:

  • Data Manager: Das ist eine sehr technische Aufgabe und umfasst es Lösungen zum Sammeln, Transformieren, Speichern, bereinigen und Analysieren von Daten bereitzustellen. Die Veränderung zu bestehenden Aufgaben resultiert aus der technologischen Weiterentwicklung in Form neuer Produkte (z.B. Hadoop, NoSQL, HANA) bzw. der funktionalen Erweiterung bestehender Analysesysteme. Die technischen Möglichkeiten wo/wann analytische Schritte gesetzt werden hat sich erweitert als dass einzelne Schritte im eigenen Rechenzentrum oder aber in der Cloud durchgeführt werden können. So muss der Inhaber dieser Rolle den besten Weg finden, diese Aufgaben effizient, zeitnahe, ohne die Poduktionssysteme zu beeinträchtigen und kostengünstig abzudecken. Das ist also keine neue Rolle sondern eine bestehende Rolle mit einer deutlich angewachsenen Bandbreite.
  • Data Analyst: Der Inhaber dieser Rolle hat als Aufgabe Einsichten in die Daten zu schaffen. Die Aufgabe ist es, die richtigen Fragestellungen mit passenden Methoden, Algorithmen, Mustererkennung und Big-Data Methoden in Verbindung zu bringen. Diese Rolle ist nötig, weil sich das professionelle Umfeld verändert hat. Bis dato wusste der Fachbereich in klassischer Business Intelligence was er wie ausgewertet braucht. Heute, nicht erst mit Big Data ist es so, daß dem Fachbereich vielmehr ein Problem oder eine Frage bewusst ist, für die eine Lösung aus dem umfangreichen Methodenschatz benötigt wird. Das ist eine neue Rolle, die gebraucht wird. Wer aber bisher ein guter BI-Analytiker war, und den Blick über den Tellerrand hatte nimmt die Rolle bereits ein, auch wenn sie noch nicht den Namen hatte.
  • Data Artist ist im Kontext der Analytik eine neue Rolle. Spätestens seit den ersten Big-Data Darstellungen war klar, dass der analytische Output nicht immer ein Report ist. Der Data Analyst hilft dabei aus einem weiten Feld der technisch-optisch möglichen Darstellungsmöglichkeiten die beste für die offenen Fragen zu finden. Im Business Intelligence Bereich beschränkte sich das Thema der Darstellung häufig darauf Reports oder Dashboards schöner erscheinen zu lassen – diese Rolle geht deutlich darüber hinaus.
  • Data Establisher ist eine Rolle, die bestehende Aufgaben erweitert. Der Business Analyst oder Requirements Engineer kennt jetzt schon die Prozesse, das Business sehr gut, häufig aber abgegrenzt auf die konkrete analytische Aufgabe. Aber echte Data Science ist umfangreicher und eine 2-Weg Aufgabe. Einerseits ist darin gefordert in die tiefe der Prozesse zu gehen, sie umfassend zu verstehen aber auch Erkenntnisse der Analytik wieder zurück in den Prozess zu bringen.  Es ist also eine klare Weiterentwicklung einer bestehenden Rolle.

Data Science als Ganzes ist eine neue Disziplin, die aus neuen und erweiterten Rollen unter einem umfassenden Paradigma besteht.