Einstieg in Data Science - welche Fähigkeiten braucht man?

Aller Anfang ist schwer. Manchmal ist es nicht mal klar, wo man anfangen soll.
Willkommen in Data Science! Wir hoffen mit diesem Artikel einige Unklarheiten in diesem faszinierenden Bereich klarstellen zu können.

Vorwort

Wenn man Data Scientists fragt, was für Fähigkeiten man benötigt, um diesen nicht immer klar definierten Berufsweg einzuschlagen, bekommt man verschiedenste Antworten. Hierzu habe ich berufserfahrene Studierende des Master Studiengangs „Data Intelligence“ an der FH St. Pölten befragt. Das sind die Ergebnisse.

Bevor es losgeht: Was genau müssen Data Scientists können?

Starten wir doch damit, zu definieren, welche Aufgaben ein Data Scientist hat:
Data Scientists als „Allrounder“

Manche sehen Data Scientists als „Allrounder“, welche Datensammlung und Data Management/Engineering eigenständig erledigen, die Daten durch ein Model jagen und dann verständlich den Stakeholdern erklären können.

Data Engineer, Analyst und Scientist

Andere wiederum würden diese Schritte in Data Engineer, Data Scientist und Data Analyst Rollen aufteilen. Diese Einteilung findet sich vor allem in großen Unternehmen und ich werde sie in diesem Artikel zur Beschreibung diverser Skills verwenden.

Data Engineer
Das Einspielen, Speichern und Verwalten von gesammelten Informationen ist keine leichte Aufgabe und benötigt häufig eine eigene Spezialisierung. Größere Datensätze können nicht einfach in den Arbeitsspeicher eines einzelnen PCs geladen werden.
Data Engineers können anderen Rollen einen leistungsfähigen und ausfallsicheren Zugang zu großen Datenmengen bieten.

Oft verwendete Werkzeuge: Hadoop, Apache Spark, Grundwissen in SQL

Data Analyst
Result Presentation, Requirement Extraction und Inter Department/Organisation Communication werden oft von Analysts übernommen. Data Analysts sorgen dafür, dass Data Science Teams nicht an Problemen arbeiten, die es gar nicht gibt.

Oft verwendete Werkzeuge: Python, Tableau/PowerBI, Excel

Data Scientist
Das Anpassen und Analysieren von Datensets wird auch in dieser Unterteilung übernommen. Das Trainieren, Optimieren und Liefern von Machine Learning Modellen ist eine der Hauptaufgaben.

Oft verwendete Werkzeuge: Python, R, Tensorflow

Essenzielles Grundwissen

Es gibt Grundwissen, ohne welches man im Data Science nicht weit kommt. Dieses wird generell in 3 Kategorien eingeteilt:

1. Mathematische Grundlagen und Statistik

Teile der Mathematik und die Statistik sind wichtige Tools, um Daten vor sowie nach dem Einsatz eines Modelles korrekt zu interpretieren und somit fundierte Entscheidungen zu treffen. Ebenso benötigen das Entwerfen neuer Algorithmen und das Optimieren bestehender Lösungen gewisse mathematische Grundlagen.
Ohne fundiertes Wissen in Statistik, linearer Algebra, Boolesche Algebra, Mengenlehre, Funktionen etc. kommt man als Data Scientist nicht weit.

Bücher zu Data Science relevanter Mathematik:

2. Softskills

Result Presentation
Die beste Vorhersage/Analyse hilft niemanden, wenn diese nicht nachvollziehbar und verständlich den Stakeholdern eines Projektes erklärt werden kann. Eine der Aufgaben von Data Scientists ist es, Arbeitsschritte und Ergebnisse jeder projektrelevanten Person zu vermitteln.

Requirement Extraction
Ebenso wichtig ist es oft, erstmal zu ermitteln, was genau gesucht wird. Dies ist häufig schwer und benötigt klare sowie gründliche Kommunikation.

Inter Department/Organisation Communication
Während eines Projektes muss man oft mit mehreren Abteilungen einer Organisation bzw. mehreren Organisationen zusammenarbeiten. Die Kommunikation beinhaltet oft eigene Probleme, die es zu lösen gilt.

Fazit
Wie bereitet man sich auf diese Situationen vor? Viel Übung und Praxiserfahrung, am besten unter Aufsicht eines erfahrenen Data Scientist.

 

3. Technisches Wissen/DS Tools

Technisches Wissen – notwendig
Braucht dieses Projekt gleich ein neuronales Netz? Reicht ein simpler Entscheidungsbaum? Wie muss man Daten vorverarbeiten, um sie tatsächlich verwenden zu können?
Das technische Wissen im Data Science muss breit genug sein, um diese Entscheidungen optimal treffen und auch umsetzen zu können. Hier ist für angehende Data Scientists erstmal Lernen angesagt.

Programmiersprachen – notwendig
Python und R sind oft erwähnte Skriptsprachen im Zusammenhang mit der Datenvorverarbeitung, dem Machine Learning selbst und der Darstellung von Ergebnissen. Dies ist nicht ohne Grund so, da beide Sprachen sehr vielseitig sind. Python sticht besonders als „Allrounder“ hervor, auch, wenn damit nicht alles optimal gelöst werden kann.

Datenbanksprachen - nützlich
Datenbanken zu manipulieren - besonders in SQL - ist eine Fähigkeit, die in großen Firmen von eigenen Data Engineer Rollen übernommen wird. Zu den Fähigkeiten von Data Scientists passen Datenbanksprachen aber gut dazu.

Visualisierungstools - optional
Tools wie Tableau und PowerBI sind besonders nützlich für Data Analysts, einem Data Scientist können sie aber genauso beim Analysieren und Visualisieren von Datensätzen/Ergebnissen behilflich sein.

Fazit
Je mehr Tools/Sprachen man beherrscht desto besser. Breit aufgestellt zu sein ist ein enormes Plus im Data Science Bereich.

 

Ein weiteres wichtiges „Tool“: Logische Problemlösung
Eine bestimmte Denkweise ist wesentlich, um einen guten Einstieg in Data Science und auch Programmieren an sich zu finden.
Hier geht es darum, eine gewisse Intuition beim Lösen von Problemen zu kultivieren. Diese besteht aus dem systematischen Eliminieren falscher Lösungsansätze, dem Formulieren relevanter Fragen und einer gewissen Persistenz bei der Problemsuche.

Es gibt leider keinen schnellen Weg, dieses Denken zu entwickeln. Nur ausgiebiges Üben führt zum Ziel. Vom ersten „Hello World“ Skript in Python bis zum Visualisieren komplexer Ergebnisse eines neuronalen Netzes: langsam von kleineren zu größeren Problemen hocharbeiten ist der Schlüssel zum Vorankommen.

Last but not least
Es gibt immer wieder Probleme, für die es keine gute Lösung gibt. Damit umgehen zu können, ist ebenfalls die Aufgabe von Data Scientists.

 

Wie geht’s weiter?

Domänenwissen aufbauen
Wenn man einen erfolgreichen Einstieg in Data Science gewagt hat, macht es sich bezahlt, auch eine Spezialisierung einzuschlagen. So kann man leichter relevantes Domänenwissen aufbauen. Bei vielen Projekten ist dies enorm wichtig und kann die Kommunikation mit Stakeholdern erleichtern, sowie das Datenverständnis verbessern.

Beispiele für grobe Spezialisierungen: Production, Health, Society, Business

Selbsterlernt < Bachelor < Master < Ph. D.
Selbst mit reichlich Berufserfahrung bleiben manche Türen ohne Ausbildungsnachweis verschlossen. Einen relevanten Bachelor, Master oder sogar PhD. zu haben, erhöht die Job- und Aufstiegsaussichten doch deutlich.

Schlusswort

Data Scientist werden ist nicht leicht, doch die Vielfalt an unterschiedlichen Aufgabenbereichen und die Arbeit mit neusten Technologien machen es zu einem interessanten Beruf!

Oliver Koller studiert Data Science an der FH St. Pölten.