Die 4 Hüte eines Full-Stack-Datenwissenschaftlers

"„Was ist ein Full Stack Data Scientist?

Als ich Data Science zum ersten Mal lernte, waren Data Engineering und ML Engineering noch nicht so weit verbreitet wie heute. Folglich wurde die Rolle eines Datenwissenschaftlers oft weiter gefasst, als wir es heutzutage vielleicht sehen.

Beispielsweise haben Datenwissenschaftler möglicherweise ETL-Skripte geschrieben, Datenbanken eingerichtet, Feature-Engineering durchgeführt, ML-Modelle trainiert und Modelle in der Produktion bereitgestellt.

Obwohl es immer üblicher wird, diese Aufgaben auf mehrere Rollen aufzuteilen (z. B. Dateningenieure, Datenwissenschaftler und ML-Ingenieure), sind in vielen Situationen immer noch Mitwirkende erforderlich, die sich mit allen Aspekten der ML-Modellentwicklung auskennen. Ich nenne diese Mitwirkenden Full-Stack-Datenwissenschaftler.

Genauer gesagt sehe ich einen Full-Stack-Datenwissenschaftler als jemanden, der eine ML-Lösung durchgängig verwalten und implementieren kann. Dazu gehören die Formulierung von Geschäftsproblemen, der Entwurf von ML-Lösungen, die Beschaffung und Vorbereitung von Daten für die Entwicklung, das Training von ML-Modellen und die Bereitstellung von Modellen, damit ihr Wert realisiert werden kann.

Warum brauchen wir sie?

Angesichts der Zunahme spezialisierter Rollen für die Implementierung von ML-Projekten scheint diese Vorstellung von FSDS veraltet zu sein. Zumindest dachte ich das in meiner ersten Rolle als Corporate Data Science.

Heutzutage wird mir jedoch immer klarer, wie wertvoll es ist, den gesamten Tech-Stack zu erlernen. Alles begann letztes Jahr, als ich Top-Freelancer im Bereich Data Science von Upwork interviewte.

Fast jeder, mit dem ich gesprochen habe, entspricht der oben angegebenen Full-Stack-Data-Scientist-Definition. Dies geschah nicht nur aus Spaß und Neugier, sondern auch aus Notwendigkeit.

Ich habe 675,92 $ ausgegeben, um mit Top-Datenwissenschaftlern über Upwork zu sprechen - Folgendes habe ich gelernt

Die Realitäten der freiberuflichen Tätigkeit in der Datenwissenschaft

Eine wichtige Erkenntnis aus diesen Interviews war, dass datenwissenschaftliche Fähigkeiten (allein) nur begrenzte potenzielle geschäftliche Auswirkungen haben. Um einen realen Wert zu generieren (für den ein Kunde zahlen wird), ist die Entwicklung durchgängiger Lösungen ein Muss.

Dies ist jedoch nicht auf die freiberufliche Tätigkeit beschränkt. Hier sind einige andere Kontexte, in denen FSDS von Vorteil sein kann

Ein KMU (kleines bis mittleres Unternehmen) mit nur einer dedizierten Ressource für KI/ML-Projekte

Ein einzelner KI/ML-Mitarbeiter ist in ein Geschäftsteam eingebettet

Gründer, der ein ML-Produkt entwickeln möchte

Einzelner Mitarbeiter in einem großen Unternehmen, der Projekte außerhalb etablierter Teams erkunden kann

Mit anderen Worten: Full-Stack-Datenwissenschaftler sind Generalisten, die das Gesamtbild sehen und sich bei Bedarf mit spezifischen Aspekten eines Projekts befassen können. Dies macht sie zu einer wertvollen Ressource für jedes Unternehmen, das durch KI und maschinelles Lernen Mehrwert schaffen möchte.

4 Hüte von FSDS

Während FSDS mehrere Fähigkeiten erfordert, kann die Rolle in vier Schlüsselfunktionen unterteilt werden: Projektmanager, Dateningenieur, Datenwissenschaftler und ML-Ingenieur.

Natürlich kann (wahrscheinlich) niemand in allen Belangen Weltklasse sein. Aber man kann durchaus auf ganzer Linie über dem Durchschnitt liegen (es braucht nur Zeit).

Hier werde ich jeden dieser Bereiche aufschlüsseln, basierend auf meiner Erfahrung als Data-Science-Berater und Interviews mit 27 Daten-/ML-Experten.

Hut 1: Projektmanager

Die Schlüsselrolle eines Projektmanagers (IMO) besteht darin, drei Fragen zu beantworten: Was, Warum und Wie. Mit anderen Worten: Was bauen wir? Warum bauen wir es? Wie machen wir das?

Während es leicht sein kann, diese Arbeit zu überspringen (und mit dem Codieren zu beginnen), besteht die Gefahr, dass viel Zeit (und Geld) für die Lösung des falschen Problems aufgewendet wird, wenn man den PM-Hut nicht richtig aufsetzt. Oder das richtige Problem auf unnötig komplexe und teure Weise lösen.

Ausgangspunkt hierfür ist die Definition des Geschäftsproblems. In den meisten Fällen löst der Full-Stack-Datenwissenschaftler sein Problem nicht, daher ist die Fähigkeit erforderlich, mit den Beteiligten zusammenzuarbeiten, um die Grundursachen des Problems aufzudecken. Einige Tipps dazu habe ich in einem früheren Artikel besprochen.

Sobald das Problem klar definiert ist, kann man erkennen, wie KI es lösen kann. Dadurch wird das Ziel festgelegt, von dem aus rückwärts gearbeitet werden soll, um Projektkosten, Zeitpläne und Anforderungen abzuschätzen.

Schlüsselfertigkeiten

Kommunikation und Beziehungsmanagement

Diagnostizieren Sie Probleme und entwerfen Sie Lösungen

Schätzung von Projektzeitplänen, -kosten und -anforderungen

Hut 2: Dateningenieur

Im Kontext von FSDS geht es beim Data Engineering darum, Daten für die Modellentwicklung oder Inferenz (oder beides) leicht verfügbar zu machen.

Da dies von Natur aus produktorientiert ist, ist die DE-Funktion möglicherweise eingeschränkter als eine typische Data-Engineering-Rolle. Genauer gesagt erfordert dies wahrscheinlich keine Optimierung der Datenarchitekturen für mehrere Geschäftsanwendungsfälle.

Stattdessen wird der Fokus auf dem Aufbau von Datenpipelines liegen. Dabei geht es um das Entwerfen und Implementieren von ETL- (oder ELT-)Prozessen für bestimmte Anwendungsfälle.

ETL steht für Extrahieren, Transformieren und Laden. Dabei werden Daten aus ihren Rohquellen extrahiert, in eine sinnvolle Form umgewandelt (z. B. Datenbereinigung, Deduplizierung, Ausnahmebehandlung, Feature-Engineering) und in eine Datenbank geladen (z. B. Datenmodellierung und Datenbankdesign).

Ein weiterer wichtiger Bereich ist hier die Datenüberwachung. Während die Details davon vom jeweiligen Anwendungsfall abhängen, besteht das ultimative Ziel darin, Datenpipelines über Warnsysteme, Dashboards oder Ähnliches kontinuierlich sichtbar zu machen.

Schlüsselfertigkeiten

Python, SQL, CLI (z. B. Bash)

Datenpipelines, ETL/ELT (Airflow, Docker)

Eine Cloud-Plattform (AWS, GCP oder Azure)

Hut 3: Datenwissenschaftler

Ich definiere einen Datenwissenschaftler als jemanden, der Daten nutzt, um Gesetzmäßigkeiten in der Welt aufzudecken, die genutzt werden können, um Wirkung zu erzielen. In der Praxis läuft dies oft darauf hinaus, ein Modell für maschinelles Lernen zu trainieren (da Computer viel besser darin sind, Regelmäßigkeiten in Daten zu finden als Menschen).

Bei den meisten Projekten muss zwischen diesem Hut und den Hüten 1 und 2 gewechselt werden. Während der Modellentwicklung stößt man häufig auf Erkenntnisse, die eine erneute Prüfung der Datenvorbereitung oder des Projektumfangs erfordern.

Beispielsweise könnte man feststellen, dass eine Ausnahme für ein bestimmtes Feld nicht ordnungsgemäß behandelt wurde oder dass die extrahierten Felder nicht die Vorhersagekraft haben, die zu Beginn des Projekts angenommen wurde.

Ein wesentlicher Bestandteil des Modelltrainings ist die Modellvalidierung. Dies besteht darin, Leistungsmetriken zu definieren, die zur Bewertung von Modellen verwendet werden können. Bonuspunkte, wenn diese Kennzahl direkt in eine Geschäftsleistungskennzahl übersetzt werden kann.

Mit einer Leistungsmetrik kann man programmgesteuert mit mehreren Modellkonfigurationen experimentieren und diese bewerten, indem man beispielsweise Zugtestaufteilungen, Hyperparameter, Prädiktorauswahl und ML-Ansatz anpasst. Wenn kein Modelltraining erforderlich ist, kann es dennoch sinnvoll sein, die Leistung mehrerer vorab trainierter Modelle zu vergleichen.

Schlüsselfertigkeiten

Python (Pandas/Polars, Sklearn, TensorFlow/PyTorch)

Explorative Datenanalyse (EDA)

Modellentwicklung (Feature Engineering, Experimentverfolgung, Hyperparameter-Tuning)

Hut 4: ML-Ingenieur

Der letzte Schritt besteht darin, das ML-Modell in eine ML-Lösung umzuwandeln - das heißt, das Modell in Geschäftsabläufe zu integrieren, damit sein Wert realisiert werden kann.

Eine einfache Möglichkeit hierfür besteht darin, das Modell zu containerisieren und eine API einzurichten, damit externe Systeme Inferenzaufrufe durchführen können. Beispielsweise könnte die API mit einer internen Website verbunden werden, die es Geschäftsanwendern ermöglicht, eine Berechnung durchzuführen.

Einige Anwendungsfälle sind jedoch möglicherweise nicht so einfach und erfordern ausgefeiltere Lösungen. Hier kann ein Orchestrierungstool dabei helfen, komplexe Arbeitsabläufe zu definieren. Wenn das Modell beispielsweise monatliche Aktualisierungen erfordert, sobald neue Daten verfügbar sind, muss möglicherweise der gesamte Modellentwicklungsprozess, vom ETL über das Training bis zur Bereitstellung, automatisiert werden.

Ein weiterer wichtiger Gesichtspunkt ist die Modellüberwachung. Ähnlich wie bei der Datenüberwachung geht es dabei darum, Modellvorhersagen und -leistungen im Laufe der Zeit zu verfolgen und sie durch automatisierte Warnungen oder andere Mittel sichtbar zu machen.

Während viele dieser Prozesse auf lokalen Computern ausgeführt werden können, ist die Bereitstellung dieser Lösungen über eine Cloud-Plattform gängige Praxis. Jeder ML-Ingenieur (MLE), den ich interviewt habe, nutzt mindestens eine Cloud-Plattform und empfiehlt Cloud-Bereitstellungen als Kernkompetenz von MLEs.

Schlüsselfertigkeiten

Skripte Containerisieren (Docker), APIs erstellen (FastAPI)

Orchestrierung - Verbindung von Daten- und ML-Pipelines (AirFlow)

Eine Cloud-Plattform (AWS, GCP oder Azure)

Das Einhorn werden

Während ein Full-Stack-Datenwissenschaftler wie ein technisches Einhorn erscheinen mag, geht es (meiner Meinung nach) nicht darum, ein Guru aller Aspekte des Tech-Stacks zu werden. Es geht vielmehr darum, genug zu lernen, um gefährlich zu sein.

Mit anderen Worten: Es geht nicht darum, alles zu beherrschen, sondern darum, alles lernen zu können, was man braucht, um die Arbeit zu erledigen. Aus dieser Perspektive vermute ich, dass die meisten Datenwissenschaftler mit genügend Zeit zum „Full Stack werden.

Zu diesem Zweck sind hier drei Prinzipien, die ich verwende, um meine persönliche FSDS-Entwicklung zu beschleunigen.

Haben Sie einen Grund, neue Fähigkeiten zu erlernen - z. Erstellen Sie End-to-End-Projekte Lerne einfach genug, um gefährlich zu sein Halten Sie die Dinge so einfach wie möglich - d. h. überarbeiten Sie die Lösungen nicht Was kommt als nächstes?

Ein Full-Stack-Datenwissenschaftler kann eine ML-Lösung durchgängig verwalten und implementieren. Während dies für Kontexte, in denen es spezielle Rollen für Schlüsselphasen der Modellentwicklung gibt, wie ein Overkill erscheinen mag, sind diese generalistischen Fähigkeiten in vielen Situationen dennoch wertvoll.

Als Teil meiner Reise zum Full-Stack-Datenwissenschaftler werden zukünftige Artikel dieser Serie jeden der vier FSDS-Hüte anhand der End-to-End-Implementierung eines realen ML-Projekts durchgehen.

Wenn Sie im Geiste des Lernens das Gefühl haben, dass hier etwas fehlt, lade ich Sie ein, einen Kommentar zu hinterlassen (wir freuen uns darüber) 😁"""

Bitte beachten Sie, dass die französische Version von Ai unterstützt wird und daher geringfügige Fehler auftreten können. Die 4 Hüte eines Full-Stack-Datenwissenschaftlers

AUTOR

Über ABN Asia: Ai Base Network (ABN), ABN Asia wurde im Jahr 2012 gegründet und ist ein Unternehmen mit akademischem Hintergrund, das von Lehrkräften und ehemaligen Studierenden aus Ungarn, den Niederlanden, Russland, Deutschland und Japan gegründet wurde. Wir teilen eine gemeinsame Leidenschaft und eine klare Vision für Technologie, die Innovation und erstklassige Qualität für unsere Kunden bringt. Unser Motto lautet: Besser. Schneller. Sicherer. In vielen Fällen: Günstiger.

Zögern Sie nicht, uns zu kontaktieren, wenn Sie IT-Dienstleistungen, digitale Beratung, Standardsoftwarelösungen benötigen oder uns Angebotsanfragen (RFPs) senden möchten. Sie können uns unter [email protected] kontaktieren. Wir sind bereit, Ihnen bei all Ihren Technologiebedürfnissen zu helfen.