5 Trends der Datenwissenschaft in den nächsten 5 Jahren
Veröffentlicht am
Dieser Bereich ist so groß, dass es ein bisschen unmöglich ist, alle Dinge, die in den kommenden 5 Jahren passieren können, ausführlich zu behandeln. Wichtige Trends, die ich voraussehe, aber hier nicht behandeln werde, sind spezifische Anwendungen von Data Science in bestimmten Bereichen, die Integration von Low-Code/No-Code-Tools in den Tech-Stack und andere eng fokussierte Erkenntnisse.
Falls Sie neue Datenwissenschaft Fähigkeiten erwerben wollen oder Ihre bereits existierenden Fähigkeiten erweitern wollen, eignet sich Skillshare für Sie. Klicken Sie bitte hier um auf die Lernplatform von Skillshare zu gelangen und neue Einblicke in die verschiedensten Themen zu erhalten.
Der Schwerpunkt liegt auf den allgemeinen, breit angelegten Themen des Wandels, die sich meiner Meinung nach im nächsten halben Jahrzehnt durchsetzen werden. Die Liste ist nicht erschöpfend, aber sie deckt viele der Themen ab, die heute in der Praxis auftreten:
- Bessere Benennungskonventionen
- Nachhaltige Anwendungen außerhalb der Technologiebranche
- Datenzentrierte Modellierung
- Entscheidungswissenschaftliche Expertise
- Data Science Schöpfer Wirtschaft
1. Bessere Benennungskonventionen
Die Bezeichnung "Data Scientist" war für viele in der Branche ein großes Problem, vor allem wegen der Unklarheit darüber, was die Rolle mit sich bringt und was das Unternehmen braucht. Obwohl ich glaube, dass die Stellenbeschreibungen größtenteils klarer und prägnanter geworden sind, fangen die Stellenprofile gerade erst an, sich zu normalisieren.
Dieser Wandel ist wirklich wichtig, denn er steht für die Reife, die das Handwerk erreicht. Letztendlich sehe ich, dass sich diese Berufsfamilien sortieren werden:
1. Data Analyst / Product Data Scientist / Analytics Engineer
Ich denke, dass der Data Analyst eine phänomenale Einstiegsrolle für die Branche ist, aber deshalb wird er oft als "einfach" oder "grundlegend" abgeschrieben, obwohl er in Wirklichkeit über eine große Expertise verfügt. Ich sehe den Senior Analysten mit viel mehr Experimentier- und A/B-Testing-Wissen, der unglaublich effektiv mit Product Ownern und Scrum-Teams zusammenarbeiten kann.
Ich stelle die Hypothese auf, dass diese Funktion in den kommenden Jahren einer der angesagtesten Jobs im Tech-Bereich sein wird. Wenn Rollen wie Analytics Engineer anfangen, den Respekt einzufordern, den sie verdienen, wird es eine Funktion sein, in der Menschen befähigt werden, kreativ, designorientiert, schnell lernend und ausführend zu sein, und die in jedem Bereich einsetzbar ist. Dies wird sich ganz natürlich ergeben, wenn die Rolle des Data Scientist im Laufe der Zeit aufgeteilt wird (siehe MLE unten).
2. Forschungswissenschaftler
Diese Rolle ist wahrscheinlich die erste, die ausgearbeitet und verstanden wurde. Er ist in der Regel für Promotionen zuständig und entwickelt die Grenzen der KI in unserer Gesellschaft weiter, wobei er sich hauptsächlich mit Deep Learning und Reinforcement Learning beschäftigt.
3. Ingenieur für maschinelles Lernen
Da ich in diesem Bereich tätig bin, habe ich viele Gedanken dazu. Ich glaube, dass der traditionelle Data Scientist von heute und der Machine Learning Engineer zum Machine Learning Engineer verschmelzen werden. Das beschreibt auch die Funktion des Jobs genauer: die Entwicklung von End-to-End-Systemen für maschinelles Lernen in großem Maßstab. Heute scheinen die meisten MLEs für die Nachbearbeitung der Modelle zuständig zu sein, während Data Scientists den Bereich davor bearbeiten. Dies kann im Laufe der Zeit problematisch sein, da die Zuständigkeiten für langfristige Modellimplementierungen weitergegeben werden, so dass es viel effektiver ist, wenn ein Team die End-to-End-Aufsicht hat.
Da neue Tools auf den Markt kommen und die Python/Jupyter-Integration in Excel eingeführt wird, werden die PoC-Arbeiten, die in Jupyter durchgeführt werden, wahrscheinlich in erster Linie von Analysten (wahrscheinlich auf Senior-Ebene, wenn es sich um PoC für die Modellierung handelt) erledigt. Der Grund dafür ist, dass dieser Teil des Handwerks immer einfacher und schneller wird. Dieser letzte Punkt ist wichtig, denn ich behaupte nicht, dass dieser Teil des Handwerks einfach ist oder dass die Arbeit eines Analysten trivial ist; es handelt sich um einen Bereich mit großen Schwierigkeiten, der respektiert werden sollte. Ich behaupte, dass die Exzellenz des Analysten in der Geschwindigkeit liegt, und wenn er in der Lage ist, Analysen von Metriken, EDA, statistischen Tests und mehr in einem schnelleren Tempo über die von ihm verwendeten Tools auszuführen, dann beginnt dies natürlich, in sein Ruderhaus zu passen, wenn sich die Tools weiterentwickeln.
Dies könnte Data Scientists von heute dazu bringen, sich für eine Richtung zu entscheiden, die auf ihren Fähigkeiten und Interessen basiert - sind sie eher ein Analytics DS oder ein Machine Learning DS? Beachten Sie, dass ich nicht von einem Software Engineering DS gesprochen habe. Für alle Rollen, die ich hier bespreche, sind Programmierkenntnisse erforderlich. Auch wenn einige eine höhere Programmierkompetenz erfordern, sollte jeder in der Lage sein, sauberen und wiederverwendbaren Code zu schreiben. Für mich ist das so, als würde man jemandem sagen, er solle Wissenschaft betreiben, ohne zu erwarten, dass er die wissenschaftliche Methode oder die von der wissenschaftlichen Gemeinschaft festgelegten Standardrichtlinien befolgt.
4. Dateningenieur
Auch dies ist eine Rolle, die es immer geben wird und die ziemlich gut bekannt ist. Data Engineers kuratieren und beschaffen Datensätze aus den vorhandenen Datenquellen des Unternehmens (Lakes, Warehouses usw.) und können die Hauptaufsicht darüber haben, wie die Daten in die Modellierungs- und Bereitstellungspipeline einfließen.
2. Nachhaltige Anwendungen außerhalb der Technologiebranche
Bislang hat sich KI/ML/DS vor allem in den Bereichen Verbrauchertechnologie, Werbung und Marketing durchgesetzt. Es gibt eine Handvoll Unternehmen, die mit Deep Learning arbeiten und erhebliche Fortschritte in den Bereichen Computer Vision und NLP erzielen, aber die Realität sieht so aus, dass nicht jeder Deep-Learning-Anwendungen entwickelt. Die meisten Szenarien sind strukturierte Datenprobleme, für die Deep Learning nicht die effektivste Lösung ist.
Obwohl Vertrieb, Marketing und Werbung riesige Industriezweige sind, stehen die spannendsten Anwendungen für maschinelles Lernen meiner Meinung nach noch bevor. Wir werden wahrscheinlich eine breite Einführung von ML im Gesundheitswesen, im Rechtswesen, in der Fertigung, in der Landwirtschaft und in vielen anderen Bereichen erleben. Branchen, die traditionell stark reguliert sind oder die nicht in erster Linie aus der Softwarebranche stammen, werden einen dramatischen Wandel erleben, nur damit sie maschinelles Lernen in großem Umfang nutzen können. Auch die Nachhaltigkeit ist ein wichtiger Bestandteil dieser Anwendungen. Es wird nicht ausreichen, nur Daten zu visualisieren, von denen man früher nicht einmal dachte, dass sie gesammelt werden. Wir werden wahrscheinlich ML-Lösungen sehen, die parallel zu Fachexperten in Echtzeit oder in Produktionsumgebungen für Branchen arbeiten, die einige Zeit gebraucht haben, um sich technologisch weiterzuentwickeln.
Dies ist aus vielen Gründen ein Gewinn. Der wichtigste ist, dass diese Branchen eine höhere Effizienz und innovative Lösungen erleben werden, die vorher nicht möglich waren. Außerdem wird es für Nicht-Techniker einfacher, zu Technikern zu werden. Anstatt ein Fachmann für maschinelles Lernen sein zu müssen, können sie ein Arzt sein, der einen MLE in sein Team einstellt, um mit ihm zusammenzuarbeiten. Jede Funktion, die mit Hilfe von Daten verbessert werden kann, wird mit einem "+" am Ende versehen, was bedeutet, dass sie zusätzlich zu ihrer Tätigkeit über ML-Fähigkeiten verfügen. Zum Beispiel: Lawyer vs. Lawyer+: bezieht sich auf diejenigen, die sich mit Recht auskennen und es gründlich studiert haben und nun maschinelles Lernen nutzen, um ihre Fähigkeiten zu erweitern.
3. Datenzentrierte Modellierung
Andrew Ng hat dies am besten veranschaulicht: Ein Modell ist die Summe aus Code und Daten. Bisher haben wir unermüdlich am Modell und den Hyperparametern gefeilt und dabei die Daten konstant gehalten. Obwohl dies in der akademischen Welt zu enormen Fortschritten geführt hat, werden wir in der Industrie eine enorme Verschiebung dahingehend erleben, dass wir das Modell konstant halten und an den Daten und vielleicht auch an den Hyperparametern iterieren. Dies ist das Wesen der datenzentrierten Modellierung.
Wie bereits erwähnt, handelt es sich bei den meisten Problemen um Probleme mit strukturierten Daten, d. h. es geht nicht um Bilder, freien Text oder Audio. Sie befassen sich mit Datentabellen in bestimmten Systemen wie einer Datenbank oder der Cloud. Gleichzeitig haben wir auch die leistungsfähigsten Modelle weitgehend gefunden. Im Laufe der Zeit wird es zwangsläufig Variationen geben, aber die Modelle, die in Produktionsumgebungen eingesetzt werden, sind diejenigen, die getestet und validiert wurden und in der Community einen guten Ruf genießen. Das bedeutet zwangsläufig, dass Sie in der Regel nicht viel Zeit mit der Modellierung in der Industrie verbringen werden (das ist bereits der Fall).
Der größte Teil Ihrer Zeit wird darauf verwendet, die richtigen Daten zu ermitteln, einen aussagekräftigen Datensatz zu erstellen, die Funktionen intelligent zu entwickeln, um die notwendigen geschäftlichen Auswirkungen zu erfassen, und dabei sind noch nicht einmal alle Punkte berücksichtigt, die für die Umsetzung des Modells in die Produktion erforderlich sind. Obwohl Modellierungs- und Mathematikkenntnisse immer von Wert sein werden und in einem Team benötigt werden, brauchen Sie kein komplettes Team mit diesen Fähigkeiten. Vielleicht haben Sie ein oder zwei Mitarbeiter mit fundierten Modellierungskenntnissen, aber in erster Linie werden Sie Datenexperten benötigen (und tun dies auch). Das ist auch heute schon weitgehend der Fall, wird aber ein Ausmaß annehmen, das derzeit nur schwer vorhersehbar ist. Die Datenkompetenz von morgen wird sich zwangsläufig stark spezialisieren und schwierig werden, wenn die Gesellschaft beginnt, Daten auf eine Art und Weise aufzuzeichnen, zu sammeln und zu speichern, wie wir es heute nicht tun, z. B. durch die Integration von Echtzeitsensoren in Textilien, städtische Infrastruktur und unseren Körper.
4. Entscheidungswissenschaftliche Kompetenz
Es ist unglaublich, wie viele sich auf die Tiefe der mathematischen Komplexität konzentrieren, anstatt ihre Zeit damit zu verbringen, das Innenleben des Unternehmens kennenzulernen und zu verstehen, wie Menschen Entscheidungen treffen. Data Science ist die Praxis, Daten nutzbar zu machen, und es wird bald erforderlich sein, dass sich die Praktiker auf die tatsächlichen Entscheidungen konzentrieren, die getroffen, geändert oder gestoppt werden müssen, und in diesen Begriffen sprechen.
Ich glaube, dass die Kluft zwischen denjenigen, die die gesamte Modellierungspipeline verstehen, und denjenigen, die ein tiefes Verständnis für das Geschäft haben, gleich bleiben oder mit der Zeit größer werden wird. Es gibt zu viele Tools, Techniken und Fähigkeiten, die sich ändern, als dass Nicht-Techniker damit Schritt halten könnten. Daher müssen diejenigen, die über technische Kenntnisse verfügen, starke Vertriebskenntnisse erwerben, um eine Brücke zu schlagen.
Eine Überbewertung der Mathematik wird Ihnen nicht dabei helfen, eine wichtige Entscheidung zu beeinflussen, die getroffen werden muss. Die am besten ausgebildeten Data Scientists müssen Motivationen, Einflussfaktoren und unterschiedliche Persönlichkeiten verstehen und wissen, wie sie die Mächtigen beeinflussen können. Das ist heute in der Fachwelt allgemein bekannt, aber ich prophezeie, dass dies in allen Bootcamps und Programmen als Schlüsselqualifikation für den Erfolg aufgenommen werden wird.
5. Data Science Creator Economy
Als Künstlerin finde ich es unglaublich, wie viele Data Scientists die Hartnäckigkeit haben, Kunst zu schaffen und freiberuflich tätig zu sein. Ich habe von vielen Data Scientists/MLEs gehört, die diesen Weg eingeschlagen haben, sei es durch Schreiben, einzigartige Leidenschaftprojekte oder Beratung unter ihrem Markennamen. Ich denke, dass der Weg in die Freiberuflichkeit für diese Funktion heute sehr unterschiedlich sein kann - einige werden gut sein, die meisten werden schwierig sein, und einige werden eine lustige Art sein, zusätzliche Stunden am Tag zu verbringen.
Ich glaube, dass dies mit der Zeit ein wirklich ernstzunehmender Beruf sein wird, den Kinder anstreben können. Wir erleben derzeit einen Wertverlust des Studiums, der eine eigene Geschichte wert ist, und die Kinder fragen sich wirklich, wozu sie sich verschulden sollen, wenn sie genau die Fähigkeiten, die sie wollen und brauchen, in ein paar Jahren online erlernen können (für Einstiegsrollen). Ein freiberuflicher Data Scientist zu werden, wird wahrscheinlich für viele eine realistische Option (und eine, die Spaß macht) sein, und ich sage voraus, dass sie die Fähigkeit haben werden, die hohen Gehälter zu erzielen, die wir heute in der Branche sehen.
Dazu müssen jedoch zunächst einige Dinge geklärt werden, wobei das Wichtigste der Datenschutz und rechtliche Fragen sind. Sobald Unternehmen einen Standard für die Zusammenarbeit mit Freiberuflern haben, anstatt ständig ein ganzes Team zu beschäftigen, kann dies meiner Meinung nach ein effektiver Weg für Anfänger und Praktiker mit hohem Markenwert sein.