Top-Fragen im Data Science-Interview

Veröffentlicht am

Blog image

Data Science ist ein interdisziplinäres Fachgebiet, das Rohdaten auswertet, analysiert und Muster findet, die dazu dienen, wertvolle Erkenntnisse aus ihnen zu gewinnen. Statistik, Informatik, maschinelles Lernen, Deep Learning, Datenanalyse, Datenvisualisierung und verschiedene andere Technologien bilden die zentrale Grundlage der Data Science.

Im Laufe der Jahre hat Data Science aufgrund der Bedeutung von Daten eine große Bedeutung erlangt. Daten werden als das neue Öl der Zukunft angesehen, das sich bei richtiger Analyse und Nutzung als sehr vorteilhaft für die Beteiligten erweisen kann. Darüber hinaus erhält ein Datenwissenschaftler die Möglichkeit, in verschiedenen Bereichen zu arbeiten und praktische Probleme des wirklichen Lebens zu lösen, indem er moderne Technologien einsetzt. Die häufigste Echtzeitanwendung ist die schnelle Lieferung von Lebensmitteln in Apps wie Uber Eats, die dem Zusteller die schnellstmögliche Route vom Restaurant zum Zielort zeigen. Data Science wird auch in Empfehlungssystemen für Artikel auf E-Commerce-Websites wie Amazon, Flipkart usw. eingesetzt, die dem Benutzer auf der Grundlage seines Suchverlaufs empfehlen, welchen Artikel er kaufen kann. Data Science wird nicht nur bei Empfehlungssystemen, sondern auch bei Anwendungen zur Betrugserkennung immer beliebter, um Betrug bei kreditbasierten Finanzanwendungen aufzudecken. Ein erfolgreicher Datenwissenschaftler ist in der Lage, Daten zu interpretieren, Innovationen durchzuführen und Kreativität zu entfalten, während er Probleme löst, die dazu beitragen, geschäftliche und strategische Ziele zu erreichen. Das macht ihn zu einem der lukrativsten Berufe des 21. Jahrhunderts.

Falls Sie neue Datenwissenschaft Fähigkeiten erwerben wollen oder Ihre bereits existierenden Fähigkeiten erweitern wollen, eignet sich Skillshare für Sie. Klicken Sie bitte hier um auf die Lernplatform von Skillshare zu gelangen und neue Einblicke in die verschiedensten Themen zu erhalten.

Data Science Interview Fragen

Quelle : educba.com

In diesem Beitrag werden wir die am häufigsten gestellten Data Science technischen Interview Fragen behandeln, die angehende aber auch erfahrene Data Scientists helfen werden.

1. Was versteht man unter dem Begriff Data Science?

Als Data Science wird ein interdisziplinäres Gebiet bezeichnet, das verschiedene wissenschaftliche Prozesse, Algorithmen, Werkzeuge und maschinelle Lerntechniken umfasst, die dabei helfen, allgemeine Muster zu finden und mithilfe statistischer und mathematischer Analysen sinnvolle Erkenntnisse aus den gegebenen Rohdaten zu gewinnen.

  • Sie beginnt mit der Erfassung der Geschäftsanforderungen und der relevanten Daten.
  • Sobald die Daten erfasst sind, werden sie durch Datenbereinigung, Data Warehousing, Data Staging und Datenarchitektur gepflegt.
  • Die Datenverarbeitung hat die Aufgabe, die Daten zu erforschen, sie zu schürfen und zu analysieren, um schließlich eine Zusammenfassung der aus den Daten gewonnenen Erkenntnisse zu erstellen.
  • Sobald die Sondierungsschritte abgeschlossen sind, werden die bereinigten Daten je nach Bedarf verschiedenen Algorithmen wie prädiktiver Analyse, Regression, Text Mining, Mustererkennung usw. unterzogen.
  • In der letzten Phase werden die Ergebnisse dem Unternehmen in visuell ansprechender Form mitgeteilt. Hier kommen die Fähigkeiten der Datenvisualisierung, des Berichtswesens und verschiedener Business Intelligence-Tools ins Spiel.

2. Was ist der Unterschied zwischen Datenanalyse und Data Science?

Data Science beinhaltet die Aufgabe, Daten mit Hilfe verschiedener technischer Analysemethoden umzuwandeln, um aussagekräftige Erkenntnisse zu gewinnen, die ein Datenanalyst auf seine Geschäftsszenarien anwenden kann. Die Datenanalyse befasst sich mit der Überprüfung der vorhandenen Hypothesen und Informationen und beantwortet Fragen für einen besseren und effektiven geschäftsbezogenen Entscheidungsprozess. Data Science treibt die Innovation voran, indem sie Fragen beantwortet, die Verbindungen und Antworten für zukunftsweisende Probleme schaffen. Data Analytics konzentriert sich darauf, aus dem vorhandenen historischen Kontext eine aktuelle Bedeutung zu gewinnen, während Data Science sich auf die prädiktive Modellierung konzentriert. 

Data Science kann als ein breit gefächertes Fachgebiet betrachtet werden, das verschiedene mathematische und wissenschaftliche Werkzeuge und Algorithmen zur Lösung komplexer Probleme einsetzt, während Data Analytics als ein spezifisches Fachgebiet betrachtet werden kann, das sich mit spezifischen, konzentrierten Problemen befasst und dabei weniger Werkzeuge der Statistik und Visualisierung verwendet.

3. Welche Techniken werden für Stichproben verwendet? Was ist der Hauptvorteil von Stichproben?

Die Datenanalyse kann nicht für die gesamte Datenmenge auf einmal durchgeführt werden, insbesondere wenn es sich um größere Datensätze handelt. Daher ist es wichtig, einige Datenstichproben zu nehmen, die für die gesamte Datenmenge repräsentativ sind, und diese dann zu analysieren. Dabei ist es sehr wichtig, aus den großen Datenmengen sorgfältig Stichproben zu ziehen, die wirklich den gesamten Datensatz repräsentieren.

Es gibt im Wesentlichen zwei Kategorien von Stichprobenverfahren, die auf der Verwendung von Statistiken beruhen, nämlich:

  • Wahrscheinlichkeitsstichprobenverfahren: Clusterstichproben, einfache Zufallsstichproben, geschichtete Stichproben.
  • Nicht-Wahrscheinlichkeits-Stichprobenverfahren: Quotenstichproben, Zufallsstichproben, Schneeballstichproben, usw.

4. Nennen Sie die Bedingungen für Overfitting und Underfitting

Bei Overfitting funktioniert das Modell nur für die Trainingsdaten der Stichprobe gut. Wenn neue Daten in das Modell eingegeben werden, liefert es keine Ergebnisse. Diese Bedingungen sind auf eine geringe Verzerrung und hohe Varianz im Modell zurückzuführen. Entscheidungsbäume sind anfälliger für Overfitting.

Im Fall des Underfittings ist das Modell so einfach, dass es nicht in der Lage ist, die richtige Beziehung in den Daten zu erkennen, und daher auch bei den Testdaten nicht gut abschneidet. Dies kann aufgrund einer hohen Verzerrung und einer geringen Varianz geschehen. Die lineare Regression ist anfälliger für Underfitting.

5. Unterscheiden Sie zwischen Lang- und Breitformatdaten

Bei Langformatdaten, stellt jede Zeile der Daten die einmalige Information eines Subjekts dar. Jedes Subjekt würde seine Daten in verschiedenen/mehreren Zeilen haben. Die Daten können erkannt werden, indem Zeilen als Gruppen betrachtet werden. Dieses Datenformat wird am häufigsten in R-Analysen und zum Schreiben in Protokolldateien nach jedem Versuch verwendet.

Bei breitformatigen Daten sind die wiederholten Antworten eines Probanden Teil separater Spalten. Die Daten können erkannt werden, indem Spalten als Gruppen betrachtet werden. Dieses Datenformat wird in R-Analysen nur selten verwendet und wird am häufigsten in Statistikpaketen für ANOVAs mit wiederholten Messungen eingesetzt.

6. Was sind Eigenvektoren und Eigenwerte?

Eigenvektoren sind Spaltenvektoren oder Einheitsvektoren, deren Länge/Betrag gleich 1 ist. Sie werden auch als rechte Vektoren bezeichnet. Eigenwerte sind Koeffizienten, die auf Eigenvektoren angewendet werden und diesen Vektoren unterschiedliche Werte für Länge oder Größe geben.

Eine Matrix kann in Eigenvektoren und Eigenwerte zerlegt werden; dieser Vorgang wird als Eigenwertzerlegung bezeichnet. Diese werden dann schließlich in maschinellen Lernmethoden wie PCA (Principal Component Analysis) verwendet, um wertvolle Erkenntnisse aus der gegebenen Matrix zu gewinnen.

7. Was bedeutet es, wenn die p-Werte hoch und niedrig sind?

Ein p-Wert ist das Maß für die Wahrscheinlichkeit, dass die Ergebnisse gleich oder größer sind als die Ergebnisse, die unter einer bestimmten Hypothese erzielt werden, wenn die Nullhypothese richtig ist. Er gibt die Wahrscheinlichkeit an, dass der beobachtete Unterschied zufällig auftritt.

  • Ein niedriger p-Wert, d. h. Werte ≤ 0,05, bedeutet, dass die Nullhypothese abgelehnt werden kann und die Daten mit der wahren Null unwahrscheinlich sind.
  • Ein hoher p-Wert, d. h. Werte ≥ 0,05, zeigt die Stärke zugunsten der Nullhypothese an. Er bedeutet, dass die Daten mit der wahren Nullhypothese übereinstimmen.
  • Ein p-Wert = 0,05 bedeutet, dass die Hypothese in beide Richtungen gehen kann.

8. Wann wird eine Wiederholungsstichprobe durchgeführt?

Quelle : 365datascience.com

Resampling ist eine Methode zur Stichprobenziehung von Daten, um die Genauigkeit zu verbessern und die Unsicherheit der Populationsparameter zu quantifizieren. Es wird durchgeführt, um sicherzustellen, dass das Modell gut genug ist, indem das Modell auf verschiedenen Mustern eines Datensatzes trainiert wird, um sicherzustellen, dass Variationen behandelt werden. Sie wird auch in den Fällen angewandt, in denen Modelle anhand zufälliger Teilmengen validiert werden müssen oder wenn bei der Durchführung von Tests die Beschriftungen der Datenpunkte ersetzt werden sollen.

9. Was verstehen Sie unter unausgewogenen Daten?

Von stark unausgewogenen Daten spricht man, wenn sie ungleich über verschiedene Kategorien verteilt sind. Solche Datensätze führen zu einem Fehler in der Modellleistung und zu Ungenauigkeit.

10. Gibt es Unterschiede zwischen dem Erwartungswert und dem Mittelwert?

Es gibt nicht viele Unterschiede zwischen diesen beiden, aber es ist zu beachten, dass sie in unterschiedlichen Zusammenhängen verwendet werden. Der Mittelwert bezieht sich im Allgemeinen auf die Wahrscheinlichkeitsverteilung, während der Erwartungswert in Kontexten mit Zufallsvariablen verwendet wird.

11. Was verstehen Sie unter Survivorship Bias?

Diese Verzerrung bezieht sich auf den logischen Fehler, sich auf Aspekte zu konzentrieren, die einen Prozess überlebt haben, und diejenigen zu übersehen, die aufgrund mangelnder Prominenz nicht funktioniert haben. Diese Verzerrung kann dazu führen, dass falsche Schlussfolgerungen gezogen werden.

12. Definieren Sie konfundierende Variablen.

Confounding-Variablen werden auch als Confounder bezeichnet. Diese Variablen sind eine Art von Fremdvariablen, die sowohl die unabhängigen als auch die abhängigen Variablen beeinflussen und eine falsche Assoziation und mathematische Beziehungen zwischen den Variablen verursachen, die zwar assoziiert sind, aber nicht zufällig miteinander verbunden sind.

Abschluss

Quelle : analyticsinsight.net

Diese Fragen können in Ihrem Vorstellungsgespräch gestellt werden, aber auch nicht. Deshalb ist es wichtig, dass Sie sich genügend Zeit für die Vorbereitung auf Ihr Vorstellungsgespräch nehmen, denn jedes Vorstellungsgespräch hat das Potenzial, eine ganz eigene Dynamik zu entwickeln.

Das könnte Sie auch interessieren