Zurück zu allen Blogbeiträgen

Eine Einführung in Dataiku DSS

  • Data Science
  • Tutorial
26. Oktober 2018
·

Team statworx

In den meisten unserer Kundenprojekte bei statworx nutzen wir R oder Python. Auch in unserem Blog handelt es sich meist um Themen rund um die Nutzung dieser beiden Sprachen. Im Data Science Bereich gibt es allerdings eine große Anzahl anderer Tools, viele davon mit einer grafischen Benutzeroberfläche. Dazu zählen zum Beispiel KNIME, RapidMiner oder das hier vorgestellte Tool von Dataiku Data Science Studio (DSS). Allen gemeinsam ist, dass keine besonderen Programmierkenntnisse benötigt werden, um mit diesen zu arbeiten. Die Tools bieten also auch Data Science Einsteigern eine gute Möglichkeit schnelle Ergebnisse zu erzielen und diese mit Kollegen aus anderen Fachbereichen einfach zu teilen. Dies ist einer der Gründe warum auch wir in einigen Kundenprojekten mit Dataiku DSS arbeiten und zu diesem Tool auch Schulungen anbieten.

In dem ersten Teil des Artikels soll ein erster Überblick über die Funktionen von Dataiku DSS gegeben werden, im Folgenden werde ich die Möglichkeiten an einem Beispieldatensatz aufzeigen.

Das wichtigste allerdings zuerst. Wenn Sie sich selbst ein Bild von Dataiku machen wollen und das untere Beispiel nachvollziehen möchten, können Sie eine kostenlose Version auf Dataiku herunterladen.

Vorstellung Dataiku

Warum Dataiku Ihren Arbeitsablauf erleichtern wird?

Das im Jahr 2013 gegründete Unternehmen Dataiku bietet eine kollaborative Data Science Plattform, die die Bearbeitung des gesamten Workflows eines Data Sciences Projektes erlaubt. Dies umfasst die Integration von Hadoop oder Spark, die Datentransformation mit einer grafischen Benutzeroberfläche, dem Nutzen von diversen Algorithmen des maschinellen Lernens und die Datenvisualisierung mit Dashboards. Durch die Breite an Funktionen kann das Tool von Data Scientists, Data Analysts und Data Engineers genutzt werden. Weiterhin ist das Projektmanagement über Dataiku zum Beispiel durch To-do-Listen möglich.

Durch die diversen Funktionen wurde Dataiku im Jahr 2018 im Gartner Magic Quadrant for Data Science Platforms als Visionär eingeordnet.

Ein großer Vorteil an Dataiku ist die Click-or-Code Option. Diese Option ermöglicht es entweder die grafische Oberfläche oder R/Python Code zu nutzen, um zum Beispiel die Datenaufbereitung durchzuführen. Dadurch können beliebige Funktion selbst erstellt werden, sollte der vordefinierte Funktionsumfang nicht ausreichen. Die grafische Benutzeroberfläche bietet dabei eine große Menge an Funktionen und eine ähnliche Syntax wie Excel.

Der Aufbau von Dataiku DSS

Auf der Startseite befindet sich eine Übersicht über alle Projekte. Hier wurde neben zwei Beispielen von Dataiku DSS noch ein weiteres Testprojekt erstellt. Bei einer größeren Anzahl Projekte, ist es zudem möglich nach diesen zu suchen.

dataiku-projektuebersicht

Klickt man auf eines der Projekte, öffnet sich eine Zusammenfassung des Projektes mit der Anzahl genutzter Datensätze, Modelle, Dashboards usw..

dataiku-t-shirt-projekt

Zusätzlich kann eine kurze Zusammenfassung des Projektes, ähnlich einer Readme-Datei auf Github, sowie eine To-do-Liste erstellt werden. Weiterhin können über den Reiter "Changes" Veränderungen nachverfolgt werden.

Klickt man auf den Button GO TO FLOW öffnet man den Workflow des Projektes.

Der angezeigte Workflow wird von links nach rechts durchlaufen und zeigt die Implementierung eines einfachen Modells. Zuerst werden dabei verschieden Datensätze geladen. In den nächsten Schritten erfolgt dann ein Join, die Datenaufbereitung, das Training sowie als letzter Schritt das Scoring der Modelle.

Ein Vorteil an dem Workflow ist neben der guten Übersicht, dass man die einzelnen Schritte schnell bearbeiten kann und Änderungen an den Datensätzen direkt beobachten kann. Durch einen Doppelklick auf den erstellten Datensatz web_last_month_enriched ist es zum Beispiel möglich zu sehen, was sich verändert hat und in welchem Format die einzelnen Spalten gespeichert sind. Gerade bei unbekannten Datensätzen hilft dies einen schnellen Überblick über die Daten zu bekommen.

dataiku-dataset-overview

Vorhersage der Weinqualität - ein Beispiel

Als Beispiel soll ein Problem gewählt werden, bei dem anhand von verschiedenen Einflussvariablen die Qualität eines Weines vorhergesagt werden muss. Die beiden genutzten Datensätze können auf der Seite vom UCI Machine Learning Repository unter UCI Datasets heruntergeladen werden. Ein Datensatz enthält dabei jeweils Daten einer Weinsorte.

Die Qualität eines Weines wird dabei anhand einer Skala von 0-10 bewertet, wobei die 10 der höchsten Kategorie entspricht. Als Einflussvariablen werden verschiedene sensorische Daten wie zum Beispiel der pH-Wert oder der Gesamtschwefeldioxidgehalt genutzt. Die Bedeutung der einzelnen Variablen kann genauer in Dataset Description nachgelesen werden. Für diesen Blog wird dabei die Qualität des Weines in nur zwei Gruppen eingeteilt. Dazu werden alle "schlechten" Weine mit einer Wertung kleiner gleich 5 in einer Kategorie zusammengefasst und alle Weine mit einer Wertung größer als 5 in einer anderen Kategorie zusammengefasst.

Als erster Schritt müssen die Datensätze hochgeladen und zusammengeführt werden. Um einen neuen Datensatz in Dataiku zu nutzen kann das Datenbank Symbol genutzt werden. Danach werden die verschiedenen Möglichkeiten von Datenquellen angezeigt. Entweder werden verschiedene Datenbankanbindungen genutzt oder es können csv-Dateien geladen werden. Für das jetzige Problem müssen die beiden Datensätze für Rot- und Weißwein als csv-Dateien geladen werden. Direkt nach dem Laden des Datensatzes, wird dieser mit den entsprechenden Variablentypen angezeigt. In den meisten Fällen stimmen die vorgeschlagenen Werte, sollten diese doch abweichen, können die Werte auch direkt geändert werden.

Weiterhin kann durch einen Klick auf den Variablennamen und Analyze direkt eine Übersicht über die Variable gewonnen werden. Unter dem Reiter Charts gibt es zusätzlich die Möglichkeit durch Drag & Drop einfache Grafiken zu erstellen, um somit einen Überblick über die Daten zu erlangen, wobei zwischen verschiedenen Diagrammarten ausgewählt werden kann. Gerade bei unbekannten Datensätzen ist dies ein wichtiger Schritt, um die Daten zu verstehen und eventuell neue Features zu bilden oder Ausreißer zu erkennen.

Nachdem beide Datensätze geladen wurden, müssen diese zusammengeführt werden. Dazu muss zunächst über den kleinen abgebildeten Graphen oben links die Flow-Ansicht aufgerufen werden. In dieser Ansicht werden alle Schritte der Modellierung von der Datenaufbereitung bis zum letztendlichen Deployment grapfisch durch ein Flussdiagramm angezeigt. Dabei werden verschiedene Symbole für Datensätze und diverse Operationen genutzt. Für das Zusammenführen der Daten wird in der Flow-Ansicht das Stacking-Symbol genutzt.

In der darauffolgenden Ansicht muss der jeweils andere Datensatz ausgewählt werden sowie der Name des neuen Datensatzes gewählt werden.

Für unser Problem soll nur ein Modell gebildet werden und die Farbe des Weins als Einflussvariable mit aufgenommen werden. Dazu muss zunächst bei beiden Datensätzen eine neue Variable gebildet werden, in der die jeweilige Farbe, also weiß oder rot steht. Klickt man nun in der Flow Ansicht einmal auf den Datensatz, werden verschiedene Visual Recipes angezeigt, die für verschiedene Operationen stehen. Das Hinzufügen der Weinfarbe ist ein Datenvorbereitungsschritt, weshalb auf das Symbol mit dem Besen geklickt werden muss. Danach können einer oder mehrere Datenvorbereitungsschritte durchgeführt werden. Dazu kann über Add a new step ein neuer Schritt hinzugefügt werden. Um die neue Variable hinzuzufügen kann über ein Klick bei Strings und die Auswahl Formula eine Formel eingegeben werden. Die neue Variable wird wine_color genannt und als Expression wird die entsprechende Farbe, also entweder white oder red eingetragen.

new-variable

Durch eins Klick auf RUN wird die entsprechende Operation durchgeführt.

Nachdem die Datensätze zusammengeführt wurden, werden die neuen Kategorien gebildet. Dazu wird wieder das Datenaufbereitungssymbol genutzt. Darauf wird wieder über String>Formula der Formeleditor geöffnet. Die zugehörige Formel lautet if (quality <= 5, '0', '1'). Die neue Variable wird quality_classification genannt. Um beim Training die Variable quality nicht als Einflussvariable zu nutzen, wird diese im nächsten Schritt ausgeschlossen. Dazu wird unter der Kategorie Filter und Delete/Keep columns by name die Variable quality eingesetzt. Durch einen Klick auf RUN werden die entsprechenden Schritte durchgeführt.

Im Folgenden erfolgt das eigentliche Training des Modells. Um ein Modell zu trainieren reicht ein einfacher Klick auf den Trainingsdatensatz und danach kann über Lab > Visual Analysis > New ein neues Modell trainiert werden. In der neuen Ansicht kann nun unter dem Reiter Models das erste Modell erstellt werden. Nach der Auswahl des Machine Learning Problems, in unserem Fall Prediction, und der Zielvariable, kann direkt ein einfaches Modell trainiert werden oder über den Reiter Design können eigene Modelle erstellt werden.

In dem Design können verschiedene Parameter verändert werden sowie die einzelnen Algorithmen ausgewählt werden. Es gibt dabei die vier Kategorien BASIC, FEATURES, MODELING und ADVANCED.

In der Kategorie BASIC können Parameter für den Train/Test Split sowie das zu optimierende Fehlermaß angegeben werden. Sollen weitere Feature Engineering Schritte durchgeführt oder einzelne Variablen ausgeschlossen werden, kann dies in der Kategorie FEATURES geschehen. Hierbei können auch verschiedene Interaktionen zwischen den verschiedenen Variablen sowie der Umgang mit fehlenden Werten definiert werden. Unter der Kategorie MODELING gibt es eine Auswahl nahezu aller gängigen Machine-Learning Modelle wie zum Beispiel verschiedene baumbasierte Verfahren, Regressionsverfahren und Neuronale Netze. Zu jedem Modell können verschiedene Hyperparameter angegeben werden, die zum Grid-Search genutzt werden sollen. Sollen weitere Modelle ausprobiert werden, können unter dem Punkt Add Custom Python Model auch eigene Modelle entwickelt werden. Über ADVANCED kann die Python Umgebung verändert werden sowie die Gewichte der einzelnen Obersevationen verändert werden.

In dem Beispiel wurden die beiden von Dataiku vorgeschlagenen Modelle Random Forest und Logistische Regression sowie der XGBoost getestet. Durch einen Klick auf Train werden die Modelle trainiert. Am Ende des Trainings werden zu jedem Modell die durch Grid Seach ermittelten optimalen Parameter, eine Liste der wichtigsten Parameter, die Aufteilung von Trainings- und Testset sowie die Trainingszeit angezeigt. Durch einen Klick auf ein Modell werden diverse Informationen zu dem Modell angezeigt, wie zum Beispiel Werte zur Performance oder zu genutzen Input Variablen.

model-results

In realen Problemen kann es natürlich noch andere Kriterien als die Accuracy für die Auswahl des Modells geben, wie zum Beispiel die Interpretierbarkeit eines Modells oder lineare Zusammenhänge. Zur Produktivsetzung kann in der Detailansicht des Modells der Deploy Button betätigt werden. Das Modell kann nun auf neue Daten angewandt werden.

Der gesamte Flow hat nun folgende Form:

final-flow

Resümee und Ausblick

Dieser Beitrag sollte einen ersten Überblick über das Tool geben. Natürlich gibt es noch viele weitere Funktionen auf die vorerst nicht eingegangen wurde.

Ich hoffe jedoch, dass ich Ihr Interesse geweckt habe. Bei der Bearbeitung unserer Projekte erleichtert Dataiku DSS uns die Arbeit häufig stark, zusätzlich erkennen wir bei unseren Schulungen, dass das Tool leicht zu erlernen ist. Gerade für Personen, die vorher wenig mit Daten gearbeitet haben.

Linkedin Logo
Marcel Plaschke
Head of Strategy, Sales & Marketing
Beratung vereinbaren
Zugehörige Leistungen
No items found.

Weitere Blogartikel

  • Coding
  • Python
  • Statistics & Methods
Ensemble-Methoden im maschinellen Lernen: Bagging & Subagging
Team statworx
15.4.2025
Mehr erfahren
  • Deep Learning
  • Python
  • Tutorial
Verwendung von Reinforcement Learning zum Spielen von Super Mario Bros auf NES mit TensorFlow
Sebastian Heinz
15.4.2025
Mehr erfahren
  • Coding
  • Machine Learning
  • R
Abstimmung von Random Forest auf Zeitreihendaten
Team statworx
15.4.2025
Mehr erfahren
  • Data Science
  • Statistics & Methods
Modellregularisierung – The Bayesian Way
Thomas Alcock
15.4.2025
Mehr erfahren
  • Coding
  • Python
  • Statistics & Methods
Wie man Gradient Boosting um den Faktor Zwei beschleunigt
Team statworx
15.4.2025
Mehr erfahren
  • Coding
  • Frontend
  • R
Dynamische UI-Elemente in Shiny - Teil 2
Team statworx
15.4.2025
Mehr erfahren
  • Coding
  • R
Warum heißen sie so?! – Ursprung und Bedeutung von R-Paketnamen
Team statworx
15.4.2025
Mehr erfahren
  • Data Engineering
  • Python
Von überall aus auf deinen Spark-Cluster zugreifen – mit Apache Livy
Team statworx
15.4.2025
Mehr erfahren
  • Coding
  • Data Engineering
  • Data Science
Testen von REST-APIs mit Newman
Team statworx
14.4.2025
Mehr erfahren
  • Machine Learning
  • Python
  • R
XGBoost: Entscheidungsbaum vs. Lineares Modell
Fabian Müller
14.4.2025
Mehr erfahren
  • Data Science
  • R
Kombination von Preiselastizitäten und Verkaufsprognosen zur Verkaufssteigerung
Team statworx
14.4.2025
Mehr erfahren
  • Data Science
  • Machine Learning
  • R
Zeitreihenvorhersage mit Random Forest
Team statworx
14.4.2025
Mehr erfahren
  • Data Visualization
  • R
Gemeinschaftsdetektion mit Louvain und Infomap
Team statworx
14.4.2025
Mehr erfahren
  • Machine Learning
Machine Learning Goes Causal II: Der kausale Bruder des Random Forests
Team statworx
11.4.2025
Mehr erfahren
  • Coding
  • Data Visualization
  • R
Animierte Diagramme mit ggplot und gganimate
Team statworx
8.4.2025
Mehr erfahren
  • Artificial Intelligence
AI Trends Report 2025: Die 16 Trends im Überblick
Tarik Ashry
25.2.2025
Mehr erfahren
  • Artificial Intelligence
  • Data Science
  • GenAI
Wie ein CustomGPT Effizienz und Kreativität bei hagebau fördert
Tarik Ashry
15.1.2025
Mehr erfahren
  • Artificial Intelligence
  • Data Science
  • Human-centered AI
Explainable AI in der Praxis: Mit der richtigen Methode die Black Box öffnen
Jonas Wacker
15.1.2025
Mehr erfahren
  • Artificial Intelligence
  • GenAI
  • statworx
Zurück in die Zukunft: Die Geschichte von Generativer KI (Episode 4)
Tarik Ashry
6.12.2024
Mehr erfahren
  • Artificial Intelligence
  • GenAI
  • statworx
Zurück in die Zukunft: Die Geschichte von Generativer KI (Episode 3)
Tarik Ashry
6.12.2024
Mehr erfahren
  • Artificial Intelligence
  • GenAI
  • statworx
Zurück in die Zukunft: Die Geschichte von Generativer KI (Episode 2)
Tarik Ashry
6.12.2024
Mehr erfahren
  • Artificial Intelligence
  • Data Culture
  • Data Science
  • Deep Learning
  • GenAI
  • Machine Learning
AI Trends Report 2024: statworx COO Fabian Müller zieht eine Zwischenbilanz
Tarik Ashry
6.12.2024
Mehr erfahren
  • Artificial Intelligence
  • GenAI
  • statworx
Maßgeschneiderte KI-Chatbots: Hohe Leistung und schnelle Integration vereint
Tarik Ashry
6.12.2024
Mehr erfahren
  • Artificial Intelligence
  • GenAI
  • statworx
Zurück in die Zukunft: Die Geschichte von Generativer KI (Episode 1)
Tarik Ashry
6.12.2024
Mehr erfahren
  • Artificial Intelligence
  • Data Culture
  • Human-centered AI
KI in der Arbeitswelt: Wie wir Skepsis in Zuversicht verwandeln
Tarik Ashry
6.12.2024
Mehr erfahren
  • Artificial Intelligence
  • GenAI
  • statworx
Generative KI als Denkmaschine? Ein medientheoretischer Blick
Tarik Ashry
6.12.2024
Mehr erfahren
  • Artificial Intelligence
  • Data Culture
  • Human-centered AI
Wie Führungskräfte die Datenkultur im Unternehmen stärken können
Tarik Ashry
6.12.2024
Mehr erfahren
  • Artificial Intelligence
  • Data Science
Wie wir für Microsoft einen Chatbot mit echtem Wissen entwickelt haben
Team statworx
6.12.2024
Mehr erfahren
  • Data Science
  • Data Visualization
  • Frontend Solution
Warum Frontend-Entwicklung in Data Science-Anwendungen nützlich ist
Jakob Gepp
6.12.2024
Mehr erfahren
  • Artificial Intelligence
  • Human-centered AI
  • statworx
the byte - Wie wir ein KI-gesteuertes Pop-up Restaurant aufgebaut haben
Sebastian Heinz
6.12.2024
Mehr erfahren
  • Artificial Intelligence
  • Data Science
  • GenAI
Die Zukunft des Customer Service: Generative KI als Erfolgsfaktor
Tarik Ashry
6.12.2024
Mehr erfahren
  • Artificial Intelligence
  • Human-centered AI
  • Strategy
Der AI-Act ist da – diese Risikoklassen sollte man kennen
Fabian Müller
6.12.2024
Mehr erfahren
  • Artificial Intelligence
  • Human-centered AI
  • Machine Learning
Genderdarstellung in der KI – Teil 2: Automatisierte Erzeugung genderneutraler Versionen von Gesichtsbildern
Team statworx
6.12.2024
Mehr erfahren
  • Data Science
  • Human-centered AI
  • Statistics & Methods
Die Black-Box entschlüsseln – 3 Explainable AI Methoden zur Vorbereitung auf den AI-Act
Team statworx
6.12.2024
Mehr erfahren
  • Artificial Intelligence
  • Human-centered AI
  • Strategy
Wie der AI-Act die KI-Branche verändern wird: Alles, was man jetzt darüber wissen muss
Team statworx
6.12.2024
Mehr erfahren
  • Artificial Intelligence
  • Recap
  • statworx
Big Data & AI World 2023 Recap
Team statworx
6.12.2024
Mehr erfahren
  • Artificial Intelligence
  • Data Science
  • Statistics & Methods
Ein erster Einblick in unser Forecasting Recommender Tool
Team statworx
6.12.2024
Mehr erfahren
  • Artificial Intelligence
  • Data Science
Vom Können, Tun und Wollen – Warum Datenkultur und Death Metal einiges miteinander gemeinsam haben
David Schlepps
6.12.2024
Mehr erfahren
  • Artificial Intelligence
  • Deep Learning
  • Machine Learning
Wie man KI-generierte Avatare mit Hilfe von Stable Diffusion und Textual Inversion erstellt
Team statworx
6.12.2024
Mehr erfahren
  • Artificial Intelligence
  • Data Science
  • Strategy
Das Geheimnis der Datenkultur entschlüsseln: Diese Faktoren beeinflussen Kultur und Erfolg von Unternehmen
Team statworx
6.12.2024
Mehr erfahren
  • Artificial Intelligence
  • Human-centered AI
  • Machine Learning
GPT-4 – Eine Einordnung der wichtigsten Neuerungen
Mareike Flögel
6.12.2024
Mehr erfahren
  • Artificial Intelligence
  • Human-centered AI
  • Strategy
Knowledge Management mit NLP: So einfach verarbeitet man E-Mails mit KI
Team statworx
6.12.2024
Mehr erfahren
  • Artificial Intelligence
  • Deep Learning
  • Machine Learning
3 Anwendungsfälle, wie ChatGPT die Kommunikation in Unternehmen revolutionieren wird
Ingo Marquart
6.12.2024
Mehr erfahren
  • Artificial Intelligence
  • Machine Learning
  • Tutorial
Paradigmenwechsel in NLP: 5 Ansätze, um bessere Prompts zu schreiben
Team statworx
6.12.2024
Mehr erfahren
  • Recap
  • statworx
Ho ho ho – weihnachtlicher Küchenabriss
Julius Heinz
6.12.2024
Mehr erfahren
  • Artificial Intelligence
  • Deep Learning
  • Machine Learning
Real-time Computer Vision: Gesichter erkennen mit einem Roboter
Sarah Sester
6.12.2024
Mehr erfahren
  • Recap
  • statworx
statworx @ UXDX Conf 2022
Markus Berroth
6.12.2024
Mehr erfahren
  • Data Engineering
  • Tutorial
Data Engineering – From Zero to Hero
Thomas Alcock
6.12.2024
Mehr erfahren
  • Recap
  • statworx
statworx @ vuejs.de Conf 2022
Jakob Gepp
6.12.2024
Mehr erfahren
  • Data Engineering
  • Data Science
Überwachung und Protokollierung von Anwendungen und Infrastruktur: Metriken und (Ereignis-)Protokolle
Team statworx
6.12.2024
Mehr erfahren
  • Data Engineering
  • Data Science
  • Python
Wie Du Deinen Code und Deine Abhängigkeiten in Python scannst
Thomas Alcock
6.12.2024
Mehr erfahren
  • Cloud Technology
  • Data Engineering
  • Data Science
Wie du dein Data Science Projekt fit für die Cloud machst
Alexander Broska
6.12.2024
Mehr erfahren
  • Artificial Intelligence
  • Human-centered AI
  • Machine Learning
Geschlechter­darstellung in der KI – Teil 1: Verwendung von StyleGAN zur Erforschung von Geschlechter­vielfalt bei der Bild­bearbeitung
Isabel Hermes
6.12.2024
Mehr erfahren
  • R
Das helfRlein Package – Eine Sammlung nützlicher Funktionen
Team statworx
6.12.2024
Mehr erfahren
  • Data Engineering
  • Data Science
  • Machine Learning
Data-Centric AI: Von Model-First zu Data-First KI-Prozessen
Team statworx
6.12.2024
Mehr erfahren
  • Artificial Intelligence
  • Deep Learning
  • Human-centered AI
  • Machine Learning
DALL-E 2: Warum Diskriminierung in der KI-Entwicklung nicht ignoriert werden kann
Team statworx
6.12.2024
Mehr erfahren
  • Artificial Intelligence
  • Human-centered AI
statworx AI Principles: Warum wir eigene KI-Prinzipien entwickeln
Team statworx
6.12.2024
Mehr erfahren
  • Recap
  • statworx
5 Highlights vom Digital Festival Zürich 2021
Team statworx
6.12.2024
Mehr erfahren
  • Recap
  • statworx
Unfold 2022 in Bern – by Cleverclip
Team statworx
6.12.2024
Mehr erfahren
  • Data Science
  • Human-centered AI
  • Machine Learning
  • Strategy
Warum Data Science und KI-Initiativen scheitern – eine Reflektion zu nicht-technischen Faktoren
Team statworx
6.12.2024
Mehr erfahren
  • Machine Learning
  • Python
  • Tutorial
Wie man eine Machine Learning API mit Python und Flask erstellt
Team statworx
6.12.2024
Mehr erfahren
  • Artificial Intelligence
  • Data Science
  • Human-centered AI
  • Machine Learning
Vorurteile in KI abbauen
Team statworx
6.12.2024
Mehr erfahren
  • Artificial Intelligence
  • Cloud Technology
  • Data Science
  • Sustainable AI
Wie du als Data Scientist deinen KI CO₂ Fußabdruck verringerst
Team statworx
6.12.2024
Mehr erfahren
  • Coding
  • Data Engineering
Automatisierte Erstellung von Docker Containern
Stephan Emmer
6.12.2024
Mehr erfahren
  • Coding
  • Data Visualization
  • R
Anpassung der Zeit- und Datumsskalen in ggplot2
Team statworx
6.12.2024
Mehr erfahren
  • Artificial Intelligence
  • Data Science
  • Machine Learning
5 Typen von Machine Learning Algorithmen (Mit Anwendungsfällen)
Team statworx
6.12.2024
Mehr erfahren
  • Coding
  • Machine Learning
  • Python
Data Science in Python – Der Einstieg in Machine Learning mit Scikit-Learn
Team statworx
6.12.2024
Mehr erfahren
  • Recap
  • statworx
2022 und die Reise zu statworx next
Sebastian Heinz
6.12.2024
Mehr erfahren
  • Recap
  • statworx
Als Data Science Praktikant bei statworx
Team statworx
6.12.2024
Mehr erfahren
  • Coding
  • Data Science
  • Python
Wie man mit Call Graph automatisch Projektgrafiken erstellt
Team statworx
6.12.2024
Mehr erfahren
  • Artificial Intelligence
  • Data Science
  • Human-centered AI
  • Machine Learning
  • statworx
Kolumne: Mensch und Maschine Seite an Seite
Sebastian Heinz
6.12.2024
Mehr erfahren
  • Data Engineering
  • Data Science
  • Machine Learning
Machine Learning Modelle bereitstellen und skalieren mit Kubernetes
Team statworx
6.12.2024
Mehr erfahren
  • Coding
  • Python
  • Tutorial
statworx Cheatsheets – Python Basics Cheatsheet für Data Science
Team statworx
6.12.2024
Mehr erfahren
  • Cloud Technology
  • Data Engineering
  • Machine Learning

3 Szenarien zum Deployment von Machine Learning Workflows mittels MLflow
Team statworx
6.12.2024
Mehr erfahren
  • Data Science
  • statworx
  • Strategy
STATWORX meets DHBW – Data Science Real-World Use Cases
Team statworx
6.12.2024
Mehr erfahren
  • Coding
  • Deep Learning
Car Model Classification I: Transfer Learning mit ResNet
Team statworx
6.12.2024
Mehr erfahren
  • Artificial Intelligence
  • Deep Learning
  • Machine Learning
Car Model Classification IV: Integration von Deep Learning Modellen mit Dash
Dominique Lade
6.12.2024
Mehr erfahren
  • Artificial Intelligence
  • Deep Learning
  • Machine Learning

Car Model Classification III: Erklärbarkeit von Deep Learning Modellen mit Grad-CAM
Team statworx
6.12.2024
Mehr erfahren
  • Artificial Intelligence
  • Coding
  • Deep Learning
Car Model Classification II: Deployment von TensorFlow-Modellen in Docker mit TensorFlow Serving
Team statworx
6.12.2024
Mehr erfahren
  • AI Act
Potenzial noch nicht ausgeschöpft – Ein Kommentar zur vorgeschlagenen KI-Regulierung der EU
Team statworx
6.12.2024
Mehr erfahren
  • Artificial Intelligence
  • Deep Learning
  • statworx
Creaition – Revolutionierung des Designprozesses mit Machine Learning
Team statworx
6.12.2024
Mehr erfahren
  • Data Science
  • Deep Learning
Die 5 wichtigsten Use Cases für Computer Vision
Team statworx
6.12.2024
Mehr erfahren
  • Artificial Intelligence
  • Data Science
  • Machine Learning
Generative Adversarial Networks: Wie mit Neuronalen Netzen Daten generiert werden können
Team statworx
6.12.2024
Mehr erfahren
  • Data Engineering
5 Technologien, die jeder Data Engineer kennen sollte
Team statworx
6.12.2024
Mehr erfahren
  • Artificial Intelligence
  • Deep Learning
  • Machine Learning
5 praxisnahe Beispiele für NLP Use Cases
Team statworx
6.12.2024
Mehr erfahren
  • Coding
  • Data Science
  • Deep Learning
Finetuning von Tesseract-OCR für deutsche Rechnungen
Team statworx
6.12.2024
Mehr erfahren
  • Data Science
  • Deep Learning
Neue Trends im Natural Language Processing – Wie NLP massentauglich wird
Dominique Lade
6.12.2024
Mehr erfahren
  • Data Engineering
  • Data Science
  • Machine Learning
Machine Learning Modelle mit Hilfe von Docker Containern bereitstellen
Thomas Alcock
6.12.2024
Mehr erfahren
  • Frontend
  • Python
  • Tutorial
Wie Du ein Dashboard In Python baust – Plotly Dash Step-by-Step Tutorial
Alexander Blaufuss
6.12.2024
Mehr erfahren
  • Artificial Intelligence
  • Machine Learning
Whitepaper: Ein Reifegradmodell für Künstliche Intelligenz
Team statworx
6.12.2024
Mehr erfahren
  • Data Engineering
  • R
  • Tutorial
Wie Du ShinyApps in Docker-Images einbauen kannst
Team statworx
6.12.2024
Mehr erfahren
  • Recap
  • statworx
STATWORX 2.0 – Das neue Headquarter in Frankfurt ist eröffnet
Julius Heinz
6.12.2024
Mehr erfahren
  • Coding
  • Python
Web Scraping 101 in Python mit Requests & BeautifulSoup
Team statworx
6.12.2024
Mehr erfahren
  • Artificial Intelligence
  • Deep Learning
Deep Learning – Überblick und Einstieg
Team statworx
6.12.2024
Mehr erfahren
  • Data Science
  • R
  • Statistics & Methods
Wie man eine Kreuzvalidierung zur Evaluation der Modellperformance von Grund auf selbst erstellt
Team statworx
6.12.2024
Mehr erfahren
  • Machine Learning
  • R
  • Statistics & Methods
Was dem MAPE fälschlicherweise vorgeworfen wird, seine WAHREN Schwächen und BESSERE Alternativen!
Team statworx
6.12.2024
Mehr erfahren
  • Data Visualization
  • R
Interaktive Netzwerkvisualisierung mit R
Team statworx
6.12.2024
Mehr erfahren
  • Coding
  • Data Visualization
  • Python
Das häufigste Problem mit Plotly Histograms und wie man es löst
Team statworx
6.12.2024
Mehr erfahren
  • Coding
  • Data Engineering
  • R
Wie Du ein R-Skript in Docker ausführst
Team statworx
6.12.2024
Mehr erfahren
  • Data Science
  • Data Visualization
  • Python
Data Science in Python – Matplotlib – Teil 4
Team statworx
6.12.2024
Mehr erfahren
This is some text inside of a div block.
This is some text inside of a div block.