Advanced Analytics

Advanced Analytics: der neue Hype in der Fertigungsindustrie

Führungskräfte in der Fertigungsindustrie können durch den Einsatz von Advanced Analytics ihre Prozessschwächen reduzieren und somit Zeit und Geld sparen.

In unserem Artikel möchten wir auf die Hauptaspekte eines Advanced Analytics Projekts eingehen. Er richtet sich an Führungskräfte, CDO’s, Data Scientists, BI Consultants, Entwickler und an alle, die sich für Datenwissenschaft, Analytik und Innovation interessieren.

Beginnen wir mit der Definition des Begriffes Advanced Analytics

Laut Gartner, heißt „Advanced Analytics“ die autonome oder teilautonome Untersuchung von Daten oder Inhalten mit ausgefeilten Techniken und Tools, typischerweise jenseits der traditionellen Business Intelligence (BI), um tiefere Einblicke zu gewinnen, Vorhersagen zu treffen oder Empfehlungen zu generieren. Zu den fortgeschrittenen Analyseverfahren gehören u.a. Data/Text Mining, maschinelles Lernen, Pattern Matching, Forecasting, Visualisierung, semantische Analyse, Sentimentanalyse, Netzwerk- und Clusteranalyse, multivariate Statistik, Graphenanalyse, Simulation, komplexe Ereignisverarbeitung, sowie auch neuronale Netze.

Verbinden wir nun die allgemeine Theorie mit der fertigungsorientierten Anwendbarkeit

Ein tiefer Einblick in die historischen Prozessdaten ist der richtige Punkt, um ein fortgeschrittenes Analyseprojekt zu starten. Hier sollen Muster und Zusammenhänge zwischen den Prozessparametern identifiziert werden. Dies kann als Plattform dienen, auf der diejenigen Faktoren optimiert werden, die den größten Einfluss auf den problematischen KPI haben. Datentechnisch sind globale Hersteller derzeit sehr gut aufgestellt, sie verfügen über riesige Datenmenge in Echtzeit und die Fähigkeit, solche datenwissenschaftlichen Projekte auch durchzuführen.

Der Beginn eines solchen Projekts kann verständlicherweise überwältigend sein

Die meisten Unternehmen begegnen oft individuell sehr unterschiedlichen Probleme im Bereich Datenanalyse, aber eine der wiederkehrenden Situationen, die wir oft angetroffen haben, ist, dass Unternehmen mit langen Produktionszyklen (Monate, vielleicht sogar Jahre) in einigen Fällen zu wenig Daten haben, um statistisch aussagekräftig zu sein. Ein empfehlenswerter Ansatz in solchen Fällen ist die langfristige Berücksichtigung dieser Situation. Verantwortliche Führungskräfte sollten darauf bestehen, zunehmend in Systeme und Methoden zu investieren, die es ermöglichen, mehr Daten über einen bestimmten komplexen Prozess zu sammeln und damit die Datenanalysen auf diesen Prozess anwenden zu können.

Wollen wir nun versuchen, von der Theorie zur Praxis überzugehen und uns auf ein konkretes Szenario zu konzentrieren

Nehmen wir zum Beispiel ein echtes Projekt, an dem wir kürzlich gearbeitet haben. Das Projektziel war es, verwertbare Informationen im Zusammenhang mit einem bestimmten Fehler in der Produktionslinie eines großen Herstellers von elektronischen Komponenten zu entdecken.  Wie zu erwarten, muss diese Projektart sehr agil angegangen werden. Eine Hypothese, die vielleicht zunächst Teil des Projektkerns war, kann in wenigen Stunden widerlegt werden. Man kann jederzeit wieder ganz am Anfang stehen.

Dieser Aspekt kann Auswirkungen auf verschiedene Faktoren haben, wie zum Beispiel das Projektteam, ausgewählte Methoden oder Technologien. Wir empfehlen daher,  die folgenden Punkte unbedingt zu berücksichtigen:

  • Das Team sollte so agil und flexibel wie möglich sein
  • Idealerweise sollten auch die eingesetzten Technologien so agile freundlich wie möglich sein

Auf die Auswahl des richtigen Teams und der richtigen Technologien haben natürlich auch immer andere Faktoren, wie das spezifische Szenario, das Budget, die Qualifikation der Teammitglieder und die verfügbare Infrastruktur einen Einfluss und können diese gegebenenfalls einschränken.

In unserem Fall war die Ausgangsposition, dass wir sowohl über Kenntnisse in SAP- als auch in Python-basierten Technologien verfügen, was ideal ist. Auch aus Infrastruktursicht konnten wir, für dieses spezifisches Projekt zwischen den beiden Technologien wählen. Die Wahl richtete sich schlußendlich nach der Agilität der Lösung und der Unterstützung der Entwickler-Community. Am Ende unseres Artikels werden wir die verwendeten Technologien noch vorstellen.

 Methodologie

Wenn man ein Standard-Prozessmodell zur Definition seiner Sprints verwenden möchte, gibt es zwei Hauptoptionen, die man nutzen kann:

  • Man kann seine Sprints basierend auf CRISP – DM (Cross-industry Standard Process for Data Mining) bestimmen

Advanced Analytics

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Abbildung 1: Cross-industry Standard Process for Data Mining (CRISP – DM )

  • Oder man verwendet da ASUM – DM (Analytics Solutions Unified Method) als Standard-Prozessmodell

Analytic Solution Unified Method

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Abbildung 2: Analytic Solution Unified Method (ASUM) 

Hierbei gibt es keine richtige oder falsche Option, diese Liste ist nicht vollständig und eine maßgeschneiderte Lösung, basierend auf einer Standardmethode, kann oftmals zu besseren Ergebnissen führen.

Angewandte Techniken

Die wichtigsten Techniken, welche wir in unserem Projekt eingesetzt haben, sind in folgender Übersicht von McKinsey dargestellt.

Tools Advanced Analytics

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Abbildung 3: Wichtige Technicken von McKinsey

Maßgeschneiderte Techniken

Zusätzlich zu den Grundtechniken muss man dann gegebenenfalls noch einen Schritt weiter gehen. Zum Beispiel durch eineAnalyse von Simulation vs. Korrelation. In unserem Fall sah eine Korrelationsanalyse sehr vielversprechend aus, aber uns fehlten die Daten, um die Korrelation richtig zu isolieren.

In diesem Fall ist es uns gelungen, die Funktion auszumachen, die die jeweilige Trendlinie ausgibt und sie mit einer bestehenden Hypothese zu verbinden. Die auf der Simulation basierende Hypothese bildete die Trendlinien ab, womit die Hypothese validiert wurde.

Werfen wir nun einen Blick auf einige unserer erzielten Ergebnisse

Ein Teil der verwertbaren Informationen, die wir erhalten haben, resultiert aus dem Zusammenspiel aus der Expertise des Kundenund unseres datenwissenschaftlichen Wissens. Die Resultate waren vor allem die folgenden:

  • Identifizierung und Eingrenzung des Fehleraufkommens auf nur drei Produkte (verwendete Technik – Data Visualization
  • Der Kunde konnte infolgedessen die Arbeitsbelastung seiner Maschinen anhand von Kennzahlen zur Fehlerquote optimieren (verwendete Technik – Data Visualization, Significance testing)
  • Es wurden Trends und Zusammenhänge zwischen den Verpackungsparametern und der Fehlerquote identifiziert (verwendete Technik – Correlation Analysis)
  • Durch Simulationen haben konnten wir eine Hypothese validieren, die auf die Prozessstufe und den Wafer verweist, an welchem der Fehler auftritt (verwendete Technik – Simulation vs Correlation Analysis)

Schlussfolgerung nach Übergabe unserer Lösung

Das Projekt ermöglichte  den Mitarbeitern des Kunden, mehr faktenbasierte Diskussionen zu führen und die tatsächlichen Auswirkungen verschiedener Parameter zu vergleichen, bevor sie Maßnahmen zur Produktivitätssteigerung ergreifen.

Das Wichtigste aber war, dass sie den Fertigungsprozess dynamisch optimieren konnten, indem sie Experimente zur Produktionsoptimierung aufbauten.

Unsere Data Science Ziele dienen letztlich der Strukturierung großer Datenmengen, der Suche nach überzeugenden Mustern und schließlich der Anpassung an den jeweiligen Bedarf im Unternehmen (Daten ® Wissen ® verwertbare Intelligenz).

Wie versprochen, werfen wir nun endlich auch einen Blick auf unser Setup

Kerntechnologien

  • Python
  • Jupyter Notebook – webbasierte Python-Umgebung
  • Anaconda – Paket- und Umgebungsmanagementund Python-Distribution
  • Pandas – Python Bibliothek für Datenmanipulation, Slicing & Dicing
  • NumPy – Programmbibliothek für Python. Unterstützung für große, mehrdimensionale Arrays und Matrizen, zusammen mit einer großen Sammlung von mathematischen Funktionen auf hohem Niveau, um auf diesen Arrays zu arbeiten.
  • Bokeh – Visualisierungsbibliothek: interaktiv verwendet war es ein großes Plus (besonders nützlich war die Zoom-Funktionalität). Es Es sind einige andere Bibliotheken verfügbar, die einfacher zu benutzen sind und den Anforderungen ebenfalls entsprechen könnten, aber selbst wenn Bokeh ein wenig komplex ist, sind die Funktionen, die es bietet, großartig und sehr gut anpassbar. Wir können es sehr empfehlen.
  • SciPy – Open-Source Umgebung für wissenschaftliche und technische Berechungen.
  • Scikit-learn– eine kostenlose Machine Learning Software-Bibliothek -. Sie bietet verschiedene Klassifikations-, Regressions– und Clustering-Algorithmen, darunter Support-Vektor-Maschinen, Random Forest, Gradient Boosting, k-means und DBSCAN, und ist so konzipiert, dass sie mit den numerischen und wissenschaftlichen Python-Bibliotheken NumPy und SciPy

Sekundäre Technologien:

  • SAP Hana
  • SAP Lumira Discovery
  • Orange – Open-Source-Datenvisualisierungs-, Machine Learning und Data-Mining-Toolkit.

Die technisch versierten unter Euch können auch die nächste Datei herunterladen, in der wir einige Codeschnipsel und Notizen zusammengestellt haben, damit ihr einen Eindruck davon bekommt, was diese Art der Entwicklung alles beinhaltet.

Du möchtest mehr über unsere Methoden und Projekte erfahren oder können wir sonst noch etwas für Dich tun? Besuche unseren Blog für regelmäßige Updates. Zögere nicht, uns direkt mit deinen Fragen und deinem Feedback zu kontaktieren. Wir freuen uns auf Deine Kontaktaufnahme!

Quellenangabe der Bilder: McKinsey & Company, IBM, Bosch Software Innovation

Quellen: McKinsey, Gartner, Wikipedia

Autor dieses Beitrags
Ovidiu Costea Consultant SAP BI
Tel.: +49 (0) 7031 714 660 0
E-Mail: cluj@inspiricon.de