1
0
Files
ANN-route-predition/experiments/ML Example.ipynb

1.3 MiB
Raw Blame History

image.png

Kurzfassung

Das Spritzgießen ist ein häufig in der Kunststoffverarbeitung eingesetztes Verfahren und ist deshalb von großer ökologischer und ökonomischer Bedeutung. Ziel dieser Arbeit war es, die üblicherweise von Spritzgussmaschinen bereitgestellten Daten zu nutzen, um Fehlteile also Teile mit unzulässigen Qualitätsmängeln unmittelbar zu erkennen und damit aussortieren zu können. Es hat sich gezeigt, dass dies für die untersuchten Qualitätsmängel mit einer Genauigkeit von 98,0 - 99,0 % unter Anwendung linearer Machine-Learning-Modelle möglich ist. Darüber hinaus konnte gezeigt werden, dass durch die Auswahl repräsentativer Datenpunkte der dafür erforderliche Aufwand beim Labeling auf einen Bruchteil des ursprünglichen Aufwands reduziert werden kann. Diese repräsentative Auswahl erfolgte auf der Basis unüberwachter Clustering-Algorithmen.

Inhaltsverzeichnis

  1. Einleitung
  2. Vorbereitung
  3. Einführung des vorliegenden Datensatzes
  4. Klassifizierung anhand eines Merkmals
  5. Klassifizierung anhand mehrerer Merkmale
  6. Teilüberwachtes Lernen
  7. Ergebnisse und Evaluation
  8. Ausblick

1. Einleitung

Das Spritzgießen ist ein Verfahren aus der Kunststoffverarbeitung, um Rohmaterial (Kunststoffgranulat) in eine gewünschte Form zu bringen (sog. Urformverfahren). Technisch handelt es sich dabei um einen komplexen Prozess, dessen Resultat von zahlreichen Variablen abhängt. Aus diesem Grund kommt es hin und wieder vor, dass die gespritzten Teile nicht den Qualitätsstandards eines Herstellers entsprechen und aussortiert werden müssen.

Ziel der vorliegenden Arbeit ist es, diese fehlerhaften Teile anhand der internen Messwerte der Spritzgussmaschine (sog. Prozessdaten) automatisch auszusortieren. Grundlage dafür ist ein Datensatz, welcher in einer vorherigen Hausarbeit [1] erarbeitet wurde. Im Zuge dessen sollen auch Pipelines erarbeitet und Methoden gefunden werden, sodass eine Übertragung der Ergebnisse auf andere Fehler und Produkte erleichtert wird.

Motiviert wird diese Zielsetzung aus verschiedenen Richtungen. Die untersuchten Produkte werden nach ihrer Fertigung vollautomatisch weiterverarbeitet und gehen anschließend direkt in den Verkauf. Es existiert bisher kein System, welches fehlerhafte Teile automatisch aussortiert. Aufgrund der vollautomatischen Abläufe fallen diese Teile auch den Mitarbeitern nicht immer auf und erreichen somit teilweise den Endkunden. Dies sorgt für Unzufriedenheit und unter Umständen einen Imageschaden. Außerdem entsteht sowohl beim Kunden als auch Hersteller ein Mehraufwand für den Austausch des Produkts. Hinzu kommt die zeitliche Verzögerung für den Endkunden.

Des Weiteren sind fehlerhafte und damit unbrauchbare Teile für ein Unternehmen sowohl aus ökologischer als auch ökonomischer Sicht zu vermeiden. Insbesondere für die Fertigungsplanung ist es außerdem wichtig, fehlerhafte Teile unmittelbar zu erkennen, damit die geplante Anzahl an (fehlerfreien) Teilen produziert werden kann.

Im nachfolgenden Kapitel 3 wird zunächst der vorliegende Datensatz eingeführt. Der Hauptteil beginnt in Kapitel 4 mit dem Versuch, den Datensatz anhand eines einzigen Merkmals linear zu separieren. Im anschließenden Kapitel 5 werden komplexerere Algorithmen untersucht, welche mehrere Merkmale gleichzeitig berücksichtigen können.

Kapitel 6 konzentriert sich darauf, wie die Berücksichtigung weiterer Fehler und Produkte vereinfacht werden kann. Dazu wird der Ansatz des teilüberwachten Lernens verfolgt. Dieser erfordert zunächst eine Dimensionsreduktion der Daten. Anschließend können mit Hilfe von Clustering-Algorithmen repräsentative Datenpunkte ausgewählt und gelabelt werden. Zum Abschluss wird die Qualität der Klassifikatoren untersucht, welche auf daraus resultierenden Daten trainiert wurden.

Im Schlussteil der Arbeit werden die Ergebnisse zusammengefasst und kritisch bewertet. Außerdem wird ein Ausblick gegeben.

2. Vorbereitung

Zunächst müssen einige allgemeine Vorbereitungen getroffen werden, um nachfolgend die Daten verarbeiten zu können. Grundlage dieser Arbeit bildet die Programmiersprache Python und insb. die Module Numpy, Pandas, SciKit-Learn sowie Matplotlib.

In [1]:
# Kontrolle der Python-Version
import sys

assert sys.version_info >= (3, 5)

# Import von Scikit-Learn und Kontrolle der Version
import sklearn

assert sklearn.__version__ >= "0.20"

# Weitere Imports
import pandas as pd
import numpy as np
import os

# Imports und Einstellungen um Abbildungen mit matplotlib erzeugen und im
# Notebook darstellen zu können
%matplotlib inline
import matplotlib as mpl
import matplotlib.pyplot as plt

mpl.rc("axes", labelsize=14)
mpl.rc("xtick", labelsize=12)
mpl.rc("ytick", labelsize=12)

# Dictionary zur Abspeicherung der Zwischenergebnisse für den Ergebnis-Teil
results = []

Damit die Ausgaben des Notebooks vergleichbar sind wird außerdem der entsprechende Seed gesetzt.

In [2]:
np.random.seed(42)

Im nächsten Schritt kann der Datensatz eingelesen werden. Dieser kann entweder im aktuellen Verzeichnis liegen oder über einen entsprechenden Link aus Google Drive geladen werden.

In [3]:
# Datei via Link aus Google Drive laden
# Alternativ können Sie die Datei 'df.pkl' auch manuell dem aktuellen Unterordner
# hinzufügen
!gdown --id 1r5OzQmxj2TIZUMm3UwKOA-9znGQoe31j

# Daten einlesen
import pickle

with open("df.pkl", "rb") as file:
    df = pickle.load(file)

# Kontrolle
assert len(df.columns) == 107
assert len(df.index) == 4548
print("Anzahl Spalten:", len(df.columns))
print("Anzahl Zeilen:", len(df.index))
Downloading...
From: https://drive.google.com/uc?id=1r5OzQmxj2TIZUMm3UwKOA-9znGQoe31j
To: /content/df.pkl

0.00B [00:00, ?B/s]
3.91MB [00:00, 61.7MB/s]
Anzahl Spalten: 107
Anzahl Zeilen: 4548

3. Einführung des vorliegenden Datensatzes

3.1 Überblick

Wie bereits in der Einleitung erwähnt, wird in dieser Arbeit ein Datensatz untersucht, welcher in einer vorherigen Hausarbeit [1] erarbeitet wurde. Er umfasst die nachfolgende Anzahl an Datenpunkten, Merkmalen und Zielwerten:

In [4]:
print("Übersicht")
print("- Anzahl Datenpunkte:", len(df.index) - 1)
print("- Anzahl Merkmale:", len(df.drop(["Labels"], axis=1).columns))
print("- Anzahl Zielwerte:", len(df["Labels"].columns))
Übersicht
- Anzahl Datenpunkte: 4547
- Anzahl Merkmale: 104
- Anzahl Zielwerte: 3

Jeder Datenpunkt beschreibt ein gespritztes Teil. Konkret handelt es sich dabei um das Unterteil des Kabelabzweigkastens DK 0200 G der Gustav Hensel GmbH & Co. KG. Abbildung 1 zeigt ein Exemplar:

_Abbildung 1 - DK 0200 G.jpg

Abbildung 1: DK 0200 G nach [2]

Die nachfolgende Abbildung 2 zeigt exemplarisch ein Fotos eines fehlerfreien DK 0200 G.

Exemplarisches Gutteil.jpg

Abbildung 2: Foto eines fehlerfreien DK 0200 G

3.2 Merkmale

Da moderne Spritzgussmaschinen eine Vielzahl an Daten bereitstellen, wird jeder Datenpunkt durch mehr als 100 Merkmale beschrieben. Es wurde bewusst darauf verzichtet, auf Grundlage domänenspezifischen Wissens bereits vorab Merkmale auszusortieren. Es wird zunächst davon ausgegangen, dass sämtliche Merkmale potenziell relevant sind.

Alle Merkmale im Detail zu beschreiben wäre nicht zielführend. Stattdessen wird auf die relevanten Merkmale an den entsprechenden Stelle der Arbeit eingegangen. Für das Arbeiten mit einer solchen Vielzahl an Merkmalen ist jedoch eine Gruppierung hilfreich. Diese kann auf Grundlage des Fertigungsprozesses erfolgen. Der DK 0200 G wird aus zwei Komponenten also zwei unterschiedlichen Kunststoffen gespritzt. Zunächst wird der Grundkörper aus Polypropylen gespritzt. In einem zweiten Fertigungsschritt werden die Membranen zur Einführung von Kabeln aus TPE (Thermoplastischen Elastomeren) ergänzt. Beide Fertigungsschritte laufen prinzipiell ähnlich ab und werden deshalb durch dieselben Merkmale beschrieben. Insgesamt ergeben sich die nachfolgenden Gruppen an Merkmalen:

  1. Internal: komponentenunabhängige Messwerte der Spritzgussmaschine (z.B. Zykluszeit)

  2. Internal_C1: Messwerte der Spritzgussmaschine an Komponente 1 (z.B. Einspritzvolumen)

  3. Internal_C2: Messwerte der Spritzgussmaschine an Komponente 2 (z.B. Einspritzvolumen)

  4. External: Messwerte externer Sensoren (z.B. Umgebungstemperatur)

  5. Time related: Abgeleitete Merkmale aus den Zeitstempeln der Teile (z.B. Zeit seit letzter Wartung)

Für eine detaillierte Beschreibung des Spritzgussprozesses und der einzelnen Merkmale siehe [1]. Die Merkmale teilen sich folgendermaßen auf die Gruppen auf:

In [5]:
# Im DataFrame wurde diese Gruppierung mit Hilfe eines MultiIndex umgesetzt
pd.DataFrame(df.drop(["Labels"], axis=1).droplevel(1, axis=1).columns).value_counts()
Out[5]:
Group       
Internal        59
Internal_C2     21
Internal_C1     20
Time related     2
External         2
dtype: int64

Die meisten Merkmale sind interne Messwerte der Spritzgussmaschine, wobei jeweils ca. 20 % einer einzelnen Komponente zugeordnet werden können. Um die Daten nachfolgend einheitlich darzustellen, ist es sinnvoll, zunächst eine entsprechende Funktion zu definieren:

In [6]:
def formatForPlotting(df):
    for number in range(10):
        df.columns = df.columns.str.replace(r" " + str(number), "_" + str(number))
    return df

Die ersten Daten der Gruppe Internal sehen dann bspw. so aus:

In [7]:
formatForPlotting(df["Internal"]).head(3)
Out[7]:
<style scoped=""> .dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; } </style>
Name Ausschuss total [ASZ] Ausschussursache [ASU] Düse [H27x] Düse [H2x] Düse [Pakt_27] Entformzeit [ZEx] Flansch_1 [H28x] Flansch_1 [Pakt_28] Flansch_2 [H29x] Flansch_2 [Pakt_29] Formschutzzeit Istwert [ZFx] Formöffnungshub Spitzenwert [SFs] Schließkraft Spitzenwert [SKs] Schließkraft gespeichert [SKg] Schuss Gutteile [SZGx] Schusszähler Istwert [SZx] Stillstandszeit vor Zyklusstart [ZUaxs] Traverse [H34x] Traverse [H6x] Traverse [Pakt_34] Traverse [Pakt_6] Trockenlauf [ZDry] Werkzeug_1 [H7x] Werkzeug_1 [Pakt_7] Werkzeug_2 [H8x] Werkzeug_2 [Pakt_8] Werkzeug_3 [H9x] Werkzeug_3 [Pakt_9] Werkzeug_4 [H13x] Werkzeug_4 [Pakt_13] Werkzeug_5 [H14x] Werkzeug_5 [Pakt_14] Werkzeug_6 [H15x] Werkzeug_6 [Pakt_15] Werkzeug_7 [H16x] Werkzeug_7 [Pakt_16] Werkzeug_8 [H17x] Werkzeug_8 [Pakt_17] Werkzeug_9 [H18x] Werkzeug_9 [Pakt_18] Zeit Schließkraftaufbau [ZSKa] Zyklus Kühlzeit [Z4x] Zykluszeit Formschließen [ZSchl] Zykluszeit Formöffnen [ZOeff] Zykluszeit Schließen [ZEsch] Zykluszeit bis Ende Entformen [ZUs] Zykluszeit Öffnen [ZEoef] Zylinderzone keramisch_1 [H30x] Zylinderzone keramisch_1 [H3x] Zylinderzone keramisch_1 [Pakt_30] Zylinderzone keramisch_1 [Pakt_3] Zylinderzone keramisch_2 [H31x] Zylinderzone keramisch_2 [H4x] Zylinderzone keramisch_2 [Pakt_31] Zylinderzone keramisch_2 [Pakt_4] Zylinderzone keramisch_3 [H32x] Zylinderzone keramisch_3 [H5x] Zylinderzone keramisch_3 [Pakt_32] Zylinderzone keramisch_3 [Pakt_5]
2021-01-07 17:38:11 73.0 - 214.9 219.9 13.1 10.77 215.0 31.2 210.0 36.3 0.94 575.1 1222.7 1214.3 18489.0 18562.0 0.0 35.4 39.8 -100.0 0.0 4.06 215.0 8.9 215.0 16.8 215.0 21.1 200.0 13.4 199.9 13.8 199.5 15.2 199.5 16.6 220.9 22.4 200.0 20.6 0.76 19.01 2.58 4.27 1.8 36.06 1.48 200.1 219.9 2.4 5.1 185.0 209.9 2.5 5.6 170.0 199.9 7.4 15.1
2021-01-07 17:38:47 73.0 - 214.9 220.1 13.0 10.82 215.0 31.2 210.1 37.1 0.94 575.0 1221.8 1213.2 18490.0 18563.0 0.0 35.4 40.0 -100.0 0.0 4.06 215.0 9.1 215.0 16.5 215.0 20.9 200.0 15.7 199.7 12.6 199.5 17.5 199.5 15.0 221.0 22.7 200.0 16.2 0.76 19.01 2.59 4.25 1.8 36.04 1.48 200.0 219.9 2.3 4.5 185.0 210.1 3.0 3.9 170.0 200.1 8.0 14.6
2021-01-07 17:39:23 73.0 - 215.0 219.9 12.2 10.78 214.8 37.4 209.9 40.6 0.94 575.1 1222.7 1214.0 18491.0 18564.0 0.0 35.3 40.0 -100.0 -100.0 4.06 215.0 10.0 215.0 18.5 214.9 27.1 200.0 15.7 199.6 14.6 199.4 17.6 199.4 17.3 220.9 23.6 200.0 16.2 0.76 19.01 2.59 4.26 1.8 36.06 1.48 200.0 220.1 2.0 1.4 185.0 210.2 3.2 3.7 170.0 200.2 7.7 14.2

Die Merkmale der Gruppe Internal_C1 sind wie bereits erwähnt ähnlich der Gruppe Internal_C2 und sehen so aus:

In [8]:
formatForPlotting(df["Internal_C1"]).head(3)
Out[8]:
<style scoped=""> .dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; } </style>
Name Dosierleistung [iwdls_1] Dosiervolumen Istwert [ASSx_1] Dosierzeit Istwert [ZDx_1] Drehmoment Mittelwert laufender Zyklus [Mm_1] Drehmoment Spitzenwert laufender Zyklus [Ms_1] Drehzahl Spitzenwert [DZs_1] Einspritzarbeit [EA_1] Integral Überwachung_1 Micrograph [IDKi1_Mic_1] Massepolster Ende Nachdruck [ACPv_1] Massepolster kleinster Wert [ACPx_1] Massepolster nach Nachdruck [ACPn_1] Schussvolumen [Svo_1] Spezifischer Druck beim Umschalten [APHu_1] Spezifischer Einspritzdruck Spitzenwert [APVs_1] Spezifischer Nachdruck Spitzenwert [APNs_1] Spezifischer Staudruck Spitzenwert [APSs_1] Spritzzeit Istwert [ZSx_1] Umschaltvolumen [AC3u_1] Zykluszeit Düse vor [ZDvo_1] Zykluszeit Nachdruck [ZNach_1]
2021-01-07 17:38:11 7.01 70.68 7.40 166.5 177.0 0.294 1.002 50534.37 6.01 4.32 6.23 62.77 511.5 875.3 620.9 94.0 1.21 12.49 1.15 2.0
2021-01-07 17:38:47 6.80 70.61 7.65 163.5 175.5 0.294 0.994 50484.74 5.60 3.92 5.81 63.19 503.0 877.6 611.2 93.3 1.21 12.49 1.16 2.0
2021-01-07 17:39:23 6.82 70.61 7.69 165.6 177.6 0.294 1.003 50598.79 5.91 4.21 6.11 62.89 508.2 884.4 618.1 93.3 1.21 12.49 1.15 2.0

Die restlichen Merkmale werden nachfolgend bei Bedarf dargestellt.

3.3 Zielwerte

Der Datensatz ist gelabelt und umfasst somit Zielwerte:

In [9]:
# Die Zielwerte bilden eine eigene Gruppe im MultiIndex
formatForPlotting(df["Labels"]["2021-01-13 17"]).head(3)
Out[9]:
<style scoped=""> .dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; } </style>
Name 0_leak_corner_tl 0_leak_corner_tr 1_hole_bottom
2021-01-13 17:00:28 2 3 0
2021-01-13 17:01:04 1 3 0
2021-01-13 17:01:40 1 3 0

Jedes Label beschreibt einen Fehler, welcher im beobachteten Zeitraum aufgetreten ist. Die nachfolgende Abbildung 3 zeigt ein Teil, welches alle diese Fehler gleichzeitig aufweist. Dies muss nicht zwingend der Fall sein.

![Exemplarisches Schlechtteil - markiert - Kopie.jpg]( )

Abbildung 3: Beobachtete Fehler am DK 0200 G

Die Fehler 0_leak_corner_tl und 0_leak_corner_tr sind links bzw. rechts oben zu sehen. An diesen Stellen wird zu viel Material der Komponente 2 (TPE) in das Innere des Gehäuses gesprizt. Der Fehler 1_hole_bottom ist unten zu beobachten: Hier fehlt das entsprechende Material. Die Häufigkeit dieser Fehler ist sehr unterschiedlich:

In [10]:
print("Anzahl Datenpunkte:", len(df))
print("Anzahl Fehler:")
# Wenn der Wert einer Zielvariable nicht 0 ist lag ein Fehler vor
print(df["Labels"].astype(bool).sum(axis=0))
# Quelle: https://stackoverflow.com/questions/26053849/counting-non-zero-values-in-each-column-of-a-dataframe-in-python
Anzahl Datenpunkte: 4548
Anzahl Fehler:
Name
0_leak_corner_tl    2103
0_leak_corner_tr    2138
1_hole_bottom          5
dtype: int64

*) Anmerkung: Diese Zahlen wirken auf den ersten Blick sehr hoch. Allerdings wurde, um einen vollständigen Datensatz zu erhalten, jegliche Abweichung vom Optimum als Fehler eingestuft. Dem Endkunden würden diese in der Regel nicht auffallen. Außerdem wurde bewusst ein extrem fehlerlastiger Zeitraum gewählt. In anderen Zeiträumen treten wochenlang quasi gar keine Fehler auf. Bei diesen hohen Zahlen handelt es sich deshalb wahrscheinlich um einen zumindest im Sinne dieser Arbeit "glücklichen" Zufall.

Die Fehler 0_leak_corner_tl und 0_leak_corner_tr sind mit Abstand am häufigsten aufgetreten und stehen deshalb im Fokus dieser Arbeit. Im Datensatz werden die Fehler als eine Ganzzahl zwischen 0 bis 3 codiert. Die Zahlen haben nachfolgende Bedeutungen:

  • 0: kein Fehler
  • 1: schwacher Fehler
  • 2: mittlerer Fehler
  • 3: starker Fehler

Für eine exakte Beschreibung, wie diese Einteilung erfolgt ist, siehe [1].

In der Regel lag entweder kein Fehler vor oder dieser war sehr stark:

In [11]:
def plotLabelHist(labels):
    fig, ax = plt.subplots()

    # Daten
    bins = [0 - 0.5, 1 - 0.5, 2 - 0.5, 3 - 0.5, 4 - 0.5]
    ax.hist(labels.to_numpy(), bins=bins, label=labels.columns, edgecolor="black")

    # Achsen
    plt.xlabel("Stärke der Ausprägung", size=18)
    plt.ylabel("Anzahl", size=18)
    plt.xticks([0, 1, 2, 3])

    # Titel und Legende
    plt.title("Übersicht der beobachteten Fehler", size=18, pad=10)
    plt.legend(prop={"size": 10})

    fig.set_size_inches(8, 6)
    fig.tight_layout()
In [12]:
plotLabelHist(df["Labels"])
plt.show()
No description has been provided for this image

Zusammenfassend kann festgehalten werden, dass der Datensatz ca. 4500 Teile umfasst welche durch ca. 100 Merkmale beschrieben werden. Diese Merkmale ergeben sich überwiegend aus den internen Messungen der Spritzgussmaschine. Interessant sind vor Allem die Zielwerte 0_leak_corner_tl und 0_leak_corner_tr, welche in der Regel entweder gar nicht oder sehr stark auftreten.

3.4 Aufteilen der Daten

Zunächst wird der Datensatz in Trainings- und Testdaten unterteilt. Wie im vorherigen Unterkapitel gezeigt können manche Fehler sehr selten sein. Deshalb wird eine stratifizierte anstatt einer rein zufälligen Stichprobe gezogen, vgl. [3].

In [13]:
from sklearn.model_selection import StratifiedShuffleSplit

split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)
for train_idx, test_idx in split.split(df, df["Labels"]["0_leak_corner_tr"]):
    df_train = df.iloc[train_idx]
    df_test = df.iloc[test_idx]

print("Anzahl Datenpunkte:")
print("Trainingsdaten:", len(df_train))
print("Testdaten:", len(df_test))
Anzahl Datenpunkte:
Trainingsdaten: 3638
Testdaten: 910

Im nächsten Schritt werden die Merkmale und Zielwerte voneinander getrennt:

In [14]:
# Merkmale
X_train = df_train.drop("Labels", axis=1)
X_test = df_test.drop("Labels", axis=1)

# Zielwerte
y_train = df_train["Labels"].copy()
y_test = df_test["Labels"].copy()

3.5 Erkunden der Daten

Nun können die Trainingsdaten erkundet werden. Ein gängiges Hilfsmittel dazu ist die sog. Korrelationsmatrix. Diese enthält den Pearson-Korrelationskoeffizienten für jedes einzelne Merkmal mit jedem anderen. Um einen Überblick zu bekommen wird diese zunächst grafisch dargestellt:

In [15]:
def plotCorrMatrix(df):
    fig = plt.figure(figsize=(7, 7))

    # Korrelationsmatrix
    ax = fig.add_subplot(111)
    cax = ax.matshow(df.corr())
    fig.colorbar(cax)

    # Titel und Achsenbeschriftung
    ax.set_title("Korrelationsmatrix", size=18, pad=18)
    ax.set_xlabel("Merkmale", labelpad=20)
    ax.set_ylabel("Merkmale", labelpad=20)
In [16]:
plotCorrMatrix(X_train)
plt.show()
No description has been provided for this image

In der Grafik sind sowohl stark positive (nahe 1) als auch stark negative (nahe -1) Korrelationen zu erkennen. Insbesondere rechts unten sind zusammenhängende Bereiche stark korrelierender Merkmale sichtbar. Diese Beobachtungen deuten darauf hin, dass eine Dimensionsreduktion nachfolgend ein hilfreicher Zwischenschritt sein könnte.

Interessant können auch die Korrelationen der Merkmale mit den Zielwerten sein. Nachfolgend werden die am stärksten mit dem Fehler 0_leak_corner_tr korrelierenden Merkmale aufgelistet.

In [17]:
fault_corr = df.corr()["Labels"]["0_leak_corner_tr"].sort_values(ascending=False)

# Korrelationen der Fehler untereinander entfernen
fault_corr = fault_corr.drop("Labels", level=0, axis=0)

Diese 5 Merkmale besitzen die stärkste positive Korrelation mit dem Fehler:

In [18]:
fault_corr.head(5)
Out[18]:
Group        Name                                            
Internal_C2  Spezifischer Einspritzdruck Spitzenwert [APVs 2]    0.936937
             Einspritzarbeit [EA 2]                              0.920485
             Schussvolumen [Svo 2]                               0.857009
             Spezifischer Druck beim Umschalten [APHu 2]         0.818221
             Integral Überwachung 1 Micrograph [IDKi1_Mic 2]     0.812907
Name: 0_leak_corner_tr, dtype: float64

Diese 5 Merkmale besitzen die stärkste negative Korrelation:

In [19]:
fault_corr.tail(5)
Out[19]:
Group        Name                                
Internal     Werkzeug 8 [Pakt 17]                   -0.373270
Internal_C2  Spritzzeit Istwert [ZSx 2]             -0.466767
             Massepolster kleinster Wert [ACPx 2]   -0.620924
             Massepolster Ende Nachdruck [ACPv 2]   -0.851165
             Massepolster nach Nachdruck [ACPn 2]   -0.857009
Name: 0_leak_corner_tr, dtype: float64

Grundsätzlich existieren stark korrelierende Merkmale (> 0,8). Diese entstammen größtenteils der Gruppe Internal_C2. Nachfolgend werden die Histogramme der beiden am stärksten korrelierenden Merkmale dargestellt:

In [20]:
fig, axes = plt.subplots(1, 2)
fig.set_size_inches(14, 6)
fig.suptitle("Histogramme der am stärksten korrelierenden Merkmale", fontsize=16)

# Histogramme
df.hist(fault_corr.index[0], bins=50, ax=axes[0])
df.hist(fault_corr.index[1], bins=50, ax=axes[1])
axes[0].set_title(fault_corr.index[0][1], pad=8)
axes[1].set_title(fault_corr.index[1][1], pad=8)

plt.show()
No description has been provided for this image

In beiden Histogramm sind zwei klar getrennte Cluster erkennbar. Es liegt die Vermutung nahe, dass es sich dabei um die fehlerfreien und fehlerhaften Teile handelt. Möglicherweise können diese bereits anhand eines einzigen Merkmals separiert werden.

Das Erkunden der Daten hat gezeigt, dass relativ starke lineare Zusammenhänge im Datensatz existieren sowie Cluster erkennbar sind. Diese Erkenntnisse können nachfolgend bspw. bei der Auswahl von Algorithmen für bestimmte Probleme hilfreich sein.

4. Klassifizierung anhand eines Merkmals

Am einfachsten könnten fehlerhafte Teile mit Hilfe der vorhandenen Funktionen der Spritzgussmaschine aussortiert werden. Bei diesen Maschinen können üblicherweise Grenzwerte für einzelne interne Messwerte vorgegeben werden. Werden diese Grenzwerte über- bzw. unterschritten sortiert das sog. Handling (der "Roboterarm") das Teil automatisch aus. Das Finden passender Grenzwerte ist dabei die größte Herausforderung.

Um diese Aufgabe zu automatisieren, bietet sich der CART (Classification and Regression Trees)-Algorithmus an. Dieser wird genutzt um Entscheidungsbäume zu generieren. Wichtig dabei ist, dass er ausschließlich Binärbäume erzeugt. Bei jeder Abzweigungen von einem Knoten versucht der Algorithmus, den gewichteten Informationsgehalt der nachfolgenden Knoten zu maximieren. Je höher dieser Informationsgehalt, desto genauer können die Datenpunkte in der nachfolgenden Ebene klassifiziert werden, vgl. [4]. Der Algorithmus arbeitet dabei in jedem Schritt "greedy". Das bedeutet, er versucht in jedem einzelnen Schritt das optimale Ergebnis zu erzielen. Ein größerer Kontext wird nicht beachtet. Aufgrund dieser Eigenschaften (binär und "greedy") eignet sich der CART optimal für das Finden der Grenzwerte der Spritzgussmaschine.

Die Spritzgussmaschine kann ein Teil entweder aussortieren oder nicht. Folglich müssen zunächst die Zielwerte angepasst werden. Nach Rücksprache mit dem Fachpersonal werden die Fehlerausprägungen 0 und 1 als fehlerfreies sowie 2 und 3 als fehlerhaftes Teil eingestuft:

In [21]:
def convertLabelsToBinary(labels):
    labels_bin = labels.copy()
    labels_bin.replace(1, 0, inplace=True)
    labels_bin.replace(2, 3, inplace=True)

    # Zur besseren Lesbarkeit wird die Stufe 3 abschließend in 1 "umbenannt"
    labels_bin.replace(3, 1, inplace=True)

    return labels_bin
In [22]:
y_train_01 = convertLabelsToBinary(y_train)
y_test_01 = convertLabelsToBinary(y_test)

Außerdem kann der CART (wie auch die Spritzgussmaschine) nur mit numerischen Merkmalen umgehen. Die text-basierten Merkmale werden nachfolgend entfernt.

In [23]:
X_train_num = X_train.drop(X_train.select_dtypes(exclude=np.number), axis=1)
X_test_num = X_test.drop(X_train.select_dtypes(exclude=np.number), axis=1)

Da für den CART keine Skalierung der Merkmale erforderlich ist kann der Algorithmus unmittelbar trainiert werden:

In [24]:
from sklearn.tree import DecisionTreeClassifier

# max_depth = 1 da nur der beste Grenzwert gesucht ist
tree_clf = DecisionTreeClassifier(max_depth=1, random_state=42)
tree_clf.fit(X_train_num, y_train_01["0_leak_corner_tr"])
Out[24]:
DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=1, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=42, splitter='best')

Um das Ergebnis darzustellen kann das Modul graphviz genutzt werden:

In [25]:
from sklearn.tree import export_graphviz
from graphviz import Source

# .dot-Datei exportieren
export_graphviz(
    tree_clf,
    out_file="tree_clf.dot",
    feature_names=X_train_num.droplevel(0, axis=1).columns,
    class_names=["Gut", "Schlecht"],
    rounded=True,
    filled=True,
)

# .dot-Datei in Graph umwandeln und darstellen
Source.from_file("tree_clf.dot")
Out[25]:
No description has been provided for this image

Das Ergebnis sieht vielversprechend aus: In nur einem Schritt wurden zwei Gruppen gebildet, welche zu einem sehr großen Teil entweder nur aus Gut- oder nur aus Schlechtteilen bestehen. Der Informationsgehalt wurde somit stark erhöht.

An dieser Stelle offenbart sich ein weiterer großer Vorteil des CART. Bei ihm handelt es sich im Gegensatz zu vielen anderen ML-Algorithmen um einen sog. White-Box-Algorithmus. Das bedeutet, dass seine Entscheidungsfindung sehr einfach nachvollzogen werden kann. In diesem Fall scheint der Spezifische Einspritzdruck Spitzenwert entscheidend zu sein. Übersteigt dieser einen Wert von ca. 400, werden fehlerhafte Teile produziert. Hieraus könnten vom Fachpersonal weitere Erkenntnisse abgeleitet werden.

Um für die quantitative Beurteilung noch nicht auf die Testdaten zurückgreifen zu müssen wird zur Bewertung eine Kreuzvalidierung, implementiert durch die Klasse cross_val_score, durchgeführt. Da fehlerhafte Teile nicht selten sind kann die Genauigkeit als Bewertungskriterium genutzt werden:

In [26]:
from sklearn.model_selection import cross_val_score

tree_cv = cross_val_score(
    tree_clf, X_train_num, y_train_01["0_leak_corner_tr"], cv=10, scoring="accuracy"
)
In [27]:
def outputCVResults(cv):
    print("Genauigkeit bei der Kreuzvalidierung")
    print("- Mittelwert:", "{:.2f}".format(100 * cv.mean()), "%")
    print("- Standardabw.:", "{:.2f}".format(100 * cv.std()), "%")
In [28]:
outputCVResults(tree_cv)
results.append(("Tree_cv", 100 * tree_cv.mean()))
Genauigkeit bei der Kreuzvalidierung
- Mittelwert: 98.93 %
- Standardabw.: 0.52 %

Tatsächlich lassen sich die Trainingsdaten mit einer Genauigkeit von ca. 98,9 % anhand eines einzigen Merkmals klassifizieren. Auf den Testdaten sieht das Ergebnis ähnlich aus, es scheint kein Overfitting vorzuliegen:

In [29]:
tree_cv = cross_val_score(
    tree_clf, X_test_num, y_test_01["0_leak_corner_tr"], cv=10, scoring="accuracy"
)
In [30]:
outputCVResults(tree_cv)
results.append(("Tree_test", 100 * tree_cv.mean()))
Genauigkeit bei der Kreuzvalidierung
- Mittelwert: 98.90 %
- Standardabw.: 0.98 %

Diese Lösung kann weiter verbessert werden, indem auch die Grenzwerte für das 2., 3. usw. beste Merkmale ermittelt und in die Spritzgussmaschine eingetragen werden:

In [31]:
# Einstellungen
n_features = 10
label = "0_leak_corner_tr"

# Kopie der Daten erstellen da in jedem Durchlauf das "beste" Merkmal entfernt wird
X_train_cpy = X_train_num.copy()
X_test_cpy = X_test_num.copy()

# Initialisierungen
tree_clf_tmp = DecisionTreeClassifier(max_depth=1, random_state=42)
features, train_scores, test_scores = [], [], []
for _ in range(n_features):
    # Entscheidungsbaum trainieren
    tree_clf_tmp.fit(X_train_cpy, y_train_01[label])

    # Ergebnis abspeichern
    features.append(X_train_cpy.columns[tree_clf_tmp.feature_importances_.argmax()][1])
    train_scores.append(
        100
        * cross_val_score(
            tree_clf_tmp, X_train_cpy, y_train_01[label], cv=5, scoring="accuracy"
        ).mean()
    )
    test_scores.append(
        100
        * cross_val_score(
            tree_clf_tmp, X_test_cpy, y_test_01[label], cv=5, scoring="accuracy"
        ).mean()
    )

    # Bestes Merkmal für den nächsten Durchlauf entfernen
    X_train_cpy = X_train_cpy.drop(
        X_train_cpy.columns[tree_clf_tmp.feature_importances_.argmax()], axis=1
    )
    X_test_cpy = X_test_cpy.drop(
        X_test_cpy.columns[tree_clf_tmp.feature_importances_.argmax()], axis=1
    )
In [32]:
# Zur besseren Darstellung in DataFrame umwandeln
data = {"Merkmal": features, "Training [%]": train_scores, "Test [%]": test_scores}
df_features = pd.DataFrame(data)
style = df_features.style
style = style.format({"Training [%]": "{:.2f}"})
style = style.format({"Test [%]": "{:.2f}"})
style = style.background_gradient(cmap="viridis")
style = style.set_properties(**{"text-align": "right"})
style = style.set_properties(**{"text-align": "left"}, subset=["Merkmal"])
style = style.hide_index()
style
Out[32]:
<style type="text/css"> #T_5b664334_f214_11eb_a746_0242ac1c0002row0_col0,#T_5b664334_f214_11eb_a746_0242ac1c0002row1_col0,#T_5b664334_f214_11eb_a746_0242ac1c0002row2_col0,#T_5b664334_f214_11eb_a746_0242ac1c0002row3_col0,#T_5b664334_f214_11eb_a746_0242ac1c0002row4_col0,#T_5b664334_f214_11eb_a746_0242ac1c0002row5_col0,#T_5b664334_f214_11eb_a746_0242ac1c0002row6_col0,#T_5b664334_f214_11eb_a746_0242ac1c0002row7_col0,#T_5b664334_f214_11eb_a746_0242ac1c0002row8_col0,#T_5b664334_f214_11eb_a746_0242ac1c0002row9_col0{ text-align: right; text-align: left; }#T_5b664334_f214_11eb_a746_0242ac1c0002row0_col1,#T_5b664334_f214_11eb_a746_0242ac1c0002row0_col2{ background-color: #fde725; color: #000000; text-align: right; }#T_5b664334_f214_11eb_a746_0242ac1c0002row1_col1,#T_5b664334_f214_11eb_a746_0242ac1c0002row2_col1,#T_5b664334_f214_11eb_a746_0242ac1c0002row3_col1{ background-color: #c8e020; color: #000000; text-align: right; }#T_5b664334_f214_11eb_a746_0242ac1c0002row1_col2,#T_5b664334_f214_11eb_a746_0242ac1c0002row2_col2,#T_5b664334_f214_11eb_a746_0242ac1c0002row3_col2{ background-color: #81d34d; color: #000000; text-align: right; }#T_5b664334_f214_11eb_a746_0242ac1c0002row4_col1{ background-color: #b2dd2d; color: #000000; text-align: right; }#T_5b664334_f214_11eb_a746_0242ac1c0002row4_col2{ background-color: #93d741; color: #000000; text-align: right; }#T_5b664334_f214_11eb_a746_0242ac1c0002row5_col1{ background-color: #a2da37; color: #000000; text-align: right; }#T_5b664334_f214_11eb_a746_0242ac1c0002row5_col2{ background-color: #73d056; color: #000000; text-align: right; }#T_5b664334_f214_11eb_a746_0242ac1c0002row6_col1{ background-color: #5cc863; color: #000000; text-align: right; }#T_5b664334_f214_11eb_a746_0242ac1c0002row6_col2{ background-color: #42be71; color: #000000; text-align: right; }#T_5b664334_f214_11eb_a746_0242ac1c0002row7_col1{ background-color: #20a486; color: #000000; text-align: right; }#T_5b664334_f214_11eb_a746_0242ac1c0002row7_col2{ background-color: #21918c; color: #000000; text-align: right; }#T_5b664334_f214_11eb_a746_0242ac1c0002row8_col1{ background-color: #1f988b; color: #000000; text-align: right; }#T_5b664334_f214_11eb_a746_0242ac1c0002row8_col2{ background-color: #21a585; color: #000000; text-align: right; }#T_5b664334_f214_11eb_a746_0242ac1c0002row9_col1,#T_5b664334_f214_11eb_a746_0242ac1c0002row9_col2{ background-color: #440154; color: #f1f1f1; text-align: right; }</style>
Merkmal Training [%] Test [%]
Spezifischer Einspritzdruck Spitzenwert [APVs 2] 98.93 98.90
Massepolster Ende Nachdruck [ACPv 2] 97.36 96.04
Schussvolumen [Svo 2] 97.39 96.04
Massepolster nach Nachdruck [ACPn 2] 97.39 96.04
Spezifischer Druck beim Umschalten [APHu 2] 96.78 96.48
Einspritzarbeit [EA 2] 96.32 95.71
Integral Überwachung 1 Micrograph [IDKi1_Mic 2] 94.25 94.40
Integral Überwachung 1 Micrograph [IDKi1_Mic 1] 91.23 91.43
Spezifischer Nachdruck Spitzenwert [APNs 2] 90.27 92.75
Schusszähler Istwert [SZx] 80.35 83.96

Neben dem Spezifischen Einspritzdruck Spitzenwert erzielen fünf weitere Merkmale eine Genauigkeit von über 95 % auf den Testdaten. Wenn das beste Merkmal nicht mehr ausreichen sollte könnten aus diesen Merkmalen zukünftig weitere Grenzwerte abgeleitet werden. Dazu muss der entsprechende Entscheidungsbaum betrachtet werden. Durch eine Verschiebung der ermittelten Grenzwerte in Richtung der Gut- bzw. Schlechtteile kann außerdem entweder die Sensitivität oder die Präzision des tems entsprechend der spezifischen Anforderungen angepasst werden.

5. Klassifizierung anhand mehrerer Merkmale

Die bei der Firma Gustav Hensel GmbH & Co. KG verwendeten Spritzgussmaschinen stellen ihre internen Messwerte unmittelbar nach Fertigstellung eines Teils über einen USB-Anschluss zur Verfügung. Dies eröffnet die Möglichkeit, auf externer Hardware einen komplexeren Klassifikator laufen zu lassen. Die Ausgabe des Klassifikators kann von den Maschinen über einen digitalen Eingang eingelesen und das gespritzte Teil bei Bedarf aussortiert werden.

Die meisten dieser "komplexeren" Klassifikatoren erfordern eine Vorverarbeitung der Daten. Deshalb wird im nachfolgenden Unterkapitel zunächst eine Pipeline zur Datenvorverarbeitung aufgebaut.

5.1 Pipeline

Grundsätzlich haben die Merkmale sehr unterschiedliche Wertebereiche:

In [33]:
formatForPlotting(X_train["Internal_C1"].describe()).iloc[[1, 3, 7]]
Out[33]:
<style scoped=""> .dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; } </style>
Name Dosierleistung [iwdls_1] Dosiervolumen Istwert [ASSx_1] Dosierzeit Istwert [ZDx_1] Drehmoment Mittelwert laufender Zyklus [Mm_1] Drehmoment Spitzenwert laufender Zyklus [Ms_1] Drehzahl Spitzenwert [DZs_1] Einspritzarbeit [EA_1] Integral Überwachung_1 Micrograph [IDKi1_Mic_1] Massepolster Ende Nachdruck [ACPv_1] Massepolster kleinster Wert [ACPx_1] Massepolster nach Nachdruck [ACPn_1] Schussvolumen [Svo_1] Spezifischer Druck beim Umschalten [APHu_1] Spezifischer Einspritzdruck Spitzenwert [APVs_1] Spezifischer Nachdruck Spitzenwert [APNs_1] Spezifischer Staudruck Spitzenwert [APSs_1] Spritzzeit Istwert [ZSx_1] Umschaltvolumen [AC3u_1] Zykluszeit Düse vor [ZDvo_1] Zykluszeit Nachdruck [ZNach_1]
mean 6.786638 70.598395 7.644107 166.944667 178.081253 0.293926 1.02861 51273.154137 6.200066 4.421671 6.405632 62.594368 528.619351 904.122787 628.062177 93.642386 1.174428 12.568419 1.155214 1.995052
min 5.990000 70.370000 1.990000 84.500000 133.500000 0.292000 0.97000 46882.560000 3.700000 2.140000 3.910000 59.690000 500.000000 768.300000 595.000000 7.400000 1.120000 12.480000 0.000000 0.000000
max 26.980000 70.770000 8.510000 178.700000 192.200000 0.298000 1.11600 55403.390000 9.110000 6.160000 9.310000 65.090000 605.700000 1042.300000 672.800000 95.700000 1.230000 12.690000 3.570000 2.000000

Außerdem sind alle bis auf ein Merkmal numerisch. Das einzige text-basierte Merkmal ist dabei nicht sehr aussagekräftig, da es fast immer einen Bindestrich enthält:

In [34]:
X_train.select_dtypes(exclude=[np.number]).value_counts()
Out[34]:
(Internal, Ausschussursache [ASU])              
-                                                   3615
3- Polster 2 zu klein  (3/2/0/0/0)                    11
3- Polster 1 zu klein  (3/1/0/0/0)                     8
4- Durchwärmungsprüfung 2 war aktiv  (4/2/0/0/0)       4
dtype: int64

Deshalb wird dieses Merkmal von der nachfolgend aufgebauten Pipeline aussortiert.

Zunächst wird eine Pipeline für die numerischen Merkmale aufgebaut. Diese übernimmt im Wesentlichen die Skalierung der Merkmale. Der Datensatz besitzt einige Ausreißer. Aus diesem Grund wird der StandardScaler verwendet, welcher wesentlich robuster gegenüber Ausreißern ist als der MinMaxScaler.

In [35]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

num_pipeline = Pipeline([("scaler", StandardScaler())])

Im nächsten Schritt wird die vollständige Pipeline definiert. Diese sortiert das text-basierte Merkmal aus. Durch die Verwendung der Klasse ColumnTransformer können diese Merkmale zukünftig sehr einfach mit Hilfe einer eigenen Pipeline vorverarbeitet werden.

In [36]:
from sklearn.compose import ColumnTransformer

num_features = list(X_train.select_dtypes(include=[np.number]))
text_features = list(X_train.select_dtypes(exclude=[np.number]))

pipeline = ColumnTransformer(
    [("num", num_pipeline, num_features), ("text", "drop", text_features)]
)

Nun kann die Pipeline an die Trainingsdaten angepasst und anschließend auf alle Daten angewendet werden:

In [37]:
# Anpassen an die Trainingsdaten
pipeline.fit(X_train)

# Transformation der Trainings- und Testdaten
X_train_tr = pipeline.transform(X_train)
X_test_tr = pipeline.transform(X_test)

# Wiederherstellung der DataFrames
X_train_tr = pd.DataFrame(
    X_train_tr, X_train[num_features].index, X_train[num_features].columns
)
X_test_tr = pd.DataFrame(
    X_test_tr, X_test[num_features].index, X_test[num_features].columns
)

Die vorverarbeiteten Daten können im nächsten Schritt zum Trainieren der Klassifikatioren genutzt werden.

5.2 Klassifikatoren

Wie bereits in den vorherigen Kapitel wird stellvertretend der häufigste Fehler 0_leak_corner_tr untersucht.

In [38]:
label = "0_leak_corner_tr"

5.3 Logistische Regression

In der Regel ist es sinnvoll, mit möglichst wenigen Annahmen zu starten. Deshalb wird im ersten Versuch ein lineares Modell trainiert. Dieses wird durch die Klasse LogisticRegeression implementiert.

In [39]:
from sklearn.linear_model import LogisticRegression

log_clf = LogisticRegression(random_state=42)
log_clf.fit(X_train_tr, y_train_01[label])
Out[39]:
LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=42, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

Auch an dieser Stelle wird wieder auf die Kreuzvalidierung mit der Genauigkeit als Bewertungskritierium zurückgegriffen, siehe Kapitel 4.

In [40]:
log_clf_cv = cross_val_score(
    log_clf, X_train_tr, y_train_01[label], cv=10, scoring="accuracy"
)
In [41]:
outputCVResults(log_clf_cv)
results.append(("Log_reg_cv", 100 * log_clf_cv.mean()))
Genauigkeit bei der Kreuzvalidierung
- Mittelwert: 99.20 %
- Standardabw.: 0.48 %

Das Ergebnis ist im Durchschnitt mit 99,2 % nur etwas besser als mit einem sehr einfachen Entscheidungsbaum mit ca. 98,9 %.

5.4 Random Forest

Möglicherweise ist ein komplexeres Modell erforderlich. Aufgrund des Erfolgs des einfachen Entscheidungsbaums wirkt ein Random Forest-Modell vielversprechend. Ein Random Forest besteht aus mehreren - möglichst unkorrelierten - Entscheidungsbäumen und kann sowohl für die Klassifikation als auch Regression eingesetzt werden. Die Klassifikation erfolgt durch einen Mehrheitsentscheid der einzelnen Bäume. Um unkorrelierte Entscheidungsbäume zu erhalten werden diese bspw. auf zufällig aufgewählten Teilmengen der Merkmale trainiert, vgl. [5]. In Scikit-Learn wird dieses Modell durch die Klasse RandomForestRegressor implementiert.

In [42]:
from sklearn.ensemble import RandomForestClassifier

forest_clf = RandomForestClassifier(random_state=42)
forest_clf.fit(X_train_tr, y_train_01[label])
Out[42]:
RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=None, max_features='auto',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=100,
                       n_jobs=None, oob_score=False, random_state=42, verbose=0,
                       warm_start=False)

Wie zuvor kann nun die Kreuzvalidierung zur Bewertung genutzt werden:

In [43]:
forest_clf_cv = cross_val_score(
    forest_clf, X_train_tr, y_train_01[label], cv=10, scoring="accuracy"
)
In [44]:
outputCVResults(forest_clf_cv)
results.append(("Forest_cv", 100 * forest_clf_cv.mean()))
Genauigkeit bei der Kreuzvalidierung
- Mittelwert: 99.26 %
- Standardabw.: 0.37 %

Mit 99,26 % ist der Random Forest nur minimal besser als die Logistische Regression mit 99,20 %.

5.5 Analyse der Fehler

Dies ist ein guter Zeitpunkt um die Fehler des Modells genauer zu untersuchen. Dazu sind die "ehrlichen" Schätzungen des Klassifikators erforderlich. Das sind Schätzungen, bei denen der Klassifikator den zu klassifizierenden Datenpunkt noch nicht gesehen hat, also nicht auf diesem trainiert wurde. Auch hier bietet Scikit-Learn mit der Klasse cross_val_predict eine passende Implementierung, welche auf der Kreuzvalidierung aufbaut:

In [45]:
from sklearn.model_selection import cross_val_predict

y_train_01_pred = cross_val_predict(forest_clf, X_train_tr, y_train_01[label])

Die Fehler können im nächsten Schritt als Konfusionsmatrix dargestellt werden:

In [46]:
from sklearn.metrics import confusion_matrix

print("Konfusionsmatrix")
print(confusion_matrix(y_train_01[label], y_train_01_pred))
Konfusionsmatrix
[[1952   26]
 [   6 1654]]

Die allermeisten Teile wurden entweder korrekt positiv (1952) oder korrekt negativ (1654) klassifiziert. Allerdings wurden einige fehlerfreie Teile als fehlerhaft klassifiziert (26) und ein paar fehlerhafte Teile als fehlerfrei (6). Um diese fehlerhaften Klassifizierungen zu erklären werden nachfolgend die ursprünglichen Zielwerte (0 - 3) für ein paar dieser Teile dargestellt.

Fehlerfreie Teile die als fehlerhaft klassifiziert wurden:

In [47]:
y_train[
    np.logical_and(y_train_01[label] == 0, y_train_01_pred == 1)
].sort_index().head()
Out[47]:
<style scoped=""> .dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; } </style>
Name 0_leak_corner_tl 0_leak_corner_tr 1_hole_bottom
2021-01-11 15:10:02 1 1 0
2021-01-11 16:11:52 3 1 0
2021-01-11 16:30:29 2 1 0
2021-01-11 16:32:17 3 1 0
2021-01-11 16:41:53 1 1 0

Fehlerhafte Teile die als fehlerfrei klassifiziert wurden:

In [48]:
y_train[
    np.logical_and(y_train_01[label] == 1, y_train_01_pred == 0)
].sort_index().head()
Out[48]:
<style scoped=""> .dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; } </style>
Name 0_leak_corner_tl 0_leak_corner_tr 1_hole_bottom
2021-01-11 14:53:13 1 2 0
2021-01-11 14:58:01 1 2 0
2021-01-11 16:12:29 1 2 0
2021-01-12 05:57:11 1 2 0
2021-01-12 12:55:29 1 2 0

In der Spalte 0_leak_corner_tr beider Tabellen ist erkennbar, dass die falsch klassifizierten Teile mit einer Fehlerstärke von 1 bzw. 2 jeweils am Rand der binären Entscheidungsgrenze (zwischen 1 und 2) liegen. Vermutlich handelt es sich bei diesen Teilen um Grenzfälle, welche sowohl der Fehlerstärke 1 als auch 2 hätten zugeordnet werden können. Die Fotos zweier dieser Teile - dargestellt in Abbildung 4 - unterstützen diese Vermutung:

Grenzwertig.jpg

Abbildung 4: Ein falsch positiv (links) und ein falsch negativ (rechts) klassifiziertes Teil

Im Vergleich zu den übrigen Teilen sind beide dargestellten Fehler weder besonders schwach noch besonders stark.

Auf Grundlage dieser Erkenntnis könnte im nächsten Schritt der Grenzwert des Klassifikators so festgelegt werden, dass dessen Sensitivität und Präzision für den vorliegenden Anwendungsfall optimal sind. Da die positive Kategorie bei diesem Datensatz nicht selten ist, bietet sich in diesem Fall die Verwendung einer ROC-Kurve an, um dieses Ziel zu erreichen, vgl. [3].

5.3 Zusammenfassung

Die Genauigkeit der beiden trainierten Klassifikatoren ist mit über 99,00 % bei der Kreuzvalidierung ausreichend hoch. Die fehlerhaft klassifizierten Teile liegen vermutlich nahe der binären Entscheidungsgrenze. Diese Fehler sind bei einem binären Klassifikator auf Basis analoger Merkmale zu erwarten. Abschließend werden die Klassifikatoren anhand der Testdaten überprüft:

In [49]:
print("Genauigkeit auf den Testdaten")

# Logistische Regression
log_clf_test = log_clf.score(X_test_tr, y_test_01[label])
print("- Logistische Regression:", "{:.2f}".format(100 * log_clf_test), "%")
results.append(("Log_reg_test", 100 * log_clf_test))

# Random Forest
forest_clf_test = forest_clf.score(X_test_tr, y_test_01[label])
print("- Random Forest:", "{:.2f}".format(100 * forest_clf_test), "%")
results.append(("Forest_test", 100 * forest_clf_test))
Genauigkeit auf den Testdaten
- Logistische Regression: 99.23 %
- Random Forest: 99.34 %

Auch die Genauigkeit auf den Testdaten ist mit jeweils über 99,2 % ausreichend hoch und sehr ähnlich zur Genauigkeit bei der Kreuzvalidierung. Von einem Under- oder Overfitting ist deshalb nicht auszugehen. Aufgrund der hohen Genauigkeit und der erklärbaren Fehler wird kein zusätzlicher Aufwand in die Optimierung der Hyperparamter investiert.

Zusammenfassend hat dieses Kapitel gezeigt, dass mit Klassifikatoren auf Basis mehrerer Merkmale sehr gute Ergebnisse erzielt werden können. Der große Nachteil dabei ist, dass dafür ca. 3600 Fotos manuell gelabelt werden mussten. Im nachfolgenden Kapitel wird deshalb untersucht, ob der Ansatz des teilüberwachten Lernens genutzt werden kann, um diesen Aufwand zu minimieren.

6. Teilüberwachtes Lernen

Die vorherigen Kapitel haben gezeigt, dass ML-Algorithmen mit Hilfe gelabelter Daten fehlerhafte Teile sehr gut erkennen können. Ziel dieses Kapitel ist, den Aufwand zu minimieren, um einen solchen Algorithmus zu trainieren. Dieser Aufwand besteht hauptsächlich im Labeln der Fotos. Beim Erkunden der Daten hat sich bereits gezeigt, dass diese eine Cluster-Struktur aufweisen. Ein vielversprechender Ansatz zur Minimierung des Label-Aufwands ist deshalb das teilüberwachte Lernen.

Beim teilüberwachten Lernen wird nur ein geringer Teil der Datenpunkte gelabelt. Es wird versucht, dafür repräsentative Datenpunkte zu finden. Dies könnten bspw. die Mittelpunkte der beobachteten Cluster sein. Die Label der repräsentativen Datenpunkte können auch auf andere z.B. demselben Cluster angehörige Datenpunkte übertragen werden, bevor ein ML-Algorithmus trainiert wird, vgl. [3]. In diesem Fall soll die Auswahl der repräsentativen Datenpunkte auf Basis der beobachteten Cluster erfolgen. Wie diese erfasst werden beschreibt das nachfolgende Unterkapitel.

6.1 Clustering der Daten

6.1.1 Auswahl relevanter Merkmale

In einem hochdimensionalen Merkmalsraum sind Datenpunkte relativ weit voneinander entfernt, wodurch deren Clustering erschwert wird, vgl. [3]. Eine einfache Möglichkeit diesen Merkmalsraum zu verkleinern ist das Entfernen von Merkmalen, welche für das untersuchte Problem wenig relevant erscheinen. Dies könnte z.B. auf Grundlage von Fachwissen erfolgen. In diesem Fall eröffnet jedoch der in Kap. 5 trainierte RandomForestClassifier eine einfachere Möglichkeit. Dieser besitzt das Attribut feature_importances_, welches Aufschluss über diejenigen Merkmale gibt, welche bei seinen Entscheidungen am wichtigsten sind. Nachfolgend die 10 wichtigsten Merkmale:

In [50]:
feature_importances = forest_clf.feature_importances_
features_df = pd.DataFrame(
    feature_importances.T, X_train_tr.columns, ["Feature importance"]
)
features_df["Feature importance"].sort_values(ascending=False).head(10)
Out[50]:
Group        Name                                            
Internal_C2  Spezifischer Einspritzdruck Spitzenwert [APVs 2]    0.135442
             Spezifischer Druck beim Umschalten [APHu 2]         0.128987
             Massepolster Ende Nachdruck [ACPv 2]                0.126340
             Schussvolumen [Svo 2]                               0.102903
             Massepolster nach Nachdruck [ACPn 2]                0.095072
             Integral Überwachung 1 Micrograph [IDKi1_Mic 2]     0.072568
             Einspritzarbeit [EA 2]                              0.068275
             Spezifischer Nachdruck Spitzenwert [APNs 2]         0.043516
Internal     Schusszähler Istwert [SZx]                          0.034663
Internal_C2  Dosierzeit Istwert [ZDx 2]                          0.028120
Name: Feature importance, dtype: float64

Noch aufschlussreicher ist ein Graph, welche die sortierten Wichtigkeiten der Merkmale über deren Indizes darstellt:

In [51]:
plt.figure(figsize=(8, 6))
plt.plot(features_df["Feature importance"].sort_values(ascending=False).to_numpy())

# Horizontale Linie
xticks = range(0, 101, 5)
hline = 0.01
plt.plot(xticks, np.array([hline for tick in xticks]), "r--", label="1 %")

# Formatierung
plt.title("Wichtigkeit der Merkmale im Random Forest", fontsize=16, pad=10)
plt.xlabel("Merkmale")
plt.ylabel("Relative Wichtigkeit [%]")
plt.xlim(0, 100)
plt.ylim(0, 0.15)
plt.xticks(xticks)
plt.legend()
plt.show()
No description has been provided for this image

Der Graph zeigt, dass ca. ab dem 15. Merkmal die relative Wichtigkeit unter 1 % sinkt. Deshalb werden nachfolgend nur die ersten 15 Merkmale betrachtet. An dieser Stelle kann selbstverständlich auch domänenspezifisches Wissen berücksichtigt werden.

In [52]:
n_features = 15
X_train_cl = X_train_tr.iloc[:, feature_importances.argsort()[-n_features:]]
X_test_cl = X_test_tr.iloc[:, feature_importances.argsort()[-n_features:]]

# Reihenfolge der Spaltennamen wiederherstellen
X_train_cl = X_train_cl.sort_index(axis=1)
X_test_cl = X_test_cl.sort_index(axis=1)

6.1.2 Dimensionsreduktion

Über das Entfernen der unwichtigen Merkmale hinaus kann die Dimension des Merkmalsraums weiter reduziert werden. Dies erleichtert das Clustering und ermöglicht eine visuelle Darstellung der Cluster.

Häufig wird dafür die Hauptkomponentenanalyse (Principal Component Analysis, PCA) eingesetzt. Bei dieser handelt sich um ein mathematisches Verfahren, bei dem der ursprüngliche Merkmalsraum unter Beibehaltung einer möglichst großen Varianz auf einen niedriger dimensionalen Unterraum projiziert wird, vgl. [6]. Die Dimension des Unterraums kann dabei beliebig gewählt werden.

Die Achsen des Unterraums werden als Hauptkomponenten bezeichnet und ergeben sich aus Linearkombinationen der ursprünglchen Merkmale. Beim Erkunden der Daten in Kap. 3.5 konnten starke lineare Korrelationen im Datensatz beobachtet werden. Aus diesem Grund wird nachfolgend die PCA zur Dimensionreduktion genutzt. Auch für dieses Verfahren liefert SciKit-Learn mit der Klasse PCA eine Implementierung. Der nach nachfolgende Programmcode reduziert die Dimension der 15 wichtigsten Merkmale auf 3:

In [53]:
from sklearn.decomposition import PCA

pca_3D = PCA(n_components=3)
X3D_train = pca_3D.fit_transform(X_train_cl)
X3D_test = pca_3D.fit_transform(X_test_cl)

Die erklärte Varianz der reduzierten Daten beträgt:

In [54]:
print(
    "Anteil erklärter Varianz (3D):",
    "{:.2f}".format(100 * pca_3D.explained_variance_ratio_.sum()),
    "%",
)
Anteil erklärter Varianz (3D): 95.03 %

Bei der Reduktion von 15 auf 3 Dimensionen sind folglich nur ca. 5 % der Varianz verloren gegangen. Deshalb wird nachfolgend eine Reduktion auf 2 Dimensionen ausprobiert:

In [55]:
pca_2D = PCA(n_components=2)
X2D_train = pca_2D.fit_transform(X_train_cl)
X2D_test = pca_2D.fit_transform(X_test_cl)

Die erklärte Varianz beträgt in diesem Fall:

In [56]:
print(
    "Anteil erklärter Varianz (2D):",
    "{:.2f}".format(100 * pca_2D.explained_variance_ratio_.sum()),
    "%",
)
Anteil erklärter Varianz (2D): 86.50 %

Auch wenn in 2 Dimensionen mit ca. 13,5 % deutlich mehr Informationen verloren gegangen sind ist der zweidimensionale Datensatz für das Clustering potenziell noch sehr gut geeignet. Die nachfolgenden Visualisierungen sollen bei der Auswahl der Anzahl an Dimensionen unterstützen. Zunächst wird der dreidimensionale Datensatz dargestellt.

In [57]:
from mpl_toolkits.mplot3d import Axes3D


def plotX3D(X3D, color, anomalies=None):
    # X3D bei Bedarf in np.ndarray umwandeln
    if isinstance(X3D, pd.DataFrame):
        X3D = X3D.to_numpy()

    # Initialisierung
    fig = plt.figure(figsize=(14, 11))
    ax = fig.add_subplot(111, projection="3d")

    # Über alle Fehlerausprägungen (0 - 3) iterieren
    colors = {0: "green", 1: "yellow", 2: "orange", 3: "red"}
    labels = {
        0: "kein Fehler",
        1: "schwacher Fehler",
        2: "mittlerer Fehler",
        3: "starker Fehler",
    }
    for c in np.sort(np.unique(color)):
        ax.plot(
            X3D_train[color == c, 0],
            X3D_train[color == c, 1],
            X3D_train[color == c, 2],
            ".",
            label=labels[c],
            c=colors[c],
            alpha=0.2,
        )

    # Formatierung
    ax.legend()
    ax.set_xlabel("Hauptkomponente $x_1$", fontsize=14, labelpad=10)
    ax.set_ylabel("Hauptkomponente $x_2$", fontsize=14, labelpad=10)
    ax.set_zlabel("Hauptkomponente $x_3$", fontsize=14, labelpad=10)
    ax.set_zlim(-6, 6)
    ax.view_init(50, 145)

    # Optional können Anomalien dargestellt werden
    if isinstance(anomalies, np.ndarray):
        ax.scatter(
            anomalies[:, 0], anomalies[:, 1], anomalies[:, 2], marker="x", s=80, c="red"
        )
In [58]:
plotX3D(X3D_train, y_train[label])
plt.show()
No description has been provided for this image

Es sind eindeutig Cluster zu erkennen. Sowohl für die Gut- als auch Schlechtteile existieren mehrere Cluster. Die Cluster der Schlechtteile (rot) sind deutlich weniger kompakt und länglicher gezogen als die Cluster der Gutteile (grün). Um zu überprüfen ob diese Informationen auch im zweidimensionalen Datensatz erhalten geblieben sind wird dieser als nächstes dargestellt.

In [59]:
def plotX2D(X2D, color, anomalies=None):
    # X2D bei Bedarf in np.ndarray umwandeln
    if isinstance(X2D, pd.DataFrame):
        X2D = X2D.to_numpy()

    # Initialisierung
    fig = plt.figure(figsize=(12, 8))
    ax = fig.add_subplot(111)

    # Über alle Fehlerausprägungen (0 - 3) iterieren
    colors = {0: "green", 1: "yellow", 2: "orange", 3: "red"}
    labels = {
        0: "kein Fehler",
        1: "schwacher Fehler",
        2: "mittlerer Fehler",
        3: "starker Fehler",
    }
    for c in np.sort(np.unique(color)):
        ax.plot(
            X2D[color == c, 0],
            X2D[color == c, 1],
            ".",
            label=labels[c],
            c=colors[c],
            alpha=0.2,
        )

    # Formatierung
    ax.legend()
    ax.set_xlabel("Hauptkomponente $x_1$", fontsize=14, labelpad=10)
    ax.set_ylabel("Hauptkomponente $x_2$", fontsize=14, labelpad=10)

    # Optional können Anomalien dargestellt werden
    if isinstance(anomalies, np.ndarray):
        ax.scatter(anomalies[:, 0], anomalies[:, 1], marker="x", s=80, c="red")
In [60]:
plotX2D(X2D_train, y_train[label])
plt.show()
No description has been provided for this image

Aus dieser Darstellung lassen sich sehr ähnliche Erkenntnisse ableiten wie aus der dreidimensionalen. Für das teilüberwachte Lernen wird aus Gründen der Einfachheit der zweidimensionale Datensatz verwendet.

6.1.3 Durchführung des Clustering

Auf Basis des zweidimensionalen Datensatz X2D_train kann im nächsten Schritt das Clustering durchgeführt werden. Die Darstellungen im vorherigen Unterkapitel haben gezeigt, dass die Cluster typischerweise elliptisch sind und in ihrer Dichte stark variieren können. Der Algorithmus K-Means kommt deshalb nicht in Frage, vgl. [3]. Stattdessen wird ein Gaußsches Mischverteilungsmodell (Gaussian Mixture Model, GMM) genutzt, welches diese Art von Clustern sehr gut erzeugen kann. Das Modell versucht, die Datenpunkte im Datensatz durch eine Mischung verschiedener gaußscher Verteilungen zu erzeugen, vgl. [7] Die entsprechende Klasse SciKit-Learn heißt GaussianMixture:

In [61]:
from sklearn.mixture import GaussianMixture

# n_components = 7 auf Grundlage der Darstellungen im vorherigen Unterkapitel
gaus_mix = GaussianMixture(n_components=7, random_state=42).fit(X2D_train)
y_pred_cluster = gaus_mix.predict(X2D_train)

Es ist hilfreich, diese Cluster darstellen zu können.

In [62]:
def plotX2DClustered(X2D, cluster, anomalies=None, cluster_centers=[]):
    # X2D bei Bedarf in np.ndarray umwandeln
    if isinstance(X2D, pd.DataFrame):
        X2D = X2D.to_numpy()

    # Initialisierung
    fig = plt.figure(figsize=(12, 8))
    ax = fig.add_subplot(111)

    # Über alle Cluster iterieren
    for c in np.sort(np.unique(cluster)):
        ax.plot(X2D[cluster == c, 0], X2D[cluster == c, 1], ".", label=c, alpha=0.2)

    # Formatierung
    ax.legend()
    ax.set_xlabel("Hauptkomponente $x_1$", fontsize=14, labelpad=10)
    ax.set_ylabel("Hauptkomponente $x_2$", fontsize=14, labelpad=10)

    # Optional können Anomalien dargestellt werden
    if isinstance(anomalies, np.ndarray):
        ax.scatter(anomalies[:, 0], anomalies[:, 1], marker="x", s=80, c="red")

    # Optional können die Zentren der Cluster dargestellt werden
    if len(cluster_centers) > 0:
        ax.plot(
            cluster_centers[:, 0],
            cluster_centers[:, 1],
            "o",
            c="red",
            markersize=8,
            markeredgecolor="black",
        )
In [63]:
plotX2DClustered(X2D_train, y_pred_cluster, cluster_centers=gaus_mix.means_)
No description has been provided for this image

Der Algorithmus hat die Cluster sehr gut erkannt. Die jeweiligen Mittelwerte werden als roter Punkt dargestellt. Das Gaußsche Mischverteilungsmodell wird nachfolgend die Grundlage für das teilüberwachte Lernen bilden.

6.2 Durchführung des teilüberwachten Lernens

Auf Basis des Clustering kann nun der Einfluss des teilüberwachten Lernens auf die Genauigkeit eines Klassifikators ermittelt werden. Stellvertretend wird nachfolgend der Klassifikator LogisticRegression eingesetzt, welcher in Kap. 5.3 bereits eine Genauigkeit von ca. 99,0 % auf dem gesamten Datensatz erreicht hat.

6.2.1 Referenz

Für den späteren Vergleich ist zunächst eine Referenzgenauigkeit mit allen Labeln zu ermitteln:

In [64]:
from sklearn.linear_model import LogisticRegression

log_clf_full = LogisticRegression(random_state=42)
log_clf_full.fit(X2D_train, y_train_01[label])
Out[64]:
LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=42, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

Um noch nicht auf die Testdaten zurückgreifen zu müssen wird zur Bewertung eine Kreuzvalidierung durchgeführt:

In [65]:
from sklearn.model_selection import cross_val_score

log_full_cv = cross_val_score(
    log_clf_full, X2D_train, y_train_01[label], cv=10, scoring="accuracy"
)
In [66]:
def outputResults(scores):
    print("Genauigkeit bei der Kreuzvalidierung")
    print("- Mittelwert:", "{:.2f}".format(100 * scores.mean()), "%")
    print("- Standardabw.:", "{:.2f}".format(100 * scores.std()), "%")
    print("- 10. Perzentil:", "{:.2f}".format(100 * np.percentile(scores, 10), "%"))
In [67]:
outputResults(log_full_cv)
results.append(("Log_reg_full_cv", 100 * log_full_cv.mean()))
Genauigkeit bei der Kreuzvalidierung
- Mittelwert: 98.82 %
- Standardabw.: 0.51 %
- 10. Perzentil: 98.04

Interessanterweise hat dieser Klassifikator mit ca. 98,8 % auf dem zweidimensionalen Datensatz eine quasi identische Genauigkeit wie auf dem gesamten Datensatz mit über 100 Merkmalen.

Eine weitere Referenz ist die Genauigkeit mit rein zufällig ausgewählten Datenpunkten. Um diese zu ermitteln werden nachfolgend mehrfach Datenpunkte zufällig ausgewählt, das Modell mit ihnen trainiert und abschließend anhand der gesamten Trainingsdaten bewertet.

In [68]:
n_labeled = 10
In [69]:
def randomSemisupervisedLearning(X, y, n_labeled, runs=1000):
    scores = []

    # Initialisierung des Klassifikators
    clf = LogisticRegression(random_state=42)

    for i in range(runs):
        # Auswahl zufälliger Datenpunkte
        idx_rnd = pd.DataFrame(X).sample(n=n_labeled, random_state=i).index

        # Kontrolle ob sowohl Gut- als auch Schlechtteile ausgewählt wurden
        if y[idx_rnd].nunique() > 1:
            # Trainieren des Modells
            clf.fit(pd.DataFrame(X).iloc[idx_rnd], y.iloc[idx_rnd])

            # Genauigkeit des Modells abspeichern
            scores.append(clf.score(pd.DataFrame(X), y))

    outputResults(np.array(scores))
    return np.array(scores)
In [70]:
scores = randomSemisupervisedLearning(X2D_train, y_train_01[label], n_labeled=n_labeled)
results.append(("Log_reg_rnd", 100 * scores.mean()))
Genauigkeit bei der Kreuzvalidierung
- Mittelwert: 97.40 %
- Standardabw.: 2.46 %
- 10. Perzentil: 95.93

Auch mit nur 10 zufällig ausgewählten Datenpunkten erreicht der Klassifikator im Durchschnitt eine Genauigkeit von immerhin 97,4 %. Allerdings liegen 10 % der Klassifikatoren mit ihrer Genauigkeit unter 96,0 %. Folglich ist das Ziel des nachfolgenden Kapitels, mit 10 repräsentativ ausgewählten Datenpunkten eine Genauigkeit von min. 97,4 % und im Idealfall 99,0 % zu erreichen.

6.2.2 Auswahl durch Clustering

Nun kann das teilüberwachte Lernen durchgeführt werden. Zunächst werden durch den Clustering-Algorithmus die Cluster und deren Mittelpunkte bestimmt:

In [71]:
from sklearn.mixture import GaussianMixture

# Genauso viele Cluster wie Datenpunkte gelabelt werden sollen
gaus_mix = GaussianMixture(n_components=n_labeled, random_state=42)
gaus_mix.fit(X2D_train)
y_pred_cluster = gaus_mix.predict(X2D_train)

Als nächstes werden die Datenpunkte ausgewählt, welche den Mittelpunkten der Cluster am nächsten liegen:

In [72]:
from sklearn.metrics import pairwise_distances_argmin_min

closest, _ = pairwise_distances_argmin_min(gaus_mix.means_, X2D_train)
X2D_train_repr = X2D_train[closest]

Das Ergebnis stellt die nachfolgende Abbildung dar. Die gefundenen Datenpunkte sind als rote Punkte eingezeichnet:

In [73]:
plotX2DClustered(X2D_train, y_pred_cluster, cluster_centers=X2D_train_repr)
plt.show()
No description has been provided for this image

Im nächsten Schritt kann der Klassifikator mit diesen Datenpunkten trainiert und ausgewertet werden.

In [74]:
log_clf_repr = LogisticRegression(random_state=42)
log_clf_repr.fit(X2D_train[closest], y_train_01[label].iloc[closest])
Out[74]:
LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=42, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)
In [75]:
print("Genauigkeit nach Auswahl durch Clustering")
print("-", "{:.2f}".format(100 * log_clf_repr.score(X2D_train, y_train_01[label])), "%")
results.append(("Log_reg_repr", 100 * log_clf_repr.score(X2D_train, y_train_01[label])))
Genauigkeit nach Auswahl durch Clustering
- 98.52 %

Das Ergebnis ist mit 98,5 % deutlich besser als bei der rein zufälligen Auswahl mit 97,4 %, erreicht jedoch nicht die 99,0 %. Ein Propagieren der repräsentativen Label auf die anderen Datenpunkte im Cluster könnte eine weitere Verbesserung bringen:

In [76]:
y_train_01_prop = np.empty(len(y_train_01), dtype=np.int32)
for c in range(n_labeled):
    y_train_01_prop[y_pred_cluster == c] = y_train_01[label].iloc[closest][c]

Die aus den 10 repräsentativen Datenpunkten für den gesamten Datensatz abgeleiteten Label zeigt die nachfolgende Abbildung:

In [77]:
plotX2DClustered(X2D_train, y_train_01_prop, cluster_centers=X2D_train_repr)
No description has been provided for this image

Nun kann erneut ein Klassifikator trainiert und ausgewertet werden:

In [78]:
log_clf_prop = LogisticRegression(random_state=42)
log_clf_prop.fit(X2D_train, y_train_01_prop)

print("Genauigkeit nach Auswahl durch Clustering und Propagieren")
print("-", "{:.2f}".format(100 * log_clf_prop.score(X2D_train, y_train_01[label])), "%")
results.append(("Log_reg_prop", 100 * log_clf_prop.score(X2D_train, y_train_01[label])))
Genauigkeit nach Auswahl durch Clustering und Propagieren
- 98.65 %

Das Propagieren hat eine geringfügige Verbesserung auf 98,65 % gebracht, was nun beinahe der Referenz von 98,82 % entspricht. Abschließend wird dieses Ergebnis anhand der Testdaten überprüft:

In [79]:
print("Genauigkeit auf den Testdaten")
print(
    "- Überwachtes Lernen:",
    "{:.2f}".format(100 * log_clf_full.score(X2D_test, y_test_01[label])),
    "%",
)
print(
    "- Teilüberwachtes Lernen:",
    "{:.2f}".format(100 * log_clf_prop.score(X2D_test, y_test_01[label])),
    "%",
)

results.append(
    ("Log_reg_prop_test", 100 * log_clf_prop.score(X2D_test, y_test_01[label]))
)
Genauigkeit auf den Testdaten
- Überwachtes Lernen: 98.79 %
- Teilüberwachtes Lernen: 98.57 %

Die Genauigkeit auf den Testdaten ist beim überwachten und teilüberwachten ähnlich hoch und mit jeweils über 98,5 % ausreichend. Grundsätzlich stellt das teilüberwachte Lernen somit einen vielversprechenden Ansatz für Aufgaben dieser Art dar, denn in diesem Fall musste nur ca. 0,3 % (10 / 3600) des ursprünglichen Aufwands für das Labeln investiert werden.

6.2.3 Analyse der Fehler

Abschließend werden die Teile analysiert, welche beim Propagieren innerhalb der Cluster ein falsches Label erhalten haben:

In [80]:
false_pos = np.logical_and(y_train_01[label] == 0, y_train_01_prop == 1)
false_neg = np.logical_and(y_train_01[label] == 1, y_train_01_prop == 0)
In [81]:
plotX2D(X2D_train, y_train[label])

# Falsch positiv bzw. negativ klassifizierte Datenpunkte darstellen
plt.plot(
    X2D_train[false_pos][:, 0],
    X2D_train[false_pos][:, 1],
    "o",
    c="red",
    markeredgecolor="black",
    label="Falsch positiv",
)
plt.plot(
    X2D_train[false_neg][:, 0],
    X2D_train[false_neg][:, 1],
    "o",
    c="green",
    markeredgecolor="black",
    label="Falsch negativ",
)

plt.legend()
plt.show()
No description has been provided for this image

In der Abbildung sind als schwarz umrandete Punkte diejenigen Teile markiert, welche beim propagieren der repräsentativen Label ein falsches Label erhalten haben. Falsch positive Teile sind dabei rot, falsch negative Teile grün ausgefüllt. Grundsätzliche liegen diese Teile wie erwartet im Grenzbereich zwischen Gut- und Schlechtteilen. Auf den ersten Blick wirkt die dargestellte Klassifizierung nachvollziehbar. Bspw. erscheint es sinnvoll, dass das große Cluster der falsch positiven Teile (untere Hälfte der Abbildung) scheinbar dem rechten unteren Cluster an Fehlteilen zugeordnet wurde. Interessant ist das originale Label (0 - 3) dieser falsch klassifizierten Teile:

In [82]:
print("Ursprüngliches Label der falsch positiven Klassifizierungen")
print(y_train[label][false_pos].value_counts())
Ursprüngliches Label der falsch positiven Klassifizierungen
1    34
0     7
Name: 0_leak_corner_tr, dtype: int64

Die meisten dieser Teile hatten einen leichten Fehler (Stufe 1). Es ist nachvollziehbar, dass diese ähnlich wie die anderen Fehlteile (Stufe 2 und 3) eingeschätzt wurden. Teile mit einem leichten Fehler unterscheiden sich grundsätzlich von den vollständig fehlerfreien Teilen. Dies deuten auch die Cluster in der Abbildung an. Nachfolgend wird der Klassifikator aus dem teilüberwachten nochmal ausgewertet, diesmal werden jedoch auch leichte Fehler der positiven Kategorie zugeordnet:

In [83]:
y_train_01_alt = y_train.copy()
y_train_01_alt.replace(1, 1, inplace=True)
y_train_01_alt.replace(2, 1, inplace=True)
y_train_01_alt.replace(3, 1, inplace=True)
In [84]:
print("Genauigkeit mit alternativem Label:")
print(
    "-",
    "{:.2f}".format(100 * log_clf_prop.score(X2D_train, y_train_01_alt[label])),
    "%",
)
results.append(
    ("Log_reg_prop_1-3", 100 * log_clf_prop.score(X2D_train, y_train_01_alt[label]))
)
Genauigkeit mit alternativem Label:
- 99.15 %

Auf den Testdaten ist das Ergebnis ebenfalls besser:

In [85]:
y_test_01_alt = y_test.copy()
y_test_01_alt.replace(1, 1, inplace=True)
y_test_01_alt.replace(2, 1, inplace=True)
y_test_01_alt.replace(3, 1, inplace=True)
In [86]:
print("Genauigkeit mit alternativem Label:")
print(
    "-", "{:.2f}".format(100 * log_clf_prop.score(X2D_test, y_test_01_alt[label])), "%"
)
results.append(
    ("Log_reg_prop_1-3_test", 100 * log_clf_prop.score(X2D_test, y_test_01_alt[label]))
)
Genauigkeit mit alternativem Label:
- 98.90 %

Je nach Problemstellung sollte somit gut abgewogen werden, ob bei einer binären Klassifikation Teile mit einem leichten Fehler als fehlerfrei oder fehlerhaft eingestuft werden.

7. Ergebnisse und Evaluation

Abschließend können die Ergebnisse zusammengefasst und kritisch bewertet werden. Dazu werden nachfolgend die Genauigkeiten der im Rahmen dieser Arbeit trainierten Klassifikatoren dargestellt:

In [87]:
# Für die Darstellung in DataFrame umwandeln
results_data = {
    "Klassifikator": np.array(results)[:, 0],
    "Genauigkeit [%]": np.array(results)[:, 1].astype(float),
}
results_df = pd.DataFrame(results_data).set_index("Klassifikator")

# Spalte für das Ergebnis auf den Testdaten hinzufügen
results_test = results_df[results_df.index.str.contains("_test")]
results_test.index = results_test.index.str.replace("_test", "")
results_test.columns = ["Test [%]"]

# Spalte für das Ergebnis auf den Trainingsdaten anpassen
results_training = results_df[np.invert(results_df.index.str.contains("_test"))]
results_training.index = results_training.index.str.replace("_cv", "")
results_training.columns = ["Training [%]"]

# Spalten kombinieren
results_df = pd.concat([results_training, results_test], axis=1)
results_df = results_df.reset_index()
results_df = results_df.rename(columns={"index": "Klassifikator"})

# Formatierung
style = results_df.style
style = style.format({"Test [%]": "{:.1f}"})
style = style.format({"Training [%]": "{:.1f}"})
style = style.set_properties(**{"text-align": "left"})
style = style.set_properties(**{"text-align": "right"}, subset=["Test [%]"])
style = style.set_properties(**{"text-align": "right"}, subset=["Training [%]"])
style = style.background_gradient(cmap="plasma", subset=["Training [%]"])
style = style.hide_index()
style
Out[87]:
<style type="text/css"> #T_68f82ce2_f214_11eb_a746_0242ac1c0002row0_col0,#T_68f82ce2_f214_11eb_a746_0242ac1c0002row1_col0,#T_68f82ce2_f214_11eb_a746_0242ac1c0002row2_col0,#T_68f82ce2_f214_11eb_a746_0242ac1c0002row3_col0,#T_68f82ce2_f214_11eb_a746_0242ac1c0002row4_col0,#T_68f82ce2_f214_11eb_a746_0242ac1c0002row5_col0,#T_68f82ce2_f214_11eb_a746_0242ac1c0002row6_col0,#T_68f82ce2_f214_11eb_a746_0242ac1c0002row7_col0{ text-align: left; }#T_68f82ce2_f214_11eb_a746_0242ac1c0002row0_col1{ text-align: left; text-align: right; background-color: #fdaf31; color: #000000; }#T_68f82ce2_f214_11eb_a746_0242ac1c0002row0_col2,#T_68f82ce2_f214_11eb_a746_0242ac1c0002row1_col2,#T_68f82ce2_f214_11eb_a746_0242ac1c0002row2_col2,#T_68f82ce2_f214_11eb_a746_0242ac1c0002row3_col2,#T_68f82ce2_f214_11eb_a746_0242ac1c0002row4_col2,#T_68f82ce2_f214_11eb_a746_0242ac1c0002row5_col2,#T_68f82ce2_f214_11eb_a746_0242ac1c0002row6_col2,#T_68f82ce2_f214_11eb_a746_0242ac1c0002row7_col2{ text-align: left; text-align: right; }#T_68f82ce2_f214_11eb_a746_0242ac1c0002row1_col1{ text-align: left; text-align: right; background-color: #f4ed27; color: #000000; }#T_68f82ce2_f214_11eb_a746_0242ac1c0002row2_col1{ text-align: left; text-align: right; background-color: #f0f921; color: #000000; }#T_68f82ce2_f214_11eb_a746_0242ac1c0002row3_col1{ text-align: left; text-align: right; background-color: #f99a3e; color: #000000; }#T_68f82ce2_f214_11eb_a746_0242ac1c0002row4_col1{ text-align: left; text-align: right; background-color: #0d0887; color: #f1f1f1; }#T_68f82ce2_f214_11eb_a746_0242ac1c0002row5_col1{ text-align: left; text-align: right; background-color: #e16462; color: #000000; }#T_68f82ce2_f214_11eb_a746_0242ac1c0002row6_col1{ text-align: left; text-align: right; background-color: #ee7b51; color: #000000; }#T_68f82ce2_f214_11eb_a746_0242ac1c0002row7_col1{ text-align: left; text-align: right; background-color: #f8df25; color: #000000; }</style>
Klassifikator Training [%] Test [%]
Tree 98.9 98.9
Log_reg 99.2 99.2
Forest 99.3 99.3
Log_reg_full 98.8 nan
Log_reg_rnd 97.4 nan
Log_reg_repr 98.5 nan
Log_reg_prop 98.7 98.6
Log_reg_prop_1-3 99.1 98.9

Die Genauigkeit auf den Trainingsdaten wurde mittels Kreuzvalidierung bestimmt und ist deshalb stets ähnlich hoch wie die Genauigkeit auf den Testdaten. Grundsätzlich erreichen alle Klassifikatoren mit über 97,0 % eine relativ hohe Genauigkeit. Die untersuchten Fehler lassen sich sehr gut durch ML-Algorithmen erkennen.

Bereits ein Entscheidungsbaum (Tree, Kap. 4) erreicht mit einer einzigen Aufteilung eine Genauigkeit von 98,9 % auf den Testdaten. Mit Hilfe logistischer Regression (Log_reg, Kap. 5.3) bzw. eines Random Forests (Forest, Kap. 5.4) lässt sich diese Genauigkeit auf über 99,2 % steigern. Problematisch waren dabei vor allen diejenigen Teile, welche sich am Rand der binären Entscheidungsgrenze zwichen Gut- und Schlechtteil befanden.

In Kap. 6.1 hat sich gezeigt, dass sich die Dimension des Merkmalsraums für diesen Datensatz unter Beibehaltung eines Großteils seiner Varianz auf zwei oder drei reduzieren lässt. Auch in diesem reduzierten Merkmalsraum erzielte die logistische Regression (Log_reg_full) noch eine Genauigkeit von 98,8 %. Mit Hilfe eines Gaußschen Mischverteilungsmodells ließen sich anschließend die zuvor beobachteten Cluster gut erkennen und für das teilüberwachte Lernen nutzen.

Das Kapitel 6.2 zum teilüberwachten Lernen hat gezeigt, dass es für diese Art von Daten nicht notwendig ist, sämtliche Datenpunkte zu labeln. So erreicht eine logistische Regression, welche auf 10 zufällig ausgewählten Datenpunkten trainiert wurde (Log_reg_rnd) im Mittel eine Genauigkeit von 97,4 %. Werden auf Basis der erkannten Cluster 10 repräsentative Datenpunkte gelabelt (Log_reg_repr), steigt diese Genauigkeit auf 98,2 %. Ein Propagieren der Label auf alle weiteren Datenpunkte im jeweiligen Cluster (Log_reg_prop) erhöhte die Genauigkeit weiter auf 98,6 %. Dieses Ergebnis liegt nur noch minimal unter den Ergebnissen der auf dem gesamten Datensatz trainierten Klassifikatoren.

Zusammenfassend kann festgehalten werden, dass sich die untersuchten Fehler durch teilüberwachtes Lernen mit einem sehr geringen Aufwand und einer dennoch sehr hohen Genauigkeit von über 98,5 % erkennen lassen. Dafür waren relativ einfache lineare Machine-Learning-Modelle ausreichend.

Die Untersuchung hat jedoch auch gezeigt, dass sowohl mehrere Cluster mit Gut- als auch mit Schlechtteilen entstehen können. Es ist ungewiss, ob auch komplett neue Cluster den Regeln folgen, welche die im Rahmen dieser Arbeit trainierten Algorithmen gelernet haben. Allerdings stellt auch bei diesem Problem das teilüberwachte Lernen einen vielversprechenden Lösungsansatz dar.

Ungewiss ist ebenfalls, wie gut sich diese Vorgehensweise auf andere Fehler übertragen lässt. Die untersuchten Fehler traten relativ häufig und in Clustern auf. Seltene Fehler, welche darüber hinaus sehr stark verstreut sind, würden vom Clustering und damit vom teilüberwachten Lernen nicht möglicherweise nicht erfasst. Ein Beispiel ist der Fehler 1_hole_bottom im Datensatz, welcher nur ein paar Mal aufgetreten ist.

Eine Herausforderung für den beschriebenen Lösungsansatz wäre es außerdem, wenn ein neuer Datensatz sich nicht auf relativ wenige Dimensionen reduzieren lässt, ohne einen zu großen Anteil seiner Varianz zu verlieren. Die resultierende geringe Dichte an Datenpunkten im Merkmalsraum könnte das Clustering erschweren. Zu demselben Problem würde eine zu geringe Anzahl an Datenpunkten führen. Dies ist im Spritzguss jedoch in der Regel kein Problem.

8. Ausblick

Grundsätzlich bildet diese Arbeit die Grundlage für eine Vielzahl möglicher Weiterentwicklungen. Mit einem System, welches die Prozessdaten regelmäßig auf neue Cluster untersucht und Fotos repräsentativer Teile zur Beurteilung an das Fachpersonal schickt, könnte der in dieser Arbeit beschriebenen Lösungsansatz in die Praxis überführt werden. Dabei könnten auch Aspekte des aktiven Lernens berücksichtigt werden. Im Zuge dessen könnte das System ebenfalls auf weitere Fehlertypen und Produkte übertragen werden. Es sind jedoch die in der kritischen Auseinandersetzung beschriebenen Aspekte zu berücksichtigen.

In der kritischen Auseinandersetzung wurde ebenfalls das Problem angesprochen, dass andere Fehlertypen selten und weit verstreut sein könnten. Um auch diese zu erkennen könnte die erarbeitete Lösung um eine Anomalieerkennung ergänzt werden. Das bereits implementierte Clustering mittels Gaußschem Mischverteilungsmodell bietet durch die bereitgestellten Wahrscheinlichkeitsdichtefunktionen eine sehr gute Grundlage dafür.

Des Weiteren könnten Zeitreihenanalysen auf dem vorliegenden Datensatz durchgeführt werden, um den Ursprung der Fehler zu finden und diese gar nicht erst entstehen zu lassen.

Literaturverzeichnis

[1] L. Schauerte, Vorstudie zum Potenzial des Data Mining im Spritzguss zur Verringerung von Produktionsfehlern, 2021

[2] Gustav Hensel GmbH & Co. KG, Available: https://www.hensel-electric.de, 2021

[3] Aurélien Géron, Praxiseinstieg Machine Learning mit Scikit-Learn und TensorFlow, 2018, O'Reilly Verlag

[4] L. Breiman, J. H. Friedman, R. A. Olshen, C. J. Stone: CART: Classification and Regression Trees, 1984.

[5] L. Breiman, Random forests. In: Machine Learning, 2001, Seite 532

[6] G. H. Dunteman: Principal Component Analysis, 1989, Sage Publications

[7] Ch. Fraley, A. Raftery, Normal Mixture Modeling and Model-Based Clustering, 2015

image.png