MSE und RMSE - Fehlermaße in der NIR-Spektroskopie
Sowohl MSE als auch RMSE sind sehr verbreitete Fehlermaße, nicht nur in der NIR-Spektroskopie. Aber wie funktionieren sie genau, und in welchen Situationen ist welche dieser Varianten von Vorteil?
Was sind Fehlermaße?
In der Regel wird in der NIR-Spektroskopie nach Bestandteilen in einer Probe gesucht (quantitative Analyse), oder die Probe insgesamt soll bestimmt werden (qualitative Analyse). Dazu werden vorab Modelle erstellt, meist per PCR, PLS oder mit Hilfe von KI.
Die Entwicklung dieser Modelle geschieht in aller Regel immer nach demselben Muster: Zunächst wird eine Sammlung passender Proben erarbeitet und auf bekannte, etablierte Weise vermessen. Das geschieht entweder über bereits kalibrierte Messinstrumente (z.B. dem Spektrometer eines externen Labors), oder mit nasschemischen Methoden, oder durch die eigene Mischung von Proben, so dass deren Zusammensetzung klar ist. So oder so liegen nun für alle Proben Daten über ihre Beschaffenheit vor. Parallel dazu werden zusätzlich alle Proben auch spektrometrisch analysiert. Sind alle Daten gesammelt, dann kann aus diesen Informationen herausgerechnet werden, welcher Teil der spektralen Informationen besonders relevant für die Vorhersagekraft der Bestandteile einer Probe ist. Am Ende ist ein Modell generiert worden, das rein aufgrund des Spektrums Aussagen über die Beschaffenheit einer Probe treffen kann.
Modell sind genau das: Modelle, d.h. sie reduzieren immer die Komplexität der Wirklichkeit. Die so errechnete Vorhersage, egal auf welche Weise sie entstanden ist, wird also per Definition von den real bekannten Daten abweichen.
Wenn wir nun beispielsweise das etablierte PLS-Modell mit unserem neuen KI-Modell vergleichen wollen, dann benötigen wir dafür eine Art von Metrik.
Genauso bei der Erstellung des Modells selbst: Üblicherweise werden im Zuge der Modell-Berechnung die vorhandenen Daten in einen Trainings- und einen Test-Korpus aufgeteilt. Nur die Trainingsdaten werden für die Berechnung des Modells genutzt. Die Testdaten finden anschließend Verwendung, um zu prüfen, ob das Modell tatsächlich eine gute Vorhersage für unbekannte Datensätze treffen kann und sie nicht einfach nur auswendig gelernt hat (das wäre dann das berüchtigte Overfitting: das Modell ist nicht generell effektiv, sondern nur für die Trainingsdaten).
In beiden Fällen wollen wir die Abweichung der Modell-Vorhersage von den wirklichen Werten bestimmen. Das ist das Fehlermaß.
Für einen einzelnen Wert hat diese Abweichung wenig Aussagekraft, denn hier fällt der Zufall maximal ins Gewicht. Deshalb sollte der Datensatz möglichst umfangreich sein. Die Fehler pro Sample werden dann auf unterschiedliche Weise zusammengefasst.
Die beiden in der NIR-Spektroskopie häufigsten Varianten dafür sind der Mean Squared Error (MSE) und der Root Mean Squared Error (RMSE). Die deutschen Bezeichnungen sind Mittlere Quadratische Abweichung und Standardfehler der Regression und werden in der Statistik auch verwendet, im Feld sind jedoch die englischen Varianten häufiger anzutreffen.
Mean Squared Error (MSE)
Der MSE berechnet sich wie folgt:
MSE = ∑(yi − y^i)² / n
Dabei ist
yi
der tatsächliche Werty^i
der vorhergesagte Wertn
die Anzahl an Samples.
Es werden hier also alle Fehler quadriert, summiert und anschließend durch die Anzahl der Proben subtrahiert. Der MSE ist demnach das arithmetische Mittel der quadrierten Fehler.
Root Mean Squared Error (RMSE)
Der RMSE berechnet sich genau wie der MSE, jedoch wird hier anschließend noch einmal die Quadratwurzel gezogen:
RMSE = √∑(yi− y^i)² / n
MSE vs. RMSE
Die Quadrierung im MSE hat den Effekt, dass auf diese Weise große Fehler besonders betont werden, denn dadurch fallen größere Abweichungen vom tatsächlichen Wert viel stärker ins Gewicht als kleinere Abweichungen. Das ist insofern sinnvoll, als dass wir ja tatsächlich ein Modell haben wollen, dessen Vorhersage möglichst nah an der Wirklichkeit ist. Derselbe Effekt kann allerdings auch von Nachteil sein, wenn die eigenen Daten Ausreißer enthalten, die vorab nicht herausgefiltert werden können. So könnte ein Modell recht präzise sein, aber durch einige wenige Ausreißer dennoch ein großes MSE-Fehlermaß haben.
Neben der Fehlergewichtung führt die Quadrierung auch dazu, dass alle Werte, unabhängig von der Richtung ihrer ursprünglichen Abweichung, immer ein positives Vorzeichen haben.
Das bleibt auch nach der Quadratwurzel des RMSE bestehen, auch hier werden alle Fehlermaße >= 0 sein. Die besondere Betonung großer Fehler jedoch gibt es beim RMSE nicht mehr. Dafür ist das Fehlermaß nun wieder in derselben Einheit wie die berechnete Variable, und ist damit intuitiv verständlich. Bei normalverteilten Datenpunkten, wenn die Daten also ungefähr eine gaußsche Kurve um die wahren Werte herum beschreiben, dann ist zusätzlich auch nicht nur die Fehlergröße, sondern auch die Fehlerverteilung intuitiv erfassbar.
Welches Fehlermaß für die NIR-Spektroskopie?
Ob jetzt MSE oder RMSE empfehlenswerter für die Bewertung von Modellen in der NIR-Spektroskopie ist, hängt etwas vom Einsatzort und der Datengüte ab. In der Industrie ist eine spektrometrische Messung größeren Störungen ausgesetzt als im Labor: Bei Messungen z.B. über Förderbändern kann der Abstand zum Prüfobjekt - und damit auch die Strahlungsintensität der Probe - variieren. Umgebungsbedingungen wie Temperatur oder Fremdlicht sind weniger kontrollierbar als im Labor. Und die Materialoberflächen können im Prozess natürlich nicht vorbereitet werden, und führen bei ungünstiger Lage vielleicht zu starken Streueffekten.
Durch diese und weitere Faktoren können so erhobene Daten deshalb häufiger Ausreißer enthalten, die allerdings auch typisch für das spätere Anwendungsszenario sind. Damit das zu erstellende Modell auch im Feld möglichst robust ist, sollte hier lieber mit RMSE statt MSE optimiert werden.
Wenn das primäre Ziel jedoch ein möglichst präzises Modell mit möglichst kleinem Fehler ist, dann bietet sich stattdessen MSE als Fehlermaß der Wahl an.
Vielleicht auch interessant
Nits, Lux, Lumen, Candela - mit Licht und Beleuchtung rechnen
Lichtstrom, Lichtstärke, Leuchtdichte und Co. - wann wird welche Größe benutzt, und wie sind sie vergleichbar?