PCA, PCR, PLS: Kalibrationsmethoden in der NIR-Spektroskopie
Ziel der Kalibration ist es, anhand des Spektrums herauszufinden, welche Substanz sich vor dem Spektrometer befindet bzw. zu welchem Anteil der Stoff unseres Interesses in der Probe vorliegt.
Mit Abschluss des letzten Artikels haben wir einen sauberen Messaufbau entworfen, im Rahmen des Möglichen Streufehlerquellen minimiert und die aufgenommenen Spektren mit geeigneten Vorverarbeitungsmethoden aufbereitet.
Damit sind die Daten nun bereit für den nächsten Schritt.
Die Spektroskopie ist eine indirekte Messmethode: Die interessante Messgröße, etwa die Menge einer Substanz in der Probe, wird mit ihr nicht direkt erfasst. Stattdessen wird Strahlung auf die Probe gesendet, und Teile der Strahlung, d.h. einzelne Wellenlängen, reagieren dann mit der Probe. Das Spektrometer erfasst anschließend die Strahlung und liefert die Differenz der Wellenlängen vor und nach Interaktion mit der Probe.
Damit haben wir jedoch erst einmal wirklich nur das: Kenntnis über die Wellenlängen, die sich nach Absorption durch die Probe in ihrer Konzentration verändert haben. Wir müssen nun noch bestimmte Absorptionsmuster mit den bekannten Stoff-Konzentrationen korrelieren, um dann zukünftig aus der gemessenen Strahlung allein auf die Konzentrationen schließen zu können. Dieser Schritt wird in der NIR-Spektroskopie Kalibration genannt.
Für die Kalibration insb. im NIR-Bereich wurden über die Jahrzehnte verschiedenste algorithmische Ansätze entwickelt. Die bekanntesten Varianten sind die Principal Component Analysis (PCA), die Principal Component Regression (PCR), und die Partial Least Squares Regression (PLS bzw. PLSR).
Principal Component Analysis (PCA)
Die wesentliche Leistung der Principal Component Analysis ist die Reduktion der vielen Variablen eines Spektrums (jede Wellenlänge ist eine Variable) auf einige wenige neue Variablen (den Principal Components), die trotzdem fast die gesamte Varianz in den Daten erklären kann. Der wesentliche Nachteil dieses Ansatzes ist es, dass unsere bekannten chemischen Konzentrationen nicht in diesen Reduktionsvorgang einbezogen werden. Ob die gefundenen Principal Components also den Stoffen unseres Interesses entsprechen, hängt stark davon ab, ob diese Stoffe im NIR-Bereich deutlich zu Absorption führen. Es kann jedoch auch sein, dass der Algorithmus sich auf Eigenschaften der Probe einschießt, die für die Anwendung uninteressant sind (z.B. Feuchtigkeit, der man im NIR-Band häufig begegnet).
Wie funktioniert die Principal Components Analysis?
Zunächst werden die Variablen ("Dimensionen", hier also die Intensitäten pro erfasster Wellenlänge) normalisiert: Von allen Variablen wird jeweils der Mittelwert abgezogen. Am Ende sind alle Werte um 0 zentriert. Fände dieser Schritt nicht statt, dann würden die Wellenlängen mit den stärksten Ausschlägen automatisch das Ergebnis dominieren.
Nun wird eine Kovarianzmatrix erstellt. Das ist eine symmetrische Matrix, d.h. Länge und Breite sind gleich groß und entsprechen der Anzahl an Wellenlängen, die das Spektrometer erfasst. Jetzt wird geschaut, welche Dimension mit welcher anderen korreliert - wie groß also der jeweilige Wert in der Matrix ist. Korrelieren sie stark, dann handelt es sich um redundante Information, die praktisch verlustfrei reduziert werden kann.
Die erste Hauptkomponente wird jetzt bestimmt, indem eine Linie durch die Matrix gezogen wird, die die größtmögliche Varianz umfasst. Die zweite Komponente soll möglichst keine der Informationen enthalten, die durch die erste Komponente bereits erfasst wurden - sie liegt deshalb orthogonal zur ersten Komponente.
Grundsätzlich können so viele Hauptkomponenten erstellt werden, wie der ursprüngliche Datensatz Dimensionen, also Wellenlängen enthält. In aller Regel beschränkt man sich jedoch in der Bewertung auf die ersten 1-5 Komponenten. Der Grund dafür ist die eben beschriebene Unabhängigkeit der Komponenten voneinander: Wenn die zuerst gefundene Komponente z.B. 80 % der Varianz der Messungen erfasst, dann kann die Summe sämtlicher folgender Komponenten nur noch 20 % Varianz erklären. Die von den Komponenten beschriebene Varianz wird sich fast nicht überlappen - sonst wären sie ja nicht unabhängig voneinander. In diesem Beispiel würde die zweite Principal Component also vielleicht 12 % der restlichen Varianz umschreiben, so dass für die Summe sämtlicher anderer Hauptkomponenten nur noch 8 % an Varianz zur Verfügung steht.
Jede berechnete Hauptkomponente stellt eine Mischung der ursprünglich erfassten einzelnen Wellenlängen dar. Die Komponenten sind weniger direkt interpretierbar als die ursprünglichen Wellenlängen, denn sie werden ja praktisch willkürlich aus ihnen zusammengestellt. Das einzige Kriterium ist die maximal zusammengefasste Varianz pro erstellter Komponente, es werden keinerlei andere Informationen verarbeitet. Mit anderen Worten: Die PCA weiß nichts über die eigentlichen Stoffe, die wir untersuchen möchten.
Entsprechend muss die analysierende Person selbst herausfinden, ob die gefundenen Principal Components den interessanten Eigenschaften der Probe entsprechen. Häufig werden dafür die Hauptkomponenten als Achsen eines Diagramms genutzt, in dem dann die einzelnen Proben verortet werden. In aller Regel finden sich so klare Cluster, die dann Basis für eine qualitative Bewertung von Proben werden können.
Nicht immer reicht es jedoch, nur die Anwesenheit eines Stoffes erkennen zu können. Häufig gilt das Interesse der Menge des Stoffs. Dafür braucht es jedoch eine Auswertungsmethode, die auch unsere bekannten Probenzusammensetzungen für die Kalibration verwendet.
Principal Component Regression (PCR)
Eine solche Methode ist die Principal Component Regression. PCR verbindet eine Principal Component Analysis mit einer linearen Regression.
Zunächst wird eine PCA durchgeführt und die Hauptkomponenten errechnet. Der rechnerisch wesentliche Teil ist also identisch mit der Principal Component Analysis. Die relevanten Hauptkomponenten werden weiter genutzt (relevant sind wie bei der PCA meist diejenigen, die die meiste Varianz erklären), der Rest wird verworfen.
Im Unterschied zur PCA soll nun jedoch ein Bezug zu den bekannten Zusammensetzungen der Samples hergestellt werden. Diese Informationen wurden vorab z.B. durch chemische Analyse gewonnen. Dazu wird eine lineare Regression mit den Sample-Zusammensetzungen und den ausgewählten Hauptkomponenten der PCA durchgeführt.
Der so gewonnene Vektor hat nur die reduzierten Dimensionen der ausgewählten Hauptkomponenten, die ja geringer sind als die Zahl der vom Spektrometer eingehenden Wellenlängen. Deshalb wird der Vektor abschließend wieder zurücktransformiert, so dass er wieder dieselbe Anzahl an Dimensionen hat.
Weil die Principal Component Regression über die lineare Regression Zugang zu den vorab bekannten Sample-Zusammensetzungen bekommt, kann eine per PCR gewonnene Kalibration auch direkt quantitative Aussagen über zukünftige Proben treffen. Bei einer reinen PCA müsste man dafür manuell prüfen, ob eine der Hauptkomponenten einer der Analyten in der Probe entspricht.
Ein potenzieller Nachteil der PCR ist es, dass die bekannten Zusammensetzungen erst so spät in die Berechnungen Eingang finden: Die Hauptkomponenten sind bereits erstellt worden und werden durch die nachfolgenden Schritte nur anders gewichtet. Es kann aber durchaus sein, dass die Hauptkomponenten gar nicht direkt einzelnen Analyten entsprechen und die erstellte Kalibration dadurch nicht die Präzision erreicht, die aufgrund der Datenlage grundsätzlich möglich wäre.
Nicht zuletzt deshalb gibt es noch viele weitere Kalibrations-Ansätze. Der bekannteste unter ihnen heißt Partial Least Squares Regression.
Partial Least Squares Regression (PLS)
Bei der PLS wird von Anfang an mit den abhängigen Variablen, also mit den zuvor auf andere Weise ermittelten Bestandteilen der Probe gearbeitet. Partial Least Squares und PCA/PCR sind strukturell ähnlich. Während aber PCA und PCR die Dimensionen der unabhängigen Variablen (d.h. der Wellenlängen) reduzieren, indem sie die maximale Varianz herausarbeiten (also die Wellenlängen betonen, die möglichst wenig miteinander korrelieren), geht es bei PLS um die Maximierung der Kovarianz von unabhängigen Variablen und abhängigen Variablen. Mit anderen Worten: Partial Least Squares versucht direkt, Korrelationen zwischen Wellenlängen und Probenbestandteilen zu finden.
Auch in der Partial-Least-Squares-Regression werden Komponenten berechnet, um die Dimensionalität der Datensätze zu reduzieren. Sie werden als PLS-Komponenten oder auch als latente Variablen bezeichnet.
PCA würde für Hauptkomponenten die Gewichtungen der einzelnen Wellenlängen ausschließlich aufgrund der damit erklärbaren Varianz bestimmen. Dass eine andere Wellenlänge die Zusammensetzung der Probe besser vorhersagt, spielt dabei keine Rolle.
Bei der PLS erhalten einzelne Wellenlängen dagegen stärkeres Gewicht als andere aufgrund deren Zusammenhangs ("Kovarianz") mit den bekannten Analyten in den Proben.
Die Partial Least Squares Regression gilt als besonders geeignet für Datensätze, bei denen die Zahl der Dimensionen die Zahl der Samples übersteigt. Ein Datensatz mit 100 Spektren über jeweils 256 Wellenlängen wäre also ein idealer Kandidat für eine PLS-Regression.
Mittlerweile existieren zahlreiche Varianten der Partial Least Squares Regression, die verschiedene Aspekte des Kalibrationsprozesses zu optimieren versuchen, hauptsächlich entweder den Rechenaufwand oder die Präzision des Ergebnisses. Eine Besonderheit stellt die PLS-DA (für Discriminant Analysis) dar: Sie liefert keine quantitativen, sondern vielmehr qualitative Aussagen über die Proben. Mit dieser Kalibrationsmethode kann die An- oder Abwesenheit eines Stoffes leicht bestimmt werden, nicht jedoch die vorhandene Menge dieses Stoffes. Ähnlich wie die PCA eignet sich die PLS-DA also besonders für Klassifikationsaufgaben.
Gibt es eine beste Kalibrationsmethode?
Die Art des vorliegenden Problems entscheidet, welche Methoden grundsätzlich passen könnten: Ist es ein Klassifikationsthema, dann kommen in PCA und PLS-DA in Frage. Sollen Mengen bestimmt werden, dann sind PCR und PLS eine Option. Welcher der Kalibrationsmethoden dann die Beste ist, muss im Feld anhand des Vorhersagefehlers herausgefunden werden.