Tuesday, December 25, 2018

Textual description of firstImageUrl

Regression der kleinsten Quadrate - Wikipedia


Die partielle Regression der kleinsten Quadrate (PLS-Regression) ist eine statistische Methode, die eine Beziehung zur Regression der Hauptkomponenten aufweist. Anstatt Hyperebenen mit maximaler Varianz zwischen der Antwort und unabhängigen Variablen zu finden, findet sie ein lineares Regressionsmodell, indem die vorhergesagten Variablen und die beobachtbaren Variablen in einen neuen Raum projiziert werden. Da sowohl die Daten X als auch Y in neue Räume projiziert werden, werden die Methoden der PLS-Familie als bilineare Faktormodelle bezeichnet. Die Diskriminanzanalyse mit partiellen kleinsten Quadraten (PLS-DA) ist eine Variante, die verwendet wird, wenn das Y kategorial ist.

PLS wird verwendet, um die grundlegenden Beziehungen zwischen zwei Matrizen zu finden ( X und Y ), d. H. Ein latenter variabler Ansatz zur Modellierung der Kovarianzstrukturen in diesen beiden Räumen. Ein PLS-Modell versucht, die multidimensionale Richtung im X -Feld zu finden, die die maximale multidimensionale Varianzrichtung im Y -Raum erklärt. Die PLS-Regression ist besonders geeignet, wenn die Matrix der Prädiktoren mehr Variablen als Beobachtungen aufweist und wenn zwischen X Werten Multikollinearität besteht. Im Gegensatz dazu schlägt die Standardregression in diesen Fällen fehl (es sei denn, sie wird reguliert).

Partielle Kleinste Quadrate wurde vom schwedischen Statistiker Herman O. A. Wold eingeführt, der es dann zusammen mit seinem Sohn Svante Wold entwickelte. Ein alternativer Begriff für PLS (und richtiger nach Svante Wold [1]) ist eine Projektion auf latente Strukturen aber der Begriff partiellen kleinsten Quadraten ist in vielen Bereichen immer noch vorherrschend. Obwohl sich die ursprünglichen Anwendungen in den Sozialwissenschaften befanden, wird die PLS-Regression heute am häufigsten in der Chemometrie und verwandten Bereichen eingesetzt. Es wird auch in der Bioinformatik, Sensometrie, Neurowissenschaft und Anthropologie verwendet.

Basiswert [ edit ]

Das allgemeine zugrundeliegende Modell von multivariaten PLS ist

wobei X ein [ist] 19659029] n × m { displaystyle n times m} Matrix von Prädiktoren, Y ist ein Antwortmatrix; T und U sind X (der X-Partitur Komponente oder -Matrix) und Projektionen von sind ] Y (der Y-Score ); P und Q sind jeweils und orthogonal Laden Laden Matrizen; und Matrizen E und F sind die Fehlerausdrücke, die als unabhängige und identisch verteilte Zufallsnormalvariablen angenommen werden. Die Zerlegungen von X und Y wurden vorgenommen, um die Kovarianz zwischen T und U zu maximieren.

Algorithmen [ edit ]

Es gibt eine Reihe von Varianten von PLS zum Schätzen des Faktors und der Ladematrizen T, U, P und [194590012] Q . Die meisten von ihnen konstruieren Schätzungen der linearen Regression zwischen X und Y als . Einige PLS-Algorithmen sind nur für den Fall geeignet, in dem Y ein Spaltenvektor ist, während andere den allgemeinen Fall einer Matrix Y behandeln. Algorithmen unterscheiden sich auch darin, ob sie die Faktormatrix T als orthogonale, orthonormale -Matrix schätzen oder nicht. [2][3][4][5][6][7] Die endgültige Vorhersage wird für alle diese PLS-Varietäten dieselbe sein, jedoch nicht für die Komponenten wird sich unterscheiden

PLS1 [ edit ]

PLS1 ist ein weit verbreiteter Algorithmus, der für den Vektor Y geeignet ist. Es schätzt T als orthonormale Matrix. Im Pseudocode wird er unten ausgedrückt (Großbuchstaben sind Matrizen, Kleinbuchstaben sind Vektoren, wenn sie hochgestellt sind, und Skalare, wenn sie tiefgestellt werden):

  1  Funktion  PLS1 ( X, y, l )   2    3  eine erste Schätzung von  w .  4  für     bis