Das Bestimmtheitsmaß auch Determinationskoeffizient von lateinisch determinatio Abgrenzung Bestimmung bzw determinare ei
Varianzaufklärung

Das Bestimmtheitsmaß, auch Determinationskoeffizient (von lateinisch determinatio „Abgrenzung, Bestimmung“ bzw. determinare „eingrenzen“, „festlegen“, „bestimmen“ und coefficere „mitwirken“), bezeichnet mit , ist in der Statistik eine Kennzahl zur Beurteilung der Anpassungsgüte einer Regression. Das Bestimmtheitsmaß beruht auf der Quadratsummenzerlegung, bei der die totale Quadratsumme in die durch das Regressionsmodell erklärte Quadratsumme einerseits und in die Residuenquadratsumme andererseits zerlegt wird. Allerdings existieren mehrere verschiedene, nicht gleichbedeutende Definitionen des Bestimmtheitsmaßes.
Das Bestimmtheitsmaß steht in enger Beziehung zu weiteren Modellgütemaßen zur Prüfung der Regressionsfunktion, wie z. B. zum Standardfehler der Regression und zur F-Statistik. Weil das Bestimmtheitsmaß durch die Aufnahme zusätzlicher Variablen wächst und die Gefahr der Überanpassung besteht, wird für praktische Anwendungen meist das adjustierte Bestimmtheitsmaß verwendet. Das adjustierte Bestimmtheitsmaß „bestraft“ im Gegensatz zum unadjustierten Bestimmtheitsmaß die Aufnahme jeder neu hinzugenommenen erklärenden Variable.
Obwohl das Bestimmtheitsmaß die am häufigsten benutzte Kennzahl ist, um die globale Anpassungsgüte einer Regression zu quantifizieren, wird es oft fehlinterpretiert und falsch angewendet, auch da bei einer Regression durch den Ursprung zahlreiche alternative Definitionen des Bestimmtheitsmaßes nicht äquivalent sind.
Das Bestimmtheitsmaß ist ein reines Zusammenhangsmaß. So ist es nicht möglich, das Bestimmtheitsmaß zu verwenden, um einen direkten kausalen Zusammenhang zwischen den Variablen nachzuweisen. Außerdem zeigt das Bestimmtheitsmaß nur die Größe des Zusammenhangs zwischen den Variablen, aber nicht, ob dieser Zusammenhang statistisch signifikant ist.
Das Pseudo-Bestimmtheitsmaß und die Devianz verallgemeinern das Bestimmtheitsmaß.
Einführung in die Problemstellung
Gegeben sind Messungen , d. h., bei dem -ten Wertepaar wird einem Wert (z. B. Größe einer Person) ein Messwert (z. B. das gemessene Gewicht der Person) zugeordnet. Dazu berechnet man den empirischen Mittelwert (z. B. das mittlere Gewicht der Probanden). Ferner gibt es einen Schätzer (Modellfunktion), der jedem Wert (z. B. Größe) einen Schätzwert (geschätztes Gewicht für eine Person mit Größe ) zuordnet. Die Abweichung einer Schätzung von der zugehörigen Messung ist durch gegeben und wird „Residuum“ genannt. Bei der einfachen linearen Regression, die zum Ziel hat, das Absolutglied (englisch intercept) , die Steigung (englisch slope) und die Störgrößenvarianz zu schätzen, wird der Schätzer anschaulich durch die Regressionsgerade beschrieben und mathematisch durch die Stichproben-Regressionsfunktion definiert. Die beiden Parameterschätzer und werden auch als Kleinste-Quadrate-Schätzer bezeichnet. Wenn das zugrundeliegende Modell ein von Null verschiedenes Absolutglied enthält, stimmt der empirische Mittelwert der Schätzwerte mit dem der beobachteten Messwerte überein, also
(für einen Beweis siehe unter Matrixschreibweise).
Es empfiehlt sich, nach der Schätzung der Regressionsparameter die Regressionsgerade gemeinsam mit den Datenpunkten in ein Streudiagramm einzuzeichnen. Auf diese Weise bekommt man eine Vorstellung davon, wie „gut“ die Punkteverteilung durch die Regressionsgerade wiedergegeben wird. Je enger die Datenpunkte um die Regressionsgerade herum konzentriert sind, d. h. je kleiner also die Residuenquadrate sind, desto „besser“. In diesem Zusammenhang ist allerdings zu beachten, dass die Residuenquadrate typischerweise klein sind, wenn die abhängige Variable eine geringe Variabilität aufweist. Die geforderte Kleinheit der Residuenquadrate muss also in Relation zur Streuung der abhängigen Variablen betrachtet werden.
Ein Maß zur Beurteilung der Anpassungsgüte sollte außerdem die Streuung der Messwerte und die der geschätzten Werte in Relation setzen. Die Streuung der jeweiligen Werte um ihren Mittelwert kann mithilfe der „Summe der Abweichungsquadrate“ (Summe der Quadrate bzw. englisch Sum of Squares, kurz: SQ oder SS) gemessen werden. Das „mittlere Abweichungsquadrat“ stellt die empirische Varianz dar. Die Streuung der Schätzwerte um ihren Mittelwert kann durch gemessen werden und die Streuung der Messwerte um das Gesamtmittel kann durch gemessen werden. Erstere stellt die durch die Regression „erklärte Quadratsumme“ (Summe der Quadrate der Erklärten Abweichungen bzw. englisch Sum of Squares Explained, kurz: SQE oder SSE), und letztere stellt die „zu erklärende Quadratsumme“ bzw. die „totale Quadratsumme“ (Summe der Quadrate der Totalen Abweichungen bzw. englisch Sum of Squares Total, kurz: SQT oder SST) dar. Das Verhältnis dieser beiden Größen wird das Bestimmtheitsmaß der Regression genannt. Das Bestimmtheitsmaß zeigt, wie gut die durch die Schätzung gefundene Modellfunktion zu den Daten passt, d. h. wie gut sich die konkrete empirische Regressionsgerade einer angenommenen wahren Gerade annähert. Die durch die Regression „nicht erklärten Abweichungen“ (Restabweichungen), d. h. die Abweichungen der Datenpunkte von der Regressionsgeraden werden durch die Regression „nicht erklärte Quadratsumme“ bzw. die Residuenquadratsumme (Summe der Quadrate der Restabweichungen (oder: „Residuen“) bzw. englisch Sum of Squares Residual, kurz: SQR oder SSR) erfasst, die durch gegeben ist.
Definitionen
Das Bestimmtheitsmaß dient als Maßzahl zur Beurteilung der globalen Anpassungsgüte eines Regressionsmodells.
Variante 1
Das Bestimmtheitsmaß der Regression, auch empirisches Bestimmtheitsmaß, ist eine dimensionslose Maßzahl, die den Anteil der Variabilität in den Messwerten der abhängigen Variablen ausdrückt, der durch das lineare Modell „erklärt“ wird. Gegeben die Quadratsummenzerlegung, ist das Bestimmtheitsmaß der Regression definiert als das Verhältnis der durch die Regression erklärten Quadratsumme zur totalen Quadratsumme:
wobei .
Als quadrierter Korrelationskoeffizient
Bei einer einfachen linearen Regression (nur eine erklärende Variable) entspricht das Bestimmtheitsmaß dem Quadrat des Bravais-Pearson-Korrelationskoeffizienten und lässt sich aus der Produktsumme (Summe der Produkte der Abweichungen der Messwerte vom jeweiligen Mittelwert ) und den Quadratsummen und berechnen:
- ,
wobei der Kleinste-Quadrate-Schätzer für die Steigung der Quotient aus Produktsumme von und und Quadratsumme von ist. In der einfachen linearen Regression ist , wenn ist, d. h. die erklärende Variable steht zur Schätzung von nicht zur Verfügung. Dies folgt aus der Tatsache, dass in der einfachen linearen Regression gilt. In diesem Fall besteht das „beste“ lineare Regressionsmodell nur aus dem Absolutglied . Das so definierte Bestimmtheitsmaß ist ebenfalls gleich null, wenn der Korrelationskoeffizient gleich null ist, da es in der einfachen linearen Regression dem quadrierten Korrelationskoeffizienten zwischen und entspricht. Im Kontext der einfachen linearen Regression wird das Bestimmtheitsmaß auch als einfaches Bestimmtheitsmaß bezeichnet. Bei der Interpretation des einfachen Bestimmtheitsmaßes muss man vorsichtig sein, da es u. U. schon deshalb groß ist, weil die Steigung der Regressionsgeraden groß ist.
In der einfachen linearen Regression entspricht das Bestimmtheitsmaß dem Quadrat des Bravais-Pearson-Korrelationskoeffizienten (siehe auch unter Als quadrierter Korrelationskoeffizient). Dieser Umstand ist dafür verantwortlich, dass das Bestimmtheitsmaß als (lies: R Quadrat) oder notiert wird. In deutschsprachiger Literatur findet sich auch der Buchstabe als Bezeichnung für das Bestimmtheitsmaß. In den Anfängen der Statistik wurde mit dem Buchstaben ein Schätzer des Korrelationskoeffizienten der Grundgesamtheit notiert und in der Regressionsanalyse wird diese Notation noch heute verwendet.
Multiple lineare Regression
In der Realität hängen abhängige Variablen im Allgemeinen von mehr als einer erklärenden Variablen ab. Zum Beispiel ist das Gewicht eines Probanden nicht nur von dessen Alter, sondern auch von dessen sportlicher Betätigung und psychologischen Faktoren abhängig. Bei einer multiplen Abhängigkeit gibt man die Annahme der einfachen linearen Regression auf, bei der die abhängige Variable nur von einer erklärenden Variablen abhängt. Um eine mehrfache Abhängigkeit zu modellieren, benutzt man ein typisches multiples lineares Regressionsmodell
- .
Hierbei ist die Anzahl der zu schätzenden unbekannten Parameter und die Anzahl der erklärenden Variablen. Zusätzlich zur Dimension der unabhängigen Variablen wird auch eine zeitliche Dimension integriert, wodurch sich ein lineares Gleichungssystem ergibt, was sich in Vektor-Matrix-Form darstellen lässt.
Im Gegensatz zur einfachen linearen Regression entspricht in der multiplen linearen Regression das dem Quadrat des Korrelationskoeffizienten zwischen den Messwerten und den Schätzwerten (für einen Beweis siehe unter Matrixschreibweise), also
- .
Im Kontext der multiplen linearen Regression wird das Bestimmtheitsmaß auch als mehrfaches bzw. multiples Bestimmtheitsmaß bezeichnet. Aufgrund des oben aufgezeigten Zusammenhangs kann das multiple Bestimmtheitsmaß als eine Maßzahl für die Anpassungsgüte der geschätzten Regressionshyperebene an die Realisierungen der Zufallsvariablen angesehen werden. Es ist also ein Maß des linearen Zusammenhangs zwischen und .
Variante 2
Für den speziellen Fall einer linearen Regression mit Fit des Achsenabschnitts kann die obige Definition äquivalent wie folgt geschrieben werden (nicht jedoch im Allgemeinen):
- ,
wobei angenommen wird, dass für die totale Quadratsumme gilt, was praktisch immer erfüllt ist, außer für den Fall, dass die Messwerte der abhängigen Variable keinerlei Variabilität aufweisen, d. h. . In diesem Falle ist das Bestimmtheitsmaß nicht definiert. Die zweite Gleichung, die sich mithilfe der Quadratsummenzerlegung für lineare Modelle zeigen lässt, ist eine alternative Berechnungsformel für das Bestimmtheitsmaß, welche auch negative Werte für das Bestimmtheitsmaß liefern kann, falls Annahmen eines linearen Modells verletzt werden.
Die alternative Berechnungsformel setzt die geforderte Kleinheit der Residuenquadrate in Relation zur gesamten Quadratsumme. Die zur Konstruktion des Bestimmtheitsmaßes verwendete Quadratsummenzerlegung kann als „Streuungszerlegung“ interpretiert werden, bei der die „Gesamtstreuung“ in die „erklärte Streuung“ und die „Reststreuung“ zerlegt wird. Das Bestimmtheitsmaß ist also gerade als jener Anteil der Gesamtstreuung zu deuten, der mit der Regressionsfunktion erklärt werden kann. Der unerklärte Teil bleibt als Reststreuung zurück.
Beachte, dass diese zweite Variante Ähnlichkeiten zu McFaddens Pseudo-Bestimmtheitsmaß hat, wenn die Likelihood-Funktionen aus Normalverteilungen mit angenommener konstanter Varianz zusammengesetzt sind.
Eigenschaften
Wertebereich des Bestimmtheitsmaßes
Mithilfe der obigen Definition können die Extremwerte für das Bestimmtheitsmaß aufgezeigt werden. Für das Bestimmtheitsmaß gilt, dass es umso näher am Wert ist, je kleiner die Residuenquadratsumme ist. Es wird maximal gleich , wenn ist, also alle Residuen null sind. In diesem Fall ist die Anpassung an die Daten perfekt, was bedeutet, dass für jede Beobachtung ist und alle Beobachtungspunkte des Streudiagramms auf der Regressionsgeraden liegen. Das Bestimmtheitsmaß nimmt hingegen den Wert an, wenn beziehungsweise ist. Diese Gleichung besagt, dass die „nicht erklärte Streuung“ der „gesamten zu erklärenden Streuung“ entspricht und die erklärenden Variablen somit keinen Beitrag zur Erklärung der Gesamtstreuung leisten. Die gesamte zu erklärende Streuung wird in diesem Fall durch die Residuen hervorgerufen und die Regressionsgleichung „erklärt“ gar nicht.
Variante 1
Die Variante 1 hat einen Wertebereich .
Variante 2
Die Variante 2 hat einen Wertebereich . Wenn das Regressionsmodell kein Absolutglied enthält (es liegt ein homogenes Regressionsmodell vor), kann das Bestimmtheitsmaß negativ werden (siehe unter Einfache lineare Regression durch den Ursprung). Ebenfalls kann das Bestimmtheitsmaß negativ werden, wenn es auf simultane Gleichungsmodelle angewendet wird, da in diesem Kontext nicht notwendigerweise gleich ist.
Hierarchisch geordnete Modelle
Sei der der Vektor der erklärenden Variablen. Ferner wird angenommen, dass in zwei Teilvektoren und partitioniert wird, d. h. . Sei weiterhin das volle Modell und und ein darin enthaltenes Teilmodell . Dann gilt , d. h. für hierarchisch geordnete Modelle ist das Bestimmtheitsmaß des Teilmodells immer kleiner oder gleich dem Bestimmtheitsmaß des vollen Modells. Dies bedeutet, dass das Bestimmtheitsmaß mit zunehmender Anzahl der erklärenden Variablen automatisch ansteigt, ohne dass sich dabei die Güte der Anpassung signifikant verbessern muss.
Interpretation
Das Bestimmtheitsmaß lässt sich mit multiplizieren, um es in Prozent anzugeben: ist dann der prozentuale Anteil der Streuung in , der durch das lineare Modell „erklärt“ wird, und liegt daher zwischen:
- (oder ): kein linearer Zusammenhang und
- (oder ): perfekter linearer Zusammenhang.
Je näher das Bestimmtheitsmaß am Wert Eins liegt, desto höher ist die „Bestimmtheit“ bzw. „Güte“ der Anpassung. Bei ist der lineare Schätzer im Regressionsmodell völlig unbrauchbar für die Vorhersage des Zusammenhangs zwischen und (z. B. kann man das tatsächliche Gewicht der Person überhaupt nicht mit dem Schätzer vorhersagen). Ist , dann lässt sich die abhängige Variable vollständig durch das lineare Regressionsmodell erklären. Anschaulich liegen dann die Messpunkte alle auf der (nichthorizontalen) Regressionsgeraden. Somit liegt bei diesem Fall kein stochastischer Zusammenhang vor, sondern ein deterministischer.
Durch die Aufnahme zusätzlicher erklärender Variablen kann das Bestimmtheitsmaß nicht sinken. Das Bestimmtheitsmaß hat die Eigenschaft, dass es i. d. R. durch die Hinzunahme weiterer erklärender Variablen steigt (), was scheinbar die Modellgüte steigert und zum Problem der Überanpassung führen kann. Das Bestimmtheitsmaß steigt durch die Hinzunahme weiterer erklärender Variablen, da durch die Hinzunahme dieser der Wert der Residuenquadratsumme sinkt. Auch wenn dem Modell irrelevante „erklärende Variablen“ hinzugefügt werden, können diese zu Erklärung der Gesamtstreuung beitragen und den R-Quadrat-Wert künstlich steigern. Da die Hinzunahme jeder weiteren erklärenden Variablen mit einem Verlust eines Freiheitsgrads verbunden ist, führt dies zu einer ungenaueren Schätzung. Wenn man Modelle mit einer unterschiedlichen Anzahl erklärender Variablen und gleichen unabhängigen Variablen vergleichen will, ist die Aussagekraft des Bestimmtheitsmaßes begrenzt. Um solche Modelle vergleichen zu können, wird ein „adjustiertes“ Bestimmtheitsmaß verwendet, welches zusätzlich die Freiheitsgrade berücksichtigt (siehe auch unter Das adjustierte Bestimmtheitsmaß).
Aus dem Bestimmtheitsmaß kann man im Allgemeinen nicht schließen, ob das angenommene Regressionsmodell dem tatsächlichen funktionalen Zusammenhang in den Messpunkten entspricht (siehe auch unter Grenzen und Kritik). Der Vergleich des Bestimmtheitsmaßes über Modelle hinweg ist nur sinnvoll, wenn eine gemeinsame abhängige Variable vorliegt und wenn die Modelle die gleiche Anzahl von Regressionsparametern und ein Absolutglied aufweisen. Da mit dem Bestimmtheitsmaß auch indirekt der Zusammenhang zwischen der abhängigen und den unabhängigen Variablen gemessen wird, ist es ein proportionales Fehlerreduktionsmaß.
In den Sozialwissenschaften sind niedrige R-Quadrat-Werte in Regressionsgleichungen nicht ungewöhnlich. Bei Querschnittsanalysen treten häufig niedrige R-Quadrat-Werte auf. Dennoch bedeutet ein kleines Bestimmtheitsmaß nicht notwendigerweise, dass die Kleinste-Quadrate-Regressionsgleichung unnütz ist. Es ist immer noch möglich, dass die Regressionsgleichung ein guter Schätzer für den ceteris-paribus-Zusammenhang zwischen und ist. Ob die Regressionsgleichung ein guter Schätzer für den Zusammenhang von und ist hängt nicht direkt von der Größe des Bestimmtheitsmaßes ab.
Cohen und Cohen (1975) und Kennedy (1981) konnten zeigen, dass sich das Bestimmtheitsmaß graphisch mittels Venn-Diagrammen veranschaulichen lässt.
Konstruktion
Ausgangspunkt für die Konstruktion des Bestimmtheitsmaßes ist die Quadratsummenzerlegung, die als Streuungszerlegung interpretiert werden kann. In Bezug auf lässt sich darstellen als
oder äquivalent
- ,
wobei die Abweichung von vom Mittelwert und die Restabweichung bzw. das Residuum darstellt. Die Gesamtabweichung lässt sich also zerlegen in die erklärte Abweichung und das Residuum. Die Gleichheit gilt auch dann noch, wenn man die Abweichungen quadriert (Abweichungsquadrate bildet) und anschließend über alle Beobachtungen summiert (Abweichungsquadratsummen, kurz: Quadratsummen bildet). Die totale Quadratsumme bzw. die zu „erklärende“ Quadratsumme lässt sich in die Quadratsumme der durch die Regressionsfunktion „erklärten“ Abweichungen vom Gesamtmittel (durch das Modell „erklärte“ Quadratsumme) und die Residuenquadratsumme (durch das Modell nicht „erklärte“ Quadratsumme) zerlegen. Die Quadratsummenzerlegung ergibt somit
- oder äquivalent dazu
- .
Diese Zerlegung folgt in zwei Schritten. Im ersten Schritt wird eine Nullergänzung vorgenommen:
- .
Im zweiten Schritt wurde die Eigenschaft benutzt, dass gewöhnliche Residuen vorliegen, die mit den geschätzten Werten unkorreliert sind, d. h. . Dies kann so interpretiert werden, dass in der Schätzung bereits alle relevante Information der erklärenden Variablen bezüglich der abhängigen Variablen steckt. Zudem wurde die Eigenschaft verwendet, dass – wenn das Modell das Absolutglied enthält – die Summe und damit der empirische Mittelwert der Residuen Null ist. Dies folgt aus den verwendeten Schätzverfahren (Maximum-Likelihood-Schätzung bei der klassischen Normalregression oder Kleinste-Quadrate-Schätzung), denn dort müssen die ersten partiellen Ableitungen der Residuenquadratsumme nach gleich Null gesetzt werden um das Maximum bzw. Minimum zu finden, also für : bzw. für mit (siehe Algebraische Eigenschaften). Werden die Regressionsparameter mittels der Kleinste-Quadrate-Schätzung geschätzt, dann wird der Wert für automatisch maximiert, da die Kleinste-Quadrate-Schätzung die Residuenquadratsumme minimiert.
Im Anschluss an die Zerlegung dividiert man die Quadratsummenzerlegungsformel durch die totale Quadratsumme und erhält damit
oder
- .
Das Verhältnis der durch die Regression erklärten Quadratsumme zur gesamten Quadratsumme
wird Bestimmtheitsmaß der Regression genannt. Aus der Quadratsummenzerlegungsformel wird ersichtlich, dass man das Bestimmtheitsmaß auch als
darstellen kann. Wenn die obige Quadratsummenzerlegungsformel durch den Stichprobenumfang beziehungsweise durch die Anzahl der Freiheitsgrade dividiert wird, erhält man die Varianzzerlegungsformel: . Die Varianzzerlegung stellt eine additive Zerlegung der Varianz der abhängigen Variablen (totale Varianz bzw. Gesamtvarianz) in die Varianz der Schätzwerte (erklärte Varianz) und die nicht erklärte Varianz (auch Residualvarianz genannt) dar. Hierbei entspricht die Residualvarianz dem Maximum-Likelihood-Schätzer für die Varianz der Störgrößen . Aufgrund der Varianzzerlegung lässt sich das Bestimmtheitsmaß auch als darstellen und wie folgt interpretieren: Das Bestimmtheitsmaß gibt an, wie viel Varianzaufklärung alle erklärenden Variablen an der Varianz der abhängigen Variablen leisten. Diese Interpretation ist jedoch nicht ganz korrekt, da die Quadratsummen eigentlich unterschiedliche Freiheitsgrade aufweisen. Diese Interpretation trifft eher auf das adjustierte Bestimmtheitsmaß zu, da hier die erwartungstreuen Varianzschätzer ins Verhältnis gesetzt werden. Im Gegensatz zur Varianzaufklärung beim Bestimmtheitsmaß kann man bei der Varianzaufklärung in der Hauptkomponenten- und Faktorenanalyse jeder Komponente bzw. jedem Faktor seinen Beitrag zur Aufklärung der gesamten Varianz zuordnen. Kent (1983) hat eine allgemeine Definition der Varianzaufklärung gegeben, die auf dem Informationsmaß von Fraser (1965) aufbaut.
Einfache lineare Regression durch den Ursprung
Im Fall der einfachen linearen Regression durch den Ursprung/Regression ohne Absolutglied (das Absolutglied wird nicht in die Regression miteinbezogen und daher verläuft die Regressionsgleichung durch den Koordinatenursprung) lautet die konkrete empirische Regressionsgerade , wobei die Notation benutzt wird um von der allgemeinen Problemstellung der Schätzung eines Steigungsparameters mit Hinzunahme eines Absolutglieds zu unterscheiden. Auch in einer einfachen linearen Regression durch den Ursprung lässt sich die Kleinste-Quadrate-Schätzung anwenden. Sie liefert für die Steigung . Dieser Schätzer für den Steigungsparameter entspricht dem Schätzer für den Steigungsparameter , dann und nur dann wenn . Wenn für das wahre Absolutglied gilt, ist ein verzerrter Schätzer für den wahren Steigungsparameter .
Wenn in eine Regressionsgleichung kein Absolutglied hinzugenommen wird, nimmt der aus der obigen Quadratsummenzerlegungsformel entnommene Ausdruck nicht den Wert Null an. Daher ist die oben angegebene Quadratsummenzerlegungsformel in diesem Fall nicht gültig. Wenn das Modell der Regression durch den Ursprung eine hinreichend schlechte Anpassung an die Daten liefert (d. h. die Daten variieren mehr um die Regressionslinie als um ), was in resultiert und man die allgemeine Definition des Bestimmtheitsmaßes anwendet, dann führt dies zu einem negativen Bestimmtheitsmaß. Nach dieser Definition kann
also negativ werden. Ein negatives Bestimmtheitsmaß bedeutet dann, dass das empirische Mittel der abhängigen Variablen eine bessere Anpassung an die Daten liefert als wenn man die erklärenden Variablen zur Schätzung benutzen würde. Um ein negatives Bestimmtheitsmaß zu vermeiden, wird eine modifizierte Form der Quadratsummenzerlegung angegeben:
- oder äquivalent dazu
- .
Diese modifizierte Form der Quadratsummenzerlegung wird auch nicht korrigierte Quadratsummenzerlegung genannt, da die erklärte und die totale Quadratsumme nicht um den empirischen Mittelwert „korrigiert“ bzw. „zentriert“ werden. Wenn man statt dem gewöhnlichen und die modifizierten Quadratsummen und benutzt, ist das Bestimmtheitsmaß gegeben durch
- .
Dieses Bestimmtheitsmaß ist strikt nichtnegativ und wird – da es auf der nicht korrigierten Quadratsummenzerlegung aufbaut, bei der nicht um den empirischen Mittelwert „zentriert“ wird – auch als unzentriertes Bestimmtheitsmaß bezeichnet. Zur Abgrenzung wird das konventionelle Bestimmtheitsmaß auch als zentriertes Bestimmtheitsmaß bezeichnet. Bei einer Regression durch den Ursprung wird daher die modifizierte Form der Quadratsummenzerlegungsformel verwendet.
Beispiele
Kriegsschiffe
Folgendes Beispiel soll die Berechnung des Bestimmtheitsmaßes zeigen. Es wurden zufällig zehn Kriegsschiffe ausgewählt (siehe Kriegsschiffsdaten in dieser Übersicht) und bezüglich ihrer Länge und Breite (in Metern) analysiert. Es soll untersucht werden, ob die Breite eines Kriegsschiffs möglicherweise in einem festen Bezug zur Länge steht.
Das Streudiagramm lässt einen linearen Zusammenhang zwischen Länge und Breite eines Schiffs vermuten. Eine mittels der Kleinste-Quadrate-Schätzung durchgeführte einfache lineare Regression ergibt für das Absolutglied und die Steigung (für die Berechnung der Regressionsparameter siehe Beispiel mit einer Ausgleichsgeraden). Die geschätzte Regressionsgerade lautet somit
- .
Die Gleichung stellt die geschätzte Breite als Funktion der Länge dar. Die Funktion zeigt, dass die Breite der ausgewählten Kriegsschiffe grob einem Sechstel ihrer Länge entspricht.
Kriegsschiff | Länge (m) | Breite (m) | |||||
---|---|---|---|---|---|---|---|
1 | 208 | 21,6 | 3,19 | 10,1761 | 24,8916 | −3,2916 | 10,8347 |
2 | 152 | 15,5 | −2,91 | 8,4681 | 15,8625 | −0,3625 | 0,1314 |
3 | 113 | 10,4 | −8,01 | 64,1601 | 9,5744 | 0,8256 | 0,6817 |
4 | 227 | 31,0 | 12,59 | 158,5081 | 27,9550 | 3,045 | 9,2720 |
5 | 137 | 13,0 | −5,41 | 29,2681 | 13,4440 | −0,4440 | 0,1971 |
6 | 238 | 32,4 | 13,99 | 195,7201 | 29,7286 | 2,6714 | 7,1362 |
7 | 178 | 19,0 | 0,59 | 0,3481 | 20,0546 | −1,0546 | 1,1122 |
8 | 104 | 10,4 | −8,01 | 64,1601 | 8,1233 | 2,2767 | 5,1835 |
9 | 191 | 19,0 | 0,59 | 0,3481 | 22,1506 | −3,1506 | 9,9265 |
10 | 130 | 11,8 | −6,61 | 43,6921 | 12,3154 | −0,5154 | 0,2656 |
Σ | 1678 | 184,1 | 574,8490 | 0,0000 | 44,7405 | ||
Σ/n | 167,8 | 18,41 | 57,48490 | 0,0000 | 4,47405 |
Aus der Tabelle lässt sich erkennen, dass der Gesamtmittelwert der Breite beträgt, die totale Quadratsumme der Messwerte beträgt und die Residuenquadratsumme beträgt. Daher ergibt sich das Bestimmtheitsmaß zu
- ,
d. h. circa der Streuung in der Kriegsschiffsbreite kann durch die lineare Regression von Kriegsschiffsbreite auf Kriegsschiffslänge „erklärt“ werden. Das Komplement des Bestimmtheitsmaßes wird auch Unbestimmtheitsmaß (auch Koeffizient der Nichtdetermination oder Alienationskoeffizient, von lateinisch alienus „fremd“, „unbekannt“) genannt. Bestimmtheits- und Unbestimmtheitsmaß addieren sich jeweils zu . Das Unbestimmtheitsmaß sagt im vorliegenden Beispiel aus, dass knapp der Streuung in der Breite „unerklärt“ bleiben. Hier könnte man z. B. nach weiteren Faktoren suchen, welche die Breite eines Kriegsschiffes beeinflussen und sie in die Regressionsgleichung mit aufnehmen.
Vergleich mit dem Standardfehler der Regression
Die „Qualität“ der Regression kann auch mithilfe des geschätzten Standardfehlers der Residuen (engl. residual standard error) beurteilt werden, der zum Standardoutput der meisten statistischen Programmpakete gehört. Der geschätzte Standardfehler der Residuen gibt an, mit welcher Sicherheit die Residuen den wahren Störgrößen näherkommen. Die Residuen sind somit eine Approximation der Störgrößen. Der geschätzte Standardfehler der Residuen ist mit dem Bestimmtheitsmaß und dem adjustierten Bestimmtheitsmaß vergleichbar und ähnlich zu interpretieren. Der geschätzte Standardfehler der Residuen, der sich aus der obigen Tabelle berechnen lässt, ergibt einen Wert von:
- .
Es ist jedoch zu beachten, dass eine verzerrte Schätzung der wahren Varianz der Störgrößen ist, da der verwendete Varianzschätzer nicht erwartungstreu ist. Wenn man berücksichtigt, dass man durch die Schätzung der beiden Regressionsparameter und zwei Freiheitsgrade verliert und somit statt durch den Stichprobenumfang durch die Anzahl der Freiheitsgrade dividiert, erhält man das „mittlere Residuenquadrat“ und damit die erwartungstreue Darstellung:
- .
Die Darstellung ist unverzerrt, da sie durch Einbezug der Freiheitsgrade der Varianzschätzer, wegen , unter den Gauß-Markow-Annahmen erwartungstreu ist (siehe auch Schätzer für die Varianz der Störgrößen). Die unverzerrte Darstellung wird im Regressionsoutput statistischer Software oft auch als Standardfehler der Schätzung oder Standardfehler der Regression (engl. standard error of the regression, kurz: SER) bezeichnet. Der Standardfehler der Regression wird als Quadratwurzel des mittleren Residuenquadrats berechnet und ist ein eigenständiges Modellgütemaß. Er gibt an, wie groß im Durchschnitt die Abweichung der Messwerte von der Regressionsgerade ausfällt. Je größer der Standardfehler der Regression, desto schlechter beschreibt die Regressionsgerade die Verteilung der Messwerte. Der Standardfehler der Regression ist in der Regel kleiner als der Standardfehler der Zielgröße . Das Bestimmtheitsmaß wird häufiger angegeben als der Standardfehler der Residuen, obwohl der Standardfehler der Residuen bei der Bewertung Anpassungsgüte möglicherweise aussagekräftiger ist.
Missverständnisse, Grenzen und Kritik
Missverständnisse
Neben den Vorteilen des Bestimmtheitsmaßes (es ist eine dimensionslose Größe, hat eine einfache Interpretation und liegt stets zwischen und ) wird das Bestimmtheitsmaß immer wieder kritisiert und falsch angewendet:
- Übliche Missverständnisse sind:
- Bei einem hohen Bestimmtheitsmaß für einen Schätzer könne man folgern, dass der tatsächliche Zusammenhang linear sei. Die pinken Daten in der Grafik wurden mit einer nichtlinearen Funktion generiert:
- Durch die Betragsfunktion im Term nimmt die Funktion an der Stelle ihr Maximum an. Für höhere Werte von fällt die Funktion dann streng monoton mit der Steigung . Damit wäre der tatsächliche Zusammenhang in den Daten auch bei dem hohen Bestimmtheitsmaß nach Konstruktion natürlich nicht linear. Dennoch legt das hohe Bestimmtheitsmaß nahe, dass es sich um einen linearen Zusammenhang handelt.
- Ein hohes Bestimmtheitsmaß gebe an, dass die geschätzte Regressionslinie überall eine gute Approximation an die Daten darstellt; die pinken Daten legen auch hier etwas anderes nahe.
- Ein Bestimmtheitsmaß nahe bei Null zeige an, dass es keinen Zusammenhang zwischen der abhängigen und den unabhängigen Variablen gebe. Die blauen Daten in der Grafik wurden mit der folgenden quadratischen Funktion generiert und besitzen daher einen deterministischen funktionalen Zusammenhang, der allerdings nicht linear ist
- .
- Obwohl das Bestimmtheitsmaß gleich Null ist, lässt sich nicht daraus schließen, dass es keinen Zusammenhang zwischen der abhängigen und den unabhängigen Variablen für die konstruierten Datenpunkte gibt. Eine Regressionsanalyse für nichtlineare Fälle verallgemeinert die lineare Regression auf andere Klassen von Funktionen und mehrdimensionale Definitionsbereiche von .
- Wählt man aus den Daten mit quadratischem Zusammenhang (Parabel ) nur die Datenpunkte mit positivem -Werten aus, kann auch das Bestimmtheitsmaß sehr hoch sein und bei einem nach Konstruktion der Daten gegebenen quadratischem Zusammenhang durch
Autor: www.NiNa.Az
Veröffentlichungsdatum:
wikipedia, wiki, deutsches, deutschland, buch, bücher, bibliothek artikel lesen, herunterladen kostenlos kostenloser herunterladen, MP3, Video, MP4, 3GP, JPG, JPEG, GIF, PNG, Bild, Musik, Lied, Film, Buch, Spiel, Spiele, Mobiltelefon, Mobil, Telefon, android, ios, apple, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, pc, web, computer, komputer, Informationen zu Varianzaufklärung, Was ist Varianzaufklärung? Was bedeutet Varianzaufklärung?
Das Bestimmtheitsmass auch Determinationskoeffizient von lateinisch determinatio Abgrenzung Bestimmung bzw determinare eingrenzen festlegen bestimmen und coefficere mitwirken bezeichnet mit R2 displaystyle mathit R 2 ist in der Statistik eine Kennzahl zur Beurteilung der Anpassungsgute einer Regression Das Bestimmtheitsmass beruht auf der Quadratsummenzerlegung bei der die totale Quadratsumme in die durch das Regressionsmodell erklarte Quadratsumme einerseits und in die Residuenquadratsumme andererseits zerlegt wird Allerdings existieren mehrere verschiedene nicht gleichbedeutende Definitionen des Bestimmtheitsmasses Dieses Streudiagramm zeigt zwei konkrete empirische Regressionsgeraden einer linearen Einfachregression die jeweils bestmoglich durch die Punktwolke der Messung gelegt wurden Zu erkennen ist dass die obere Gerade eine bessere Anpassung an die Daten liefert als die untere Formal lasst sich dies anhand eines hoheren R Quadrat Wertes erkennen R2 98 92 displaystyle mathit R 2 98 92 vs R2 57 13 displaystyle mathit R 2 57 13 Das Bestimmtheitsmass steht in enger Beziehung zu weiteren Modellgutemassen zur Prufung der Regressionsfunktion wie z B zum Standardfehler der Regression und zur F Statistik Weil das Bestimmtheitsmass durch die Aufnahme zusatzlicher Variablen wachst und die Gefahr der Uberanpassung besteht wird fur praktische Anwendungen meist das adjustierte Bestimmtheitsmass verwendet Das adjustierte Bestimmtheitsmass bestraft im Gegensatz zum unadjustierten Bestimmtheitsmass die Aufnahme jeder neu hinzugenommenen erklarenden Variable Obwohl das Bestimmtheitsmass die am haufigsten benutzte Kennzahl ist um die globale Anpassungsgute einer Regression zu quantifizieren wird es oft fehlinterpretiert und falsch angewendet auch da bei einer Regression durch den Ursprung zahlreiche alternative Definitionen des Bestimmtheitsmasses nicht aquivalent sind Das Bestimmtheitsmass ist ein reines Zusammenhangsmass So ist es nicht moglich das Bestimmtheitsmass zu verwenden um einen direkten kausalen Zusammenhang zwischen den Variablen nachzuweisen Ausserdem zeigt das Bestimmtheitsmass nur die Grosse des Zusammenhangs zwischen den Variablen aber nicht ob dieser Zusammenhang statistisch signifikant ist Das Pseudo Bestimmtheitsmass und die Devianz verallgemeinern das Bestimmtheitsmass Einfuhrung in die ProblemstellungRegressiongerade y displaystyle hat y als Schatzer Modellfunktion fur den Zusammenhang von Grosse und Gewicht der Probanden y xi y i displaystyle hat y x i hat y i ist das geschatzte Gewicht des Probanden bei einer gegebenen Grosse xi displaystyle x i Der Restfehler das Residuum e i displaystyle hat varepsilon i stellt die Differenz zwischen dem Messwert yi displaystyle y i und Schatzwert y i displaystyle hat y i dar Gegeben sind n displaystyle n Messungen x1 y1 x2 y2 xn yn displaystyle x 1 y 1 x 2 y 2 ldots x n y n d h bei dem i displaystyle i ten Wertepaar xi yi displaystyle x i y i wird einem Wert xi displaystyle x i z B Grosse einer Person ein Messwert yi displaystyle y i z B das gemessene Gewicht der Person zugeordnet Dazu berechnet man den empirischen Mittelwert y 1n i 1nyi displaystyle textstyle overline y frac 1 n sum i 1 n y i z B das mittlere Gewicht der Probanden Ferner gibt es einen Schatzer y displaystyle hat y Modellfunktion der jedem Wert xi displaystyle x i z B Grosse einen Schatzwert y xi y i displaystyle hat y x i equiv hat y i geschatztes Gewicht fur eine Person mit Grosse xi displaystyle x i zuordnet Die Abweichung einer Schatzung y xi displaystyle hat y x i von der zugehorigen Messung yi displaystyle y i ist durch e i yi y xi yi yi displaystyle hat varepsilon i equiv y i hat y x i y i hat y i gegeben und wird Residuum genannt Bei der einfachen linearen Regression die zum Ziel hat das Absolutglied englisch intercept b0 displaystyle beta 0 die Steigung englisch slope b1 displaystyle beta 1 und die Storgrossenvarianz s2 displaystyle sigma 2 zu schatzen wird der Schatzer anschaulich durch die Regressionsgerade beschrieben und mathematisch durch die Stichproben Regressionsfunktion y y x b0 b1x displaystyle hat y hat y x beta 0 beta 1 x definiert Die beiden Parameterschatzer b0 displaystyle beta 0 und b1 displaystyle beta 1 werden auch als Kleinste Quadrate Schatzer bezeichnet Wenn das zugrundeliegende Modell ein von Null verschiedenes Absolutglied b0 displaystyle beta 0 enthalt stimmt der empirische Mittelwert der Schatzwerte y i displaystyle hat y i mit dem der beobachteten Messwerte yi displaystyle y i uberein also y 1n i 1nyi y 1n i 1nyi displaystyle textstyle overline hat y tfrac 1 n sum nolimits i 1 n hat y i overline y tfrac 1 n sum nolimits i 1 n y i fur einen Beweis siehe unter Matrixschreibweise Es empfiehlt sich nach der Schatzung der Regressionsparameter die Regressionsgerade gemeinsam mit den Datenpunkten in ein Streudiagramm einzuzeichnen Auf diese Weise bekommt man eine Vorstellung davon wie gut die Punkteverteilung durch die Regressionsgerade wiedergegeben wird Je enger die Datenpunkte um die Regressionsgerade herum konzentriert sind d h je kleiner also die Residuenquadrate sind desto besser In diesem Zusammenhang ist allerdings zu beachten dass die Residuenquadrate typischerweise klein sind wenn die abhangige Variable eine geringe Variabilitat aufweist Die geforderte Kleinheit der Residuenquadrate muss also in Relation zur Streuung der abhangigen Variablen betrachtet werden Ein Mass zur Beurteilung der Anpassungsgute sollte ausserdem die Streuung der Messwerte und die der geschatzten Werte in Relation setzen Die Streuung der jeweiligen Werte um ihren Mittelwert kann mithilfe der Summe der Abweichungsquadrate Summe der Quadrate bzw englisch Sum of Squares kurz SQ oder SS gemessen werden Das mittlere Abweichungsquadrat stellt die empirische Varianz dar Die Streuung der Schatzwerte y i displaystyle hat y i um ihren Mittelwert y y displaystyle overline hat y overline y kann durch SQE i 1n y i y 2 displaystyle textstyle SQE equiv sum nolimits i 1 n hat y i overline y 2 gemessen werden und die Streuung der Messwerte yi displaystyle y i um das Gesamtmittel y displaystyle overline y kann durch SQT i 1n yi y 2 displaystyle textstyle SQT equiv sum nolimits i 1 n y i overline y 2 gemessen werden Erstere stellt die durch die Regression erklarte Quadratsumme Summe der Quadrate der Erklarten Abweichungen bzw englisch Sum of Squares Explained kurz SQE oder SSE und letztere stellt die zu erklarende Quadratsumme bzw die totale Quadratsumme Summe der Quadrate der Totalen Abweichungen bzw englisch Sum of Squares Total kurz SQT oder SST dar Das Verhaltnis dieser beiden Grossen wird das Bestimmtheitsmass der Regression genannt Das Bestimmtheitsmass zeigt wie gut die durch die Schatzung gefundene Modellfunktion zu den Daten passt d h wie gut sich die konkrete empirische Regressionsgerade einer angenommenen wahren Gerade y b0 b1x displaystyle y beta 0 beta 1 x annahert Die durch die Regression nicht erklarten Abweichungen Restabweichungen d h die Abweichungen der Datenpunkte von der Regressionsgeraden werden durch die Regression nicht erklarte Quadratsumme bzw die Residuenquadratsumme Summe der Quadrate der Restabweichungen oder Residuen bzw englisch Sum of Squares Residual kurz SQR oder SSR erfasst die durch SQR i 1n yi y i 2 displaystyle textstyle SQR equiv sum nolimits i 1 n y i hat y i 2 gegeben ist DefinitionenDas Bestimmtheitsmass dient als Masszahl zur Beurteilung der globalen Anpassungsgute eines Regressionsmodells Variante 1 Das Bestimmtheitsmass der Regression auch empirisches Bestimmtheitsmass ist eine dimensionslose Masszahl die den Anteil der Variabilitat in den Messwerten der abhangigen Variablen ausdruckt der durch das lineare Modell erklart wird Gegeben die Quadratsummenzerlegung ist das Bestimmtheitsmass der Regression definiert als das Verhaltnis der durch die Regression erklarten Quadratsumme zur totalen Quadratsumme R2 SQESQT i y i y 2 i yi y 2 displaystyle mathit R 2 equiv frac SQE SQT frac displaystyle sum i left hat y i overline y right 2 displaystyle sum i left y i overline y right 2 wobei R2 0 displaystyle mathit R 2 geq 0 Als quadrierter Korrelationskoeffizient Bei einer einfachen linearen Regression nur eine erklarende Variable yi b0 xib1 ei displaystyle y i beta 0 x i beta 1 varepsilon i entspricht das Bestimmtheitsmass dem Quadrat des Bravais Pearson Korrelationskoeffizienten rxy displaystyle r xy und lasst sich aus der Produktsumme SPxy displaystyle SP xy Summe der Produkte der Abweichungen der Messwerte vom jeweiligen Mittelwert xi x yi y displaystyle x i overline x y i overline y und den Quadratsummen SQx displaystyle SQ x und SQy displaystyle SQ y berechnen R2 i 1n y i y 2 i 1n yi y 2 b12 i 1n xi x 2 i 1n yi y 2 SPxySQx 2 SQxSQy SPxySQxSQy 2 rxy2 displaystyle mathit R 2 frac displaystyle sum nolimits i 1 n hat y i overline hat y 2 displaystyle sum nolimits i 1 n left y i overline y right 2 frac b 1 2 displaystyle sum nolimits i 1 n left x i overline x right 2 displaystyle sum nolimits i 1 n left y i overline y right 2 left frac SP xy SQ x right 2 cdot frac SQ x SQ y left frac SP xy sqrt SQ x SQ y right 2 r xy 2 wobei der Kleinste Quadrate Schatzer fur die Steigung b1 SPxy SQx displaystyle b 1 SP xy SQ x der Quotient aus Produktsumme von x displaystyle x und y displaystyle y und Quadratsumme von x displaystyle x ist In der einfachen linearen Regression ist R2 0 displaystyle mathit R 2 0 wenn b1 0 displaystyle b 1 0 ist d h die erklarende Variable steht zur Schatzung von y displaystyle y nicht zur Verfugung Dies folgt aus der Tatsache dass in der einfachen linearen Regression SQE b12 SQx displaystyle SQE b 1 2 cdot SQ x gilt In diesem Fall besteht das beste lineare Regressionsmodell nur aus dem Absolutglied b0 displaystyle b 0 Das so definierte Bestimmtheitsmass ist ebenfalls gleich null wenn der Korrelationskoeffizient rxy displaystyle r xy gleich null ist da es in der einfachen linearen Regression dem quadrierten Korrelationskoeffizienten zwischen x displaystyle x und y displaystyle y entspricht Im Kontext der einfachen linearen Regression wird das Bestimmtheitsmass auch als einfaches Bestimmtheitsmass bezeichnet Bei der Interpretation des einfachen Bestimmtheitsmasses muss man vorsichtig sein da es u U schon deshalb gross ist weil die Steigung b1 displaystyle b 1 der Regressionsgeraden gross ist In der einfachen linearen Regression entspricht das Bestimmtheitsmass dem Quadrat des Bravais Pearson Korrelationskoeffizienten rxy displaystyle r xy siehe auch unter Als quadrierter Korrelationskoeffizient Dieser Umstand ist dafur verantwortlich dass das Bestimmtheitsmass als R2 displaystyle mathit R 2 lies R Quadrat oder r2 displaystyle r 2 notiert wird In deutschsprachiger Literatur findet sich auch der Buchstabe B displaystyle B als Bezeichnung fur das Bestimmtheitsmass In den Anfangen der Statistik wurde mit dem Buchstaben R displaystyle mathit R ein Schatzer des Korrelationskoeffizienten der Grundgesamtheit notiert und in der Regressionsanalyse wird diese Notation noch heute verwendet Multiple lineare Regression In der Realitat hangen abhangige Variablen im Allgemeinen von mehr als einer erklarenden Variablen ab Zum Beispiel ist das Gewicht eines Probanden nicht nur von dessen Alter sondern auch von dessen sportlicher Betatigung und psychologischen Faktoren abhangig Bei einer multiplen Abhangigkeit gibt man die Annahme der einfachen linearen Regression auf bei der die abhangige Variable nur von einer erklarenden Variablen abhangt Um eine mehrfache Abhangigkeit zu modellieren benutzt man ein typisches multiples lineares Regressionsmodell yi b0 xi1b1 xi2b2 xikbk ei xi b ei displaystyle y i beta 0 x i1 beta 1 x i2 beta 2 dotsc x ik beta k varepsilon i mathbf x i top boldsymbol beta varepsilon i Hierbei ist p k 1 displaystyle p k 1 die Anzahl der zu schatzenden unbekannten Parameter und k displaystyle k die Anzahl der erklarenden Variablen Zusatzlich zur Dimension der unabhangigen Variablen wird auch eine zeitliche Dimension integriert wodurch sich ein lineares Gleichungssystem ergibt was sich in Vektor Matrix Form darstellen lasst Im Gegensatz zur einfachen linearen Regression entspricht in der multiplen linearen Regression das R2 displaystyle mathit R 2 dem Quadrat des Korrelationskoeffizienten zwischen den Messwerten yi displaystyle y i und den Schatzwerten y i displaystyle hat y i fur einen Beweis siehe unter Matrixschreibweise also R2 i 1n yi y y i y 2 i 1n yi y 2 i 1n y i y 2 ryy 2 displaystyle mathit R 2 frac left sum i 1 n y i overline y hat y i overline y right 2 left sum i 1 n y i overline y 2 right left sum i 1 n hat y i overline y 2 right r y hat y 2 Im Kontext der multiplen linearen Regression wird das Bestimmtheitsmass auch als mehrfaches bzw multiples Bestimmtheitsmass bezeichnet Aufgrund des oben aufgezeigten Zusammenhangs kann das multiple Bestimmtheitsmass als eine Masszahl fur die Anpassungsgute der geschatzten Regressionshyperebene y b0 x1b1 x2b2 xkbk displaystyle hat y b 0 x 1 b 1 x 2 b 2 dotsc x k b k an die Realisierungen y1 y2 yn displaystyle y 1 y 2 ldots y n der Zufallsvariablen Y1 Y2 Yn displaystyle Y 1 Y 2 ldots Y n angesehen werden Es ist also ein Mass des linearen Zusammenhangs zwischen yi displaystyle y i und y i displaystyle hat y i Variante 2 Fur den speziellen Fall einer linearen Regression mit Fit des Achsenabschnitts kann die obige Definition aquivalent wie folgt geschrieben werden nicht jedoch im Allgemeinen R2 1 SQRSQT 1 i yi y i 2 i yi y 2 displaystyle mathit R 2 1 frac SQR SQT 1 frac displaystyle sum i left y i hat y i right 2 displaystyle sum i left y i overline y right 2 wobei angenommen wird dass fur die totale Quadratsumme SQT 0 displaystyle SQT neq 0 gilt was praktisch immer erfullt ist ausser fur den Fall dass die Messwerte der abhangigen Variable keinerlei Variabilitat aufweisen d h y1 y2 yn y displaystyle y 1 y 2 ldots y n overline y In diesem Falle ist das Bestimmtheitsmass nicht definiert Die zweite Gleichung die sich mithilfe der Quadratsummenzerlegung fur lineare Modelle zeigen lasst ist eine alternative Berechnungsformel fur das Bestimmtheitsmass welche auch negative Werte R2 lt 0 displaystyle R 2 lt 0 fur das Bestimmtheitsmass liefern kann falls Annahmen eines linearen Modells verletzt werden Die alternative Berechnungsformel setzt die geforderte Kleinheit der Residuenquadrate in Relation zur gesamten Quadratsumme Die zur Konstruktion des Bestimmtheitsmasses verwendete Quadratsummenzerlegung kann als Streuungszerlegung interpretiert werden bei der die Gesamtstreuung in die erklarte Streuung und die Reststreuung zerlegt wird Das Bestimmtheitsmass ist also gerade als jener Anteil der Gesamtstreuung SQT displaystyle SQT zu deuten der mit der Regressionsfunktion erklart werden kann Der unerklarte Teil bleibt als Reststreuung zuruck Beachte dass diese zweite Variante Ahnlichkeiten zu McFaddens Pseudo Bestimmtheitsmass hat wenn die Likelihood Funktionen aus Normalverteilungen mit angenommener konstanter Varianz zusammengesetzt sind EigenschaftenWertebereich des Bestimmtheitsmasses Mithilfe der obigen Definition konnen die Extremwerte fur das Bestimmtheitsmass aufgezeigt werden Fur das Bestimmtheitsmass gilt dass es umso naher am Wert 1 displaystyle 1 ist je kleiner die Residuenquadratsumme ist Es wird maximal gleich 1 displaystyle 1 wenn i 1n yi y i 2 0 displaystyle textstyle sum nolimits i 1 n y i hat y i 2 0 ist also alle Residuen null sind In diesem Fall ist die Anpassung an die Daten perfekt was bedeutet dass fur jede Beobachtung yi y i displaystyle y i hat y i ist und alle Beobachtungspunkte des Streudiagramms auf der Regressionsgeraden liegen Das Bestimmtheitsmass nimmt hingegen den Wert 0 displaystyle 0 an wenn i 1n y i y 2 0 displaystyle textstyle sum nolimits i 1 n hat y i overline y 2 0 beziehungsweise i 1n yi y 2 i 1n yi y i 2 displaystyle textstyle sum nolimits i 1 n y i overline y 2 sum nolimits i 1 n y i hat y i 2 ist Diese Gleichung besagt dass die nicht erklarte Streuung der gesamten zu erklarenden Streuung entspricht und die erklarenden Variablen x1 x2 xn displaystyle x 1 x 2 ldots x n somit keinen Beitrag zur Erklarung der Gesamtstreuung leisten Die gesamte zu erklarende Streuung wird in diesem Fall durch die Residuen hervorgerufen und die Regressionsgleichung erklart gar nicht Variante 1 Die Variante 1 hat einen Wertebereich 0 R2 1 displaystyle 0 leq mathit R 2 leq 1 Variante 2 Die Variante 2 hat einen Wertebereich lt R2 1 displaystyle infty lt mathit R 2 leq 1 Wenn das Regressionsmodell kein Absolutglied enthalt es liegt ein homogenes Regressionsmodell vor kann das Bestimmtheitsmass negativ werden siehe unter Einfache lineare Regression durch den Ursprung Ebenfalls kann das Bestimmtheitsmass negativ werden wenn es auf simultane Gleichungsmodelle angewendet wird da in diesem Kontext y displaystyle overline hat y nicht notwendigerweise gleich y displaystyle overline y ist Hierarchisch geordnete Modelle Sei der x displaystyle mathbf x der Vektor der erklarenden Variablen Ferner wird angenommen dass x displaystyle mathbf x in zwei Teilvektoren x1 displaystyle mathbf x 1 und x2 displaystyle mathbf x 2 partitioniert wird d h x x1 x2 displaystyle mathbf x mathbf x 1 mathbf x 2 Sei weiterhin full displaystyle mathtt full das volle Modell yi b0 xi1 b1 xi2 b2 ei displaystyle y i beta 0 mathbf x i1 top boldsymbol beta 1 mathbf x i2 top boldsymbol beta 2 varepsilon i und sub displaystyle mathtt sub und ein darin enthaltenes Teilmodell yi b0 xi1 b1 ei displaystyle y i beta 0 mathbf x i1 top boldsymbol beta 1 varepsilon i Dann gilt Rfull2 Rsub2 displaystyle mathit R mathtt full 2 geq mathit R mathtt sub 2 d h fur hierarchisch geordnete Modelle ist das Bestimmtheitsmass des Teilmodells immer kleiner oder gleich dem Bestimmtheitsmass des vollen Modells Dies bedeutet dass das Bestimmtheitsmass mit zunehmender Anzahl der erklarenden Variablen automatisch ansteigt ohne dass sich dabei die Gute der Anpassung signifikant verbessern muss InterpretationStreudiagramm der Residuen ohne Struktur das R2 0 displaystyle mathit R 2 0 liefertStreudiagramm der Residuen das ein R2 displaystyle mathit R 2 nahe bei 1 displaystyle 1 liefert Das Bestimmtheitsmass lasst sich mit 100 displaystyle 100 multiplizieren um es in Prozent anzugeben 100 R2 displaystyle 100 cdot mathit R 2 ist dann der prozentuale Anteil der Streuung in y displaystyle y der durch das lineare Modell erklart wird und liegt daher zwischen 0 displaystyle 0 oder 0 displaystyle 0 kein linearer Zusammenhang und 100 displaystyle 100 oder 1 displaystyle 1 perfekter linearer Zusammenhang Je naher das Bestimmtheitsmass am Wert Eins liegt desto hoher ist die Bestimmtheit bzw Gute der Anpassung Bei R2 0 displaystyle mathit R 2 0 ist der lineare Schatzer y displaystyle hat y im Regressionsmodell vollig unbrauchbar fur die Vorhersage des Zusammenhangs zwischen xi displaystyle x i und yi displaystyle y i z B kann man das tatsachliche Gewicht der Person yi displaystyle y i uberhaupt nicht mit dem Schatzer y displaystyle hat y vorhersagen Ist R2 1 displaystyle mathit R 2 1 dann lasst sich die abhangige Variable y displaystyle y vollstandig durch das lineare Regressionsmodell erklaren Anschaulich liegen dann die Messpunkte x1 y1 x2 y2 xn yn displaystyle x 1 y 1 x 2 y 2 ldots x n y n alle auf der nichthorizontalen Regressionsgeraden Somit liegt bei diesem Fall kein stochastischer Zusammenhang vor sondern ein deterministischer Durch die Aufnahme zusatzlicher erklarender Variablen kann das Bestimmtheitsmass nicht sinken Das Bestimmtheitsmass hat die Eigenschaft dass es i d R durch die Hinzunahme weiterer erklarender Variablen steigt k R2 displaystyle k uparrow Rightarrow mathit R 2 uparrow was scheinbar die Modellgute steigert und zum Problem der Uberanpassung fuhren kann Das Bestimmtheitsmass steigt durch die Hinzunahme weiterer erklarender Variablen da durch die Hinzunahme dieser der Wert der Residuenquadratsumme sinkt Auch wenn dem Modell irrelevante erklarende Variablen hinzugefugt werden konnen diese zu Erklarung der Gesamtstreuung beitragen und den R Quadrat Wert kunstlich steigern Da die Hinzunahme jeder weiteren erklarenden Variablen mit einem Verlust eines Freiheitsgrads verbunden ist fuhrt dies zu einer ungenaueren Schatzung Wenn man Modelle mit einer unterschiedlichen Anzahl erklarender Variablen und gleichen unabhangigen Variablen vergleichen will ist die Aussagekraft des Bestimmtheitsmasses begrenzt Um solche Modelle vergleichen zu konnen wird ein adjustiertes Bestimmtheitsmass verwendet welches zusatzlich die Freiheitsgrade berucksichtigt siehe auch unter Das adjustierte Bestimmtheitsmass Aus dem Bestimmtheitsmass kann man im Allgemeinen nicht schliessen ob das angenommene Regressionsmodell dem tatsachlichen funktionalen Zusammenhang in den Messpunkten entspricht siehe auch unter Grenzen und Kritik Der Vergleich des Bestimmtheitsmasses uber Modelle hinweg ist nur sinnvoll wenn eine gemeinsame abhangige Variable vorliegt und wenn die Modelle die gleiche Anzahl von Regressionsparametern und ein Absolutglied aufweisen Da mit dem Bestimmtheitsmass auch indirekt der Zusammenhang zwischen der abhangigen und den unabhangigen Variablen gemessen wird ist es ein proportionales Fehlerreduktionsmass In den Sozialwissenschaften sind niedrige R Quadrat Werte in Regressionsgleichungen nicht ungewohnlich Bei Querschnittsanalysen treten haufig niedrige R Quadrat Werte auf Dennoch bedeutet ein kleines Bestimmtheitsmass nicht notwendigerweise dass die Kleinste Quadrate Regressionsgleichung unnutz ist Es ist immer noch moglich dass die Regressionsgleichung ein guter Schatzer fur den ceteris paribus Zusammenhang zwischen x displaystyle x und y displaystyle y ist Ob die Regressionsgleichung ein guter Schatzer fur den Zusammenhang von x displaystyle x und y displaystyle y ist hangt nicht direkt von der Grosse des Bestimmtheitsmasses ab Cohen und Cohen 1975 und Kennedy 1981 konnten zeigen dass sich das Bestimmtheitsmass graphisch mittels Venn Diagrammen veranschaulichen lasst Konstruktion Hauptartikel Totale Quadratsumme Zerlegung der totalen Quadratsumme Diese Graphik zeigt die Zerlegung der zu erklarenden Abweichung bzw totalen Abweichung yi y displaystyle left y i overline y right in die erklarte Abweichung y i y displaystyle left hat y i overline y right und die nicht erklarte Abweichung bzw Restabweichung yi y i displaystyle left y i hat y i right Ausgangspunkt fur die Konstruktion des Bestimmtheitsmasses ist die Quadratsummenzerlegung die als Streuungszerlegung interpretiert werden kann In Bezug auf y i displaystyle hat y i lasst sich yi displaystyle y i darstellen als yi y y i y yi y i displaystyle y i overline y left hat y i overline y right y i hat y i oder aquivalent yi y zuerkla rendeAbweichung y i y erkla rteAbweichung yi y i nichterkla rteAbweichung displaystyle underbrace y i overline y mathrm zu erkl ddot a rende Abweichung quad quad underbrace hat y i overline y mathrm erkl ddot a rte Abweichung quad quad underbrace y i hat y i mathrm nicht erkl ddot a rte Abweichung wobei yi y displaystyle left y i overline y right die Abweichung von yi displaystyle y i vom Mittelwert y displaystyle overline y und yi y i ei displaystyle y i hat y i varepsilon i die Restabweichung bzw das Residuum darstellt Die Gesamtabweichung lasst sich also zerlegen in die erklarte Abweichung und das Residuum Die Gleichheit gilt auch dann noch wenn man die Abweichungen quadriert Abweichungsquadrate bildet und anschliessend uber alle Beobachtungen summiert Abweichungsquadratsummen kurz Quadratsummen bildet Die totale Quadratsumme bzw die zu erklarende Quadratsumme lasst sich in die Quadratsumme der durch die Regressionsfunktion erklarten Abweichungen vom Gesamtmittel durch das Modell erklarte Quadratsumme und die Residuenquadratsumme durch das Modell nicht erklarte Quadratsumme zerlegen Die Quadratsummenzerlegung ergibt somit i 1n yi y 2 zuerkla rendeQuadratsumme i 1n y i y 2 erkla rteQuadratsumme i 1n yi y i 2 nichterkla rteQuadratsumme displaystyle underbrace sum nolimits i 1 n y i overline y 2 mathrm zu erkl ddot a rende Quadratsumme quad quad underbrace sum nolimits i 1 n hat y i overline y 2 mathrm erkl ddot a rte Quadratsumme quad quad underbrace sum nolimits i 1 n y i hat y i 2 mathrm nicht erkl ddot a rte Quadratsumme oder aquivalent dazuSQT SQE SQR displaystyle SQT SQE SQR Diese Zerlegung folgt in zwei Schritten Im ersten Schritt wird eine Nullerganzung vorgenommen i 1n yi y 2 i 1n yi y i y i 0 y 2 i 1n yi y i 2 2 i 1n yi y i y i y 0 i 1n y i y 2 displaystyle sum nolimits i 1 n y i overline y 2 sum nolimits i 1 n y i underbrace hat y i hat y i 0 overline y 2 sum nolimits i 1 n y i hat y i 2 2 underbrace sum nolimits i 1 n y i hat y i hat y i overline y 0 sum nolimits i 1 n hat y i overline y 2 Diese Animation zeigt die Streuungszerlegung d h die Zerlegung der Gesamtstreuung in die erklarte Streuung der Anteil der Gesamtstreuung der durch y displaystyle hat y erklart werden kann und die Reststreuung Ebenfalls zu sehen ist dass die durch die Kleinste Quadrate Schatzung gewonnene Regressionsgerade durch das Gravitationszentrum G x y displaystyle G overline x overline y der Punkteverteilung im Streudiagramm verlauft siehe auch algebraische Eigenschaften der Kleinste Quadrate Schatzer Im zweiten Schritt wurde die Eigenschaft benutzt dass gewohnliche Residuen e i yi y i displaystyle hat varepsilon i y i hat y i vorliegen die mit den geschatzten Werten unkorreliert sind d h i 1ne iy i 0 displaystyle textstyle sum nolimits i 1 n hat varepsilon i hat y i 0 Dies kann so interpretiert werden dass in der Schatzung bereits alle relevante Information der erklarenden Variablen bezuglich der abhangigen Variablen steckt Zudem wurde die Eigenschaft verwendet dass wenn das Modell das Absolutglied enthalt die Summe i 1ne i 0 displaystyle textstyle sum nolimits i 1 n hat varepsilon i 0 und damit der empirische Mittelwert der Residuen Null ist Dies folgt aus den verwendeten Schatzverfahren Maximum Likelihood Schatzung bei der klassischen Normalregression oder Kleinste Quadrate Schatzung denn dort mussen die ersten partiellen Ableitungen der Residuenquadratsumme nach bi displaystyle beta i gleich Null gesetzt werden um das Maximum bzw Minimum zu finden also fur b 0 displaystyle hat beta 0 i 1ne i 0 displaystyle textstyle sum nolimits i 1 n hat varepsilon i 0 bzw fur b k displaystyle hat beta k mit i 1nxije i 0 j 1 2 k displaystyle textstyle sum nolimits i 1 n x ij hat varepsilon i 0 j 1 2 ldots k siehe Algebraische Eigenschaften Werden die Regressionsparameter mittels der Kleinste Quadrate Schatzung geschatzt dann wird der Wert fur R2 displaystyle mathit R 2 automatisch maximiert da die Kleinste Quadrate Schatzung die Residuenquadratsumme minimiert Im Anschluss an die Zerlegung dividiert man die Quadratsummenzerlegungsformel durch die totale Quadratsumme und erhalt damit 1 i 1n y i y 2 i 1n yi y 2 i 1n yi y i 2 i 1n yi y 2 displaystyle 1 frac sum nolimits i 1 n hat y i overline y 2 sum nolimits i 1 n y i overline y 2 frac sum nolimits i 1 n y i hat y i 2 sum nolimits i 1 n y i overline y 2 oder i 1n y i y 2 i 1n yi y 2 1 i 1n yi y i 2 i 1n yi y 2 displaystyle frac sum nolimits i 1 n hat y i overline y 2 sum nolimits i 1 n y i overline y 2 1 frac sum nolimits i 1 n y i hat y i 2 sum nolimits i 1 n y i overline y 2 Das Verhaltnis der durch die Regression erklarten Quadratsumme zur gesamten Quadratsumme i 1n y i y 2 i 1n yi y 2 R2 displaystyle frac sum nolimits i 1 n hat y i overline y 2 sum nolimits i 1 n y i overline y 2 mathit R 2 wird Bestimmtheitsmass der Regression genannt Aus der Quadratsummenzerlegungsformel wird ersichtlich dass man das Bestimmtheitsmass auch als R2 SQESQT SQT SQRSQT 1 SQRSQT displaystyle mathit R 2 frac SQE SQT frac SQT SQR SQT 1 frac SQR SQT darstellen kann Wenn die obige Quadratsummenzerlegungsformel durch den Stichprobenumfang n displaystyle n beziehungsweise durch die Anzahl der Freiheitsgrade n 1 displaystyle n 1 dividiert wird erhalt man die Varianzzerlegungsformel sy2 sy 2 se 2 displaystyle s y 2 s hat y 2 s hat varepsilon 2 Die Varianzzerlegung stellt eine additive Zerlegung der Varianz der abhangigen Variablen totale Varianz bzw Gesamtvarianz sy2 displaystyle s y 2 in die Varianz der Schatzwerte sy 2 displaystyle s hat y 2 erklarte Varianz und die nicht erklarte Varianz se 2 displaystyle s hat varepsilon 2 auch Residualvarianz genannt dar Hierbei entspricht die Residualvarianz dem Maximum Likelihood Schatzer s 2 displaystyle tilde sigma 2 fur die Varianz der Storgrossen s2 displaystyle sigma 2 Aufgrund der Varianzzerlegung lasst sich das Bestimmtheitsmass auch als R2 sy 2 sy2 displaystyle mathit R 2 s hat y 2 s y 2 darstellen und wie folgt interpretieren Das Bestimmtheitsmass gibt an wie viel Varianzaufklarung alle erklarenden Variablen x1 x2 xn displaystyle x 1 x 2 ldots x n an der Varianz der abhangigen Variablen sy2 displaystyle s y 2 leisten Diese Interpretation ist jedoch nicht ganz korrekt da die Quadratsummen eigentlich unterschiedliche Freiheitsgrade aufweisen Diese Interpretation trifft eher auf das adjustierte Bestimmtheitsmass zu da hier die erwartungstreuen Varianzschatzer ins Verhaltnis gesetzt werden Im Gegensatz zur Varianzaufklarung beim Bestimmtheitsmass kann man bei der Varianzaufklarung in der Hauptkomponenten und Faktorenanalyse jeder Komponente bzw jedem Faktor seinen Beitrag zur Aufklarung der gesamten Varianz zuordnen Kent 1983 hat eine allgemeine Definition der Varianzaufklarung gegeben die auf dem Informationsmass von Fraser 1965 aufbaut Einfache lineare Regression durch den Ursprung Die blaue Regressionsgerade verlauft durch den Ursprung und die violette nicht da ein Ausreisser sie nach oben verschiebt Im Fall der einfachen linearen Regression durch den Ursprung Regression ohne Absolutglied das Absolutglied b0 displaystyle beta 0 wird nicht in die Regression miteinbezogen und daher verlauft die Regressionsgleichung durch den Koordinatenursprung lautet die konkrete empirische Regressionsgerade y b 1x displaystyle tilde y tilde beta 1 x wobei die Notation y b 1 displaystyle tilde y tilde beta 1 benutzt wird um von der allgemeinen Problemstellung der Schatzung eines Steigungsparameters mit Hinzunahme eines Absolutglieds zu unterscheiden Auch in einer einfachen linearen Regression durch den Ursprung lasst sich die Kleinste Quadrate Schatzung anwenden Sie liefert fur die Steigung b 1 i 1nxiyi i 1nxi2 displaystyle textstyle tilde beta 1 left textstyle sum nolimits i 1 n x i y i right left textstyle sum nolimits i 1 n x i 2 right Dieser Schatzer fur den Steigungsparameter b 1 displaystyle tilde beta 1 entspricht dem Schatzer fur den Steigungsparameter b1 displaystyle b 1 dann und nur dann wenn x 0 displaystyle overline x 0 Wenn fur das wahre Absolutglied b0 0 displaystyle beta 0 neq 0 gilt ist b 1 displaystyle tilde beta 1 ein verzerrter Schatzer fur den wahren Steigungsparameter b1 displaystyle beta 1 Wenn in eine Regressionsgleichung kein Absolutglied hinzugenommen wird nimmt der aus der obigen Quadratsummenzerlegungsformel entnommene Ausdruck i 1n yi yi y i y displaystyle textstyle sum nolimits i 1 n y i hat y i hat y i overline y nicht den Wert Null an Daher ist die oben angegebene Quadratsummenzerlegungsformel in diesem Fall nicht gultig Wenn das Modell der Regression durch den Ursprung eine hinreichend schlechte Anpassung an die Daten liefert d h die Daten variieren mehr um die Regressionslinie als um y displaystyle overline y was in SQR gt SQT displaystyle SQR gt SQT resultiert und man die allgemeine Definition des Bestimmtheitsmasses 1 SQR SQT displaystyle 1 SQR SQT anwendet dann fuhrt dies zu einem negativen Bestimmtheitsmass Nach dieser Definition kann R2 1 SQRSQT 1 yi b 1xi 2 yi y 2 displaystyle mathit R 2 1 frac SQR SQT 1 frac displaystyle sum nolimits left y i tilde beta 1 x i right 2 displaystyle sum nolimits y i overline y 2 also negativ werden Ein negatives Bestimmtheitsmass bedeutet dann dass das empirische Mittel der abhangigen Variablen y displaystyle overline y eine bessere Anpassung an die Daten liefert als wenn man die erklarenden Variablen xi displaystyle x i zur Schatzung benutzen wurde Um ein negatives Bestimmtheitsmass zu vermeiden wird eine modifizierte Form der Quadratsummenzerlegung angegeben i 1nyi2 nicht korrigierte totale Quadratsumme i 1ny i2 nichtkorrigierteerkla rteQuadratsumme i 1n yi y i 2 Residuenquadratsumme displaystyle underbrace sum nolimits i 1 n y i 2 text nicht korrigierte totale Quadratsumme underbrace sum nolimits i 1 n tilde y i 2 mathrm nicht korrigierte erkl ddot a rte Quadratsumme underbrace sum nolimits i 1 n left y i tilde y i right 2 text Residuenquadratsumme oder aquivalent dazuSQT0 SQE0 SQR displaystyle SQT 0 SQE 0 SQR Diese modifizierte Form der Quadratsummenzerlegung wird auch nicht korrigierte Quadratsummenzerlegung genannt da die erklarte und die totale Quadratsumme nicht um den empirischen Mittelwert korrigiert bzw zentriert werden Wenn man statt dem gewohnlichen SQT displaystyle SQT und SQE displaystyle SQE die modifizierten Quadratsummen SQT0 i 1nyi2 displaystyle SQT 0 textstyle sum nolimits i 1 n y i 2 und SQE0 i 1ny i2 displaystyle SQE 0 textstyle sum nolimits i 1 n tilde y i 2 benutzt ist das Bestimmtheitsmass gegeben durch R2 SQE0SQT0 y i2 yi2 1 SQRSQT0 1 yi b 1xi 2 yi2 displaystyle mathit R 2 equiv frac SQE 0 SQT 0 frac displaystyle sum nolimits tilde y i 2 displaystyle sum nolimits y i 2 1 frac SQR SQT 0 1 frac displaystyle sum nolimits left y i tilde beta 1 x i right 2 displaystyle sum nolimits y i 2 Dieses Bestimmtheitsmass ist strikt nichtnegativ und wird da es auf der nicht korrigierten Quadratsummenzerlegung aufbaut bei der nicht um den empirischen Mittelwert zentriert wird auch als unzentriertes Bestimmtheitsmass bezeichnet Zur Abgrenzung wird das konventionelle Bestimmtheitsmass auch als zentriertes Bestimmtheitsmass bezeichnet Bei einer Regression durch den Ursprung wird daher die modifizierte Form der Quadratsummenzerlegungsformel verwendet BeispieleKriegsschiffe Streudiagramm der Langen und Breiten zehn zufallig ausgewahlter Kriegsschiffe Folgendes Beispiel soll die Berechnung des Bestimmtheitsmasses zeigen Es wurden zufallig zehn Kriegsschiffe ausgewahlt siehe Kriegsschiffsdaten in dieser Ubersicht und bezuglich ihrer Lange und Breite in Metern analysiert Es soll untersucht werden ob die Breite eines Kriegsschiffs moglicherweise in einem festen Bezug zur Lange steht Das Streudiagramm lasst einen linearen Zusammenhang zwischen Lange und Breite eines Schiffs vermuten Eine mittels der Kleinste Quadrate Schatzung durchgefuhrte einfache lineare Regression ergibt fur das Absolutglied b0 8 6450715 displaystyle b 0 8 6450715 und die Steigung b1 0 1612340 displaystyle b 1 0 1612340 fur die Berechnung der Regressionsparameter siehe Beispiel mit einer Ausgleichsgeraden Die geschatzte Regressionsgerade lautet somit breite 8 6450715 0 1612340 la nge displaystyle widehat mathtt breite 8 6450715 0 1612340 cdot mathtt l ddot a nge Die Gleichung stellt die geschatzte Breite y breite displaystyle hat y widehat mathtt breite als Funktion der Lange x la nge displaystyle x mathtt l ddot a nge dar Die Funktion zeigt dass die Breite der ausgewahlten Kriegsschiffe grob einem Sechstel ihrer Lange entspricht Kriegsschiff Lange m Breite m yi displaystyle y i yi yi displaystyle y i cdot y i y i displaystyle hat y i e i displaystyle hat varepsilon i e i2 displaystyle hat varepsilon i 2 i displaystyle i xi displaystyle x i yi displaystyle y i yi y displaystyle y i overline y yi y 2 displaystyle y i overline y 2 y xi displaystyle hat y x i yi y i displaystyle y i hat y i yi y i 2 displaystyle y i hat y i 2 1 208 21 6 3 19 10 1761 24 8916 3 2916 10 83472 152 15 5 2 91 8 4681 15 8625 0 3625 0 13143 113 10 4 8 01 64 1601 9 5744 0 8256 0 68174 227 31 0 12 59 158 5081 27 9550 3 045 9 27205 137 13 0 5 41 29 2681 13 4440 0 4440 0 19716 238 32 4 13 99 195 7201 29 7286 2 6714 7 13627 178 19 0 0 59 0 3481 20 0546 1 0546 1 11228 104 10 4 8 01 64 1601 8 1233 2 2767 5 18359 191 19 0 0 59 0 3481 22 1506 3 1506 9 926510 130 11 8 6 61 43 6921 12 3154 0 5154 0 2656S 1678 184 1 574 8490 0 0000 44 7405S n 167 8 18 41 57 48490 0 0000 4 47405 Aus der Tabelle lasst sich erkennen dass der Gesamtmittelwert der Breite y 18 41m displaystyle overline y 18 41 text m betragt die totale Quadratsumme der Messwerte 574 849m2 displaystyle 574 849 text m 2 betragt und die Residuenquadratsumme 44 7405m2 displaystyle 44 7405 text m 2 betragt Daher ergibt sich das Bestimmtheitsmass zu R2 1 i 1n yi y i 2 i 1n yi y 2 1 44 7405574 8490 0 92217 displaystyle mathit R 2 1 frac displaystyle sum nolimits i 1 n y i hat y i 2 displaystyle sum nolimits i 1 n y i overline y 2 1 frac 44 7405 574 8490 0 92217 d h circa 92 displaystyle 92 der Streuung in der Kriegsschiffsbreite kann durch die lineare Regression von Kriegsschiffsbreite auf Kriegsschiffslange erklart werden Das Komplement des Bestimmtheitsmasses 1 R2 U2 displaystyle 1 mathit R 2 mathit U 2 wird auch Unbestimmtheitsmass auch Koeffizient der Nichtdetermination oder Alienationskoeffizient von lateinisch alienus fremd unbekannt genannt Bestimmtheits und Unbestimmtheitsmass addieren sich jeweils zu 1 displaystyle 1 Das Unbestimmtheitsmass U2 displaystyle mathit U 2 sagt im vorliegenden Beispiel aus dass knapp 1 R2 100 8 displaystyle 1 mathit R 2 cdot 100 approx 8 der Streuung in der Breite unerklart bleiben Hier konnte man z B nach weiteren Faktoren suchen welche die Breite eines Kriegsschiffes beeinflussen und sie in die Regressionsgleichung mit aufnehmen Vergleich mit dem Standardfehler der RegressionDie Qualitat der Regression kann auch mithilfe des geschatzten Standardfehlers der Residuen engl residual standard error beurteilt werden der zum Standardoutput der meisten statistischen Programmpakete gehort Der geschatzte Standardfehler der Residuen gibt an mit welcher Sicherheit die Residuen e i displaystyle hat varepsilon i den wahren Storgrossen ei displaystyle varepsilon i naherkommen Die Residuen sind somit eine Approximation der Storgrossen Der geschatzte Standardfehler der Residuen ist mit dem Bestimmtheitsmass und dem adjustierten Bestimmtheitsmass vergleichbar und ahnlich zu interpretieren Der geschatzte Standardfehler der Residuen der sich aus der obigen Tabelle berechnen lasst ergibt einen Wert von s 1n i 1ne i2 SQR n 2 1152 displaystyle tilde s sqrt tfrac 1 n sum nolimits i 1 n hat varepsilon i 2 sqrt SQR n 2 1152 Es ist jedoch zu beachten dass s 2 displaystyle tilde s 2 eine verzerrte Schatzung der wahren Varianz der Storgrossen se2 s2 displaystyle sigma varepsilon 2 sigma 2 ist da der verwendete Varianzschatzer nicht erwartungstreu ist Wenn man berucksichtigt dass man durch die Schatzung der beiden Regressionsparameter b0 displaystyle beta 0 und b1 displaystyle beta 1 zwei Freiheitsgrade verliert und somit statt durch den Stichprobenumfang n displaystyle n durch die Anzahl der Freiheitsgrade n 2 displaystyle n 2 dividiert erhalt man das mittlere Residuenquadrat MQR SQR n 2 displaystyle MQR SQR n 2 und damit die erwartungstreue Darstellung s 1n 2 i 1ne i2 MQR 2 3649 displaystyle hat sigma sqrt tfrac 1 n 2 sum nolimits i 1 n hat varepsilon i 2 sqrt MQR 2 3649 Die Darstellung ist unverzerrt da sie durch Einbezug der Freiheitsgrade der Varianzschatzer wegen E s 2 s2 displaystyle mathbb E hat sigma 2 sigma 2 unter den Gauss Markow Annahmen erwartungstreu ist siehe auch Schatzer fur die Varianz der Storgrossen Die unverzerrte Darstellung s displaystyle hat sigma wird im Regressionsoutput statistischer Software oft auch als Standardfehler der Schatzung oder Standardfehler der Regression engl standard error of the regression kurz SER bezeichnet Der Standardfehler der Regression wird als Quadratwurzel des mittleren Residuenquadrats berechnet und ist ein eigenstandiges Modellgutemass Er gibt an wie gross im Durchschnitt die Abweichung der Messwerte von der Regressionsgerade ausfallt Je grosser der Standardfehler der Regression desto schlechter beschreibt die Regressionsgerade die Verteilung der Messwerte Der Standardfehler der Regression ist in der Regel kleiner als der Standardfehler der Zielgrosse s y displaystyle hat sigma y Das Bestimmtheitsmass wird haufiger angegeben als der Standardfehler der Residuen obwohl der Standardfehler der Residuen bei der Bewertung Anpassungsgute moglicherweise aussagekraftiger ist Missverstandnisse Grenzen und KritikMissverstandnisse Neben den Vorteilen des Bestimmtheitsmasses es ist eine dimensionslose Grosse hat eine einfache Interpretation und liegt stets zwischen 0 displaystyle 0 und 1 displaystyle 1 wird das Bestimmtheitsmass immer wieder kritisiert und falsch angewendet Beispiele fur Daten mit einem hohen pink und einem niedrigen blau Bestimmtheitsmass bei einem zugrunde gelegten linearen ModellUbliche Missverstandnisse sind Bei einem hohen Bestimmtheitsmass fur einen Schatzer S displaystyle S konne man folgern dass der tatsachliche Zusammenhang linear sei Die pinken Daten in der Grafik wurden mit einer nichtlinearen Funktion generiert f x 43 x 0 9 1 4 displaystyle f x equiv tfrac 4 3 left x 0 9 right 1 4 dd Durch die Betragsfunktion im Term nimmt die Funktion f displaystyle f an der Stelle 0 9 displaystyle 0 9 ihr Maximum 1 4 displaystyle 1 4 an Fur hohere Werte von x gt 0 9 displaystyle x gt 0 9 fallt die Funktion dann streng monoton mit der Steigung 4 3 displaystyle 4 3 Damit ware der tatsachliche Zusammenhang in den Daten auch bei dem hohen Bestimmtheitsmass nach Konstruktion naturlich nicht linear Dennoch legt das hohe Bestimmtheitsmass nahe dass es sich um einen linearen Zusammenhang handelt Ein hohes Bestimmtheitsmass gebe an dass die geschatzte Regressionslinie uberall eine gute Approximation an die Daten darstellt die pinken Daten legen auch hier etwas anderes nahe Ein Bestimmtheitsmass nahe bei Null zeige an dass es keinen Zusammenhang zwischen der abhangigen und den unabhangigen Variablen gebe Die blauen Daten in der Grafik wurden mit der folgenden quadratischen Funktion g displaystyle g generiert und besitzen daher einen deterministischen funktionalen Zusammenhang der allerdings nicht linear istg x 1 1x2 1 1 displaystyle g x equiv 1 1x 2 1 1 dd Obwohl das Bestimmtheitsmass gleich Null ist lasst sich nicht daraus schliessen dass es keinen Zusammenhang zwischen der abhangigen und den unabhangigen Variablen fur die konstruierten Datenpunkte gibt Eine Regressionsanalyse fur nichtlineare Falle verallgemeinert die lineare Regression auf andere Klassen von Funktionen und mehrdimensionale Definitionsbereiche von g displaystyle g Wahlt man aus den Daten mit quadratischem Zusammenhang Parabel g displaystyle g nur die Datenpunkte mit positivem x displaystyle x Werten aus kann auch das Bestimmtheitsmass sehr hoch sein und bei einem nach Konstruktion der Daten gegebenen quadratischem Zusammenhang durch dd