Proportionale Fehlerreduktionsmaße proportionale Fehlerreduktion PFR englisch proportionate reduction of error kurz PRE
Proportionale Fehlerreduktionsmaße

Proportionale Fehlerreduktionsmaße (proportionale Fehlerreduktion (PFR) englisch proportionate reduction of error, kurz: PRE, daher auch PRE-Maße) geben indirekt die Stärke des Zusammenhangs zwischen zwei Variablen und an.
Definition
Proportionale Fehlerreduktionsmaße werden definiert als
- ,
wobei der Fehler bei der Vorhersage der abhängigen Variablen ohne Kenntnis des Zusammenhangs und der Fehler bei der Vorhersage der abhängigen Variablen mit Kenntnis des Zusammenhangs mit ist.
Da gilt (weil man annimmt, dass die Kenntnis des Zusammenhangs korrekt ist; der Vorhersagefehler nimmt also bei Verwendung der Kenntnis ab), folgt . Ein Wert von Eins bedeutet, dass bei Kenntnis der unabhängigen Variable der Wert der abhängigen Variable perfekt vorhergesagt werden kann. Ein Wert von Null bedeutet, dass die Kenntnis der unabhängigen Variablen keine Verbesserung in der Vorhersage der abhängigen Variable ergibt.
Der Vorteil ist, dass damit alle proportionalen Fehlerreduktionsmaße in gleicher Weise unabhängig vom Skalenniveau interpretiert werden können. Als Vergleichsmaßstab kann daher das Bestimmtheitsmaß dienen, da es ein proportionales Fehlerreduktionsmaß ist, oder folgende Daumenregel:
- : Keine Beziehung,
- : Schwache Beziehung,
- : Mittlere Beziehung und
- : Starke Beziehung.
Der Nachteil ist, dass
- die Richtung des Zusammenhangs nicht berücksichtigt werden kann, da Richtungen nur bei ordinalen oder metrischen Variablen angegeben werden können und
- die Größe der Fehlerreduktion davon abhängt, wie die Vorhersage unter Kenntnis des Zusammenhangs gemacht wird. Ein kleiner Wert des proportionalen Fehlerreduktionmaßes bedeutet nicht, dass es keinen Zusammenhang zwischen den Variablen gibt.
Da eine Variable abhängig und die andere unabhängig ist, unterscheidet man zwischen symmetrischen und asymmetrischen proportionalen Fehlerreduktionsmaßen:
Skalenniveau der | Maß | |||
---|---|---|---|---|
unabhängigen Variable X | abhängigen Variable Y | Name | Bemerkung | |
nominal | nominal | Goodman und Kruskals | Es gibt ein symmetrisches und ein asymmetrisches Maß. | |
nominal | nominal | Goodman und Kruskals | Es gibt ein symmetrisches und ein asymmetrisches Maß. | |
nominal | nominal | Unsicherheitskoeffizient oder Theils U | Es gibt ein symmetrisches und ein asymmetrisches Maß. | |
ordinal | ordinal | Goodman und Kruskals | Es gibt nur ein symmetrisches Maß. | |
nominal | metrisch | Es gibt nur ein asymmetrisches Maß. | ||
metrisch | metrisch | Bestimmtheitsmaß | Es gibt nur ein symmetrisches Maß. |
Bestimmtheitsmaß
Für die Vorhersage unter Unkenntnis des Zusammenhangs zwischen zwei metrischen Variablen und dürfen nur Werte der abhängigen Variablen benutzt werden. Der einfachste Ansatz ist , also die Annahme eines konstanten Wertes. Dieser Wert soll die Optimalitätseigenschaft erfüllen, also die Summe der Abweichungsquadrate minimieren. Daraus folgt, dass das arithmetische Mittel ist, also . Daher ist der Vorhersagefehler unter Unkenntnis des Zusammenhangs
- .
Für die Vorhersage unter Kenntnis des Zusammenhangs nutzen wir die lineare Regression aus:
- .
Das Bestimmtheitsmaß ist dann ein proportionales Fehlerreduktionsmaß, da gilt
Werden die Rollen der abhängigen und unabhängigen Variable vertauscht, so ergibt sich der gleiche Wert für . Daher gibt es nur ein symmetrisches Maß.
Goodman und Kruskals λ und τ
Goodman und Kruskals λ
Die Vorhersage unter Unkenntnis des Zusammenhangs ist die Modalkategorie der abhängigen Variable und der Vorhersagefehler
mit die absolute Häufigkeit in der Modalkategorie und die Anzahl der Beobachtungen.
Die Vorhersage unter Kenntnis des Zusammenhangs ist die Modalkategorie der abhängigen Variable in Abhängigkeit von den Kategorien der unabhängigen Variablen und der Vorhersagefehler ist
mit die absolute Häufigkeit für die jeweilige Kategorie der unabhängigen Variablen und die absolute Häufigkeit der Modalkategorie in Abhängigkeit von den Kategorien der unabhängigen Variablen.
Beispiel
Im Beispiel rechts ergibt sich für die abhängige Variable „Wahlabsicht Bundestagswahl“ bei Unkenntnis des Zusammenhangs als der Vorhersagewert „CDU/CSU“ und damit eine Fehlervorhersage .
Je nach Ausprägung der Variablen „Subjektive Schichteinstufung“ ergibt sich für die abhängige Variable „Wahlabsicht Bundestagswahl“ der Vorhersagewert „CDU/CSU“ (Kategorie: Mittelschicht, Obere Mittelschicht/Oberschicht), „SPD“ (Kategorie: Arbeiterschicht) oder „Andere Partei/Nichtwähler“ (alle anderen Kategorien). Der Vorhersagefehler und .
Das heißt, im vorliegenden Beispiel kann der Fehler bei der Vorhersage der Wahlabsicht der Bundestagswahl des Befragten um 3,1 % reduziert werden, wenn man seine eigene subjektive Schichteinstufung kennt.
Goodman und Kruskals τ
Bei Goodman und Kruskals wird als Vorhersagewert statt der Modalkategorie ein zufälliger gezogener Wert aus der Verteilung von Y angenommen, d. h. mit Wahrscheinlichkeit wird Kategorie 1 gezogen, mit Wahrscheinlichkeit wird Kategorie 2 gezogen und so weiter. Der Vorhersagefehler ergibt sich dann als
mit die absolute Häufigkeit der Kategorie der abhängigen Variablen. Analog ergibt sich der Vorhersagefehler , nur dass jetzt die Vorhersage entsprechend für jede Kategorie der unabhängigen Variablen gemacht wird und der Vorhersagefehler ergibt sich als Summe der gewichteten Vorhersagefehler in jeder Kategorie der unabhängigen Variablen.
mit die absolute Häufigkeit für das gemeinsame Auftreten der Kategorien und .
Symmetrische Maße
Für Goodman und Kruskals und können die Vorhersagefehler
- und , wenn die abhängige Variable ist, und
- und , wenn die abhängige Variable ist,
berechnet werden. Die symmetrischen Maße für Goodman und Kruskals und ergeben sich dann als
- .
Unsicherheitskoeffizient
Entropie
Der Unsicherheitskoeffizient misst die Unsicherheit der Information mit Hilfe der Entropie. Wenn die relative Häufigkeit des Auftretens der Kategorie ist, dann ist die Entropie oder Unsicherheit definiert als
Die Unsicherheit ist Null, wenn für alle möglichen Kategorien bis auf eine ist. Die Vorhersage, welchen Kategorienwert eine Variable annimmt, ist dann trivial. Ist (Gleichverteilung), dann ist die Unsicherheit und auch maximal.
Asymmetrischer Unsicherheitskoeffizient
Das Fehlermaß unter Unkenntnis des Zusammenhangs ist daher die Unsicherheit für die abhängige Variable
Das Fehlermaß unter Kenntnis des Zusammenhangs ist die gewichtete Summe der Unsicherheit für jede Kategorie der abhängigen Variablen
Dieser Ausdruck lässt auch schreiben als
mit die Unsicherheit basierend auf der gemeinsamen Verteilung von und und die Unsicherheit der unabhängigen Variable .
Der Unsicherheitskoeffizient ergibt sich dann als
Symmetrischer Unsicherheitskoeffizient
Für den Unsicherheitskoeffizient können die Vorhersagefehler
- und , wenn die abhängige Variable ist, und
- und , wenn die abhängige Variable ist,
berechnet werden. Der symmetrische Unsicherheitskoeffizient ergibt sich, wie bei Goodman and Kruskals und , als
- .
Goodman und Kruskals γ
sei die Zahl konkordanten Paare ( und ) und die Zahl diskordanten Paare ( und ). Wenn wir keine gemeinsamen Rangzahlen (Ties) haben und die Anzahl der Beobachtungen ist, dann gilt .
Unter Unkenntnis des Zusammenhangs können wir keine Aussage darüber machen, ob ein Paar konkordant oder diskordant ist. Daher sagen wir Wahrscheinlichkeit 0,5 ein konkordantes bzw. diskordantes Paar vorher. Der Gesamtfehler für alle möglichen Paare ergibt sich als
Unter Kenntnis des Zusammenhangs wird immer Konkordanz vorhergesagt, falls , oder immer Diskordanz, wenn . Der Fehler ist
und es folgt
Der Betrag von Goodman and Kruskals ist damit ein symmetrisches proportionales Fehlerreduktionsmaß.
η2
Wie bei dem Bestimmtheitsmaß ist der Vorhersagewert für die abhängige metrische Variable unter Unkenntnis des Zusammenhangs und der Vorhersagefehler
- .
Bei Kenntnis, zu welcher der Gruppen der nominale oder ordinale unabhängigen Variable die Beobachtung gehört, ist der Vorhersagewert gerade der Gruppenmittelwert . Der Vorhersagefehler ergibt sich als
mit , wenn die Beobachtung zur Gruppe gehört und sonst Null. Damit ergibt sich
- .
Die Rollen der abhängigen und unabhängigen Variablen können nicht vertauscht werden, da sie unterschiedliche Skalenniveaus haben. Deswegen gibt es nur ein (asymmetrisches) Maß.
In Cohen (1988) wird als Daumenregel angegeben:
- kein Zusammenhang,
- geringer Zusammenhang,
- mittlerer Zusammenhang und
- starker Zusammenhang.
Beispiel
In dem Beispiel kann der Fehler bei der Vorhersage des Nettoeinkommens bei Kenntnis der Schichteinstufung um , also knapp 10 %, reduziert werden. Das zweite ergibt sich, wenn man die Rolle der Variablen vertauscht, was aber hier unsinnig ist. Daher muss dieser Wert ignoriert werden.
Literatur
- Y.M.M. Bishop, S.E. Feinberg, P.W. Holland (1975). Discrete Multivariate Analysis: Theory and Practice. Cambridge, MA: MIT Press.
- L.C. Freemann (1986). Order-based Statistics and Monotonicity: A Family of Ordinal Measures of Association. Journal of Mathematical Sociology, 12(1), S. 49–68
- J. Bortz (2005). Statistik für Human- und Sozialwissenschaftler (6. Auflage), Springer Verlag.
- B. Rönz (2001). Skript "Computergestützte Statistik II", Humboldt-Universität zu Berlin, Lehrstuhl für Statistik.
Einzelnachweise
- J. Cohen (1988). Statistical Power Analysis for Behavioral Science. Erlbaum, Hilsdale.
- L.A. Goodman, W.H. Kruskal (1954). Measures of association for cross-classification. Journal of the American Statistical Association, 49, S. 732–764.
- H. Theil (1972), Statistical Decomposition Analysis, Amsterdam: North-Holland Publishing Company (diskutiert den Unsicherheitskoeffizient).
Autor: www.NiNa.Az
Veröffentlichungsdatum:
wikipedia, wiki, deutsches, deutschland, buch, bücher, bibliothek artikel lesen, herunterladen kostenlos kostenloser herunterladen, MP3, Video, MP4, 3GP, JPG, JPEG, GIF, PNG, Bild, Musik, Lied, Film, Buch, Spiel, Spiele, Mobiltelefon, Mobil, Telefon, android, ios, apple, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, pc, web, computer, komputer, Informationen zu Proportionale Fehlerreduktionsmaße, Was ist Proportionale Fehlerreduktionsmaße? Was bedeutet Proportionale Fehlerreduktionsmaße?
Proportionale Fehlerreduktionsmasse proportionale Fehlerreduktion PFR englisch proportionate reduction of error kurz PRE daher auch PRE Masse geben indirekt die Starke des Zusammenhangs zwischen zwei Variablen X displaystyle X und Y displaystyle Y an DefinitionProportionale Fehlerreduktionsmasse werden definiert als PRE E1 E2E1 1 E2E1 displaystyle PRE frac E 1 E 2 E 1 1 frac E 2 E 1 wobei E1 displaystyle E 1 der Fehler bei der Vorhersage der abhangigen Variablen Y displaystyle Y ohne Kenntnis des Zusammenhangs und E2 displaystyle E 2 der Fehler bei der Vorhersage der abhangigen Variablen Y displaystyle Y mit Kenntnis des Zusammenhangs mit X displaystyle X ist Da 0 E2 E1 displaystyle 0 leq E 2 leq E 1 gilt weil man annimmt dass die Kenntnis des Zusammenhangs korrekt ist der Vorhersagefehler nimmt also bei Verwendung der Kenntnis ab folgt 0 PRE 1 displaystyle 0 leq PRE leq 1 Ein Wert von Eins bedeutet dass bei Kenntnis der unabhangigen Variable der Wert der abhangigen Variable perfekt vorhergesagt werden kann Ein Wert von Null bedeutet dass die Kenntnis der unabhangigen Variablen keine Verbesserung in der Vorhersage der abhangigen Variable ergibt Der Vorteil ist dass damit alle proportionalen Fehlerreduktionsmasse in gleicher Weise unabhangig vom Skalenniveau interpretiert werden konnen Als Vergleichsmassstab kann daher das Bestimmtheitsmass dienen da es ein proportionales Fehlerreduktionsmass ist oder folgende Daumenregel PRE lt 0 1 displaystyle PRE lt 0 1 Keine Beziehung 0 1 PRE lt 0 3 displaystyle 0 1 leq PRE lt 0 3 Schwache Beziehung 0 3 PRE lt 0 5 displaystyle 0 3 leq PRE lt 0 5 Mittlere Beziehung und 0 5 PRE displaystyle 0 5 leq PRE Starke Beziehung Der Nachteil ist dass die Richtung des Zusammenhangs nicht berucksichtigt werden kann da Richtungen nur bei ordinalen oder metrischen Variablen angegeben werden konnen und die Grosse der Fehlerreduktion davon abhangt wie die Vorhersage unter Kenntnis des Zusammenhangs gemacht wird Ein kleiner Wert des proportionalen Fehlerreduktionmasses bedeutet nicht dass es keinen Zusammenhang zwischen den Variablen gibt Da eine Variable abhangig und die andere unabhangig ist unterscheidet man zwischen symmetrischen und asymmetrischen proportionalen Fehlerreduktionsmassen Skalenniveau der Massunabhangigen Variable X abhangigen Variable Y Name Bemerkungnominal nominal Goodman und Kruskals l displaystyle lambda Es gibt ein symmetrisches und ein asymmetrisches Mass nominal nominal Goodman und Kruskals t displaystyle tau Es gibt ein symmetrisches und ein asymmetrisches Mass nominal nominal Unsicherheitskoeffizient oder Theils U Es gibt ein symmetrisches und ein asymmetrisches Mass ordinal ordinal Goodman und Kruskals g displaystyle gamma Es gibt nur ein symmetrisches Mass nominal metrisch h2 displaystyle eta 2 Es gibt nur ein asymmetrisches Mass metrisch metrisch Bestimmtheitsmass R2 displaystyle R 2 Es gibt nur ein symmetrisches Mass BestimmtheitsmassFur die Vorhersage unter Unkenntnis des Zusammenhangs zwischen zwei metrischen Variablen X displaystyle X und Y displaystyle Y durfen nur Werte der abhangigen Variablen Y displaystyle Y benutzt werden Der einfachste Ansatz ist y i 1 c displaystyle hat y i 1 c also die Annahme eines konstanten Wertes Dieser Wert soll die Optimalitatseigenschaft c minc i 1n yi c 2 displaystyle c min tilde c sum i 1 n y i tilde c 2 erfullen also die Summe der Abweichungsquadrate minimieren Daraus folgt dass c displaystyle c das arithmetische Mittel ist also c y displaystyle c bar y Daher ist der Vorhersagefehler unter Unkenntnis des Zusammenhangs E1 i 1n yi y i 1 2 i 1n yi y 2 displaystyle E 1 sum i 1 n y i hat y i 1 2 sum i 1 n y i bar y 2 Fur die Vorhersage unter Kenntnis des Zusammenhangs nutzen wir die lineare Regression y i 2 b0 b1xi displaystyle hat y i 2 b 0 b 1 x i aus E2 i 1n yi y i 2 2 i 1n yi b0 b1xi 2 displaystyle E 2 sum i 1 n y i hat y i 2 2 sum i 1 n y i b 0 b 1 x i 2 Das Bestimmtheitsmass R2 displaystyle R 2 ist dann ein proportionales Fehlerreduktionsmass da gilt R2 1 E2E1 1 i 1n yi y i 2 2 i 1n yi y 2 displaystyle R 2 1 frac E 2 E 1 1 frac displaystyle sum i 1 n y i hat y i 2 2 displaystyle sum i 1 n y i bar y 2 Werden die Rollen der abhangigen und unabhangigen Variable vertauscht so ergibt sich der gleiche Wert fur R2 displaystyle R 2 Daher gibt es nur ein symmetrisches Mass Goodman und Kruskals l und tBerechnung von Goodman und Kruskals l displaystyle lambda und t displaystyle tau fur die Variablen Subjektive Schichteinstufung des Befragten und Wahlabsicht in der Bundestagswahl der ALLBUS Daten 2006 Goodman und Kruskals l Die Vorhersage unter Unkenntnis des Zusammenhangs ist die Modalkategorie der abhangigen Variable und der Vorhersagefehler E1 1 hMn displaystyle E 1 1 frac h M n mit hM displaystyle h M die absolute Haufigkeit in der Modalkategorie und n displaystyle n die Anzahl der Beobachtungen Die Vorhersage unter Kenntnis des Zusammenhangs ist die Modalkategorie der abhangigen Variable in Abhangigkeit von den Kategorien der unabhangigen Variablen und der Vorhersagefehler ist E2 jh jn 1 hM jh j displaystyle E 2 sum j frac h bullet j n left 1 frac h M j h bullet j right mit h j displaystyle h bullet j die absolute Haufigkeit fur die jeweilige Kategorie der unabhangigen Variablen und hM j displaystyle h M j die absolute Haufigkeit der Modalkategorie in Abhangigkeit von den Kategorien der unabhangigen Variablen Beispiel Im Beispiel rechts ergibt sich fur die abhangige Variable Wahlabsicht Bundestagswahl bei Unkenntnis des Zusammenhangs als der Vorhersagewert CDU CSU und damit eine Fehlervorhersage E1 1 770 2660 0 711 displaystyle E 1 1 770 2660 0 711 Je nach Auspragung der Variablen Subjektive Schichteinstufung ergibt sich fur die abhangige Variable Wahlabsicht Bundestagswahl der Vorhersagewert CDU CSU Kategorie Mittelschicht Obere Mittelschicht Oberschicht SPD Kategorie Arbeiterschicht oder Andere Partei Nichtwahler alle anderen Kategorien Der Vorhersagefehler E2 91 2660 1 27 91 953 2660 1 264 953 21 2660 1 6 21 0 689 displaystyle E 2 91 2660 cdot 1 27 91 953 2660 cdot 1 264 953 dots 21 2660 cdot 1 6 21 0 689 und l 1 0 689 0 711 0 031 displaystyle lambda 1 0 689 0 711 0 031 Das heisst im vorliegenden Beispiel kann der Fehler bei der Vorhersage der Wahlabsicht der Bundestagswahl des Befragten um 3 1 reduziert werden wenn man seine eigene subjektive Schichteinstufung kennt Goodman und Kruskals t Bei Goodman und Kruskals t displaystyle tau wird als Vorhersagewert statt der Modalkategorie ein zufalliger gezogener Wert aus der Verteilung von Y angenommen d h mit Wahrscheinlichkeit h1 n displaystyle h 1 bullet n wird Kategorie 1 gezogen mit Wahrscheinlichkeit h2 n displaystyle h 2 bullet n wird Kategorie 2 gezogen und so weiter Der Vorhersagefehler ergibt sich dann als E1 khk n 1 hk n displaystyle E 1 sum k frac h k bullet n left 1 frac h k bullet n right mit hk displaystyle h k bullet die absolute Haufigkeit der Kategorie k displaystyle k der abhangigen Variablen Analog ergibt sich der Vorhersagefehler E2 displaystyle E 2 nur dass jetzt die Vorhersage entsprechend fur jede Kategorie der unabhangigen Variablen gemacht wird und der Vorhersagefehler E2 displaystyle E 2 ergibt sich als Summe der gewichteten Vorhersagefehler in jeder Kategorie der unabhangigen Variablen E2 jh jn khk jh j 1 hk jh j displaystyle E 2 sum j frac h bullet j n left sum k frac h k j h bullet j left 1 frac h k j h bullet j right right mit hk j displaystyle h k j die absolute Haufigkeit fur das gemeinsame Auftreten der Kategorien i displaystyle i und j displaystyle j Symmetrische Masse Fur Goodman und Kruskals l displaystyle lambda und t displaystyle tau konnen die Vorhersagefehler E1Y displaystyle E 1 Y und E2Y displaystyle E 2 Y wenn Y displaystyle Y die abhangige Variable ist und E1X displaystyle E 1 X und E2X displaystyle E 2 X wenn X displaystyle X die abhangige Variable ist berechnet werden Die symmetrischen Masse fur Goodman und Kruskals l displaystyle lambda und t displaystyle tau ergeben sich dann als E1X E2X E1Y E2Y E1X E1Y displaystyle frac E 1 X E 2 X E 1 Y E 2 Y E 1 X E 1 Y UnsicherheitskoeffizientEntropie Der Unsicherheitskoeffizient misst die Unsicherheit der Information mit Hilfe der Entropie Wenn fk displaystyle f k die relative Haufigkeit des Auftretens der Kategorie k displaystyle k ist dann ist die Entropie oder Unsicherheit definiert als U kfklog fk displaystyle U sum k f k log f k Die Unsicherheit U displaystyle U ist Null wenn fur alle moglichen Kategorien bis auf eine fk 0 displaystyle f k 0 ist Die Vorhersage welchen Kategorienwert eine Variable annimmt ist dann trivial Ist fk 1 k displaystyle f k 1 k Gleichverteilung dann ist die Unsicherheit U log k displaystyle U log k und auch maximal Asymmetrischer Unsicherheitskoeffizient Das Fehlermass unter Unkenntnis des Zusammenhangs ist daher die Unsicherheit UY displaystyle U Y fur die abhangige Variable E1 khk nlog hk n UY displaystyle E 1 sum k frac h k bullet n log left frac h k bullet n right U Y Das Fehlermass unter Kenntnis des Zusammenhangs ist die gewichtete Summe der Unsicherheit fur jede Kategorie der abhangigen Variablen E2 jh jn khk jh jlog hk jh j Unsicherheit in Kategorie jder unabhangigen Variable displaystyle E 2 sum j frac h bullet j n underbrace left sum k frac h k j h bullet j log left frac h k j h bullet j right right begin matrix text Unsicherheit in Kategorie j text der unabhangigen Variable end matrix Dieser Ausdruck lasst auch schreiben als E2 UXY UX j khk jnlog hk jn jh jnlog h jn displaystyle E 2 U XY U X left sum j k frac h k j n log left frac h k j n right right left sum j frac h bullet j n log left frac h bullet j n right right mit UXY displaystyle U XY die Unsicherheit basierend auf der gemeinsamen Verteilung von X displaystyle X und Y displaystyle Y und UX displaystyle U X die Unsicherheit der unabhangigen Variable X displaystyle X Der Unsicherheitskoeffizient ergibt sich dann als Uasym E1 E2E1 UX UY UXYUY displaystyle U text asym frac E 1 E 2 E 1 frac U X U Y U XY U Y Symmetrischer Unsicherheitskoeffizient Fur den Unsicherheitskoeffizient konnen die Vorhersagefehler E1Y displaystyle E 1 Y und E2Y displaystyle E 2 Y wenn Y displaystyle Y die abhangige Variable ist und E1X displaystyle E 1 X und E2X displaystyle E 2 X wenn X displaystyle X die abhangige Variable ist berechnet werden Der symmetrische Unsicherheitskoeffizient ergibt sich wie bei Goodman and Kruskals l displaystyle lambda und t displaystyle tau als Usym E1X E2X E1Y E2Y E1X E1Y 2 UX UY UXY UX UY displaystyle U text sym frac E 1 X E 2 X E 1 Y E 2 Y E 1 X E 1 Y frac 2 U X U Y U XY U X U Y Goodman und Kruskals gC displaystyle C sei die Zahl konkordanten Paare xi lt xj displaystyle x i lt x j und yi lt yj displaystyle y i lt y j und D displaystyle D die Zahl diskordanten Paare xi lt xj displaystyle x i lt x j und yi gt yj displaystyle y i gt y j Wenn wir keine gemeinsamen Rangzahlen Ties haben und n displaystyle n die Anzahl der Beobachtungen ist dann gilt C D n n 1 2 displaystyle C D n n 1 2 Unter Unkenntnis des Zusammenhangs konnen wir keine Aussage daruber machen ob ein Paar konkordant oder diskordant ist Daher sagen wir Wahrscheinlichkeit 0 5 ein konkordantes bzw diskordantes Paar vorher Der Gesamtfehler fur alle moglichen Paare ergibt sich als E1 C D2 displaystyle E 1 frac C D 2 Unter Kenntnis des Zusammenhangs wird immer Konkordanz vorhergesagt falls C D displaystyle C geq D oder immer Diskordanz wenn C lt D displaystyle C lt D Der Fehler ist E2 min C D D falls C DC falls C lt D displaystyle E 2 min C D left begin matrix D amp text falls C geq D C amp text falls C lt D end matrix right und es folgt E1 E2E1 C D2 min C D C D2 C D C D g displaystyle frac E 1 E 2 E 1 frac frac C D 2 min C D frac C D 2 frac C D C D gamma Der Betrag von Goodman and Kruskals g displaystyle gamma ist damit ein symmetrisches proportionales Fehlerreduktionsmass h2Berechnung von h displaystyle eta fur die Variablen Nettoeinkommen des Befragten abhangig und Subjektive Schichteinstufung des Befragten unabhangig der ALLBUS Daten 2006 Wie bei dem Bestimmtheitsmass ist der Vorhersagewert fur die abhangige metrische Variable unter Unkenntnis des Zusammenhangs y displaystyle bar y und der Vorhersagefehler E1 i 1n yi y 2 displaystyle E 1 sum i 1 n y i bar y 2 Bei Kenntnis zu welcher der Gruppen der nominale oder ordinale unabhangigen Variable die Beobachtung gehort ist der Vorhersagewert gerade der Gruppenmittelwert y k displaystyle bar y k Der Vorhersagefehler ergibt sich als E2 k i 1n yi y k 2dik displaystyle E 2 sum k sum i 1 n y i bar y k 2 delta ik mit dik 1 falls i k0 sonst displaystyle delta ik left begin matrix 1 amp text falls i k 0 amp text sonst end matrix right wenn die Beobachtung i displaystyle i zur Gruppe k displaystyle k gehort und sonst Null Damit ergibt sich h2 1 E2E1 1 k i 1n yi y k 2dik i 1n yi y 2 displaystyle eta 2 1 frac E 2 E 1 1 frac sum k sum i 1 n y i bar y k 2 delta ik sum i 1 n y i bar y 2 Die Rollen der abhangigen und unabhangigen Variablen konnen nicht vertauscht werden da sie unterschiedliche Skalenniveaus haben Deswegen gibt es nur ein asymmetrisches Mass In Cohen 1988 wird als Daumenregel angegeben h2 lt 0 01 displaystyle eta 2 lt 0 01 kein Zusammenhang 0 01 h2 lt 0 06 displaystyle 0 01 leq eta 2 lt 0 06 geringer Zusammenhang 0 06 h2 lt 0 14 displaystyle 0 06 leq eta 2 lt 0 14 mittlerer Zusammenhang und 0 14 h2 displaystyle 0 14 leq eta 2 starker Zusammenhang Beispiel In dem Beispiel kann der Fehler bei der Vorhersage des Nettoeinkommens bei Kenntnis der Schichteinstufung um 0 3062 0 094 displaystyle 0 306 2 0 094 also knapp 10 reduziert werden Das zweite h displaystyle eta ergibt sich wenn man die Rolle der Variablen vertauscht was aber hier unsinnig ist Daher muss dieser Wert ignoriert werden LiteraturY M M Bishop S E Feinberg P W Holland 1975 Discrete Multivariate Analysis Theory and Practice Cambridge MA MIT Press L C Freemann 1986 Order based Statistics and Monotonicity A Family of Ordinal Measures of Association Journal of Mathematical Sociology 12 1 S 49 68 J Bortz 2005 Statistik fur Human und Sozialwissenschaftler 6 Auflage Springer Verlag B Ronz 2001 Skript Computergestutzte Statistik II Humboldt Universitat zu Berlin Lehrstuhl fur Statistik EinzelnachweiseJ Cohen 1988 Statistical Power Analysis for Behavioral Science Erlbaum Hilsdale L A Goodman W H Kruskal 1954 Measures of association for cross classification Journal of the American Statistical Association 49 S 732 764 H Theil 1972 Statistical Decomposition Analysis Amsterdam North Holland Publishing Company diskutiert den Unsicherheitskoeffizient