Azərbaycan  AzərbaycanDeutschland  DeutschlandLietuva  LietuvaMalta  Maltaශ්‍රී ලංකාව  ශ්‍රී ලංකාවTürkmenistan  TürkmenistanTürkiyə  TürkiyəУкраина  Украина
Unterstützung
www.datawiki.de-de.nina.az
  • Heim

Proportionale Fehlerreduktionsmaße proportionale Fehlerreduktion PFR englisch proportionate reduction of error kurz PRE

Proportionale Fehlerreduktionsmaße

  • Startseite
  • Proportionale Fehlerreduktionsmaße
Proportionale Fehlerreduktionsmaße
www.datawiki.de-de.nina.azhttps://www.datawiki.de-de.nina.az

Proportionale Fehlerreduktionsmaße (proportionale Fehlerreduktion (PFR) englisch proportionate reduction of error, kurz: PRE, daher auch PRE-Maße) geben indirekt die Stärke des Zusammenhangs zwischen zwei Variablen X{\displaystyle X} und Y{\displaystyle Y} an.

Definition

Proportionale Fehlerreduktionsmaße werden definiert als

PRE=E1−E2E1=1−E2E1{\displaystyle PRE={\frac {E_{1}-E_{2}}{E_{1}}}=1-{\frac {E_{2}}{E_{1}}}},

wobei E1{\displaystyle E_{1}} der Fehler bei der Vorhersage der abhängigen Variablen Y{\displaystyle Y} ohne Kenntnis des Zusammenhangs und E2{\displaystyle E_{2}} der Fehler bei der Vorhersage der abhängigen Variablen Y{\displaystyle Y} mit Kenntnis des Zusammenhangs mit X{\displaystyle X} ist.

Da 0≤E2≤E1{\displaystyle 0\leq E_{2}\leq E_{1}} gilt (weil man annimmt, dass die Kenntnis des Zusammenhangs korrekt ist; der Vorhersagefehler nimmt also bei Verwendung der Kenntnis ab), folgt 0≤PRE≤1{\displaystyle 0\leq PRE\leq 1}. Ein Wert von Eins bedeutet, dass bei Kenntnis der unabhängigen Variable der Wert der abhängigen Variable perfekt vorhergesagt werden kann. Ein Wert von Null bedeutet, dass die Kenntnis der unabhängigen Variablen keine Verbesserung in der Vorhersage der abhängigen Variable ergibt.

Der Vorteil ist, dass damit alle proportionalen Fehlerreduktionsmaße in gleicher Weise unabhängig vom Skalenniveau interpretiert werden können. Als Vergleichsmaßstab kann daher das Bestimmtheitsmaß dienen, da es ein proportionales Fehlerreduktionsmaß ist, oder folgende Daumenregel:

  • PRE<0,1{\displaystyle PRE<0{,}1}: Keine Beziehung,
  • 0,1≤PRE<0,3{\displaystyle 0{,}1\leq PRE<0{,}3}: Schwache Beziehung,
  • 0,3≤PRE<0,5{\displaystyle 0{,}3\leq PRE<0{,}5}: Mittlere Beziehung und
  • 0,5≤PRE{\displaystyle 0{,}5\leq PRE}: Starke Beziehung.

Der Nachteil ist, dass

  • die Richtung des Zusammenhangs nicht berücksichtigt werden kann, da Richtungen nur bei ordinalen oder metrischen Variablen angegeben werden können und
  • die Größe der Fehlerreduktion davon abhängt, wie die Vorhersage unter Kenntnis des Zusammenhangs gemacht wird. Ein kleiner Wert des proportionalen Fehlerreduktionmaßes bedeutet nicht, dass es keinen Zusammenhang zwischen den Variablen gibt.

Da eine Variable abhängig und die andere unabhängig ist, unterscheidet man zwischen symmetrischen und asymmetrischen proportionalen Fehlerreduktionsmaßen:

Skalenniveau der Maß
unabhängigen Variable X abhängigen Variable Y Name Bemerkung
nominal nominal Goodman und Kruskals λ{\displaystyle \lambda } Es gibt ein symmetrisches und ein asymmetrisches Maß.
nominal nominal Goodman und Kruskals τ{\displaystyle \tau } Es gibt ein symmetrisches und ein asymmetrisches Maß.
nominal nominal Unsicherheitskoeffizient oder Theils U Es gibt ein symmetrisches und ein asymmetrisches Maß.
ordinal ordinal Goodman und Kruskals γ{\displaystyle \gamma } Es gibt nur ein symmetrisches Maß.
nominal metrisch η2{\displaystyle \eta ^{2}} Es gibt nur ein asymmetrisches Maß.
metrisch metrisch Bestimmtheitsmaß R2{\displaystyle R^{2}} Es gibt nur ein symmetrisches Maß.

Bestimmtheitsmaß

Für die Vorhersage unter Unkenntnis des Zusammenhangs zwischen zwei metrischen Variablen X{\displaystyle X} und Y{\displaystyle Y} dürfen nur Werte der abhängigen Variablen Y{\displaystyle Y} benutzt werden. Der einfachste Ansatz ist y^i(1)=c{\displaystyle {\hat {y}}_{i}^{(1)}=c}, also die Annahme eines konstanten Wertes. Dieser Wert soll die Optimalitätseigenschaft c=minc~∑i=1n(yi−c~)2{\displaystyle c=\min _{\tilde {c}}\sum _{i=1}^{n}(y_{i}-{\tilde {c}})^{2}} erfüllen, also die Summe der Abweichungsquadrate minimieren. Daraus folgt, dass c{\displaystyle c} das arithmetische Mittel ist, also c=y¯{\displaystyle c={\bar {y}}}. Daher ist der Vorhersagefehler unter Unkenntnis des Zusammenhangs

E1=∑i=1n(yi−y^i(1))2=∑i=1n(yi−y¯)2{\displaystyle E_{1}=\sum _{i=1}^{n}(y_{i}-{\hat {y}}_{i}^{(1)})^{2}=\sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2}}.

Für die Vorhersage unter Kenntnis des Zusammenhangs nutzen wir die lineare Regression y^i(2)=b0+b1xi{\displaystyle {\hat {y}}_{i}^{(2)}=b_{0}+b_{1}x_{i}} aus:

E2=∑i=1n(yi−y^i(2))2=∑i=1n(yi−b0−b1xi)2{\displaystyle E_{2}=\sum _{i=1}^{n}(y_{i}-{\hat {y}}_{i}^{(2)})^{2}=\sum _{i=1}^{n}(y_{i}-b_{0}-b_{1}x_{i})^{2}}.

Das Bestimmtheitsmaß R2{\displaystyle R^{2}} ist dann ein proportionales Fehlerreduktionsmaß, da gilt

R2=1−E2E1=1−∑i=1n(yi−y^i(2))2∑i=1n(yi−y¯)2.{\displaystyle R^{2}=1-{\frac {E_{2}}{E_{1}}}=1-{\frac {\displaystyle \sum _{i=1}^{n}(y_{i}-{\hat {y}}_{i}^{(2)})^{2}}{\displaystyle \sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2}}}.}

Werden die Rollen der abhängigen und unabhängigen Variable vertauscht, so ergibt sich der gleiche Wert für R2{\displaystyle R^{2}}. Daher gibt es nur ein symmetrisches Maß.

Goodman und Kruskals λ und τ

Goodman und Kruskals λ

Die Vorhersage unter Unkenntnis des Zusammenhangs ist die Modalkategorie der abhängigen Variable und der Vorhersagefehler

E1=1−hMn{\displaystyle E_{1}=1-{\frac {h_{M}}{n}}}

mit hM{\displaystyle h_{M}} die absolute Häufigkeit in der Modalkategorie und n{\displaystyle n} die Anzahl der Beobachtungen.

Die Vorhersage unter Kenntnis des Zusammenhangs ist die Modalkategorie der abhängigen Variable in Abhängigkeit von den Kategorien der unabhängigen Variablen und der Vorhersagefehler ist

E2=∑jh∙,jn(1−hM,jh∙,j){\displaystyle E_{2}=\sum _{j}{\frac {h_{\bullet ,j}}{n}}\left(1-{\frac {h_{M,j}}{h_{\bullet ,j}}}\right)}

mit h∙,j{\displaystyle h_{\bullet ,j}} die absolute Häufigkeit für die jeweilige Kategorie der unabhängigen Variablen und hM,j{\displaystyle h_{M,j}} die absolute Häufigkeit der Modalkategorie in Abhängigkeit von den Kategorien der unabhängigen Variablen.

Beispiel

Im Beispiel rechts ergibt sich für die abhängige Variable „Wahlabsicht Bundestagswahl“ bei Unkenntnis des Zusammenhangs als der Vorhersagewert „CDU/CSU“ und damit eine Fehlervorhersage E1=1−770/2660=0,711{\displaystyle E_{1}=1-770/2660=0{,}711}.

Je nach Ausprägung der Variablen „Subjektive Schichteinstufung“ ergibt sich für die abhängige Variable „Wahlabsicht Bundestagswahl“ der Vorhersagewert „CDU/CSU“ (Kategorie: Mittelschicht, Obere Mittelschicht/Oberschicht), „SPD“ (Kategorie: Arbeiterschicht) oder „Andere Partei/Nichtwähler“ (alle anderen Kategorien). Der Vorhersagefehler E2=91/2660⋅(1−27/91)+953/2660⋅(1−264/953)+⋯+21/2660⋅(1−6/21)=0,689{\displaystyle {E_{2}=91/2660\cdot (1-27/91)+953/2660\cdot (1-264/953)+\dots +21/2660\cdot (1-6/21)=0{,}689}} und λ=1−0,689/0,711=0,031{\displaystyle \lambda =1-0{,}689/0{,}711=0{,}031}.

Das heißt, im vorliegenden Beispiel kann der Fehler bei der Vorhersage der Wahlabsicht der Bundestagswahl des Befragten um 3,1 % reduziert werden, wenn man seine eigene subjektive Schichteinstufung kennt.

Goodman und Kruskals τ

Bei Goodman und Kruskals τ{\displaystyle \tau } wird als Vorhersagewert statt der Modalkategorie ein zufälliger gezogener Wert aus der Verteilung von Y angenommen, d. h. mit Wahrscheinlichkeit h1,∙/n{\displaystyle h_{1,\bullet }/n} wird Kategorie 1 gezogen, mit Wahrscheinlichkeit h2,∙/n{\displaystyle h_{2,\bullet }/n} wird Kategorie 2 gezogen und so weiter. Der Vorhersagefehler ergibt sich dann als

E1=∑khk,∙n(1−hk,∙n){\displaystyle E_{1}=\sum _{k}{\frac {h_{k,\bullet }}{n}}\left(1-{\frac {h_{k,\bullet }}{n}}\right)}

mit hk,∙{\displaystyle h_{k,\bullet }} die absolute Häufigkeit der Kategorie k{\displaystyle k} der abhängigen Variablen. Analog ergibt sich der Vorhersagefehler E2{\displaystyle E_{2}}, nur dass jetzt die Vorhersage entsprechend für jede Kategorie der unabhängigen Variablen gemacht wird und der Vorhersagefehler E2{\displaystyle E_{2}} ergibt sich als Summe der gewichteten Vorhersagefehler in jeder Kategorie der unabhängigen Variablen.

E2=∑jh∙,jn(∑khk,jh∙,j(1−hk,jh∙,j)){\displaystyle E_{2}=\sum _{j}{\frac {h_{\bullet ,j}}{n}}\left(\sum _{k}{\frac {h_{k,j}}{h_{\bullet ,j}}}\left(1-{\frac {h_{k,j}}{h_{\bullet ,j}}}\right)\right)}

mit hk,j{\displaystyle h_{k,j}} die absolute Häufigkeit für das gemeinsame Auftreten der Kategorien i{\displaystyle i} und j{\displaystyle j}.

Symmetrische Maße

Für Goodman und Kruskals λ{\displaystyle \lambda } und τ{\displaystyle \tau } können die Vorhersagefehler

  • E1Y{\displaystyle E_{1}^{Y}} und E2Y{\displaystyle E_{2}^{Y}}, wenn Y{\displaystyle Y} die abhängige Variable ist, und
  • E1X{\displaystyle E_{1}^{X}} und E2X{\displaystyle E_{2}^{X}}, wenn X{\displaystyle X} die abhängige Variable ist,

berechnet werden. Die symmetrischen Maße für Goodman und Kruskals λ{\displaystyle \lambda } und τ{\displaystyle \tau } ergeben sich dann als

(E1X−E2X)+(E1Y−E2Y)E1X+E1Y{\displaystyle {\frac {(E_{1}^{X}-E_{2}^{X})+(E_{1}^{Y}-E_{2}^{Y})}{E_{1}^{X}+E_{1}^{Y}}}}.

Unsicherheitskoeffizient

Entropie

Der Unsicherheitskoeffizient misst die Unsicherheit der Information mit Hilfe der Entropie. Wenn fk{\displaystyle f_{k}} die relative Häufigkeit des Auftretens der Kategorie k{\displaystyle k} ist, dann ist die Entropie oder Unsicherheit definiert als

U=−∑kfklog⁡(fk).{\displaystyle U=-\sum _{k}f_{k}\,\log(f_{k}).}

Die Unsicherheit U{\displaystyle U} ist Null, wenn für alle möglichen Kategorien bis auf eine fk=0{\displaystyle f_{k}=0} ist. Die Vorhersage, welchen Kategorienwert eine Variable annimmt, ist dann trivial. Ist fk=1/k{\displaystyle f_{k}=1/k} (Gleichverteilung), dann ist die Unsicherheit U=log⁡(k){\displaystyle U=\log(k)} und auch maximal.

Asymmetrischer Unsicherheitskoeffizient

Das Fehlermaß unter Unkenntnis des Zusammenhangs ist daher die Unsicherheit UY{\displaystyle U_{Y}} für die abhängige Variable

E1=−∑khk,∙nlog⁡(hk,∙n)=UY.{\displaystyle E_{1}=-\sum _{k}{\frac {h_{k,\bullet }}{n}}\log \left({\frac {h_{k,\bullet }}{n}}\right)=U_{Y}.}

Das Fehlermaß unter Kenntnis des Zusammenhangs ist die gewichtete Summe der Unsicherheit für jede Kategorie der abhängigen Variablen

E2=∑jh∙,jn[−∑khk,jh∙,jlog⁡(hk,jh∙,j)]⏟Unsicherheit in Kategorie jder unabhängigen Variable.{\displaystyle E_{2}=\sum _{j}{\frac {h_{\bullet ,j}}{n}}\underbrace {\left[-\sum _{k}{\frac {h_{k,j}}{h_{\bullet ,j}}}\log \left({\frac {h_{k,j}}{h_{\bullet ,j}}}\right)\right]} _{\begin{matrix}{\text{Unsicherheit in Kategorie }}j\\{\text{der unabhängigen Variable}}\end{matrix}}.}

Dieser Ausdruck lässt auch schreiben als

E2=UXY−UX=[−∑j,khk,jnlog⁡(hk,jn)]−[−∑jh∙,jnlog⁡(h∙,jn)]{\displaystyle E_{2}=U_{XY}-U_{X}=\left[-\sum _{j,k}{\frac {h_{k,j}}{n}}\log \left({\frac {h_{k,j}}{n}}\right)\right]-\left[-\sum _{j}{\frac {h_{\bullet ,j}}{n}}\log \left({\frac {h_{\bullet ,j}}{n}}\right)\right]}

mit UXY{\displaystyle U_{XY}} die Unsicherheit basierend auf der gemeinsamen Verteilung von X{\displaystyle X} und Y{\displaystyle Y} und UX{\displaystyle U_{X}} die Unsicherheit der unabhängigen Variable X{\displaystyle X}.

Der Unsicherheitskoeffizient ergibt sich dann als

Uasym.=E1−E2E1=UX+UY−UXYUY.{\displaystyle U_{\text{asym.}}={\frac {E_{1}-E_{2}}{E_{1}}}={\frac {U_{X}+U_{Y}-U_{XY}}{U_{Y}}}.}

Symmetrischer Unsicherheitskoeffizient

Für den Unsicherheitskoeffizient können die Vorhersagefehler

  • E1Y{\displaystyle E_{1}^{Y}} und E2Y{\displaystyle E_{2}^{Y}}, wenn Y{\displaystyle Y} die abhängige Variable ist, und
  • E1X{\displaystyle E_{1}^{X}} und E2X{\displaystyle E_{2}^{X}}, wenn X{\displaystyle X} die abhängige Variable ist,

berechnet werden. Der symmetrische Unsicherheitskoeffizient ergibt sich, wie bei Goodman and Kruskals λ{\displaystyle \lambda } und τ{\displaystyle \tau }, als

Usym.=(E1X−E2X)+(E1Y−E2Y)E1X+E1Y=2(UX+UY−UXY)UX+UY{\displaystyle U_{\text{sym.}}={\frac {(E_{1}^{X}-E_{2}^{X})+(E_{1}^{Y}-E_{2}^{Y})}{E_{1}^{X}+E_{1}^{Y}}}={\frac {2(U_{X}+U_{Y}-U_{XY})}{U_{X}+U_{Y}}}}.

Goodman und Kruskals γ

C{\displaystyle C} sei die Zahl konkordanten Paare (xi<xj{\displaystyle x_{i}<x_{j}} und yi<yj{\displaystyle y_{i}<y_{j}}) und D{\displaystyle D} die Zahl diskordanten Paare (xi<xj{\displaystyle x_{i}<x_{j}} und yi>yj{\displaystyle y_{i}>y_{j}}). Wenn wir keine gemeinsamen Rangzahlen (Ties) haben und n{\displaystyle n} die Anzahl der Beobachtungen ist, dann gilt C+D=n(n−1)/2{\displaystyle C+D=n(n-1)/2}.

Unter Unkenntnis des Zusammenhangs können wir keine Aussage darüber machen, ob ein Paar konkordant oder diskordant ist. Daher sagen wir Wahrscheinlichkeit 0,5 ein konkordantes bzw. diskordantes Paar vorher. Der Gesamtfehler für alle möglichen Paare ergibt sich als

E1=C+D2.{\displaystyle E_{1}={\frac {C+D}{2}}.}

Unter Kenntnis des Zusammenhangs wird immer Konkordanz vorhergesagt, falls C≥D{\displaystyle C\geq D}, oder immer Diskordanz, wenn C<D{\displaystyle C<D}. Der Fehler ist

E2=min(C,D)={D, falls C≥DC, falls C<D{\displaystyle E_{2}=\min(C,D)=\left\{{\begin{matrix}D,&{\text{ falls }}C\geq D\\C,&{\text{ falls }}C<D\end{matrix}}\right.}

und es folgt

E1−E2E1=C+D2−min(C,D)C+D2=|C−D|C+D=|γ|.{\displaystyle {\frac {E_{1}-E_{2}}{E_{1}}}={\frac {{\frac {C+D}{2}}-\min(C,D)}{\frac {C+D}{2}}}={\frac {|C-D|}{C+D}}=|\gamma |.}

Der Betrag von Goodman and Kruskals γ{\displaystyle \gamma } ist damit ein symmetrisches proportionales Fehlerreduktionsmaß.

η2

Wie bei dem Bestimmtheitsmaß ist der Vorhersagewert für die abhängige metrische Variable unter Unkenntnis des Zusammenhangs y¯{\displaystyle {\bar {y}}} und der Vorhersagefehler

E1=∑i=1n(yi−y¯)2{\displaystyle E_{1}=\sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2}}.

Bei Kenntnis, zu welcher der Gruppen der nominale oder ordinale unabhängigen Variable die Beobachtung gehört, ist der Vorhersagewert gerade der Gruppenmittelwert y¯k{\displaystyle {\bar {y}}_{k}}. Der Vorhersagefehler ergibt sich als

E2=∑k∑i=1n(yi−y¯k)2δik{\displaystyle E_{2}=\sum _{k}\sum _{i=1}^{n}(y_{i}-{\bar {y}}_{k})^{2}\delta _{ik}}

mit δik={1, falls i=k0 sonst {\displaystyle \delta _{ik}=\left\{{\begin{matrix}1,&{\text{ falls }}i=k\\0&{\text{ sonst }}\end{matrix}}\right.}, wenn die Beobachtung i{\displaystyle i} zur Gruppe k{\displaystyle k} gehört und sonst Null. Damit ergibt sich

η2=1−E2E1=1−∑k∑i=1n(yi−y¯k)2δik∑i=1n(yi−y¯)2{\displaystyle \eta ^{2}=1-{\frac {E_{2}}{E_{1}}}=1-{\frac {\sum _{k}\sum _{i=1}^{n}(y_{i}-{\bar {y}}_{k})^{2}\delta _{ik}}{\sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2}}}}.

Die Rollen der abhängigen und unabhängigen Variablen können nicht vertauscht werden, da sie unterschiedliche Skalenniveaus haben. Deswegen gibt es nur ein (asymmetrisches) Maß.

In Cohen (1988) wird als Daumenregel angegeben:

  • η2<0,01{\displaystyle \eta ^{2}<0{,}01} kein Zusammenhang,
  • 0,01≤η2<0,06{\displaystyle 0{,}01\leq \eta ^{2}<0{,}06} geringer Zusammenhang,
  • 0,06≤η2<0,14{\displaystyle 0{,}06\leq \eta ^{2}<0{,}14} mittlerer Zusammenhang und
  • 0,14≤η2{\displaystyle 0{,}14\leq \eta ^{2}} starker Zusammenhang.

Beispiel

In dem Beispiel kann der Fehler bei der Vorhersage des Nettoeinkommens bei Kenntnis der Schichteinstufung um 0,3062=0,094{\displaystyle 0{,}306^{2}=0{,}094}, also knapp 10 %, reduziert werden. Das zweite η{\displaystyle \eta } ergibt sich, wenn man die Rolle der Variablen vertauscht, was aber hier unsinnig ist. Daher muss dieser Wert ignoriert werden.

Literatur

  • Y.M.M. Bishop, S.E. Feinberg, P.W. Holland (1975). Discrete Multivariate Analysis: Theory and Practice. Cambridge, MA: MIT Press.
  • L.C. Freemann (1986). Order-based Statistics and Monotonicity: A Family of Ordinal Measures of Association. Journal of Mathematical Sociology, 12(1), S. 49–68
  • J. Bortz (2005). Statistik für Human- und Sozialwissenschaftler (6. Auflage), Springer Verlag.
  • B. Rönz (2001). Skript "Computergestützte Statistik II", Humboldt-Universität zu Berlin, Lehrstuhl für Statistik.

Einzelnachweise

  1. J. Cohen (1988). Statistical Power Analysis for Behavioral Science. Erlbaum, Hilsdale.
  2. L.A. Goodman, W.H. Kruskal (1954). Measures of association for cross-classification. Journal of the American Statistical Association, 49, S. 732–764.
  3. H. Theil (1972), Statistical Decomposition Analysis, Amsterdam: North-Holland Publishing Company (diskutiert den Unsicherheitskoeffizient).

Autor: www.NiNa.Az

Veröffentlichungsdatum: 16 Jul 2025 / 04:15

wikipedia, wiki, deutsches, deutschland, buch, bücher, bibliothek artikel lesen, herunterladen kostenlos kostenloser herunterladen, MP3, Video, MP4, 3GP, JPG, JPEG, GIF, PNG, Bild, Musik, Lied, Film, Buch, Spiel, Spiele, Mobiltelefon, Mobil, Telefon, android, ios, apple, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, pc, web, computer, komputer, Informationen zu Proportionale Fehlerreduktionsmaße, Was ist Proportionale Fehlerreduktionsmaße? Was bedeutet Proportionale Fehlerreduktionsmaße?

Proportionale Fehlerreduktionsmasse proportionale Fehlerreduktion PFR englisch proportionate reduction of error kurz PRE daher auch PRE Masse geben indirekt die Starke des Zusammenhangs zwischen zwei Variablen X displaystyle X und Y displaystyle Y an DefinitionProportionale Fehlerreduktionsmasse werden definiert als PRE E1 E2E1 1 E2E1 displaystyle PRE frac E 1 E 2 E 1 1 frac E 2 E 1 wobei E1 displaystyle E 1 der Fehler bei der Vorhersage der abhangigen Variablen Y displaystyle Y ohne Kenntnis des Zusammenhangs und E2 displaystyle E 2 der Fehler bei der Vorhersage der abhangigen Variablen Y displaystyle Y mit Kenntnis des Zusammenhangs mit X displaystyle X ist Da 0 E2 E1 displaystyle 0 leq E 2 leq E 1 gilt weil man annimmt dass die Kenntnis des Zusammenhangs korrekt ist der Vorhersagefehler nimmt also bei Verwendung der Kenntnis ab folgt 0 PRE 1 displaystyle 0 leq PRE leq 1 Ein Wert von Eins bedeutet dass bei Kenntnis der unabhangigen Variable der Wert der abhangigen Variable perfekt vorhergesagt werden kann Ein Wert von Null bedeutet dass die Kenntnis der unabhangigen Variablen keine Verbesserung in der Vorhersage der abhangigen Variable ergibt Der Vorteil ist dass damit alle proportionalen Fehlerreduktionsmasse in gleicher Weise unabhangig vom Skalenniveau interpretiert werden konnen Als Vergleichsmassstab kann daher das Bestimmtheitsmass dienen da es ein proportionales Fehlerreduktionsmass ist oder folgende Daumenregel PRE lt 0 1 displaystyle PRE lt 0 1 Keine Beziehung 0 1 PRE lt 0 3 displaystyle 0 1 leq PRE lt 0 3 Schwache Beziehung 0 3 PRE lt 0 5 displaystyle 0 3 leq PRE lt 0 5 Mittlere Beziehung und 0 5 PRE displaystyle 0 5 leq PRE Starke Beziehung Der Nachteil ist dass die Richtung des Zusammenhangs nicht berucksichtigt werden kann da Richtungen nur bei ordinalen oder metrischen Variablen angegeben werden konnen und die Grosse der Fehlerreduktion davon abhangt wie die Vorhersage unter Kenntnis des Zusammenhangs gemacht wird Ein kleiner Wert des proportionalen Fehlerreduktionmasses bedeutet nicht dass es keinen Zusammenhang zwischen den Variablen gibt Da eine Variable abhangig und die andere unabhangig ist unterscheidet man zwischen symmetrischen und asymmetrischen proportionalen Fehlerreduktionsmassen Skalenniveau der Massunabhangigen Variable X abhangigen Variable Y Name Bemerkungnominal nominal Goodman und Kruskals l displaystyle lambda Es gibt ein symmetrisches und ein asymmetrisches Mass nominal nominal Goodman und Kruskals t displaystyle tau Es gibt ein symmetrisches und ein asymmetrisches Mass nominal nominal Unsicherheitskoeffizient oder Theils U Es gibt ein symmetrisches und ein asymmetrisches Mass ordinal ordinal Goodman und Kruskals g displaystyle gamma Es gibt nur ein symmetrisches Mass nominal metrisch h2 displaystyle eta 2 Es gibt nur ein asymmetrisches Mass metrisch metrisch Bestimmtheitsmass R2 displaystyle R 2 Es gibt nur ein symmetrisches Mass BestimmtheitsmassFur die Vorhersage unter Unkenntnis des Zusammenhangs zwischen zwei metrischen Variablen X displaystyle X und Y displaystyle Y durfen nur Werte der abhangigen Variablen Y displaystyle Y benutzt werden Der einfachste Ansatz ist y i 1 c displaystyle hat y i 1 c also die Annahme eines konstanten Wertes Dieser Wert soll die Optimalitatseigenschaft c minc i 1n yi c 2 displaystyle c min tilde c sum i 1 n y i tilde c 2 erfullen also die Summe der Abweichungsquadrate minimieren Daraus folgt dass c displaystyle c das arithmetische Mittel ist also c y displaystyle c bar y Daher ist der Vorhersagefehler unter Unkenntnis des Zusammenhangs E1 i 1n yi y i 1 2 i 1n yi y 2 displaystyle E 1 sum i 1 n y i hat y i 1 2 sum i 1 n y i bar y 2 Fur die Vorhersage unter Kenntnis des Zusammenhangs nutzen wir die lineare Regression y i 2 b0 b1xi displaystyle hat y i 2 b 0 b 1 x i aus E2 i 1n yi y i 2 2 i 1n yi b0 b1xi 2 displaystyle E 2 sum i 1 n y i hat y i 2 2 sum i 1 n y i b 0 b 1 x i 2 Das Bestimmtheitsmass R2 displaystyle R 2 ist dann ein proportionales Fehlerreduktionsmass da gilt R2 1 E2E1 1 i 1n yi y i 2 2 i 1n yi y 2 displaystyle R 2 1 frac E 2 E 1 1 frac displaystyle sum i 1 n y i hat y i 2 2 displaystyle sum i 1 n y i bar y 2 Werden die Rollen der abhangigen und unabhangigen Variable vertauscht so ergibt sich der gleiche Wert fur R2 displaystyle R 2 Daher gibt es nur ein symmetrisches Mass Goodman und Kruskals l und tBerechnung von Goodman und Kruskals l displaystyle lambda und t displaystyle tau fur die Variablen Subjektive Schichteinstufung des Befragten und Wahlabsicht in der Bundestagswahl der ALLBUS Daten 2006 Goodman und Kruskals l Die Vorhersage unter Unkenntnis des Zusammenhangs ist die Modalkategorie der abhangigen Variable und der Vorhersagefehler E1 1 hMn displaystyle E 1 1 frac h M n mit hM displaystyle h M die absolute Haufigkeit in der Modalkategorie und n displaystyle n die Anzahl der Beobachtungen Die Vorhersage unter Kenntnis des Zusammenhangs ist die Modalkategorie der abhangigen Variable in Abhangigkeit von den Kategorien der unabhangigen Variablen und der Vorhersagefehler ist E2 jh jn 1 hM jh j displaystyle E 2 sum j frac h bullet j n left 1 frac h M j h bullet j right mit h j displaystyle h bullet j die absolute Haufigkeit fur die jeweilige Kategorie der unabhangigen Variablen und hM j displaystyle h M j die absolute Haufigkeit der Modalkategorie in Abhangigkeit von den Kategorien der unabhangigen Variablen Beispiel Im Beispiel rechts ergibt sich fur die abhangige Variable Wahlabsicht Bundestagswahl bei Unkenntnis des Zusammenhangs als der Vorhersagewert CDU CSU und damit eine Fehlervorhersage E1 1 770 2660 0 711 displaystyle E 1 1 770 2660 0 711 Je nach Auspragung der Variablen Subjektive Schichteinstufung ergibt sich fur die abhangige Variable Wahlabsicht Bundestagswahl der Vorhersagewert CDU CSU Kategorie Mittelschicht Obere Mittelschicht Oberschicht SPD Kategorie Arbeiterschicht oder Andere Partei Nichtwahler alle anderen Kategorien Der Vorhersagefehler E2 91 2660 1 27 91 953 2660 1 264 953 21 2660 1 6 21 0 689 displaystyle E 2 91 2660 cdot 1 27 91 953 2660 cdot 1 264 953 dots 21 2660 cdot 1 6 21 0 689 und l 1 0 689 0 711 0 031 displaystyle lambda 1 0 689 0 711 0 031 Das heisst im vorliegenden Beispiel kann der Fehler bei der Vorhersage der Wahlabsicht der Bundestagswahl des Befragten um 3 1 reduziert werden wenn man seine eigene subjektive Schichteinstufung kennt Goodman und Kruskals t Bei Goodman und Kruskals t displaystyle tau wird als Vorhersagewert statt der Modalkategorie ein zufalliger gezogener Wert aus der Verteilung von Y angenommen d h mit Wahrscheinlichkeit h1 n displaystyle h 1 bullet n wird Kategorie 1 gezogen mit Wahrscheinlichkeit h2 n displaystyle h 2 bullet n wird Kategorie 2 gezogen und so weiter Der Vorhersagefehler ergibt sich dann als E1 khk n 1 hk n displaystyle E 1 sum k frac h k bullet n left 1 frac h k bullet n right mit hk displaystyle h k bullet die absolute Haufigkeit der Kategorie k displaystyle k der abhangigen Variablen Analog ergibt sich der Vorhersagefehler E2 displaystyle E 2 nur dass jetzt die Vorhersage entsprechend fur jede Kategorie der unabhangigen Variablen gemacht wird und der Vorhersagefehler E2 displaystyle E 2 ergibt sich als Summe der gewichteten Vorhersagefehler in jeder Kategorie der unabhangigen Variablen E2 jh jn khk jh j 1 hk jh j displaystyle E 2 sum j frac h bullet j n left sum k frac h k j h bullet j left 1 frac h k j h bullet j right right mit hk j displaystyle h k j die absolute Haufigkeit fur das gemeinsame Auftreten der Kategorien i displaystyle i und j displaystyle j Symmetrische Masse Fur Goodman und Kruskals l displaystyle lambda und t displaystyle tau konnen die Vorhersagefehler E1Y displaystyle E 1 Y und E2Y displaystyle E 2 Y wenn Y displaystyle Y die abhangige Variable ist und E1X displaystyle E 1 X und E2X displaystyle E 2 X wenn X displaystyle X die abhangige Variable ist berechnet werden Die symmetrischen Masse fur Goodman und Kruskals l displaystyle lambda und t displaystyle tau ergeben sich dann als E1X E2X E1Y E2Y E1X E1Y displaystyle frac E 1 X E 2 X E 1 Y E 2 Y E 1 X E 1 Y UnsicherheitskoeffizientEntropie Der Unsicherheitskoeffizient misst die Unsicherheit der Information mit Hilfe der Entropie Wenn fk displaystyle f k die relative Haufigkeit des Auftretens der Kategorie k displaystyle k ist dann ist die Entropie oder Unsicherheit definiert als U kfklog fk displaystyle U sum k f k log f k Die Unsicherheit U displaystyle U ist Null wenn fur alle moglichen Kategorien bis auf eine fk 0 displaystyle f k 0 ist Die Vorhersage welchen Kategorienwert eine Variable annimmt ist dann trivial Ist fk 1 k displaystyle f k 1 k Gleichverteilung dann ist die Unsicherheit U log k displaystyle U log k und auch maximal Asymmetrischer Unsicherheitskoeffizient Das Fehlermass unter Unkenntnis des Zusammenhangs ist daher die Unsicherheit UY displaystyle U Y fur die abhangige Variable E1 khk nlog hk n UY displaystyle E 1 sum k frac h k bullet n log left frac h k bullet n right U Y Das Fehlermass unter Kenntnis des Zusammenhangs ist die gewichtete Summe der Unsicherheit fur jede Kategorie der abhangigen Variablen E2 jh jn khk jh jlog hk jh j Unsicherheit in Kategorie jder unabhangigen Variable displaystyle E 2 sum j frac h bullet j n underbrace left sum k frac h k j h bullet j log left frac h k j h bullet j right right begin matrix text Unsicherheit in Kategorie j text der unabhangigen Variable end matrix Dieser Ausdruck lasst auch schreiben als E2 UXY UX j khk jnlog hk jn jh jnlog h jn displaystyle E 2 U XY U X left sum j k frac h k j n log left frac h k j n right right left sum j frac h bullet j n log left frac h bullet j n right right mit UXY displaystyle U XY die Unsicherheit basierend auf der gemeinsamen Verteilung von X displaystyle X und Y displaystyle Y und UX displaystyle U X die Unsicherheit der unabhangigen Variable X displaystyle X Der Unsicherheitskoeffizient ergibt sich dann als Uasym E1 E2E1 UX UY UXYUY displaystyle U text asym frac E 1 E 2 E 1 frac U X U Y U XY U Y Symmetrischer Unsicherheitskoeffizient Fur den Unsicherheitskoeffizient konnen die Vorhersagefehler E1Y displaystyle E 1 Y und E2Y displaystyle E 2 Y wenn Y displaystyle Y die abhangige Variable ist und E1X displaystyle E 1 X und E2X displaystyle E 2 X wenn X displaystyle X die abhangige Variable ist berechnet werden Der symmetrische Unsicherheitskoeffizient ergibt sich wie bei Goodman and Kruskals l displaystyle lambda und t displaystyle tau als Usym E1X E2X E1Y E2Y E1X E1Y 2 UX UY UXY UX UY displaystyle U text sym frac E 1 X E 2 X E 1 Y E 2 Y E 1 X E 1 Y frac 2 U X U Y U XY U X U Y Goodman und Kruskals gC displaystyle C sei die Zahl konkordanten Paare xi lt xj displaystyle x i lt x j und yi lt yj displaystyle y i lt y j und D displaystyle D die Zahl diskordanten Paare xi lt xj displaystyle x i lt x j und yi gt yj displaystyle y i gt y j Wenn wir keine gemeinsamen Rangzahlen Ties haben und n displaystyle n die Anzahl der Beobachtungen ist dann gilt C D n n 1 2 displaystyle C D n n 1 2 Unter Unkenntnis des Zusammenhangs konnen wir keine Aussage daruber machen ob ein Paar konkordant oder diskordant ist Daher sagen wir Wahrscheinlichkeit 0 5 ein konkordantes bzw diskordantes Paar vorher Der Gesamtfehler fur alle moglichen Paare ergibt sich als E1 C D2 displaystyle E 1 frac C D 2 Unter Kenntnis des Zusammenhangs wird immer Konkordanz vorhergesagt falls C D displaystyle C geq D oder immer Diskordanz wenn C lt D displaystyle C lt D Der Fehler ist E2 min C D D falls C DC falls C lt D displaystyle E 2 min C D left begin matrix D amp text falls C geq D C amp text falls C lt D end matrix right und es folgt E1 E2E1 C D2 min C D C D2 C D C D g displaystyle frac E 1 E 2 E 1 frac frac C D 2 min C D frac C D 2 frac C D C D gamma Der Betrag von Goodman and Kruskals g displaystyle gamma ist damit ein symmetrisches proportionales Fehlerreduktionsmass h2Berechnung von h displaystyle eta fur die Variablen Nettoeinkommen des Befragten abhangig und Subjektive Schichteinstufung des Befragten unabhangig der ALLBUS Daten 2006 Wie bei dem Bestimmtheitsmass ist der Vorhersagewert fur die abhangige metrische Variable unter Unkenntnis des Zusammenhangs y displaystyle bar y und der Vorhersagefehler E1 i 1n yi y 2 displaystyle E 1 sum i 1 n y i bar y 2 Bei Kenntnis zu welcher der Gruppen der nominale oder ordinale unabhangigen Variable die Beobachtung gehort ist der Vorhersagewert gerade der Gruppenmittelwert y k displaystyle bar y k Der Vorhersagefehler ergibt sich als E2 k i 1n yi y k 2dik displaystyle E 2 sum k sum i 1 n y i bar y k 2 delta ik mit dik 1 falls i k0 sonst displaystyle delta ik left begin matrix 1 amp text falls i k 0 amp text sonst end matrix right wenn die Beobachtung i displaystyle i zur Gruppe k displaystyle k gehort und sonst Null Damit ergibt sich h2 1 E2E1 1 k i 1n yi y k 2dik i 1n yi y 2 displaystyle eta 2 1 frac E 2 E 1 1 frac sum k sum i 1 n y i bar y k 2 delta ik sum i 1 n y i bar y 2 Die Rollen der abhangigen und unabhangigen Variablen konnen nicht vertauscht werden da sie unterschiedliche Skalenniveaus haben Deswegen gibt es nur ein asymmetrisches Mass In Cohen 1988 wird als Daumenregel angegeben h2 lt 0 01 displaystyle eta 2 lt 0 01 kein Zusammenhang 0 01 h2 lt 0 06 displaystyle 0 01 leq eta 2 lt 0 06 geringer Zusammenhang 0 06 h2 lt 0 14 displaystyle 0 06 leq eta 2 lt 0 14 mittlerer Zusammenhang und 0 14 h2 displaystyle 0 14 leq eta 2 starker Zusammenhang Beispiel In dem Beispiel kann der Fehler bei der Vorhersage des Nettoeinkommens bei Kenntnis der Schichteinstufung um 0 3062 0 094 displaystyle 0 306 2 0 094 also knapp 10 reduziert werden Das zweite h displaystyle eta ergibt sich wenn man die Rolle der Variablen vertauscht was aber hier unsinnig ist Daher muss dieser Wert ignoriert werden LiteraturY M M Bishop S E Feinberg P W Holland 1975 Discrete Multivariate Analysis Theory and Practice Cambridge MA MIT Press L C Freemann 1986 Order based Statistics and Monotonicity A Family of Ordinal Measures of Association Journal of Mathematical Sociology 12 1 S 49 68 J Bortz 2005 Statistik fur Human und Sozialwissenschaftler 6 Auflage Springer Verlag B Ronz 2001 Skript Computergestutzte Statistik II Humboldt Universitat zu Berlin Lehrstuhl fur Statistik EinzelnachweiseJ Cohen 1988 Statistical Power Analysis for Behavioral Science Erlbaum Hilsdale L A Goodman W H Kruskal 1954 Measures of association for cross classification Journal of the American Statistical Association 49 S 732 764 H Theil 1972 Statistical Decomposition Analysis Amsterdam North Holland Publishing Company diskutiert den Unsicherheitskoeffizient

Neueste Artikel
  • Juli 16, 2025

    Provinz Preußen

  • Juli 15, 2025

    Provinz Ostpreußen

  • Juli 16, 2025

    Provinz Deutschböhmen

  • Juli 16, 2025

    Propyläen Weltgeschichte

  • Juli 16, 2025

    Proportionale Fehlerreduktionsmaße

www.NiNa.Az - Studio

    Kontaktieren Sie uns
    Sprachen
    Kontaktieren Sie uns
    DMCA Sitemap
    © 2019 nina.az - Alle Rechte vorbehalten.
    Copyright: Dadash Mammadov
    Eine kostenlose Website, die Daten- und Dateiaustausch aus der ganzen Welt ermöglicht.
    Spi.