1. Was ist neu in der
Version 12 von Almo ?
2. Was ist neu in der Version 11 von Almo ?
3. Was ist neu in der Version 10 von Almo ?
4. Was ist neu in der Version 9 von Almo ?
5. Die Koeffizienten der Logitanalyse
Was ist neu in der Version 12 von Almo ?
Wieder haben wir viele kleine Verbesserungen vorgenommen.
Insbesondere haben wir an der Oberfläche von Almo gearbeitet.
Die kmeans-Clusteranalyse wurde um die Möglichkeit erweitert mehrere
Lösungsversuche für eine vorgegebene Clusterzahl zu rechnen (wobei Almo
dann die beste davon hervorhebt)
Neu hinzu gekommen sind bei den "Statistischen Algorithmen in C"
1. die Logit- und Probitanalyse
2. die kanonische Diskriminanzanalyse
3. die k-means-Clusteranalyse
Was ist neu in der Version 11 von Almo ?
Wie immer wurden kleinere Verbesserungen und Verschönerungen gemacht.
Das sind die Neuheuten:
1. Imputation fehlender Werte mit Hilfe der Clusteranalyse
2. Statistischer Algorithmen in C
Zu 'Imputation fehlender Werte'
Zuerst wird eine k-means Clusteranalyse durchgeführt. Sie liefert die
Mittelwerte der Klassifikationsvariablen je Cluster und ordnet jeder
Untersuchungseinheit eine Clusterzugehörigkeit zu. Danach wird das
eigentliche Imputationsverfahren gerechnet. Eine Untersuchungseinheit,
die dem Cluster i angehört und in der Klassifikationsvariablen j keinen
Wert besitzt, erhält in dieser Variablen j den Mittelwert ihres Clusters.
Bei nominalen Klassifikationsvariablen wird der Erwartungswert bzw.
der wahrscheinlichste Wert je Cluster ermittelt und als Ersatzwert für
den fehlenden Wert eingesetzt.
Die Ersatzwerte können dann noch durch normalverteilte Zufallswerte (mit
dem Mittelwert und der Standardabweichung der betreffenden Klassifikations-
variablen) überlagert werden.
Danach werden die so veränderten Datensätze gespeichert.
Zu 'Statistische Algorithmen in C'
Die in Almo angebotenen statistischen Verfahren enthalten viele
statistische Algorithmen. Beispiele:
Mittelwert-Berechnung
Chi-Quadrat-Test
Korrelations-Berechnung
Allgemeines Lineares Modell
Faktorenanalyse
etc.
Diese Algorithmen haben wir etwas vereinfacht, von Ballast (wie z.B.
komplexen Optionen) befreit und stellen sie so dem interessierten
Programmierer für eigene Software-Projekte zur Verfügung.
Alle Algorithmen sind in der Programmiersprache "C" geschrieben.
Damit Sie mit den angebotenen Algorithmen experimentieren und sie
auch verändern können, haben wir die Algorithmen in das
Almo-System eingebunden. Damit sind sie aus Almo startbar und es
können Daten eingelesen werden und mit den Algorithmen gerechnet
werden. Trotzdem bleiben die Algorithmen allgemein einsetzbare
C-Funktionen.
Eine Liste aller Algorithmen finden Sie unter "Algorithmen in C"
-----------------------------------------------------------------------------------------
Was ist neu in der
Version 10 von Almo ?
Neben den üblichen "kleinen Verbesserungen und Verschönerungen" wurde
1. ein umfangreicher Programmteil zur
Behandlung von Ausreissern eingefügt
2. Der Grafikbereich wurde durch ein Pfaddiagramm erweitert.
Zu den Ausreissern
Ausreisser sind Werte, die ausserhalb "valider Grenzen" liegen.
Die "validen Grenzen" definiert der Forscher. Anders formuliert: Es gibt
keine "objektive", eindeutige Definition, was ein Ausreisser ist.
Der Forscher legt fest, was für ihn ein Ausreisser ist.
Werden Ausreisser vom Forscher aus der Analyse ausgeschlossen, dann tut er
dies, weil er unterstellt, dass diese Daten - obwohl empirisch gewonnen -
falsch sind oder er tut dies, weil sie ihm einen Variablen-Zusammenhang
seiner Meinung nach verfälschen.
In Almo werden 2 Typen von Ausreissern unterschieden:
Ausreisser vom Typ 1:
Ein Variablenwert liegt ausserhalb des "validen Wertebereichs"
der Variablen. Hier können nochmals 2 Untertypen unterschieden werden
a. Schreibfehler
b. Extremwerte
Ausreisser vom Typ 2:
Ein Variablenwert liegt ausserhalb der "validen Punktewolke"
eines mehrdimensionalen Variablen-Zusammenhangs.
Zu Typ 1a: Schreibfehler als Ausreisser
Ausreisser entstehen sehr oft dadurch, dass beim Schreiben der Daten
Fehler gemacht werden. Beispiel: Anstelle 9 wird versehentlich
der Wert 99 geschrieben. Diese Art der Ausreisser werden durch
das schon immer vorhandene Almo-Programm Prog03m entdeckt.
Zu Typ 1b: Extremwert als Ausreisser
Natürlich gibt es auch "echte" Ausreisser, die nicht durch Schreibfehler
entstanden sind. Beispiel: Für eine Stichprobe von 1000 Personen wird
das Einkommen erhoben. Dabei sind einige wenige Milliardäre in die
Stichprobe gelangt. Deren Einkommen liegt ausserhalb des
"validen Wertebereichs". Wird nun die Korrelation zwischen Einkommen
und beispiesweise Schulbildung ermittelt, so kann der
Korrelationskoeffizient durch die Milliardäre dramatisch verändert werden.
Hier ist es sinnvoll, die Milliardäre als Ausreisser zu identifizieren
und aus der Analyse auszuschliessen.
Für diesen Zweck wurde in viele Almo-Programme die Optionsbox
"Ausreisser vom Typ 1 identifizieren"
eingefügt. Diese Option kann auch verwendet werden, um Ausreisser vom Typ 1a,
also Schreibfehler, zu finden. Dem Benutzer werden folgende
"Behandlungsmöglichkeiten" von Ausreissern angeboten:
1 Ausreisser in Ergebnisliste nur
melden
2 melden und auf Kein-Wert (missing value) setzen
3 melden und auf validen Grenzwert setzen
4 melden und auf bereinigte Ober- bzw. Untergrenze setzen
5 melden und ganzen Datensatz ausschliessen
Almo bietet auch an, eine
neue "Ausreisser-bereinigte" Datei zu erstellen.
Diese kann dann für weitere Analysen verwendet werden.
Zu Typ 2: Ausreisser liegt ausserhalb der "validen Punktewolke"
Betrachten wir ein Beispiel:

Der Zusammenhang zwischen der Variablen x und
y wird durch ein
Streudiagramm grafisch dargestellt. Die kleinen roten Punkte sind
Messpunkte. Die durchgezogene Linie ist die Regressionsgerade.
Der Messpunkt B ist ein Ausreisser vom Typ I. Sein x-Wert liegt
weit ausserhalb des validen Wertebereichs von x.
Der Messpunkt A ist ein Ausreisser vom Typ II. Sein x-Wert und sein
y-Wert liegt zwar innerhalb des validen Wertebereichs von x und y.
In Bezug auf den Zusammenhang von x und y ist er jedoch ein
Ausreisser. Er liegt ausserhalb der "validen Punktewolke xy".
Um Ausreisser vom Typ 2 zu identifizieren und zu "behandeln" wurde
ein spezielles
Almo-Programm entwickelt. Das Programm ermöglicht es,
auch Ausreisser in einem multi-dimensionalen (und nicht nur 2-dimensionalen)
System zu identifizieren.
Zum Pfaddiagramm
Betrachten wir ein Beispiel: Für 6 Variable wird mit (dem schon immer
in Almo vorhandenen) Prog25m1 eine Pfadanalyse gerechnet.
Dabei wird folgende kausale Reihenfolge angenommen
Herkunft-->Bildung-->Leistung-->Einkommen-->Vermögen-->Konsum
Die Herkunft bestimmt die Bildung, diese die Leistung usw.
Mit Prog25m1 werden die standardisierten Regressionskoeffizienten
für ein volles rekursives Kausalmodell ermittelt. D.h. es wird zunächst
unterstellt, dass in obiger Reihenfolge jede Variable alle
nachfolgenden Variablen determiniert
Dieses Modell wird nun in Almo 10 grafisch als Pfaddiagramm dargestellt.
Das geschieht
automatisch. Der Benutzer braucht nicht selbst zu zeichnen.
Das Pfaddiagramm wird ihm im Ergebnisfenster präsentiert.

Das Pfaddiagramm
umfasst 6 Variable. Um die Pfeile optisch besser unterscheiden
zu können werden Farben verwendet.
Auf den Pfeilen stehen die (standardisierten) Regressionskoeffizienten.
Signifikante Pfade sind durch 1 oder 2 oder 3 Sterne markiert. Die
entsprechenden
Pfeie sind fett gezeichnet (was in obigem verkleinertem Diagramm nicht sichtbar
wird).
Standardmäßig werden an den Regressionskoeffizient angehängt:
1 Stern wenn seine Sigifikanz (1-p)*100 >= 95 % bzw. p <= 0.05
2 Stern wenn seine Sigifikanz (1-p)*100 >= 99 % bzw. p <= 0.01
3 Stern wenn seine Sigifikanz (1-p)*100 >= 99,9 % bzw. p <= 0.001
Im Almo-Grafik-Editor können die Signifikanzen je Stern anders definiert werden.
Dort besteht auch die Möglichkeit, nicht-signifikante Pfade aus dem Diagramm zu
löschen
und nur Pfade zu zeigen, die mindestens 1 Stern besitzen, also mit mindestens
95 % signifikant sind. Es entsteht dann folgendes Pfaddiagramm.

------------------------------------------------------------------------------------------------
Was ist neu in der
Version 9 von Almo ?
Die Almo-Wahlhochrechnung mit Wählerstromanalyse ist nunmehr im
Standard-Almo
enthalten.
Wie
bei jedem Almo-Update wurden wieder viele kleine, einzelne Verbesserungen
und "Verschönerungen" bei den Eingabe-Masken, den Berechnungen, den Ergebnislisten
und
den Grafiken vorgenommen. Bei
den Grafiken wurde es z.B. ermöglicht, diese
im 3D-Stil zu beschriften. Weiter unten zeigen wir Ihnen ein Beispiel.
Joachim Gerich hatte schon für die Almo-Version 8.5 einen "Importmanager"
entwickelt, der es auf eine sehr einfache Weise
ermöglichte, Daten aus SPSS
nach Almo und umgekehrt zu übertragen. Jetzt hat er für Almo 9 ein sehr
komfortables
Dateneingabe-Modul entwickelt.
Die "große" Verbesserung wurde im Grafikbereich bereits in der Version 8.0 vorgenommen:
Almo gibt in seinen Ergebnislisten, zusätzlich zu den Tabellen, Matrizen etc.
eine Vielzahl von Grafiken aus. Diese Grafiken wurden seither in separaten
Fenstern gezeigt. Jetzt stehen diese Grafiken mitten in der Ergebnisliste
bei den Tabellen und Matrizen, die sie optisch veranschaulichen sollen.
Betrachten wir ein Beispiel.
Die Leistung von 61 Schülern wird ausgezählt. Almo liefert folgendes Ergebnis:
Variable 5 Leistung
Wert
Fälle %
% kumuliert
─────────────────────────────────────────────────
1 sehr
gut
15 24.59
24.59
2 gut
28 45.90
70.49
3
befriedigend
10 16.39
86.89
4
ausreichend
7 11.48
98.36
5
nicht genügend
1 1.64
100.00
─────────────────────────────────────────────────
Summe
61 100%

Zuerst wird in einer Tabelle die Häufigkeitsverteilung dargestellt.
Dann wird die Häufigkeitsverteilung als Balkendiagramm gezeichnet.
Über der Grafik befindet sich ein Knopf mit der Bezeichnung "Grafik".
Wenn der Benutzer auf diesen Knopf klickt, dann wird die Grafik in den
Almo-Grafik-Editor geladen. Dort kann sie in vielfältiger Weise
bearbeitet und verändert werden. Z.B. kann der Benutzer die Hintergrund-Wände
durchsichtig weiß machen. Er kann die Balken dicker machen. Er kann die
Beschriftung ändern. Er kann sogar das Balkendiagramm mit einem Mausklick
in ein Liniendiagramm umgestalten. Die Zahl der Veränderungsmöglichkeiten
ist nahezu unerschöpflich.
Nach diesen Veränderungen im Grafik-Editor kann durch einfachen Mausklick
die veränderte Grafik in die Ergebnisliste eingesetzt werden, wo sie die
seitherige Grafik ersetzt.
Selbstverstänlich kann die Ergebnisliste mit den eingelagerten Grafiken
problemlos in eine Textverarbeitung, z.B. Word, übergeben werden. Auch
das geschieht wieder mit einem Mausklick.
3D-Beschriftung
Ab Almo 9 können Grafiken
nunmehr auch (optional) im 3D-Stil beschriftet werden.
Obige Grafik sieht in 3D-Beschriftung so aus:

Beachte: Die
Stufen in den vertikalen Linien der obigen Grafiken verschwinden beim
Ausdrucken.
Der Drucker hat eine sehr viel feinere Auflösung als der Bildschirm.
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
Koeffizienten der Logitanalyse
------------------------------
Eine häufig gestellte
Frage lautet:
Wie sind die im Rahmen der Logit-Analyse errechneten Regressionskoeffizienten
und
Risiko-Koeffizienten zu interpretieren ?
Vorweg ist folgendes zu sagen:
Anstelle des Begriffs
"Risiko-Koeffizient", den wir hier verwenden, wird in der
Literatur
auch der Begriff
"Effekt-Koeffizient" gebraucht (so bei D. Urban: Logit-Analyse,
Gustav Fischer, Stuttgart, 1993).
Betrachten wir ein Beispiel:
Kunden kaufen auf Kredit. Werden sie ihren Kredit zurückzahlen ?
Die Variablen für unser
Beispiel sollen folgende sein:
Die Zielvariable ist Kredit-Rückzahlung: nein,
ja
Die unabhängigen nominalen
Variablen sind
Wohnort:
Stadt
Land
Hausbesitz:
kein Haus
hat Haus
Die unabhängigen
quantitativen Variablen sind
Einkommen
Rückzahlungsrate
Kredit-Laufzeit
Almo liefert folgende
Ausgabe (verkürzt).
Ergebnisse fuer 2. Auspraegung "ja" der
abhaengigen Variablen V10 Rückzahl
(als Referenz wird die 1. Auspraegung "nein"
verwendet)
unabhaengige
Variable Regress. Risiko
relatives Signifikanz partielle
koeff.ß epx(ß) Risiko (1-p)*100 Korrelation
---------------------------------------------------------------------------------------
A1 Wohnort:
Stadt -0.43493 0.64731
-35.26902 100.00 -0.13168
A2 Wohnort: Land 0.43493 1.54486 54.48553
100.00 0.13168
B1 Hausbesi:kein Hau -0.74569 0.47440 -52.55955 100.00 -0.15825
B2 Hausbesi:hat Haus 0.74569 2.10791 110.79059 100.00 0.15825
V4 Einkommen 0.68943 1.99257 99.25744 100.00 0.25486
V7 Rueckrate -0.00077
0.99923 -0.07689 100.00 -0.25619
V8 Laufzeit 0.04562
1.04667 4.66727 99.22 0.06526
---------------------------------------------------------------------------------------
Erläuterung zum
Regressionskoeffizient
Betrachten wir die beiden
Regressionskoeffizienten für den Wohnort
A1 Wohnort: Stadt -0.43493
A2 Wohnort: Land 0.43493
Das Logit-Modell lautet
![]()
Diese Gleichung kann so
umgewandelt werden, daß auf der rechten Seite ein linearer Ausdruck steht
(1)
ln(p1/p2) = c + a(i) + b(j) + ß1*E + ß2*R + ß3*L
p1=Wahrscheinlichkeit für
Kreditkauf: ja
p2=Wahrscheinlichkeit für
Kreditkauf: nein (p2=1-p1)
Natürlich gilt: p2 = 1-p1
e =e-Zahl 2.718
c =Konstante
a(i) bezeichnet die
Regressionskoeffizienten für die 2
Dummy-Variable des Wohnorts
b(j) bezeichnet die
Regressionskoeffizienten für die 2
Dummy-Variable des Hausbesitz
es ist also:
a1=Regressionskoeffizient
für "Stadt"
a2=Regressionskoeffizient
für "Land"
E =Einkommen
ß1=Regressionskoeffizient
für Einkommen
R =Rueckrate
ß2=Regressionskoeffizient
für Rueckrate
L =Laufzeit
ß3=Regressionskoeffizient
für Laufzeit
Der
Regressionskoeffizienten a1=-0.43493 für "Stadt" und a2=0.43493 für
"Land" haben folgende Bedeutung:
1. Das negative
Vorzeichen von a1 drückt aus, daß Städter im Vergleich zur
"Durchschnittsperson" das logarithmierte
Wahrscheinlichkeitsverhältnis ln(p1/p2) aus Gleichung 1 verringern.
Vereinfacht: Städter haben eine geringere Wahrscheinlichkeit ihren Kredit
zurückzuzahlen. Umgekehrt drückt das positive Vorzeichen von a2 aus, daß Leute
vom Land eine erhöhte Wahrscheinlichkeit haben ihren Kredit zurück zu zahlen.
2. Je (absolut) größer
der Regressionskoeffizient ist, umso stärker ist diese Tendenz.
Der
Regressionskoeffizient ß1=0.68943 für "Einkommen" hat folgende
Bedeutung: Wenn sich das Einkommen um 1 Einheit erhöht, dann erhöht sich das
logarithmierte Wahrscheinlichkeitsverhältnis ln(p1/p2). Vereinfacht: Wenn sich
das Einkommen um 1 Einheit erhöht, dann nimmt die Wahrscheinlichkeit zu, den
Kredit zurückzuzahlen. Ein negatives Vorzeichen würde bedeuten, dass sich die
Wahrscheinlichkeit verringert. Je (absolut) größer der Regressionskoeffizient
ist, umso stärker ist diese Tendenz.
Der Risiko-Koeffizient exp (ß)
Unser Beispiel ist
relativ komplex. Wir haben 2 ursächliche nominale Variable und 3 ursächliche
quantitative Variable.
Um unsere Erläuterung
übersichtlich gestalten zu können, wollen wir ein anderes, einfacheres Beispiel
betrachten, bei dem nur 1 ursächliche nominale und 1 ursächliche quantitative
Variable vorhanden ist.
Die Variablen für unser
vereinfachtes Beispiel sollen folgende sein:
Die Zielvariable ist Kredit-Rückzahlung: nein,
ja
Die unabhängige nominale
Variable ist Beruf: Arbeiter,
Angestellter,
Selbständiger
Die unabhängige
quantitative Variable ist: Einkommen
Sie wird in
Einkommensklassen mit den Werten 1,2,3, ....,9 gemessen.
Almo liefert folgendes
Ergebnis:
Ergebnisse für 2.
Ausprägung "ja" der abhängigen Variablen "Rückzahlung"
(die Ausprägung
"nein" wird als Referenzkategorie verwendet)
unabhängige Variable Regress. "Risiko"
relatives
Koeffiz.
exp(Regr.- Risiko
koeffiz.) in %
---------------------------------------------------------------
c Konstante 1.88227
- -
a1 Beruf:Arbeiter 1.37706 3.96324 296.32376
a2 Beruf:Angestellte -0.92524 0.39644 -60.35623
a3 Beruf:Selbständige -0.45182 0.63647 -36.35343
X Einkommen -0.37586
0.68670 -31.33039
---------------------------------------------------------------
Die
Logit-Modell-Gleichung ist folgende:
![]()
Man beachte:p1 ist die
Wahrscheinlichkeit für die 2. Ausprägung "ja" der Zielvariablen
"Rückzahlung". Mit p2 werden wir die Wahrscheinlichkeit für die
Referenzkategorie "nein" bezeichnen
Diese Gleichung kann so
umgewandelt werden, dass auf der rechten Seite ein linearer Ausdruck steht.
(1)
ln(p1/p2) = c + a(i) + ßX
p1=Wahrscheinlichkeit für
Rückzahlung: ja
p2=Wahrscheinlichkeit für
Rückzahlung: nein
Natürlich gilt: p2 = 1-p1
c =Konstante
a(i) bezeichnet die
Regressionskoeffizient für die 3
Dummy-Variable des Berufs (die den 3
Ausprägungen entsprechen)
es ist also:
a1=Regressionskoeffizient
für "Arbeiter"
a2=Regressionskoeffizient
für "Angestellter"
a3=Regressionskoeffizient
für "Selbständiger"
X =Einkommen
ß =Regressionskoeffizient
für Einkommen
Für einen Arbeiter in der
Einkommensklasse X=4 lautet also die Gleichung
(1a)
ln(p1/p2) = c +
a1 + ßX
= 1.88 + 1.38 - 0.38*4
Gleichung 1 bzw. 1a kann
so transformiert werden, dass der auf der linken Gleichungsseite stehende
Logarithmus verschwindet.
(2)
p1/p2 = exp(c) * exp(a(i)) *
exp(ß*X)
exp (...) =
Exponentialfunktion von ...
Für unseren Arbeiter mit Einkommen
X=4
(2a) p1/p2 = exp(c) * exp(a1) * exp(ß*X)
= exp(1.88) * exp(1.38) *
exp(-0.38*4)
= 6.62 * 3.96
* 0.22
= 5.7886
Zuerst ist festzuhalten,
dass sich die Interpretation auf die 2. Ausprägung der Zielvariablen also auf
"Rückzahlung: Ja" bezieht.
p1 ist also die
Wahrscheinlichkeit für Rückzahlung: ja
p2 ist also die
Wahrscheinlichkeit für Rückzahlung: nein
Das
Wahrscheinlichkeits-Verhältnis p1/p2 wird in der angelsächsischen Literatur
"odds" genannt.
Wenn man p1 als
Gewinn-Wahrscheinlichkeit und p2 als Verlust-Wahrscheinlichkeit interpretiert,
dann könnte man p1/p2 als "Gewinn-zu-Verlust-Verhältnis" bezeichnen.
Ist die Zielvariable, wie
in unserem Beispiel, dichotom, dann gilt
p2 = 1-p1
Ist p1=0.5 dann ist p2
auch =0.5. Dann ist p1/p2=1. Das "Gewinn-zu-Verlust-Verhältnis" ist
also ausgeglichen.
Ist p1=0.6666.. dann ist
p2=0.33333... Dann ist p1/p2 =2. Die Gewinn-Chance ist 2 mal besser als die
Verlust-Chance
In unserem Beispiel ist
p1/p2=5.7886. Für unseren Arbeiter mit einem Einkommen von 4 gilt also, dass
seine Wahrscheinlichkeit den Kredit zurückzuzahlen 5.7886 mal größer ist als
ihn nicht zurückzuzahlen.
Wie groß ist dann p1 ?
Hier gilt die allgemeine
Formel:
p1 = f / (1+f)
= 5.7886 / (1+5.7886)
= 0.853
wobei f=p1/p2
Die Wahrscheinlichkeit
unseres Arbeiters mit Einkommen 4 den Kredit zurückzuzahlen ist also p1=0.853.
Betrachten wir einige
Werte von p1
dann ist "Gewinn-zu-Verlust-Verhältnis"
p1
p2= 1-p1 p1/p2
----
-------- ------
0.1
0.9 0.111
0.2
0.8 0.250
0.3
0.7 0.429
0.4
0.6 0.667
0.5
0.5 1
0.6
0.4 1.500
0.7
0.3 2.333
0.8
0.2 4
0.9
0.1 9
Betrachten wir nun wieder
Gleichung 2 bzw. 2a. Alle Arbeiter haben - im Vergleich zum Durchschnitt aller
Untersuchungspersonen - eine um den Faktor exp(a1) =3.96 erhöhtes
Wahrscheinlichkeits-Verhältnis p1/p2, d.h. ihre Wahrscheinlichkeit den Kredit
zurückzuzahlen ist erhöht.
Dieser Faktor wird in der
Literatur gelegentlich "Risiko" genannt. Auch der Begriff
"Effekt-Koeffizient" wird gelegentlich gebraucht (so bei D. Urban:
Logit-Analyse, Gustav Fischer, Stuttgart, 1993).
Wäre exp(a1)=1, dann
würden sich die Arbeiter so verhalten wie der Durchschnitt.
Wir definieren nun als
relatives Risiko" = (exp(a(i)) - 1)
* 100
Für die Arbeiter finden
wir dann
relatives Risiko = (exp(a1) - 1) * 100
= (3.96 - 1) * 100
= 296
Wir können jetzt
formulieren: Arbeiter haben ein um 296 % höheres Risiko einen Kredit
zurückzuzahlen als die durchschnittliche Untersuchungsperson.
Zu beachten ist, dass die
Bezugskategorie der Durchschnitt aller Untersuchungs-personen ist. Dies ist in
Almo der Fall, wenn die 0,1,-1 - Kodierung der Dummies der unabhängigen
nominalen Variablen verwendet wird. Dies ist die Voreinstellung in Almo.
Wird die 0,1 - Kodierung
verwendet, dann wird (standardmäßig) die letzte Dummy, in unserem Beispiel die
Selbständigen, auf 0 gesetzt. Sie erscheint dann auch gar nicht in der
Ergebnis-Ausgabe.
Almo liefert folgendes
Ergebnis (verkürzt):
unabhängige Variable Regress. "Risiko"
relatives
Koeffiz. exp(Regr.- Risiko
koeffiz.)
-----------------------------------------------------------
c Konstante 1.43044
- -
a1 Beruf:Arbeiter 1.82889
6.22695 522.69462
a2 Beruf:Angestellte -0.47341 0.62287 -37.71264
X Einkommen -0.37586
0.68670 -31.33039
-----------------------------------------------------------
Die Selbständigen sind
jetzt die Bezugskategorie. Die Arbeiter haben im Vergleich zu den Selbständigen
eine um 522 % erhöhte Wahrscheinlichkeit den Kredit zurückzuzahlen und die
Angestellten eine um 37.7 % reduzierte Wahrscheinlichkeit.
In Almo ist es bei der
0,1 - Kodierung möglich, entweder die erste oder die letzte Dummy zu eliminieren.
Allgemein gilt:
a. Bei der 0,1 - Kodierung ist die
Bezugskategorie die
eliminierte Dummy.
b. Bei der 0,1,-1 - Kodierung ist die
Bezugskategorie der
Durchschnitt aller
Untersuchungspersonen.
Betrachten wir nochmals
obige Gleichung (2)
(2)
p1/p2 = exp(c) * exp(a(i)) *
exp(ß*X)
Das Einkommen unseres
Arbeiters ist X=4.
Der Ausdruck exp(ß*X) ist
also exp(-0.37586 * 4) = 0.22236
Wenn sich das Einkommen dieser
Person um 1 Einheit erhöht, dann
ist der Ausdruck exp(ß*X)
= exp(-0.37586 * 5) = 0.15270
Wenn wir für X=5 obige
Gleichung (2) für unsere Person ausrechnen, dann erhalten wir
p1/p2 = 3.9750
Für X=4 haben wir oben
errechnet
p1/p2 = 5.7886
So hat sich also p1/p2 um
den multiplikativen Faktor
3.9750 / 5.7886 = 0.68670
verringert. Und das ist
genau das in obiger Tabelle angegebene
Risiko exp(ß).
Risiko-Werte unter 1
führen zu einer Verringerung von p1/p2. D.h. p1 wird kleiner und p2 wird
größer.
Risiko-Werte über 1
führen zu einer Erhöhung von p1/p2. D.h. p1 wird größer und p2 wird kleiner.
Wir können nun den
Begriff "Risiko" (=exp(ß)) bei ursächlichen quantitativen Variablen
allgemein definieren.
Nimmt die ursächliche
quantitative Variable X um 1 Einheit zu, dann nimmt das
Wahrscheinlichkeits-Verhältnis p1/p2 um den multiplikativen Faktor exp(ß) zu.
Wir können diese Zunahme
bzw. Abnahme auch in Prozentwerten ausdrücken. Sie beträgt dann 100(exp(ß)-1).
Das ist das relative Risiko.
Betrachten wir für
Arbeiter die Werte, die sich gemäß Gleichung 2 für Einkommenswerte X von 0 bis
6 ergeben.
---
------- -------------
0
26.0326
1
17.8765 0.6867
2
12.2758 0.6867
3 8.4298 0.6867
4 5.7886 0.6867
5 3.9750 0.6867
6 2.7297 0.6867
Das
Wahrscheinlichkeits-Verhältnis p1/p2 einer nachfolgenden Einkommensstufe
entsteht
durch Multiplikation mit
exp(ß)=0.6867 des Wahrscheinlichkeits-Verhältnis p1/p2 der
vorhergehenden
Einkommensstufe.
Literatur:
Almo-Handbuch zu P22
Logit- und Probit-Analyse
Almo-Handbuch zu Data
Mining
Arminger, Küsters:
Statistischr Verfahren zur Analyse qualitativer Variablen,
Bergisch Gladbach, 1986
G.S. Maddala:
Limited-dependent and qualitative variables in econometrics,
Cambridge, 1990
Dieter Urban:
Logit-Analyse, Gustav Fischer, Stuttgart, 1993