1. Was ist neu in der Version 12 von Almo ?

2. Was ist neu in der Version 11 von Almo ?

3. Was ist neu in der Version 10 von Almo ?

4. Was ist neu in der Version  9 von Almo ?

5. Die Koeffizienten der Logitanalyse

Was ist neu in der Version 12 von Almo ?

Wieder haben wir viele kleine Verbesserungen vorgenommen.

Insbesondere haben wir an der Oberfläche von Almo gearbeitet.

 

Die kmeans-Clusteranalyse wurde um die Möglichkeit erweitert mehrere

Lösungsversuche für eine vorgegebene Clusterzahl zu rechnen (wobei Almo

dann die beste davon hervorhebt)

 

Neu hinzu gekommen sind bei den "Statistischen Algorithmen in C"

1. die Logit- und Probitanalyse

2. die kanonische Diskriminanzanalyse

3. die k-means-Clusteranalyse

Was ist neu in der Version 11 von Almo ?

Wie immer wurden kleinere Verbesserungen und Verschönerungen gemacht.

Das sind die Neuheuten:

1. Imputation fehlender Werte mit Hilfe der Clusteranalyse

2. Statistischer Algorithmen in C

 

Zu 'Imputation fehlender Werte'

Zuerst wird eine k-means Clusteranalyse durchgeführt. Sie liefert die

Mittelwerte der Klassifikationsvariablen je Cluster und ordnet jeder

Untersuchungseinheit eine Clusterzugehörigkeit zu. Danach wird das

eigentliche Imputationsverfahren gerechnet. Eine Untersuchungseinheit,

die dem Cluster i angehört und in der Klassifikationsvariablen j keinen

Wert besitzt, erhält in dieser Variablen j den Mittelwert ihres Clusters.

Bei nominalen Klassifikationsvariablen wird der Erwartungswert bzw.

der wahrscheinlichste Wert je Cluster ermittelt und als Ersatzwert für

den fehlenden Wert eingesetzt.

Die Ersatzwerte können dann noch durch normalverteilte Zufallswerte (mit

dem Mittelwert und der Standardabweichung der betreffenden Klassifikations-

variablen) überlagert werden.

Danach werden die so veränderten Datensätze gespeichert.

 

Zu 'Statistische Algorithmen in C'

Die in Almo angebotenen statistischen Verfahren enthalten viele

statistische Algorithmen. Beispiele:

 

Mittelwert-Berechnung
Chi-Quadrat-Test
Korrelations-Berechnung

Allgemeines Lineares Modell

Faktorenanalyse
etc.


Diese Algorithmen haben wir etwas vereinfacht, von Ballast (wie z.B.

komplexen Optionen) befreit und stellen sie so dem interessierten

Programmierer für eigene Software-Projekte zur Verfügung.
Alle Algorithmen sind in der Programmiersprache "C" geschrieben.
Damit Sie mit den angebotenen Algorithmen experimentieren und sie

auch verändern können, haben wir die Algorithmen in das

Almo-System eingebunden. Damit sind sie aus Almo startbar und es

können Daten eingelesen werden und mit den Algorithmen gerechnet

werden. Trotzdem bleiben die Algorithmen allgemein einsetzbare

C-Funktionen.

Eine Liste aller Algorithmen finden Sie unter "Algorithmen in C"

 

-----------------------------------------------------------------------------------------

Was ist neu in der Version 10 von Almo ?
Neben den üblichen "kleinen Verbesserungen und Verschönerungen" wurde

1. ein umfangreicher Programmteil zur Behandlung von Ausreissern eingefügt
2. Der Grafikbereich wurde durch ein Pfaddiagramm erweitert.

 

Zu den Ausreissern

Ausreisser sind Werte, die ausserhalb "valider Grenzen" liegen.
Die "validen Grenzen" definiert der Forscher. Anders formuliert: Es gibt
keine "objektive", eindeutige Definition, was ein Ausreisser ist.
Der Forscher legt fest, was für ihn ein Ausreisser ist.
Werden Ausreisser vom Forscher aus der Analyse ausgeschlossen, dann tut er
dies, weil er unterstellt, dass diese Daten - obwohl empirisch gewonnen -
falsch sind oder er tut dies, weil sie ihm einen Variablen-Zusammenhang
seiner Meinung nach verfälschen.

In Almo werden 2 Typen von Ausreissern unterschieden:

Ausreisser vom Typ 1:
Ein Variablenwert liegt ausserhalb des "validen Wertebereichs"
der Variablen. Hier können nochmals 2 Untertypen unterschieden werden
a. Schreibfehler
b. Extremwerte

Ausreisser vom Typ 2:
Ein Variablenwert liegt ausserhalb der "validen Punktewolke"
eines mehrdimensionalen Variablen-Zusammenhangs.

Zu Typ 1a: Schreibfehler als Ausreisser
Ausreisser entstehen sehr oft dadurch, dass beim Schreiben der Daten
Fehler gemacht werden. Beispiel: Anstelle 9 wird versehentlich
der Wert 99 geschrieben. Diese Art der Ausreisser werden durch
das schon immer vorhandene Almo-Programm Prog03m entdeckt.

Zu Typ 1b: Extremwert als Ausreisser
Natürlich gibt es auch "echte" Ausreisser, die nicht durch Schreibfehler
entstanden sind. Beispiel: Für eine Stichprobe von 1000 Personen wird
das Einkommen erhoben. Dabei sind einige wenige Milliardäre in die
Stichprobe gelangt. Deren Einkommen liegt ausserhalb des
"validen Wertebereichs". Wird nun die Korrelation zwischen Einkommen
und beispiesweise Schulbildung ermittelt, so kann der
Korrelationskoeffizient durch die Milliardäre dramatisch verändert werden.
Hier ist es sinnvoll, die Milliardäre als Ausreisser zu identifizieren
und aus der Analyse auszuschliessen.
Für diesen Zweck wurde in viele Almo-Programme die Optionsbox

"Ausreisser vom Typ 1 identifizieren"

eingefügt. Diese Option kann auch verwendet werden, um Ausreisser vom Typ 1a,
also Schreibfehler, zu finden. Dem Benutzer werden folgende
"Behandlungsmöglichkeiten" von Ausreissern angeboten:
 

1 Ausreisser in Ergebnisliste nur melden
2 melden und auf Kein-Wert (missing value) setzen
3 melden und auf validen Grenzwert setzen
4 melden und auf bereinigte Ober- bzw. Untergrenze setzen
5 melden und ganzen Datensatz ausschliessen

 

Almo bietet auch an, eine neue "Ausreisser-bereinigte" Datei zu erstellen.
Diese kann dann für weitere Analysen verwendet werden.

Zu Typ 2: Ausreisser liegt ausserhalb der "validen Punktewolke"
Betrachten wir ein Beispiel:


Der Zusammenhang zwischen der Variablen x und y wird durch ein
Streudiagramm grafisch dargestellt. Die kleinen roten Punkte sind
Messpunkte. Die durchgezogene Linie ist die Regressionsgerade.

Der Messpunkt B ist ein Ausreisser vom Typ I. Sein x-Wert liegt
weit ausserhalb des validen Wertebereichs von x.

Der Messpunkt A ist ein Ausreisser vom Typ II. Sein x-Wert und sein
y-Wert liegt zwar innerhalb des validen Wertebereichs von x und y.
In Bezug auf den Zusammenhang von x und y ist er jedoch ein
Ausreisser. Er liegt ausserhalb der "validen Punktewolke xy".

Um Ausreisser vom Typ 2 zu identifizieren und zu "behandeln" wurde

ein spezielles Almo-Programm entwickelt. Das Programm ermöglicht es,
auch Ausreisser in einem multi-dimensionalen (und nicht nur 2-dimensionalen)
System zu identifizieren.


Zum Pfaddiagramm
Betrachten wir ein Beispiel: Für 6 Variable wird mit (dem schon immer
in Almo vorhandenen) Prog25m1 eine Pfadanalyse gerechnet.
Dabei wird folgende kausale Reihenfolge angenommen

Herkunft-->Bildung-->Leistung-->Einkommen-->Vermögen-->Konsum

Die Herkunft bestimmt die Bildung, diese die Leistung usw.
Mit Prog25m1 werden die standardisierten Regressionskoeffizienten
für ein volles rekursives Kausalmodell ermittelt. D.h. es wird zunächst
unterstellt, dass in obiger Reihenfolge jede Variable alle
nachfolgenden Variablen determiniert
Dieses Modell wird nun in Almo 10 grafisch als Pfaddiagramm dargestellt.

Das geschieht automatisch. Der Benutzer braucht nicht selbst zu zeichnen.
Das Pfaddiagramm wird ihm im Ergebnisfenster präsentiert.


Das Pfaddiagramm umfasst 6 Variable. Um die Pfeile optisch besser unterscheiden
zu können werden Farben verwendet.
Auf den Pfeilen stehen die (standardisierten) Regressionskoeffizienten.
Signifikante Pfade sind durch 1 oder 2 oder 3 Sterne markiert. Die entsprechenden
Pfeie sind fett gezeichnet (was in obigem verkleinertem Diagramm nicht sichtbar wird).
Standardmäßig werden an den Regressionskoeffizient angehängt:

1 Stern wenn seine Sigifikanz (1-p)*100 >= 95 % bzw. p <= 0.05
2 Stern wenn seine Sigifikanz (1-p)*100 >= 99 % bzw. p <= 0.01
3 Stern wenn seine Sigifikanz (1-p)*100 >= 99,9 % bzw. p <= 0.001

Im Almo-Grafik-Editor können die Signifikanzen je Stern anders definiert werden.
Dort besteht auch die Möglichkeit, nicht-signifikante Pfade aus dem Diagramm zu löschen
und nur Pfade zu zeigen, die mindestens 1 Stern besitzen, also mit mindestens
95 % signifikant sind. Es entsteht dann folgendes Pfaddiagramm.

 

------------------------------------------------------------------------------------------------

Was ist neu in der Version 9 von Almo ?
Die Almo-Wahlhochrechnung mit Wählerstromanalyse ist nunmehr im Standard-Almo

enthalten.
 

Wie bei jedem Almo-Update wurden wieder viele kleine, einzelne Verbesserungen
und "Verschönerungen" bei den Eingabe-Masken, den Berechnungen, den Ergebnislisten 
und den Grafiken
vorgenommen. Bei den Grafiken wurde es z.B. ermöglicht, diese
im 3D-Stil zu beschriften. Weiter unten zeigen wir Ihnen ein Beispiel.

Joachim Gerich hatte schon für die Almo-Version 8.5 einen "Importmanager"

entwickelt, der es auf eine sehr einfache Weise ermöglichte, Daten aus SPSS
nach Almo und umgekehrt zu übertragen. Jetzt hat er für Almo 9 ein sehr komfortables
Dateneingabe-Modul entwickelt.

 

Die "große" Verbesserung wurde im Grafikbereich bereits in der Version 8.0 vorgenommen: 

Almo gibt in seinen Ergebnislisten, zusätzlich zu den Tabellen, Matrizen etc.

eine Vielzahl von Grafiken aus. Diese Grafiken wurden seither in separaten 

Fenstern gezeigt. Jetzt stehen diese Grafiken  mitten in der Ergebnisliste 

bei den Tabellen und Matrizen, die sie optisch  veranschaulichen sollen.

 

Betrachten wir ein Beispiel.

Die Leistung von 61 Schülern wird ausgezählt. Almo liefert folgendes Ergebnis:

 

 

Variable 5 Leistung       

 

Wert                  Fälle      %    % kumuliert

─────────────────────────────────────────────────

   1 sehr gut            15    24.59      24.59

   2 gut                 28    45.90      70.49

   3 befriedigend        10    16.39      86.89

   4 ausreichend          7    11.48      98.36

   5 nicht genügend       1     1.64     100.00

─────────────────────────────────────────────────

Summe                    61     100%  
 

 

Zuerst wird in einer Tabelle die Häufigkeitsverteilung dargestellt.

Dann wird die Häufigkeitsverteilung als Balkendiagramm gezeichnet.

Über der Grafik befindet sich ein Knopf mit der Bezeichnung "Grafik".

Wenn der Benutzer auf diesen Knopf klickt, dann wird die Grafik in den

Almo-Grafik-Editor geladen. Dort kann sie in vielfältiger Weise

bearbeitet und verändert werden. Z.B. kann der Benutzer die Hintergrund-Wände

durchsichtig weiß machen. Er kann die Balken dicker machen. Er kann die

Beschriftung ändern. Er kann sogar das Balkendiagramm mit einem Mausklick

in ein Liniendiagramm umgestalten. Die Zahl der Veränderungsmöglichkeiten 

ist nahezu unerschöpflich.

 

Nach diesen Veränderungen im Grafik-Editor kann durch einfachen Mausklick

die veränderte Grafik in die Ergebnisliste eingesetzt werden, wo sie die

seitherige Grafik ersetzt.

 

Selbstverstänlich kann die Ergebnisliste mit den eingelagerten Grafiken

problemlos in eine Textverarbeitung, z.B. Word, übergeben werden. Auch

das geschieht wieder mit einem Mausklick.

 

3D-Beschriftung
Ab Almo 9 können Grafiken nunmehr auch (optional) im 3D-Stil beschriftet werden.
Obige Grafik sieht in 3D-Beschriftung so aus:

 

 

Beachte: Die Stufen in den vertikalen Linien der obigen Grafiken verschwinden beim Ausdrucken.
Der Drucker hat eine sehr viel feinere Auflösung als der Bildschirm.
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

Koeffizienten der Logitanalyse

------------------------------

Eine häufig gestellte Frage lautet:

  

Wie sind die im Rahmen der Logit-Analyse errechneten Regressionskoeffizienten 
und Risiko-Koeffizienten zu interpretieren ?

 

Vorweg ist folgendes zu sagen:

Anstelle des Begriffs "Risiko-Koeffizient", den wir hier verwenden, wird in der Literatur
auch der Begriff "Effekt-Koeffizient" gebraucht (so bei D. Urban: Logit-Analyse,
Gustav Fischer, Stuttgart, 1993).

 

Betrachten wir ein Beispiel: 
Kunden kaufen auf Kredit. Werden sie ihren Kredit zurückzahlen ?

Die Variablen für unser Beispiel sollen folgende sein:

 

Die Zielvariable ist     Kredit-Rückzahlung: nein,

                                             ja

 

Die unabhängigen nominalen Variablen sind

                                    Wohnort: Stadt

                                             Land

 

                                 Hausbesitz: kein Haus

                                             hat Haus

 

Die unabhängigen quantitativen Variablen sind

                                             Einkommen

                                             Rückzahlungsrate

                                             Kredit-Laufzeit

Almo liefert folgende Ausgabe (verkürzt).

 

 

Ergebnisse fuer 2. Auspraegung "ja" der abhaengigen Variablen V10 Rückzahl  

(als Referenz wird die 1. Auspraegung "nein" verwendet)

 

    unabhaengige Variable   Regress.     Risiko    relatives  Signifikanz   partielle

                            koeff.ß      epx(ß)    Risiko      (1-p)*100    Korrelation

---------------------------------------------------------------------------------------

    A1    Wohnort:   Stadt  -0.43493    0.64731    -35.26902      100.00    -0.13168

    A2    Wohnort:    Land   0.43493    1.54486     54.48553      100.00     0.13168

 

    B1   Hausbesi:kein Hau  -0.74569    0.47440    -52.55955      100.00    -0.15825

    B2   Hausbesi:hat Haus   0.74569    2.10791    110.79059      100.00     0.15825

 

    V4   Einkommen           0.68943    1.99257     99.25744      100.00     0.25486

    V7   Rueckrate          -0.00077    0.99923     -0.07689      100.00    -0.25619

    V8   Laufzeit            0.04562    1.04667      4.66727       99.22     0.06526

---------------------------------------------------------------------------------------

 

Erläuterung zum Regressionskoeffizient

Betrachten wir die beiden Regressionskoeffizienten für den Wohnort

 

             A1  Wohnort:   Stadt -0.43493

             A2  Wohnort:    Land  0.43493

 

Das Logit-Modell lautet

 


 

 


Diese Gleichung kann so umgewandelt werden, daß auf der rechten Seite ein linearer Ausdruck steht

 

  (1)  ln(p1/p2) = c + a(i) + b(j) + ß1*E + ß2*R + ß3*L

 

 

p1=Wahrscheinlichkeit für Kreditkauf: ja

p2=Wahrscheinlichkeit für Kreditkauf: nein (p2=1-p1)

   Natürlich gilt: p2 = 1-p1

e =e-Zahl 2.718

c =Konstante

 

a(i) bezeichnet die Regressionskoeffizienten für die 2

     Dummy-Variable des Wohnorts

b(j) bezeichnet die Regressionskoeffizienten für die 2

     Dummy-Variable des Hausbesitz

 

es ist also:

 

a1=Regressionskoeffizient für "Stadt"

a2=Regressionskoeffizient für "Land"

 

E =Einkommen

ß1=Regressionskoeffizient für Einkommen

 

R =Rueckrate

ß2=Regressionskoeffizient für Rueckrate

 

L =Laufzeit

ß3=Regressionskoeffizient für Laufzeit

 

Regressionskoeffizienten der nominalen Variablen

 

Der Regressionskoeffizienten a1=-0.43493 für "Stadt" und a2=0.43493 für "Land" haben folgende Bedeutung:

 

1. Das negative Vorzeichen von a1 drückt aus, daß Städter im Vergleich zur "Durchschnittsperson" das logarithmierte Wahrscheinlichkeitsverhältnis ln(p1/p2) aus Gleichung 1 verringern. Vereinfacht: Städter haben eine geringere Wahrscheinlichkeit ihren Kredit zurückzuzahlen. Umgekehrt drückt das positive Vorzeichen von a2 aus, daß Leute vom Land eine erhöhte Wahrscheinlichkeit haben ihren Kredit zurück zu zahlen.

 

2. Je (absolut) größer der Regressionskoeffizient ist, umso stärker ist diese Tendenz.

 

Regressionskoeffizienten der quantitativen Variablen

 

Der Regressionskoeffizient ß1=0.68943 für "Einkommen" hat folgende Bedeutung: Wenn sich das Einkommen um 1 Einheit erhöht, dann erhöht sich das logarithmierte Wahrscheinlichkeitsverhältnis ln(p1/p2). Vereinfacht: Wenn sich das Einkommen um 1 Einheit erhöht, dann nimmt die Wahrscheinlichkeit zu, den Kredit zurückzuzahlen. Ein negatives Vorzeichen würde bedeuten, dass sich die Wahrscheinlichkeit verringert. Je (absolut) größer der Regressionskoeffizient ist, umso stärker ist diese Tendenz.

 

 

Der Risiko-Koeffizient exp (ß)

 

Unser Beispiel ist relativ komplex. Wir haben 2 ursächliche nominale Variable und 3 ursächliche quantitative Variable.

 

Um unsere Erläuterung übersichtlich gestalten zu können, wollen wir ein anderes, einfacheres Beispiel betrachten, bei dem nur 1 ursächliche nominale und 1 ursächliche quantitative Variable vorhanden ist.

 

Die Variablen für unser vereinfachtes Beispiel sollen folgende sein:

 

Die Zielvariable ist     Kredit-Rückzahlung: nein,

                                             ja

 

Die unabhängige nominale Variable ist Beruf: Arbeiter,

                                             Angestellter,

                                             Selbständiger

 

Die unabhängige quantitative Variable ist:   Einkommen

Sie wird in Einkommensklassen mit den Werten 1,2,3, ....,9 gemessen.

 

Almo liefert folgendes Ergebnis:

 

Ergebnisse für 2. Ausprägung "ja" der abhängigen Variablen "Rückzahlung"     

(die Ausprägung "nein" wird als Referenzkategorie verwendet)

 

 unabhängige Variable         Regress.    "Risiko"    relatives

                              Koeffiz.    exp(Regr.-  Risiko

                                          koeffiz.)   in %

---------------------------------------------------------------

c     Konstante               1.88227         -            -

 

a1    Beruf:Arbeiter          1.37706      3.96324    296.32376

a2    Beruf:Angestellte      -0.92524      0.39644    -60.35623

a3    Beruf:Selbständige     -0.45182      0.63647    -36.35343

 

X     Einkommen              -0.37586      0.68670    -31.33039

---------------------------------------------------------------

 

Die Logit-Modell-Gleichung ist folgende:

 


 

 


Man beachte:p1 ist die Wahrscheinlichkeit für die 2. Ausprägung "ja" der Zielvariablen "Rückzahlung". Mit p2 werden wir die Wahrscheinlichkeit für die Referenzkategorie "nein" bezeichnen

 

Diese Gleichung kann so umgewandelt werden, dass auf der rechten Seite ein linearer Ausdruck steht.

 

  (1)  ln(p1/p2) = c + a(i) + ßX

 

 

p1=Wahrscheinlichkeit für Rückzahlung: ja

p2=Wahrscheinlichkeit für Rückzahlung: nein

   Natürlich gilt: p2 = 1-p1

c =Konstante

 

a(i) bezeichnet die Regressionskoeffizient für die 3

    Dummy-Variable des Berufs (die den 3 Ausprägungen entsprechen)

 

es ist also:

 

a1=Regressionskoeffizient für "Arbeiter"

a2=Regressionskoeffizient für "Angestellter"

a3=Regressionskoeffizient für "Selbständiger"

 

X =Einkommen

ß =Regressionskoeffizient für Einkommen

 

Für einen Arbeiter in der Einkommensklasse X=4 lautet also die Gleichung

 

  (1a)  ln(p1/p2) =   c  +   a1 +   ßX

                  = 1.88 + 1.38 - 0.38*4

 

Gleichung 1 bzw. 1a kann so transformiert werden, dass der auf der linken Gleichungsseite stehende Logarithmus verschwindet.

 

  (2)  p1/p2 =  exp(c) * exp(a(i)) * exp(ß*X)

 

exp (...) = Exponentialfunktion von ...

 

Für unseren Arbeiter mit Einkommen X=4

 

  (2a) p1/p2 = exp(c)    * exp(a1)   * exp(ß*X)

             = exp(1.88) * exp(1.38) * exp(-0.38*4)

             =   6.62    *   3.96    *  0.22

             =   5.7886

 

Zuerst ist festzuhalten, dass sich die Interpretation auf die 2. Ausprägung der Zielvariablen also auf "Rückzahlung: Ja" bezieht.

 

p1 ist also die Wahrscheinlichkeit für Rückzahlung: ja

p2 ist also die Wahrscheinlichkeit für Rückzahlung: nein

 

Das Wahrscheinlichkeits-Verhältnis p1/p2 wird in der angelsächsischen Literatur "odds" genannt.

 

Wenn man p1 als Gewinn-Wahrscheinlichkeit und p2 als Verlust-Wahrscheinlichkeit interpretiert, dann könnte man p1/p2 als "Gewinn-zu-Verlust-Verhältnis" bezeichnen.

 

Ist die Zielvariable, wie in unserem Beispiel, dichotom, dann gilt

 

          p2 = 1-p1

 

Ist p1=0.5 dann ist p2 auch =0.5. Dann ist p1/p2=1. Das "Gewinn-zu-Verlust-Verhältnis" ist also ausgeglichen.

 

Ist p1=0.6666.. dann ist p2=0.33333... Dann ist p1/p2 =2. Die Gewinn-Chance ist 2 mal besser als die Verlust-Chance

 

In unserem Beispiel ist p1/p2=5.7886. Für unseren Arbeiter mit einem Einkommen von 4 gilt also, dass seine Wahrscheinlichkeit den Kredit zurückzuzahlen 5.7886 mal größer ist als ihn nicht zurückzuzahlen.

 

Wie groß ist dann p1 ?

Hier gilt die allgemeine Formel:

 

                    p1 = f / (1+f)

                       = 5.7886 / (1+5.7886)

                       = 0.853

wobei f=p1/p2

 

Die Wahrscheinlichkeit unseres Arbeiters mit Einkommen 4 den Kredit zurückzuzahlen ist also p1=0.853.

 

Betrachten wir einige Werte von p1

 

           dann ist    "Gewinn-zu-Verlust-Verhältnis"

     p1    p2= 1-p1           p1/p2

    ----   --------          ------

    0.1      0.9              0.111

    0.2      0.8              0.250

    0.3      0.7              0.429

    0.4      0.6              0.667

    0.5      0.5              1

    0.6      0.4              1.500

    0.7      0.3              2.333

    0.8      0.2              4

    0.9      0.1              9

 

Betrachten wir nun wieder Gleichung 2 bzw. 2a. Alle Arbeiter haben - im Vergleich zum Durchschnitt aller Untersuchungspersonen - eine um den Faktor exp(a1) =3.96 erhöhtes Wahrscheinlichkeits-Verhältnis p1/p2, d.h. ihre Wahrscheinlichkeit den Kredit zurückzuzahlen ist erhöht.

 

Dieser Faktor wird in der Literatur gelegentlich "Risiko" genannt. Auch der Begriff "Effekt-Koeffizient" wird gelegentlich gebraucht (so bei D. Urban: Logit-Analyse, Gustav Fischer, Stuttgart, 1993).

 

Wäre exp(a1)=1, dann würden sich die Arbeiter so verhalten wie der Durchschnitt.

 

Wir definieren nun als

 

      relatives Risiko" = (exp(a(i)) - 1) * 100

    

Für die Arbeiter finden wir dann

 

      relatives Risiko = (exp(a1) - 1) * 100

                       = (3.96    - 1) * 100

                       = 296

 

Wir können jetzt formulieren: Arbeiter haben ein um 296 % höheres Risiko einen Kredit zurückzuzahlen als die durchschnittliche Untersuchungsperson.

 

Zu beachten ist, dass die Bezugskategorie der Durchschnitt aller Untersuchungs-personen ist. Dies ist in Almo der Fall, wenn die 0,1,-1 - Kodierung der Dummies der unabhängigen nominalen Variablen verwendet wird. Dies ist die Voreinstellung in Almo.

 

Wird die 0,1 - Kodierung verwendet, dann wird (standardmäßig) die letzte Dummy, in unserem Beispiel die Selbständigen, auf 0 gesetzt. Sie erscheint dann auch gar nicht in der Ergebnis-Ausgabe.

 

Almo liefert folgendes Ergebnis (verkürzt):

 

Ergebnisse für 2. Auspräg. "ja" der abhängigen Variablen "Rückzahlung"     

 

 unabhängige Variable     Regress.    "Risiko"    relatives

                          Koeffiz.    exp(Regr.-  Risiko

                                      koeffiz.)

-----------------------------------------------------------

c     Konstante           1.43044         -            -

 

a1    Beruf:Arbeiter      1.82889      6.22695    522.69462

a2    Beruf:Angestellte  -0.47341      0.62287    -37.71264

 

X     Einkommen          -0.37586      0.68670    -31.33039

-----------------------------------------------------------

  

Die Selbständigen sind jetzt die Bezugskategorie. Die Arbeiter haben im Vergleich zu den Selbständigen eine um 522 % erhöhte Wahrscheinlichkeit den Kredit zurückzuzahlen und die Angestellten eine um 37.7 % reduzierte Wahrscheinlichkeit.

 

In Almo ist es bei der 0,1 - Kodierung möglich, entweder die erste oder die letzte Dummy zu eliminieren. 

 

Allgemein gilt:

 

    a. Bei der 0,1 - Kodierung ist die Bezugskategorie die

       eliminierte Dummy.

    b. Bei der 0,1,-1 - Kodierung ist die Bezugskategorie der

       Durchschnitt aller Untersuchungspersonen.

 

 

Risiko bei quantitativen Variablen

 

Betrachten wir nochmals obige Gleichung (2)

 

  (2)  p1/p2 =  exp(c) * exp(a(i)) * exp(ß*X)

 

Das Einkommen unseres Arbeiters ist X=4.

Der Ausdruck exp(ß*X) ist also exp(-0.37586 * 4) = 0.22236

 

Wenn sich das Einkommen dieser Person um 1 Einheit erhöht, dann

ist der Ausdruck exp(ß*X) = exp(-0.37586 * 5) = 0.15270

 

Wenn wir für X=5 obige Gleichung (2) für unsere Person ausrechnen, dann erhalten wir

 

      p1/p2 = 3.9750

 

Für X=4 haben wir oben errechnet

 

      p1/p2 = 5.7886

 

So hat sich also p1/p2 um den multiplikativen Faktor

 

      3.9750 / 5.7886 = 0.68670

 

verringert. Und das ist genau das in obiger Tabelle angegebene  Risiko exp(ß).

 

Risiko-Werte unter 1 führen zu einer Verringerung von p1/p2. D.h. p1 wird kleiner und p2 wird größer.

 

Risiko-Werte über 1 führen zu einer Erhöhung von p1/p2. D.h. p1 wird größer und p2 wird kleiner.

 

Wir können nun den Begriff "Risiko" (=exp(ß)) bei ursächlichen quantitativen Variablen allgemein definieren.

 

Nimmt die ursächliche quantitative Variable X um 1 Einheit zu, dann nimmt das Wahrscheinlichkeits-Verhältnis p1/p2 um den multiplikativen Faktor exp(ß) zu.

 

Wir können diese Zunahme bzw. Abnahme auch in Prozentwerten ausdrücken. Sie beträgt dann 100(exp(ß)-1). Das ist das relative Risiko.

 

Betrachten wir für Arbeiter die Werte, die sich gemäß Gleichung 2 für Einkommenswerte X von 0 bis 6 ergeben.

 

        X       p1/p2      Multiplikator

       ---     -------     -------------

        0      26.0326

        1      17.8765        0.6867

        2      12.2758        0.6867

        3       8.4298        0.6867

        4       5.7886        0.6867

        5       3.9750        0.6867

        6       2.7297        0.6867

 

Das Wahrscheinlichkeits-Verhältnis p1/p2 einer nachfolgenden Einkommensstufe entsteht

durch Multiplikation mit exp(ß)=0.6867 des Wahrscheinlichkeits-Verhältnis p1/p2 der

vorhergehenden Einkommensstufe.

 

Literatur:

Almo-Handbuch zu P22 Logit- und Probit-Analyse

Almo-Handbuch zu Data Mining

Arminger, Küsters: Statistischr Verfahren zur Analyse qualitativer Variablen,

              Bergisch Gladbach, 1986

G.S. Maddala: Limited-dependent and qualitative variables in econometrics,

              Cambridge, 1990  

Dieter Urban: Logit-Analyse, Gustav Fischer, Stuttgart, 1993