|
|
Folgende Verfahren sind in ALMO enthalten:
1. Häufigkeitsverteilung
2. Basis-Statistiken
3. Nichtparametrische Verfahren
4. Zwei- und drei-dimensionale Tabellierung
5. Beliebig-dimensionale Tabellierung
6. Tests auf Differenzen zwischen Variablen
7. Korrelationsmatrix
8. Allgemeines lineares Modell
(Regressions-, Varianz- und Kovarianzanalyse, Logit- und Probitanalyse )
9. Kanonische Korrelation
10. Kanonische Diskriminanzanalyse
11. Klassifikation
12. Korrespondenzanalyse
13. Zeitreihenanalyse
14. Pfadanalyse
15. Faktorenanalyse
16. Faktorwert-Ermittlung
17. Clusteranalyse
18. Ähnlichkeits-Skalierung
19. Nicht-metrische multidimensionale Skalierung
nach Kruskal
20. Guttman- und Mokken-Skalierung
21. Rasch-Skalierungsverfahren und probabilistisches
Unfolding
22. Latente Strukturanalyse nach Lazarsfeld
23. Wählerstromanalyse
24. Soziometrie
25. Zuverlässigkeitskoeffizienten
26. Matrixoperationen
27. Sortieren
28. Ereignisanalyse
29. Conjoint-Analyse (Analyse verbundener Messungen)
30. Nichtlineare Regression mit einer unabhängigen
Variablen
31. Datei-Operationen
32. Daten-Import und -Export
33. Zusatzprogramm: Wahl-Hochrechnung
34. Data Mining
35. Datenfusion
36. Schätzwerte für fehlende Werte (Daten-Imputation)
b. Arithmetisches, harmonisches, geometrisches Mittel, Median, 1. und 3. Quartil, Standardfehler des arithmetischen Mittels.
c. Bei ganzzahligen Variablen: Chi-Quadrat-Anpassungstest für Normalverteilung und Gleichverteilung. Schiefe und Exzeß der Normalverteilung.
d. Bei Variablen mit Dezimalwerten: Kolmogorov-Smirnov-Einstichprobentest zur Überprüfung der Normalverteilung oder Gleichverteilung.
e. Binomialtest.
f. Transformation der Daten auf Normalverteilung oder zu Prozentrangwerten.
b. U-Test nach Mann-Whitney (bzw. der äquivalente Wilcoxon Rangsummentest). Neben dem üblichen normalapproximierten Test kann für kleine Stichproben der exakte Test gerechnet werden. Dabei kann, im Prinzip, die Stichprobengröße n beliebig groß sein. Allerdings strebt die Rechenzeit für große n gegen unendlich. ALMO berechnet den exakten Test deswegen automatisch nur bis zu einer bestimmten Größe von n. Über eine Option kann diese Schranke höher gesetzt werden. In dieser Weise wird der exakte Test auch bei den Verfahren c bis h gehandhabt.
c. X-Test nach van der Waerden. Asymptotischer und exakter Test
d. Siegel-Tukey-Test für Variabilitätsunterschiede. Asymptotischer und exakter Test.
e. Mood-Test für Variabilitätsunterschiede. Mit exaktem Test.
f. Wilcoxon-Vorzeichenrangtest. Asymptotischer und exakter Test. Neben den Bindungen werden auch die Nulldifferenzen berücksichtigt. Bei größeren Stichproben wird das Cureton-Verfahren angewendet. Bei kleineren Stichproben wird ein exakter Test als Teilrang-Randomisierungstest nach Pratt gerechnet. Das Problem der Bindungen und Nulldifferenzen ist in ALMO somit optimal gelöst.
g. Wilcoxon Vorzeichenrangtest für einen vorgegebenen Median.
h. Shorak-Test für Variabilitätsunterschiede zwischen abhängigen Stichproben. Asymptotischer und exakter Test.
i. Friedman-Test. Zusätzlich berechnet wird der Kendall'sche Konkordanzkoeffizient W und die Kontraste zwischen den Variablen (Meßwiederholungen) nach dem Verfahren von Dunn- Rankin.
j. Vorzeichentest. Er entspricht dem Friedman-Test für nur 2 Variable (Meßwiederholungen).
k. Q-Test nach Cochran. Auch er entspricht dem Friedman-Test für 0-1 kodierte Variable.
a. Almo erzeugt 2-dimensionale Tabellen folgender Art:

b. Drei-dimensionale Tabellen werden erstellt, wobei unter der 3. Variablen 2-dimensionale Partialtabellen gebildet werden. Für diese Partialtabellen können alle die Koeffizienten berechnet werden,
die im Programm angeboten werden. Beispiel für 2 Partialtebellen:
c. Der klassische Chi-Quadrat-Test für 2-dimensionale Tabellen wird gerechnet.
d. Korrelationskoeffizienten für nominale Variable
1. Kontingenzkoeffizient C
2. Tschuprows T
3. Cramers V
4. Lambda
5. Vierfelderkorrelation Phi
e. Korrelationskoeffizienten für ordinale Variable
1. Gamma
2. Kendalls tau-b
3. Spearmans Rho
f. Korrelationskoeffizienten für quantitative Variable
1. Produkt-Moment-Korrelation r
2. punktbiseriale Korrelation r(p.bis), eine Variable dichotom andere
Variable quantitativ
3. Eta (eine Variable nominal, andere Variable quantitativ)
g. Ridits, Signifikanz der paarweisen Riditdifferenzen
h. Test für verbundene Stichproben (z.B. Meßwiederholungen)
1. t-Test
2. Wilcoxon Vorzeichenrangtest
3. Zeichentest
4. McNemar-Test, Bowker-Test
i. Exakter Fisher-Test. Er wird für schwach besetzte 2*2 Tabellen verwendet (wenn Erwartungswerte kleiner 5 auftreten).
j. Exakter Freeman-Halton-Test für schwach besetzte Tabellen, die größer als 2*2 sind. Dieser Test ist sehr rechenintensiv.
k. Haldane-Dawson-Test für sehr große, aber schwach besetzte
Tabellen
(mit Erwartungswerten kleiner 5).
l. Konfigurationsfrequenzanalyse für 2-dimensionale Tabellen mit exaktem Binomialtest (mit unbeschränkten Zellenhäufigkeiten).
m. Ulemans exakter Rangaufteilungs U-Test. Dies ist ein exakter U-Test für gruppierte Daten mit vielen Bindungen. Der Test ist sehr rechenintensiv.
n. Kappa-Koeffizient der Urteilsübereinstimmung.
0. tetrachorische und polychorische Korrelation
Grafik: 2D- oder 3D-Balken- oder Liniendiagramme
Beispiel:
Das Schulbildungsniveau wird mit dem Beruf tabelliert und durch ein
Balkendiagramm graphisch veranschaulicht

Die Zahl der Zeilenvariablen ist nicht begrenzt.
b. Partial- bzw. Interaktions-Tabellen. Die Interaktion mehrerer Variablen wird als unabhängige Variable betrachtet, die gegen eine abhängige Variable tabelliert wird. Beispiel:

In
diesem Beispiel kann die 1. Teiltabelle als Partialtabelle betrachtet werden.
Sie bildet den Zusammenhang zwischen Beruf und Schulbildung für Männer die
in der Stadt leben ab.
Die Zahl der interagierenden Zeilenvariablen ist nicht begrenzt.
c. Beliebig-dimensionale Kontingenztabellen mit:
2. 2I-Testt auf allseitige Abhängigkeit
3. Multidimensionale Konfigurationsfrequenzanalyse mit exaktem Binomialtest
(mit beliebig großen Zellenhäufigkeiten)
Grafik: 2D- oder 3D-Balken- oder Liniendiagramme
b. t-Test für einen (hypothetischen) Mittelwert.
c. t-Test für abhängige Stichproben.
d. Test auf signifikante Ridit-Differenz zwischen ordinalen Var.
e. Median-Test für ordinale Variable
f. Vorzeichentest
g. Verschiedene Tests auf Varianzheterogenität für den uni-
und multivariaten Fall: F_max, F_min, Harrison-McCabe, Box-Bartlett
In Abhängigkeit vom Messniveau der Variablen x und y werden als
PRE-Koeffizienten berechnet:
|
|
|
polytom |
|
|
|
|
Phi |
Phi' |
biseriales tau-b |
punktbiseriales r |
|
polytom |
Cramer's V |
Groß-Gamma |
Eta |
|
|
|
tau-b |
Groß-Gamma |
||
|
|
Produkt-Moment r |
Zusätzlich kann auch eine Matrix partieller Korrelationen gebildet werden
Grafik: 3D-Balkendiagramme
Eine von Almo errechnete Korrelationsmatrix kann als Balkendiagramm
ausgegeben werden.
Der Benutzer muss nur auf einen Knopf klicken. Almo erzeugt die Grafik dann
automatisch.
Die Grafik wird "messerscharf" dargestellt und behält auch beim
Ausdrucken ihre Schärfe.
Sie ist deutlich schärfer als nachfolgende Abbildung.
Beispiel:
Die Korrelationen zwischen 4 Variablen werden als Balken dargestellt. In die
Grafik ist eine
Nullebene eingezogen. Nach unten gerichtete Balken bedeuten negative
Korrelationen

b. Varianzanalyse
c. Kovarianzanalyse
d. Diskriminanzanalyse (Schätzung linearer Wahrscheinlichkeiten)
e. Gewichtete Kleinste-Quadrate-Lösung
f. Logit-Analyse, Probit-Analyse. Kleinste-Quadrate-Lösung mit polytomen und ordinalen abhängigen Variablen und nominalen und quantitativen unabhängigen Variablen. Auch als gewichtete Kleinste-Quadrate-Lösung.
Als Maximum-Likelihood-Lösung: Binäres, multinominales und ordinales Logit-Modell sowie binäres und ordinales Probit-Modell
g. Hierarchische Analysen (variablenweise und gruppenweise)
h. Partielle multiple Bestimmtheitsmaße
i. Analyse von Versuchsplänen mit Meßwiederholungen. Mit univariatem und multivariatem Modell
j. Analyse politischer Wahlen. Aggregatdaten-Analyse
k. Tests auf Homogenität der Varianzen und Regressionen, Linearitätstest
- Die Zahl der unabhängigen Variablen ist nur durch den Speicher begrenzt.
- Interaktionen beliebiger Ordnung
- Ordinal gemessene Variable können einbezogen werden.
- Nominale Variable als abhängige Variable sind möglich
- Sorgfältige Behandlung fehlender Messwerte. Paarweises oder vollständiges
Ausscheiden oder Mittelwerteinsetzung.
Auch Daten-Imputation möglich. Siehe dazu "Data-Mining".
- Kleinste-Quadrate-Schätzung auch bei ungleichen Zellenhäufigkeiten. Wahlweise durch eines der folgenden Verfahren
a. SS-Typ III (=weighted squares of means)
b. SS-Typ II (=fitting constants)
c. SS-Typ I (=sequentielles Modell)
- Berechnet werden u.a. folgende Koeffizienten: Partielle Regressionskoeffizienten, Korrelationen, Haupt- und Interaktions-Effekte, erklärte Streuungen, Kontraste,
- jeweils für einzelne unabhängige Variable
- und auch für Variablengruppen
- Prüfung auf lineare Abhängigkeiten zwischen den unabhängigen
Variablen (Multikollinearität)
Grafik: 2D- oder 3D-Punkteplots
Grafik: 2D- oder 3D-Punkteplots
Beispiel: 3 Arten von Lilien werden in einem Streudiagramm dargestellt.
Das ist das bekannte Irisbeispiel von R.A. Fisher
Grafik: 2D- oder 3D-Punkteplots
Beispiel:
Jugendliche wurden befragt, welche Drinks sie drinken, welche Snacks sie essen
und wieviel Geld sie dafür ausgeben. Es lassen sich Typen von Jugendlichen
identifizieren.
Beispiel nach Caroll/Green
Modell 2: Berechnung von Autokorrelationen und Kreuzkorrelationen sowie von partiellen Autokorrelationen und Kreuzkorrelationen. Modell 2 dient der Identifikation von kausalen Beziehungen zwischen Zeitreihen.
Modell 3: In diesem Modell werden die kausalen Beziehungen zwischen Zeitreihen mit Hilfe regressionsanalytischer Modelle geschätzt. Autokorrelierte Residuen beliebiger Ordnung können berücksichtigt werden.
Grafik: 2D- oder 3D-Liniendiagramme

Auf den Pfeilen
in obigem Pfaddiagramm stehen die (standardisierten) Regressionskoeffizienten.
Pfeile, deren
Regressionskoeffizienten nicht signifikant sind, werden eliminiert.
Signifikante Pfade sind durch 1 oder 2 oder 3 Sterne markiert.
Standardmäßig werden an den Regressionskoeffizient angehängt:
1 Stern wenn seine Sigifikanz p <= 0.05
2 Stern wenn seine Sigifikanz p <= 0.01
3 Stern wenn seine Sigifikanz p <= 0.001
Im Almo-Grafik-Editor können die Signifikanzen je Stern anders definiert werden.
b. Hauptkomponenten-Lösung
c. Alpha-Faktorenanalyse
d. Image-Faktorenanalyse
e. kanonische Faktorenanalyse.
f. nominale Faktorenanalyse: Faktorenanalyse mit polytomen nominalen Variablen nach dem Blockdiagonal-Verfahren von McDonald oder durch multiple Korrespondenzanalyse
g. auch Faktorenanalyse der Kovarianzmatrix
h. rechtwinklige Varimax-Rotation
i. schiefwinkliger Quartimin-Rotation
j. Kommunalitäten: 1.0 oder multiple Bestimmtheitsmaße oder maximale Korrelation oder selbst eingegebene Werte
k. frei wählbare Zahl von Kommunalitäten-Iterationen
l. Ermittlung der Faktoren-Signifikanz

|
a.
|
single linkage |
b.
|
complete linkage |
|
c.
|
average linkage |
d.
|
weighted average linkage |
|
e.
|
median linkage |
f.
|
centroid linkage |
|
g.
|
Ward linkage |
h.
|
complete linkage für überlappende Cluster |
|
i.
|
Within-Linkage |
j.
|
gegenseitiges Nächste-Nachbarn-Verfahren |
Grafik: Dendrogramme, 2D-
oder 3D-Liniendiagramme
Beispiel:
B. K-Means-Clusterverfahren für beliebig viel Objekte.
6 Modelle für das K-Means-Verfahren mit unterschiedlicher Gewichtung der Distanzen. Analyse latenter Profile (nach Lazarsfeld und Henry), probabilistische Clusteranalyse (Analyse latenter Klassen) für Variablen mit beliebigem Messnievau und Repräsentanten-Verfahren. Konfirmatorische Clusteranalysen bei allen Verfahren. 5 Startwertverfahren. Eines davon kann als Quick-Clustering-Methode verwendet werden. Zur Bestimmung der Clusterzahl werden eine Reihe von Maßzahlen (Eta-Quadrat, Pseudo-F-Wert, Bealsche F-Werte und ML- und Chi-Quadrat-Werte bei der probabilistischen Clusteranalyse) berechnet. Die Interpretation der gefundenen Clusterlösung wird dadurch erleichtert, daß das Programm untersucht, in welchen Klassifikationsmerkmalen sich die Cluster signifikant unterscheiden und welche Beziehungen zwischen den Klassifikationsmerkmalen innerhalb der Cluster bestehen. Dazu wird innerhalb jedes Clusters eine hierarchische Clusteranalyse gerechnet.
Grafik: 2D- und 3D-Liniendiagramme
Beispiel: Bekleidungs-, Trink- und Rauch-Gewohnheiten von Jugendlichen
Liniendiagramm der Clustermittelwerte

Die senkrechte "0.00-Linie" kennzeichnet den
Durchschnitts-Jugendlichen.
Betrachten wir Cluster 2 (blaue Linie). Es sind dies Jugendliche, die sich
überdurchschnittlich
häufig knonventionell kleiden, stark überdurchschnittlich Bier trinken und
leicht über-
durchschnittlich viel rauchen. Sie sind eher männlich und ihr Bildungsgrad ist
leicht
unterdurchschnittlich. Geradezu ein Gegentyp dazu bildet Cluster 3 (gelbe
Linie). Diese
Jugendlichen kleiden sich elegant, sie trinken eher Wein und rauchen wenig. Sie
sind eher
weiblich und ihr Bildungsgrad ist überdurchschnittlich.
C. Mehrstufige Clusteranalyse
2-stufiges Verfahren:
Es wird zuerst eine k-means-Clusteranalyse gerechnet. Dabei werden sehr viele
Cluster gebildet. Diese Cluster werden mit ihren Mittelwerten in den
Klassifikationsvariablen als Objekte in die 2. Stufe, die hierarchische
Clusteranalyse eingelesen. Deren Ergebnisse sind dann die entgültigen
Ergebnisse
3-stufiges Verfahren:
Zuerst wird wie beschrieben ein 2-stufiges Verfahren gerechnet. Die Ergebnisse
aus der 2. Stufe, der hierarchischen Clusteranalyse,
werden dann als Startwerte in das k-means-Verfahren eingegeben. Dies ist dann
die 3. Stufe der Analyse.
Überspringe Stufe 1:
Fordert der Benutzer ein 3-stufiges Verfahren an und verlangt er, dass Stufe 1
(das k-means-Verfahren) übersprungen wird,
dann führt Almo ein 2-stufiges Verfahren durch, bei dem in der 1. Stufe eine
hierarchische Analyse gerechnet wird, deren Ergebnisse
als Startwerte in das k-means-Verfahren eingegeben werden, das somit die
abschliessende 2. Stufe bildet
c. Tetradenvergleich d. Tripelvergleich
e. multiple Rangordnung f. Rangordnung von Paaren
g. Image-oder Profil-Analse
Grafik: 2D- oder 3D-Punkteplots
Beispiel:
Grafik: Liniendiagramm der "trace-line"
Beispiel:
Personen werden befragt, welche politischen Aktivitäten sie durchführen.
Die tracelines dieser politischen Aktivitäten werden dargestellt
b. Guttman-Skala
c. restringiertes latent-distance-Modell
d. allgemeines latent-distance-Modell
e. Ogiven-Modell (besonders empfehlenswert)
f. latent-class-Modell (nur 2 Klassen)
g. latent-class-Modell (allgemeine Lösung)

Ermittlung der Wählerströme von den Parteien A, B, C usw. der vergangenen Wahl zu den Parteien A, B, C usw. der aktuellen Wahl
Grafik: 2D- und 3D-Liniendiagramme
der Überlebensfunktion.
Beispiel:
Grafik: 2D- und 3D-Liniendiagramme
Beispiel:
Grafik: Kurven- und Streudiagramme
Beispiel:

c. Sortieren von Dateien nach String- und/oder numerischen Variablen
d. Zusammenfügen von Dateien in jeglicher Weise, auch über Verbindungsvariable.
e. Relationale Datenbank-Operationen, wie z.B. Suchen über mehrere
Dateien mittels Verbindungsvariable.
Folge von mehreren Almo-Programmen zur Entdeckung von Zusammenhängen zwischen Variablen und von
Zusammengehörigkeiten von Objekten. Siehe Webseite zu Data Mining
Siehe Webseite zu Data Mining
Siehe Webseite zu Data Mining