DissLiteratur/storage/9TGN2PU6/.zotero-ft-cache

Springer-Lehrbuch

Jürgen Bortz Gustav A. Lienert Klaus Boehnke
Verteilungsfreie Methoden in der Biostatistik
3., korrigierte Auflage Mit 35 Abbildungen, 247 Tabellen und 47 Tafeln
12

Prof. Dr. Jürgen Bortz {
Prof. em. Dr. Dr. Dr. h.c. mult. Gustav A. Lienert {
Prof. Dr. Klaus Boehnke Bremen International Graduate School of Social Sciences (BIGSSS) Jacobs University Bremen Campus Ring 1, 28759 Bremen E-Mail: K.Boehnke@jacobs-university.de

ISBN 978-3-540-74706-2 Springer Medizin Verlag Heidelberg

Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.

Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes.

Springer Medizin Verlag springer.de

© Springer Medizin Verlag Heidelberg 1990, 2000, 2008

Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften.

Produkthaftung: Für Angaben über Dosierungsanweisungen und Applikationsformen kann vom Verlag keine Gewähr übernommen werden. Derartige Angaben müssen vom jeweiligen Anwender im Einzelfall anhand anderer Literaturstellen auf ihre Richtigkeit überprüft werden.

Planung: Dr. Svenja Wahl Projektmanagement: Meike Seeker Umschlaggestaltung: deblik Berlin Satz: K + V Fotosatz GmbH, Beerfelden

SPIN 12114283

Gedruckt auf säurefreiem Papier

2126 – 5 4 3 2 1 0

Geleitwort zur dritten Auflage
Die „Kurzgefasste Statistik für die Klinische Forschung“ ist im Frühjahr 2008 in einer dritten, von Jürgen Bortz überarbeiteten Auflage erschienen. Das vorliegende Buch „Verteilungsfreie Methoden in der Biostatistik“ enthält ausführlichere Darstellungen der Inhalte aus der „Kurzgefassten Statistik für die Klinische Forschung“ und, darüber hinausgehend, weitere Auswertungsmethoden. Für die Neuauflage wurden neben einigen Korrekturen die Querverweise zu den anderen Werken von Jürgen Bortz, namentlich zur bereits erwähnten „Kurzgefassten Statistik“ (Bortz & Lienert, 2008), zur „Statistik für Humanund Sozialwissenschaftler“ (Bortz, 2005) sowie zu „Forschungsmethoden und Evaluation für Human- und Sozialwissenschaftler“ (Bortz & Döring, 2006) angepasst.
Jürgen Bortz ist im September 2007 verstorben. Als seine langjährigen Kollegen und Freunde sind wir der Bitte des Verlages um Unterstützung bei den Korrekturen und Anpassungen gerne nachgekommen. Wir wünschen uns, dass auch dieser Teil des Lebenswerks von Jürgen Bortz zu einem tieferen und kritischen Verständnis statistischer Methoden beitragen möge.
Berlin, im Januar 2008
Tatjana Barskova Konrad Leitner Rainer Oesterreich

Vorwort zur zweiten Auflage
1998 erschien im Springer-Verlag die „Kurzgefaßte Statistik für die Klinische Forschung. Ein praktischer Leitfaden für die Analyse kleiner Stichproben“ von J. Bortz und G. A. Lienert. Dieses Buch faßt die ausführliche Darstellung der wichtigsten Ansätze der „Verteilungsfreien Methoden in der Biostatistik“ (Bortz, Lienert und Boehnke, 1990) unter Anwendungsgesichtspunkten zusammen, d. h. unter nahezu vollständigem Verzicht auf mathematische Ableitungen und Begründungen. Die hieran interessierten Leser werden wiederholt auf das Referenzbuch (Bortz, Lienert, Boehnke, 1990) verwiesen, das inzwischen vergriffen ist.
Freundlicherweise hat sich der Springer-Verlag bereit erklärt, von den „Verteilungsfreien Methoden in der Biostatistik“ eine 2. korrigierte Auflage anzufertigen, so daß auch zukünftig die Möglichkeit besteht, die in der „Kurzgefaßten Statistik“ unter praktischen Gesichtspunkten behandelten Verfahren zu vertiefen. Bei dieser „mittleren“ Überarbeitung wurden Fehler korrigiert und Literatur aktualisiert, ohne hierbei die Paginierung zu verändern.
Neben der vertiefenden Funktion für Leser der „Kurzgefaßten Statistik“ hat die 2. Auflage natürlich – wie auch die 1. Auflage – eine eigenständige Funktion, nämlich zahlreiche interessante Verfahren, für die es in der parametrischen Statistik kein Pendant gibt und die auch unter den verteilungsfreien Verfahren eher als „Exoten“ gelten, dem Leser nahezubringen. Daß dies mit der 1. Auflage gelungen ist, belegen die vielen Zuschriften und Anregungen, für die wir uns herzlich bedanken, verbunden mit der erneuten Bitte um Anregungen zur Verbesserung des Buches (zu richten an die Anschrift des Erstautors).
Zusätzlich wollen wir auf einige wichtige, zwischenzeitlich erschienene Werke aufmerksam machen:
Gibbons und Chakraborti (1992) gilt inzwischen als Klassiker für Statistik-Graduierte, ist aber als Einführung in die verteilungsfreien Methoden für den eher an Anwendungen interessierten Leser relativ schwierig. Für den Anwender sind eher zwei weitere Werke des Erstautors zu empfehlen, wobei Gibbons (1992) allerdings nur Ranktests und Gibbons (1993) verteilungsfreie Assoziationsmaße behandelt. Auf mittlerem Schwierigkeitsniveau zu empfehlen ist Krauth (1990), der nach einer ausführlichen Erklärung der wichtigsten statistischen Begriffe auf Tests zur Überprüfung der Unterschiedlichkeit von 2 bzw. 3

VIII Vorwort zur zweiten Auflage
und mehr Stichproben sowie auf die verteilungsfreie Überprüfung von Zusammenhangshypothesen eingeht.
Brunner und Langer (1999) sollten die Abschnitte 6.1.5.1 sowie 6.2.5.2 dieses Buches ersetzen. Es geht hierbei um die verteilungsfreie Auswertung mehrfaktorieller Pläne, für die in diesen Abschnitten als Näherungslösung die Rangvarianzanalyse mit Datenalignement vorgeschlagen wird. Brunner und Langer offerieren für diese und ähnliche Probleme mathematisch korrekte Lösungen, die für den Nichtmathematiker allerdings nur schwer nachvollziehbar sind. Dennoch ist dieses Buch auch dem Anwender zu empfehlen; die Software für diese Verfahren (spezielle Makros in SASIML), deren Anwendung ein grundlegendes Verständnis der Verfahren nicht voraussetzt, ist im Internet abrufbar (ftp://ftp.ams.med.uni-goettingen.de/pub/nonpar/ld).
Abschließend sei auf zwei weitere Werke hingewiesen: Edgington (1995) behandelt in einer 3. Auflage neuere Entwicklungen für Randomisierungstests, deren Prinzip bei einigen der in Kap. 7 behandelten Verfahren deutlich wird. Für Epidemiologen, Gesundheitsstatistiker sowie empirisch orientierte Sozialarbeiter ist Pett (1997) eine gute Einführung in die Verteilungsfreien Methoden.
Berlin, im Februar 2000
Jürgen Bortz

Vorwort zur ersten Auflage
Ein wissenschaftliches Werk, das auf eine nahezu 30jährige Geschichte zurückblicken kann, verdient es, zunächst in seinen wichtigsten Entwicklungsstufen vorgestellt zu werden. Als G. A. Lienert im Jahre 1962 die Verteilungsfreien Methoden in der Biostatistik beim Verlag Anton Hain veröffentlichte, war dies die erste deutschsprachige Bearbeitung eines damals noch weitgehend unbekannten Teilbereichs der analytischen Statistik. Die enorme Entwicklung und Akzeptanz dieser Verfahrensklasse dokumentiert die 2. Auflage. Allein der 1. Band (1973) war mehr als doppelt so umfangreich wie die Erstauflage. Als dann 1978 der 2. Band der 2. Auflage erschien, war aus den einst handlichen Verteilungsfreien Methoden ein wissenschaftliches Mammutwerk von ca. 2000 Seiten geworden. Die Vielzahl der behandelten Verfahren machte einen eigenständigen Tafelband erforderlich, der im Jahre 1975 erschien. Schließlich wurde der 1. Band noch durch einen Nachtrag mit Hinweisen auf neuere Entwicklung in der Biostatistik ergänzt (3. Auflage, 1986).
Dies war der Entwicklungsstand, als Prof. Lienert mit der Bitte an mich herantrat, eine weitere Auflage der Verteilungsfreien Methoden zu erarbeiten. Ich habe diese Aufgabe übernommen, wohl wissend, daß ich mit dieser Entscheidung viel Arbeit und Verantwortung auf mich nehmen würde.
Mit der neuen Koautorschaft verbunden war ein Verlagswechsel zum Springer-Verlag, Heidelberg, bei dem bereits zwei Lehrbücher des Koautors (Bortz 1984 und Bortz 19893) erschienen sind. Ein solcher Verlagswechsel erfolgt natürlich auch unter ökonomischen Gesichtspunkten, und so war es naheliegend, die 3 Bände der 2. Auflage wieder in einem einzigen Band zu vereinen. Dieses Konzept fand die uneingeschränkte Zustimmung von Prof. Lienert. Damit war für die Neuauflage eine Lösung zu erarbeiten, bei der trotz erheblicher Textreduzierung auf möglichst wenig inhaltliche Substanz verzichtet werden sollte. Wie dieses Konzept realisiert wurde, zeigt der folgende Vergleich der 20 Kapitel der 2. Auflage mit den 11 Kapiteln der Neuauflage: Die Kapitel 1–4 wurden verdichtet, blieben jedoch in ihrer Grundstruktur als vorbereitende Kapitel auf die eigentliche Behandlung der verteilungsfreien Methoden erhalten. Das Kapitel 1 (Wahrscheinlichkeitslehre) behandelt die Grundlagen der Wahrscheinlichkeitsrechnung sowie die wichtigsten Wahrscheinlichkeitsverteilungen.

X

Vorwort zur ersten Auflage

Im 2. Kapitel (Beobachtungen, Hypothesen und Tests) wird beschrieben, wie man anhand unterschiedlich organisierter Beobachtungen (Stichprobenarten) über die Gültigkeit von Hypothesen befinden kann. Kapitel 3 befaßt sich mit Techniken der Datenerhebung und der Datenaufbereitung (ursprünglich: Messen und Testen), und in Kapitel 4 (verteilungsfreie und parametrische Tests) wird problematisiert, unter welchen Umständen parametrisch getestet werden darf bzw. wann ein verteilungsfreier Test seinem parametrischen Pendant vorzuziehen ist.
Die eigentliche Beschreibung verteilungsfreier Verfahren beginnt in Kapitel 5 mit der Analyse von Häufigkeiten. Dieses Kapitel vereint die ursprünglichen Kapitel 5 (Testmethoden, die auf Häufigkeitsinformationen beruhen), Kapitel 15 (Analyse zweidimensionaler Kontingenztafeln: Globalauswertung), Kapitel 16 (spezifizierte Kontingenzprüfungen in Mehrfeldertafeln), Kapitel 17 (Analyse dreidimensionaler Kontingenztafeln) und Teile von Kapitel 18 (mehrdimesionale Kontingenztafeln).
Die wichtigsten Veränderungen von Kapitel 5 gegenüber seinen Vorgängern lassen sich wie folgt zusammenfassen:
– Auf eine Wiedergabe der Likelihoodverhältnis-Kontingenztests (2 I-Tests) wurde wegen ihrer asymptotischen Äquivalenz zur „klassischen“ v2-Analyse verzichtet.
– Korrelative bzw. rangstatistische Auswertungsvorschläge wurden in anderen Kapiteln (Kapitel 6, 8 und 9) untergebracht.
Kapitel 6 widmet sich in seiner ursprünglichen und auch in seiner neuen Fassung der Analyse von Rangdaten. Es behandelt Tests zum Vergleich von 2 und mehr abhängigen bzw. unabhängigen Stichproben. Auch hier seien die wichtigsten Veränderungen genannt:
– Auf Tests zur Überprüfung von sehr speziellen Fragestellungen wird unter Verzicht auf eine ausführliche Darstellung nur noch verwiesen.
– Einige bislang fehlende, aber für den Praktiker wichtige Testmöglichkeiten wurden neu aufgenommen bzw. neu konzipiert.
Auch in Kapitel 7 wurden – abgesehen von einer Straffung des Texts und einigen Korrekturen am Aufbau des Kapitels – die vorgegebenen Inhalte im wesentlichen übernommen. Im Mittelpunkt dieses Kapitels steht die verteilungsfreie Analyse von Meßwerten mit Intervall- (Kardinal-) Skalenniveau.
Das neue Kapitel 8 ist mit „Zusammenhangsmaße und Regression“ überschrieben. Der Abschnitt über Nominaldaten (8.1) berücksichtigt unter Aussparung informationstheoretischer Zusammenhangsmaße einige Assoziations- und Kontingenzmaße des alten Kapitel 9. Es wird gezeigt, daß die wichtigsten Assoziations- und Kontingenzmaße als Spezialfälle des „Allgemeinen Linearen Modells“ anzusehen sind und daß dieser Ansatz auch auf die Analyse mehrdimensionaler Kontingenztafeln übertragbar ist.

XI Vorwort zur ersten Auflage
Dieses Teilkapitel „ersetzt“ damit gewissermaßen die im alten Kapitel 18 behandelte Interaktionsstrukturanalyse sowie die im Kapitel 19 zusammengestellten Anregungen für die „Verteilungsfreie Auswertung uni- und multivariater Versuchspläne“.
Abschnitt 8.2 befaßt sich mit Zusammenhangsmaßen für ordinal skalierte Merkmale. Im Mittelpunkt stehen hier die bekanntesten Rangkorrelationen, Spearmans R (rho) und Kendalls s (tau) sowie weitere aus diesen Korrelationen abgeleitete Zusammenhangsmaße.
Kapitel 9 beschreibt Verfahren zur Überprüfung der Urteilerübereinstimmung bzw. der Urteilskonkordanz und wird ergänzt durch die Analyse von Paarvergleichsurteilen. Vorgänger dieses Kapitels sind die alten Kapitel 10 und Abschnitt 16.9, die gekürzt und durch neue Verfahren ergänzt wurden.
Kapitel 10 behandelt mit einem neuen Aufbau die in der 2. Auflage in Kapitel 12 beschriebene verteilungsfreie Sequenzanalyse. Es beinhaltet die sequentielle Durchführung des Binomialtests sowie verschiedene Anwendungen. „Pseudosequentialtests“ und weitere sequentielle Ansätze komplettieren dieses Kapitel.
Das neue Kapitel 11 (Abfolgen und Zeitreihen) basiert auf Kapitel 8 (Zufallsmäßigkeit, Unabhängigkeit und Homogenität von Sukzessivbeobachtungen), Kapitel 13 (verteilungsfreie Zeitreihenanalyse) und Kapitel 14 (verteilungsfreie Zeitreihentests).
Nicht übernommen wurden das alte Kapitel 11 (verteilungsfreie Schätzmethoden), da deren Behandlung in einer auf verteilungsfreies Testen ausgerichteten Gesamtkonzeption nicht unbedingt erforderlich ist. Auch auf Kapitel 20 (Analyse von Richtungs- und Zyklusmaßen) wurde verzichtet, weil diese Verfahrensklasse nur für sehr spezielle Fragestellungen relevant ist.
Bei Untersuchungen mit kleinen Stichproben wird die Durchführung exakter verteilungsfreier Tests durch Tafeln mit kritischen Signifikanzschranken erheblich erleichtert. Sie sind in einem Tafelband (Lienert, 1975) zusammengefaßt, der wegen seines Umfanges (ca. 700 Seiten) nur teilweise übernommen werden konnte. Eine vollständige Übernahme erschien auch nicht erforderlich, denn inzwischen werden von der Computerindustrie leistungsstarke Taschenrechner (mit Funktionstasten für ex, ln x, yx, x! etc.) kostengünstig angeboten, mit denen sich auch exakte Tests ohne besonderen Aufwand durchführen lassen. Intensiven Nutzern der verteilungsfreien Methoden sei das Buch von Fillbrandt (1986) empfohlen, in dem Computerprogramme für die wichtigsten Verfahren der 2. Auflage gelistet und kommentiert sind.
An der didaktischen Konzeption, die verteilungsfreien Methoden vor allem dem Anwender nahezubringen, wurde nichts geändert. Nach wie vor werden alle Verfahren an Beispielen numerisch entwickelt, die alle einem einheitlichen Schema folgen: Nach einem kurzen Problemaufriß wird die inhaltliche Hypothese formuliert, die mit dem jeweiligen Verfahren geprüft werden soll. Die Art der Hypothese (H0 oder

XII Vorwort zur ersten Auflage
H1), das Signifikanzniveau () und – falls erforderlich – die Art des Tests (ein- oder zweiseitig) sind jeweils in Klammern aufgeführt. Es folgen die Daten, ihre Auswertung, die statistische Entscheidung und eine kurze Interpretation.
Die kleingedruckten Textpassagen sind für das Verständnis des Gesamttextes von nachrangiger Bedeutung und können deshalb ggf. überlesen werden. Sie enthalten Hinweise zur statistischen Theorie, mathematische Ableitungen oder Verweise auf weniger wichtige Verfahren, die eher für „Spezialisten“ gedacht sind.
Die an verteilungsfreien Methoden interessierten Leser gehören erfahrungsgemäß unterschiedlichen empirisch orientierten Fachgebieten an, wie Medizin, Biologie, Psychologie, Soziologie, Erziehungswissenschaft etc. Besondere mathematisch-statistische Vorkenntnisse werden nicht verlangt, wenn auch erste Erfahrungen mit den Grundlagen des statistischen Hypothesentestens für die Einarbeitung in die Verteilungsfreien Methoden von Vorteil sein dürften. Für diesen Leserkreis ist das Buch als Einführungslektüre und als Nachschlagewerk gleichermaßen geeignet.
Die in der Neuauflage vorgenommenen Eingriffe in die ursprüngliche Konzeption des Werks sind teilweise gravierend und können – im Einvernehmen mit Prof. Lienert – nur vom Erstautor allein verantwortet werden. Mängelreklamationen, Korrekturvorschläge oder sonstige Anregungen zur Verbesserung des Textes erbitte ich deshalb an meine Anschrift.
Mein Dank gilt natürlich in erster Linie Prof. Lienert, der mir die Gelegenheit bot, eigene Vorstellungen und Ideen zu den verteilungsfreien Methoden in ein fest etabliertes und renommiertes Werk einbinden zu können. Mein ganz besonderer Dank gilt auch Herrn Dr. K. Boehnke. Er fertigte erste Versionen der Kapitel 1–4 sowie der Kapitel 6 und 7 an, stellte das Literaturverzeichnis zusammen und war schließlich an der Endredaktion des Gesamttextes maßgeblich beteiligt.
Bedanken möchte ich mich ferner bei Frau Dr. Elisabeth Muchowski und Herrn Dipl.-Psych. G. Gmel; sie waren mir bei schwierigen Sachfragen und bei der inhaltlichen Kontrolle einiger Kapitel stets hilfreiche Berater. Frau cand. psych. Beate Schulz danke ich für die Überprüfung der Korrekturabzüge. Frau Helga Feige hat mit viel Geduld die Schreibarbeiten erledigt, wofür ihr ebenfalls herzlich gedankt sei. Schließlich gilt mein Dank den Mitarbeitern des Springer-Verlags für ihr großzügiges Entgegenkommen bei der drucktechnischen Gestaltung dieser Neuauflage.
Berlin, im Februar 1989
Jürgen Bortz

1
Kapitelübersicht
1 Wahrscheinlichkeitslehre – 1 2 Beobachtungen, Hypothesen
und Tests – 23 3 Datenerhebung und
Datenaufbereitung – 57 4 Verteilungsfreie und parametrische
Tests – 79 5 Analyse von Häufigkeiten – 87 6 Analyse von Rangdaten – 197 7 Analyse von Messwerten – 295 8 Zusammenhangsmaße
und Regression – 325 9 Urteilerübereinstimmung – 449 10 Verteilungsfreie Sequenzanalyse – 503 11 Abfolgen und Zeitreihen – 543 Anhang Tafeln 1–47 – 627

Inhaltsverzeichnis

1

Wahrscheinlichkeitslehre . . . . . . . . . . . . . . . . . . . 1

1.1

Grundlagen der Wahrscheinlichkeitsrechnung . . . . . . 1

1.1.1 Vorbemerkungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.1.2 Begriff der Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . 2

1.1.3 Theoretische und empirische Wahrscheinlichkeit . . . . 3

1.1.4 Additions- und Multiplikationssatz . . . . . . . . . . . . . . . 4

1.1.5 Punktwahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . 5

1.1.6 Überschreitungswahrscheinlichkeiten . . . . . . . . . . . . . 6

1.1.7 Elemente der Kombinatorik . . . . . . . . . . . . . . . . . . . . 7

1.2

Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . . . . . 10

1.2.1 Verteilungsformen von Zufallsvariablen . . . . . . . . . . . 10

1.2.2 Die Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . 14

1.2.3 Die Normalverteilungsapproximation

der Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . 16

1.2.4 Die Polynomialverteilung . . . . . . . . . . . . . . . . . . . . . . 17 1.2.5 Die v2-Approximation der Polynomialverteilung . . . . . 19

1.2.6 Die Poisson-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . 20

1.2.7 Die hypergeometrische Verteilung . . . . . . . . . . . . . . . 21

2
2.1 2.1.1
2.1.2 2.1.3 2.2 2.2.1 2.2.2 2.2.3 2.2.4 2.2.5 2.2.6 2.2.7 2.2.8 2.2.9 2.2.10 2.2.11

Beobachtungen, Hypothesen und Tests . . . . . . . 23
Beobachtungen und Verteilungshypothesen . . . . . . . 23 Übereinstimmung von Beobachtungen mit Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 Stichproben und Grundgesamtheiten . . . . . . . . . . . . . 24 Stichprobenarten . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 Statistische Hypothesen und Tests . . . . . . . . . . . . . . . 28 Ein- und zweiseitige Fragestellungen . . . . . . . . . . . . . 28 Nullhypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 Alternativhypothesen . . . . . . . . . . . . . . . . . . . . . . . . . 30 Das Risiko I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 Statistische Prüfgrößen und statistische Tests . . . . . . . 32 Das Risiko II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 Die Stärke statistischer Tests . . . . . . . . . . . . . . . . . . . 39 Die Effizienz statistischer Tests . . . . . . . . . . . . . . . . . . 43 Andere Gütekriterien statistischer Tests . . . . . . . . . . . 45 Zusammenfassung statistischer Entscheidungen . . . . . 46 -Fehler-Adjustierung . . . . . . . . . . . . . . . . . . . . . . . . 48

XVI Inhaltsverzeichnis

3

Datenerhebung und Datenaufbereitung . . . . . . 57

3.1

Theorie des Messens . . . . . . . . . . . . . . . . . . . . . . . . . 57

3.1.1 Gütekriterien des Messens . . . . . . . . . . . . . . . . . . . . . 59

3.1.2 Die Skalenniveaus . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

3.1.3 Informationsgehalt von Skalen . . . . . . . . . . . . . . . . . . 62

3.1.4 Konstituierungsmerkmale für Skalen . . . . . . . . . . . . . 63

3.1.5 Zulässige Skalentransformationen . . . . . . . . . . . . . . . 64

3.1.6 Festlegung des Skalenniveaus . . . . . . . . . . . . . . . . . . 65

3.2

Arten von Ausgangsdaten . . . . . . . . . . . . . . . . . . . . . 66

3.2.1 Nominalskalierte Daten . . . . . . . . . . . . . . . . . . . . . . . 66

3.2.2 Ordinalskalierte Daten . . . . . . . . . . . . . . . . . . . . . . . . 67

3.2.3 Kardinalskalierte Daten . . . . . . . . . . . . . . . . . . . . . . . 70

3.3

Graphische und numerische Darstellung

empirischer Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

3.3.1 Die Häufigkeitsverteilung . . . . . . . . . . . . . . . . . . . . . . 70

3.3.2 Statistische Kennwerte . . . . . . . . . . . . . . . . . . . . . . . . 74

4

Verteilungsfreie und parametrische Tests . . . . . 79

4.1

Probleme des Messniveaus . . . . . . . . . . . . . . . . . . . . 79

4.2

Probleme mathematisch-statistischer Voraussetzungen 81

4.3

Probleme der Robustheit statistischer Verfahren . . . . . 83

4.4

Entscheidungsschema: parametrisch oder

verteilungsfrei? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

5

Analyse von Häufigkeiten . . . . . . . . . . . . . . . . . . 87

5.1

Analyse eindimensionaler Häufigkeitsverteilungen . . . 88

5.1.1 Binomialtest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

5.1.2 Polynomialtest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 5.1.3 v2-Anpassungstests . . . . . . . . . . . . . . . . . . . . . . . . . . 95

5.1.4 Nullklassentest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

5.1.5 Trendtest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

5.2

Analyse von Vierfelderkontingenztafeln . . . . . . . . . . . 102

5.2.1 Asymptotische Analyse . . . . . . . . . . . . . . . . . . . . . . . 104

5.2.2 Exakte Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

5.2.3 Agglutination von Vierfeldertafeln . . . . . . . . . . . . . . . 113

5.2.4 Kontrolle von Drittmerkmalen . . . . . . . . . . . . . . . . . . 116

5.2.5 Optimale Stichprobenumfänge . . . . . . . . . . . . . . . . . . 120

5.3

Analyse von k ´ 2-Felder-Kontingenztafeln . . . . . . . . . 121

5.3.1 Asymptotische Analyse . . . . . . . . . . . . . . . . . . . . . . . 122

5.3.2 Exakte Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

5.3.3 Einzelvergleiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

5.3.4 Trendtests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

5.4

Analyse von k ´ m-Kontingenztafeln . . . . . . . . . . . . . . 131

5.4.1 Asymptotische Analyse . . . . . . . . . . . . . . . . . . . . . . . 132

5.4.2 Exakte Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

XVII Inhaltsverzeichnis

5.4.3 5.4.4 5.4.5 5.4.6 5.4.7 5.5 5.5.1 5.5.1.1 5.5.1.2 5.5.2 5.5.2.1 5.5.2.2 5.5.3 5.5.3.1 5.5.3.2 5.6
5.6.1 5.6.2 5.6.3 5.6.4 5.6.5

Fusion einzelner Felder . . . . . . . . . . . . . . . . . . . . . . . 142 Anpassung von Teiltafeln an die Gesamttafel . . . . . . . 144 Spezielle Einzelvergleiche . . . . . . . . . . . . . . . . . . . . . . 148 Einfeldertests (KFA) . . . . . . . . . . . . . . . . . . . . . . . . . . 155 Vergleich mehrerer Kontingenztafeln . . . . . . . . . . . . . 158 Abhängige Stichproben . . . . . . . . . . . . . . . . . . . . . . . 160 Zweimalige Messung eines dichotomen Merkmals . . . 160 McNemar-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 Gart-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 Zweimalige Messung eines k-fach gestuften Merkmals 165 Bowker-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 Marginalhomogenitätstest . . . . . . . . . . . . . . . . . . . . . 168 Mehrfache Messung eines dichotomen Merkmals . . . 169 Q-Test von Cochran . . . . . . . . . . . . . . . . . . . . . . . . . . 169 Einzelvergleiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 Analyse drei- und mehrdimensionaler Kontingenztafeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 Terminologische Vorbemerkungen . . . . . . . . . . . . . . . 174 Asymptotische Analyse . . . . . . . . . . . . . . . . . . . . . . . 175 Exakte Analyse einer 23-Tafel . . . . . . . . . . . . . . . . . . . 181 Kontingenzaspekte in Dreiwegtafeln . . . . . . . . . . . . . 183 Symmetrietests bei abhängigen Stichproben . . . . . . . 190

6
6.1
6.1.1 6.1.1.1 6.1.1.2 6.1.1.3 6.1.1.4 6.1.2 6.1.2.1 6.1.2.2 6.1.2.3 6.1.3 6.1.4 6.1.4.1 6.1.4.2 6.1.5 6.1.5.1 6.1.5.2 6.1.6 6.1.6.1 6.1.6.2 6.1.6.3 6.1.6.4

Analyse von Rangdaten . . . . . . . . . . . . . . . . . . . . 197
Tests für Unterschiedshypothesen bei unabhängigen Stichproben . . . . . . . . . . . . . . . . . 197 Tests für zwei Stichproben . . . . . . . . . . . . . . . . . . . . . 197 Mediantest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198 U-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200 Normalrangtests . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212 Weitere Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217 Tests für mehrere Stichproben . . . . . . . . . . . . . . . . . . 221 Mehrstichproben-Mediantest . . . . . . . . . . . . . . . . . . . 221 Rangvarianzanalyse (H-Test) . . . . . . . . . . . . . . . . . . . . 222 Normalrangtests . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228 Einzelvergleiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230 Trendtests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232 Trendtest von Jonckheere . . . . . . . . . . . . . . . . . . . . . 233 Trendtest mit orthogonalen Polynomen . . . . . . . . . . . 235 Tests für zwei- und mehrfaktorielle Pläne . . . . . . . . . . 237 Rangvarianzanalyse mit Datenalignement . . . . . . . . . 239 Weitere Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . 248 Tests für Dispersionsunterschiede . . . . . . . . . . . . . . . . 249 Rangdispersionstest von Siegel und Tukey . . . . . . . . . 249 Rangdispersionstest von Mood . . . . . . . . . . . . . . . . . 252 Mehrstichprobendispersionsvergleiche . . . . . . . . . . . . 253 Weitere Rangdispersionstests . . . . . . . . . . . . . . . . . . . 255

XVIII Inhaltsverzeichnis

6.2
6.2.1 6.2.1.1 6.2.1.2 6.2.1.3 6.2.2 6.2.2.1 6.2.2.2 6.2.2.3 6.2.3 6.2.4 6.2.4.1 6.2.4.2 6.2.5 6.2.5.1 6.2.5.2 6.2.5.3 6.2.6

Tests für Unterschiedshypothesen bei abhängigen Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255 Tests für zwei Stichproben . . . . . . . . . . . . . . . . . . . . . 255 Vorzeichentest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256 Vorzeichenrangtest . . . . . . . . . . . . . . . . . . . . . . . . . . 259 Varianten des Vorzeichenrangtests . . . . . . . . . . . . . . . 266 Tests für mehrere Stichproben . . . . . . . . . . . . . . . . . . 267 Friedmans verallgemeinerter Vorzeichentest . . . . . . . . 267 Der Spannweitenrangtest von Quade . . . . . . . . . . . . . 272 Weitere Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . 274 Einzelvergleiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275 Trendtests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277 Trendtest von Page . . . . . . . . . . . . . . . . . . . . . . . . . . 277 Trendtests mit orthogonalen Polynomen . . . . . . . . . . 278 Tests für mehrfaktorielle Untersuchungspläne . . . . . . 279 U-Test für Paardifferenzen . . . . . . . . . . . . . . . . . . . . . 279 Rangvarianzanalysen mit Datenalignement . . . . . . . . . 282 Balancierte unvollständige Pläne . . . . . . . . . . . . . . . . 289 Tests für Dispersionsunterschiede . . . . . . . . . . . . . . . . 292

7
7.1
7.1.1 7.1.1.1 7.1.1.2 7.1.1.3 7.1.1.4 7.1.2 7.1.2.1 7.1.2.2 7.2
7.2.1 7.2.1.1 7.2.1.2 7.2.1.3 7.2.2 7.2.2.1 7.2.2.2 7.3 7.3.1 7.3.2

Analyse von Messwerten . . . . . . . . . . . . . . . . . . . 295
Tests für Unterschiedshypothesen bei unabhängigen Stichproben . . . . . . . . . . . . . . . . . 295 Tests für zwei Stichproben . . . . . . . . . . . . . . . . . . . . . 296 Mittelwertsunterschiede . . . . . . . . . . . . . . . . . . . . . . . 296 Streuungsunterschiede . . . . . . . . . . . . . . . . . . . . . . . . 298 Omnibusunterschiede . . . . . . . . . . . . . . . . . . . . . . . . 299 Weitere Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306 Tests für k Stichproben . . . . . . . . . . . . . . . . . . . . . . . 307 Mittelwertsunterschiede . . . . . . . . . . . . . . . . . . . . . . . 307 Omnibusunterschiede . . . . . . . . . . . . . . . . . . . . . . . . 310 Tests für Unterschiedshypothesen bei abhängigen Stichproben . . . . . . . . . . . . . . . . . . . 312 Tests für zwei Stichproben . . . . . . . . . . . . . . . . . . . . . 312 Mittelwertsunterschiede . . . . . . . . . . . . . . . . . . . . . . . 312 Streuungsunterschiede . . . . . . . . . . . . . . . . . . . . . . . . 316 Omnibusunterschiede . . . . . . . . . . . . . . . . . . . . . . . . 317 Tests für k Stichproben . . . . . . . . . . . . . . . . . . . . . . . 318 Mittelwertsunterschiede . . . . . . . . . . . . . . . . . . . . . . . 318 Omnibusunterschiede . . . . . . . . . . . . . . . . . . . . . . . . 318 Anpassungstests . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319 Kolmogoroff-Smirnov-Anpassungstest (KSA-Test) . . . . 319 KSA-Test mit Lilliefors-Schranken . . . . . . . . . . . . . . . . 321

XIX Inhaltsverzeichnis

8
8.1 8.1.1 8.1.1.1 8.1.1.2 8.1.1.3 8.1.1.4 8.1.2 8.1.2.1 8.1.2.2 8.1.2.3 8.1.2.4 8.1.3 8.1.3.1 8.1.3.2 8.1.3.3 8.1.3.4 8.1.3.5 8.1.4
8.1.4.1 8.1.4.2 8.1.5
8.1.5.1 8.1.5.2 8.1.6
8.2 8.2.1 8.2.1.1 8.2.1.2 8.2.2 8.2.2.1 8.2.2.2 8.2.2.3 8.2.2.4 8.2.3 8.2.4 8.2.5 8.3

Zusammenhangsmaße und Regression . . . . . . . 325
Nominalskalierte Merkmale . . . . . . . . . . . . . . . . . . . . 326 Vierfeldertafeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 327 }-Koeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 327 Weitere Zusammenhangsmaße . . . . . . . . . . . . . . . . . 335 Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 337 Weitere Vorhersagemodelle . . . . . . . . . . . . . . . . . . . . 340 k ´ 2-Tafeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342 }'-Koeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342 Einzelvergleiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345 Trendtests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350 Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354 k ´ m-Tafeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355 Cramérs Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355 Weitere Zusammenhangsmaße . . . . . . . . . . . . . . . . . 358 Einzelvergleiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 358 Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362 Weitere Vorhersagemodelle . . . . . . . . . . . . . . . . . . . . 363 Mehrdimensionale Tafeln: ein zweifach gestuftes abhängiges Merkmal . . . . . . . . . . . . . . . . . . 364 Orthogonale Tafeln . . . . . . . . . . . . . . . . . . . . . . . . . . 365 Nichtorthogonale Tafeln . . . . . . . . . . . . . . . . . . . . . . . 380 Mehrdimensionale Tafeln: ein mehrfach gestuftes abhängiges Merkmal . . . . . . . . . . . . . . . . . . 391 Orthogonale Tafeln . . . . . . . . . . . . . . . . . . . . . . . . . . 392 Nichtorthogonale Tafeln . . . . . . . . . . . . . . . . . . . . . . . 400 Mehrdimensionale Tafeln: mehrere abhängige Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406 Ordinalskalierte Merkmale . . . . . . . . . . . . . . . . . . . . . 413 Spearmans R (rho) . . . . . . . . . . . . . . . . . . . . . . . . . . . 414 R bei Rangbindungen . . . . . . . . . . . . . . . . . . . . . . . . 418 Biseriales R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 421 Kendalls s (tau) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422 s bei Rangbindungen . . . . . . . . . . . . . . . . . . . . . . . . 427 Biseriales s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434 Subgruppen-s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 438 Intraklassen-s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 441 Vergleich von R und s . . . . . . . . . . . . . . . . . . . . . . . . 443 Partielle und multiple Zusammenhänge . . . . . . . . . . . 444 Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 447 Kardinalskalierte Merkmale . . . . . . . . . . . . . . . . . . . . . 447

9

Urteilerübereinstimmung . . . . . . . . . . . . . . . . . . . 449

9.1

Urteilskonkordanz bei binären Daten . . . . . . . . . . . . . 450

9.1.1 Zwei Beurteiler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 450

9.1.2 m Beurteiler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454

XX Inhaltsverzeichnis

9.2

Urteilskonkordanz bei nominalen Daten . . . . . . . . . . . 458

9.2.1 Zwei Beurteiler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 458

9.2.2 m Beurteiler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460

9.3

Urteilskonkordanz bei ordinalen Daten . . . . . . . . . . . . 465

9.3.1 Unvollständige Boniturenpläne . . . . . . . . . . . . . . . . . . 471

9.3.2 Zweigruppenkonkordanz . . . . . . . . . . . . . . . . . . . . . . 479

9.4

Urteilskonkordanz bei kardinalen Daten . . . . . . . . . . . 482

9.4.1 Zwei Beurteiler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 482

9.4.2 m Beurteiler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 488

9.5

Paarvergleichsurteile . . . . . . . . . . . . . . . . . . . . . . . . . 488

9.5.1 Urteilskonsistenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 489

9.5.2 Urteilskonkordanz . . . . . . . . . . . . . . . . . . . . . . . . . . . 493

9.5.3 Unvollständige Paarvergleiche . . . . . . . . . . . . . . . . . . 499

9.5.4 Paarvergleichskorrelation . . . . . . . . . . . . . . . . . . . . . . 501

10 10.1
10.1.1 10.1.2 10.2
10.3 10.4 10.5

Verteilungsfreie Sequenzanalyse . . . . . . . . . . . . . 503
Überprüfung des Anteilsparameters einer binomialverteilten Population . . . . . . . . . . . . . . 505 Einseitiger Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 505 Zweiseitiger Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . 519 Vergleich der Anteilsparameter aus zwei binomialverteilten Populationen . . . . . . . . . 525 Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 531 Pseudosequentialtests . . . . . . . . . . . . . . . . . . . . . . . . 536 Weitere Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . 541

11

Abfolgen und Zeitreihen . . . . . . . . . . . . . . . . . . . 543

11.1 Binäre Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 544 11.1.1 Zufälligkeit der Abfolge: Omnibustests . . . . . . . . . . . . 545 11.1.1.1 Iterationshäufigkeitstest . . . . . . . . . . . . . . . . . . . . . . . 545 11.1.1.2 Iterationslängentest . . . . . . . . . . . . . . . . . . . . . . . . . . 553 11.1.2 Trendtests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 560 11.1.3 Tests auf sequentielle Abhängigkeiten . . . . . . . . . . . . 562 11.1.4 Homogenität mehrerer Abfolgen . . . . . . . . . . . . . . . . 564 11.1.5 Überprüfung von Interventionswirkungen . . . . . . . . . 565 11.2 Nominale Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 566 11.2.1 Multipler Iterationshäufigkeitstest . . . . . . . . . . . . . . . 566 11.2.2 Trendtests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 569 11.3 Ordinale Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 570 11.3.1 Zufälligkeit der Abfolge: Omnibustests . . . . . . . . . . . . 571 11.3.1.1 Phasenverteilungstest . . . . . . . . . . . . . . . . . . . . . . . . 572 11.3.1.2 Phasenhäufigkeitstest . . . . . . . . . . . . . . . . . . . . . . . . . 574 11.3.1.3 Weitere Omnibustests . . . . . . . . . . . . . . . . . . . . . . . . 578 11.3.2 Trendtests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 579 11.3.2.1 Monotoner Trend: Rangkorrelationstest . . . . . . . . . . . 580 11.3.2.2 Monotoner Trend: Erst-Differenzen-Test . . . . . . . . . . . 580

XXI Inhaltsverzeichnis

11.3.2.3 Monotoner Trend: S1-Test . . . . . . . . . . . . . . . . . . . . . . 581 11.3.2.4 Monotoner Trend: Rekordbrechertest . . . . . . . . . . . . . 584 11.3.2.5 Monotoner Trend: Niveauvergleich zweier Abschnitte . 585 11.3.2.6 Andere Trends . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 586 11.3.3 Homogenität mehrerer Abfolgen . . . . . . . . . . . . . . . . 589 11.3.4 Vergleich mehrerer Stichproben von Abfolgen . . . . . . 590 11.3.4.1 Unabhängige Stichproben . . . . . . . . . . . . . . . . . . . . . 590 11.3.4.2 Abhängige Stichproben . . . . . . . . . . . . . . . . . . . . . . . 597 11.4 Kardinale Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 600 11.4.1 Methoden der Trendschätzung . . . . . . . . . . . . . . . . . 601 11.4.1.1 Polynomiale Anpassung . . . . . . . . . . . . . . . . . . . . . . . 601 11.4.1.2 Exponentielle Verläufe . . . . . . . . . . . . . . . . . . . . . . . . 610 11.4.1.3 Weitere Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . 613 11.4.2 Homogenität und Unterschiedlichkeit
von Zeitreihenstichproben . . . . . . . . . . . . . . . . . . . . . 615 11.4.3 Zeitreihenkorrelationen . . . . . . . . . . . . . . . . . . . . . . . 616 11.4.3.1 Autokorrelationen . . . . . . . . . . . . . . . . . . . . . . . . . . . 616 11.4.3.2 Konkomitanzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 619 11.5 Zeitliche Verteilung von Ereignissen . . . . . . . . . . . . . . 620 11.5.1 Okkupanzentest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 620 11.5.2 Tests der Verteilungsform . . . . . . . . . . . . . . . . . . . . . . 622 11.5.3 Vergleich mehrerer zeitlicher Verteilungen . . . . . . . . . 626

Anhang Tafeln 1–47 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 627

Tafel 1 Binomialverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . 628

Tafel 2 Tafel 3 Tafel 4 Tafel 5

Standardnormalverteilung . . . . . . . . . . . . . . . . . . . . . 634
v2-Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 637 Der Craddock-Flood-v2-Kontingenztest . . . . . . . . . . . . 644 23-Felder-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 647

Tafel 6 U-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 669

Tafel 7 Ulemans k ´ 2-Felder-U-Test . . . . . . . . . . . . . . . . . . . . 676

Tafel 8 Inverse der Standardnormalverteilung . . . . . . . . . . . . 693

Tafel 9 Normalrangtest nach van der Waerden . . . . . . . . . . . 696

Tafel 10 Normalrangtransformation . . . . . . . . . . . . . . . . . . . . . 700

Tafel 11 Terry-Hoeffding-Test . . . . . . . . . . . . . . . . . . . . . . . . . . 701

Tafel 12 H-Test nach Kruskal-Wallis . . . . . . . . . . . . . . . . . . . . . 706

Tafel 13 Einzelvergleiche nach Wilcoxon u. Wilcox . . . . . . . . . . 709

Tafel 14 Dunnetts t-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 712

Tafel 15 Trendtest von Jonckheere . . . . . . . . . . . . . . . . . . . . . 713

Tafel 16 Orthogonale Polynome . . . . . . . . . . . . . . . . . . . . . . . 715

Tafel 17 Dispersionstest nach Mood . . . . . . . . . . . . . . . . . . . . 716

Tafel 18 F-Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 723

Tafel 19 Schranken für den Vorzeichenrangtest . . . . . . . . . . . . 729

Tafel 20 Friedmans v2r -Test . . . . . . . . . . . . . . . . . . . . . . . . . . . 731 Tafel 21 Einzelvergleichstest für abhängige Stichproben

nach Wilcox und Wilcoxon . . . . . . . . . . . . . . . . . . . . . 737

Tafel 22 Trendtest von Page . . . . . . . . . . . . . . . . . . . . . . . . . . 740

XXII Inhaltsverzeichnis
Tafel 23 Kolmogoroff-Smirnov-Omnibustest (N1 = N2) . . . . . . . . 742 Tafel 24 Kolmogoroff-Smirnov-Omnibustest (N1 = N2) . . . . . . 743 Tafel 25 Verallgemeinerter KSO-Test . . . . . . . . . . . . . . . . . . . . 745 Tafel 26 KSO-Anpassungstest . . . . . . . . . . . . . . . . . . . . . . . . . 747 Tafel 27 Lilliefors-Schranken . . . . . . . . . . . . . . . . . . . . . . . . . . 748 Tafel 28 Signifikanzgrenzen für Spearmans q . . . . . . . . . . . . . . 749 Tafel 29 Signifikanzgrenzen für Kendalls s-Test . . . . . . . . . . . . 750 Tafel 30 Whitfields Intraklassen – s . . . . . . . . . . . . . . . . . . . . . 751 Tafel 31 Kendalls Konkordanztest . . . . . . . . . . . . . . . . . . . . . . 753 Tafel 32 Kendalls Konsistenztest . . . . . . . . . . . . . . . . . . . . . . . 754 Tafel 33 Kendalls Akkordanztest . . . . . . . . . . . . . . . . . . . . . . . 755 Tafel 34 Verkettete Paarvergleichspläne . . . . . . . . . . . . . . . . . . 758 Tafel 35 Stevens’ Iterationshäufigkeitstest . . . . . . . . . . . . . . . . 760 Tafel 36 Cochran-Grants Iterationslängentest . . . . . . . . . . . . . . 765 Tafel 37 Multipler Iterationshäufigkeitstest . . . . . . . . . . . . . . . 766 Tafel 38 Phasenverteilungstest . . . . . . . . . . . . . . . . . . . . . . . . 769 Tafel 39 Phasenhäufigkeitstest . . . . . . . . . . . . . . . . . . . . . . . . . 771 Tafel 40 Erstdifferenztest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 773 Tafel 41 Zirkuläre Autokorrelationen 1. Ordnung . . . . . . . . . . . 774 Tafel 42 Nullklassentest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 775 Tafel 43 Stichprobenumfänge für den Vierfelder-v2-Test . . . . . 776 Tafel 44 Exakter 3 ´ 2-Feldertest . . . . . . . . . . . . . . . . . . . . . . . . 796 Tafel 45 Exakter 3 ´ 3-Feldertest . . . . . . . . . . . . . . . . . . . . . . . . 810 Tafel 46 Der exakte Q-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . 872 Tafel 47 Halperins einseitig gestutzter U-Test . . . . . . . . . . . . . 885
Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 893
Namenverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 915
Sachverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 923

1
1 Wahrscheinlichkeitslehre
1.1 Grundlagen der Wahrscheinlichkeitsrechnung
Die Wahrscheinlichkeitslehre ist ein elementarer Bestandteil der Statistik. Die mathematische Wahrscheinlichkeitslehre umfasst ein kompliziertes System unterschiedlicher Regeln und Gesetzmäßigkeiten, die hier nur insoweit dargestellt werden, als es für das Verständnis der verteilungsfreien Methoden erforderlich ist. Wir behandeln zunächst die wichtigsten Grundlagen der Wahrscheinlichkeitsrechnung und gehen anschließend auf die Darstellung einiger ausgewählter Wahrscheinlichkeitsverteilungen über.
1.1.1 Vorbemerkungen
Wir alle kennen das auf die beschreibende Statistik gemünzte Wort: „Mit Statistik kann man alles beweisen!“ Richtiger müsste es – wenn man schon mit Aphorismen operiert – auf die Inferenzstatistik bezogen heißen: Mit Statistik kann man gar nichts beweisen, keinen Unterschied, keinen Zusammenhang, keine Gesetzmäßigkeit, sofern man von einem Beweis fordert, dass er logisch und sachlich unwidersprochen bleiben soll.
Was kann die moderne Statistik als wissenschaftliche Methode wirklich leisten? Sie gibt Auskunft darüber, mit welcher Wahrscheinlichkeit Unterschiede, Zusammenhänge und Gesetzmäßigkeiten, die wir in Stichprobenerhebungen gefunden haben, rein zufällig entstanden sein können und inwieweit sie als allgemein, auch für ein größeres Kollektiv gültig, anzusehen sind. Absolut sichere Aussagen und Voraussagen sind mit Hilfe der Statistik unmöglich. Jedoch liegt es an uns, das Risiko, das wir für unsere Aussage zulassen wollen, gemäß der wissenschaftlichen Fragestellung höher oder niedriger anzusetzen.
Naturwissenschaftliche Aussagen und Voraussagen gründen sich auf Messungen: Die (klassische) Physik kennt kein Problem der Messung, höchstens eines der Messgenauigkeit, sie hat ihr Zentimeter-Gramm-Sekunden-System und kann damit die anstehenden Probleme adäquat lösen. Die biologischen wie auch die Sozialwissenschaften haben es nicht so leicht. In ihren empirisch ausgerichteten Bereichen sind sie unentwegt auf der Suche nach optimalen Dimensionen einer gültigen Messung, sind auf der Suche nach immer raffinierteren Methoden der Versuchsplanung zur Kontrolle des meist bedeutsamen Fehlers der individuellen Messung eines Merkmals. Ein ganzer Wissenschaftszweig, die Biometrie, beschäftigt sich mit den Voraussetzungen für objektive, zuverlässige und gültige Ausgangsdaten. Auf diesen Voraussetzungen erst baut die Statistik auf.

2
1

Kapitel 1 · Wahrscheinlichkeitslehre
Die statistische Methode und ihre praktische Anwendung setzen eine eigene, dem Anfänger ungewohnte Art des induktiven Denkens voraus. Im logischen Denkakt folgt jeder Schluss stets zwingend und für den Einzelfall gültig aus seinen Prämissen; der statistische Denkakt dagegen führt zu Schlüssen, die nur für ein (theoretisch unendlich großes) Kollektiv von Ereignissen gelten und für den Einzelfall nicht zwingend zutreffen. Er orientiert sich an einem Beweissystem, das in der mathematischen Theorie der Statistik formal exakt begründet ist und das erst in dem Grad, in dem man seiner inne wird, ein Evidenz- und Stringenzerlebnis von ähnlicher Art vermittelt wie das Begriffssystem der Elementarlogik.
Grundlage allen statistischen Denkens ist der Wahrscheinlichkeitsbegriff. Beginnen wir deshalb mit einer kurzen Einführung zu diesem Begriff.
1.1.2 Begriff der Wahrscheinlichkeit
Die Wahrscheinlichkeit kann in verschiedener Weise eingeführt werden. Eine inzwischen klassische Einführung in Form von anschaulichen Vorlesungen mit engem Bezug zur Anwendung findet sich bei Mises (1931).
Für unsere Zwecke soll genügen: Wenn unter n möglichen, einander ausschließenden Ereignissen, von denen eines mit Sicherheit eintritt, g von bestimmter Art sind, dann ist die Wahrscheinlichkeit, dass eines dieser g Ereignisse eintritt, gleich dem Bruch g/n (g günstige unter n möglichen Ereignissen). Diese Wahrscheinlichkeit wird mit p bezeichnet. Dazu einige Beispiele: (A) Die Wahrscheinlichkeit, mit einem Würfel irgendeine Zahl von 1 bis 6 zu werfen, beträgt ohne Zweifel p = 1. (B) Die Wahrscheinlichkeit, aus einer Urne mit Losen von 1 bis 10 das Los 7 oder ein Los mit kleinerer Nummer herauszuziehen, beträgt entsprechend der obigen Definition p = 0,7. (C) Die Wahrscheinlichkeit, aus einem verdeckten Bridgespiel gerade das Herzass zu ziehen, beträgt analog p = 1/52 % 0,02. (D) Die Wahrscheinlichkeit, aus demselben Kartenspiel mehr als 4 Asse zu ziehen, ist naturgemäß p = 0. (E) Die Wahrscheinlichkeit, mit einer Münze „Zahl“ zu werfen, beträgt p = 0,5. (F) Die Wahrscheinlichkeit, mit einem Würfel eine Sechs zu erzielen, ergibt p = 1/6 = 0,167.
Jede Wahrscheinlichkeit hat einen Wert, der nicht negativ und nicht größer als 1 ist. Die Gesamtheit aller Wahrscheinlichkeitswerte konstituiert die im folgenden dargestellte Wahrscheinlichkeitsskala, die sich von 0 bis 1 erstreckt; sie enthält die oben herausgehobenen Wahrscheinlichkeitswerte an den entsprechenden Stellen markiert.
Die im Beispiel genannten Ereignisse A, B, C, D, E und F besitzen eine ihrer Skalenposition entsprechende Wahrscheinlichkeit.
Wir haben den Begriff der Wahrscheinlichkeit noch etwas näher zu erläutern. Halten wir uns dabei an das Würfelbeispiel (F): Von den 6 möglichen Augenzahlen

. Abb. 1.1. Wahrscheinlichkeitsskala

1.1 · Grundlagen der Wahrscheinlichkeitsrechnung

3

1

tritt eine mit Sicherheit ein. Diese 6 Ereignisse sind auch gleichwertig, denn jedes Ereignis hat die gleiche Chance aufzutreten, wenn der Würfel nicht gefälscht ist.
Nehmen wir an, als günstiges Ereignis werde ein Wurf mit gerader Augenzahl angesehen. Drei Würfelflächen enthalten gerade Augenzahlen, daher beträgt die Wahrscheinlichkeit des Auftretens einer geraden Augenzahl 3/6 = 0,5.
Die beiden Begriffe „gleichwertig“ und „einander ausschließend“ sollen noch an 2 Beispielen illustriert werden.
Beispiel 1: Jemand möchte die Wahrscheinlichkeit, aus einem Skatspiel entweder ein As oder eine Herzkarte zu ziehen, ermitteln. Das Kartenspiel enthält 32 Karten, darin befinden sich 4 Asse und 8 Herzkarten. Folglich stehen – so möchte man meinen – die günstigen Ereignisse im Verhältnis zu den möglichen Ereignissen wie 12 : 32, also ist p = 0,375. Diese Schlussfolgerung ist aber unrichtig, denn ein Ass (das Herzass) gilt zugleich auch als Herzkarte. Das Auftreten eines Asses schließt also das Auftreten einer Herzkarte nicht aus. Die Bedingung, dass die Ereignisse einander ausschließen sollen, ist nicht erfüllt. Daher sind wir zu einem unrichtigen Wahrscheinlichkeitswert gekommen. Der richtige beträgt p = 11/32 = 0,344.
Beispiel 2: Angenommen, jemand möchte die Wahrscheinlichkeit, bei 2 hintereinander durchgeführten Würfen mit einer Münze 2-mal Zahl zu erhalten, ermitteln. Die 3 möglichen Ergebnisse, 2-mal Zahl, 2-mal Adler sowie 1-mal Zahl und 1-mal Adler, schließen sich gegenseitig aus. Man könnte schlussfolgern, die Wahrscheinlichkeit, 2-mal Zahl zu werfen, betrage 1/3. Diese Überlegung ist falsch, denn die 3 Ereignisse sind nicht gleichwertig. Das 3. Ereignis (Zahl–Adler) kann nämlich in 2facher Weise zustandekommen: das erste Mal Zahl und das zweite Mal Adler oder umgekehrt das erste Mal Adler und das zweite Mal Zahl. Richtig wäre folgende Überlegung gewesen: Es resultieren 4 gleichwertige Ereignisse: Zahl–Zahl, Adler–Adler, Zahl–Adler und Adler–Zahl. Daraus ersehen wir, dass die Wahrscheinlichkeit, 2-mal Zahl zu werfen, nicht p = 1/3, sondern p = 1/4 ausmacht. Dadurch, dass wir die Aufeinanderfolge von Zahl und Adler außer Acht gelassen haben, sind die Ereignisse nicht mehr gleich wahrscheinlich.

1.1.3 Theoretische und empirische Wahrscheinlichkeit
Wenn wir eine Münze werfen, so erwarten wir das Resultat „Zahl“ mit einer Wahrscheinlichkeit von p = 1/2. Wir folgern nämlich: Es gibt nur 2 mögliche Resultate, von denen eines im gegebenen Fall mit Sicherheit eintreten muss, so dass – wenn die Münze nicht verfälscht ist – jedes der beiden Resultate die gleiche Wahrscheinlichkeit für sich hat. Da wir dieses Resultat allein auf logischem Weg erzielt haben, sprechen wir von einer theoretischen, einer erwarteten oder einer A-priori-Wahrscheinlichkeit.
Werfen wir dagegen eine Münze, deren eine Kante stark abgenutzt wurde, so dürfen wir nicht mehr erwarten, dass bei einem beliebigen Wurf das Symbol „Zahl“ mit der Wahrscheinlichkeit p = 1/2 nach oben zu liegen kommen wird. Auf die Größe der Wahrscheinlichkeit, in diesem Fall Zahl zu werfen, kann uns nur ein Experiment einen Hinweis geben: Wir werfen die Münze einige hundert Male und zählen aus, wie oft wir das Resultat Zahl erhalten. Bilden wir Quotienten aus

4
1

Kapitel 1 · Wahrscheinlichkeitslehre

der Anzahl der „Zahlen“ und der Anzahl der Würfe, so erhalten wir eine relative Häufigkeit, die wir als empirische oder als A-posteriori-Wahrscheinlichkeit bezeichnen. Mit einer zunehmenden Anzahl von Versuchen konvergiert die relative Häufigkeit auf einen konstanten Wert p (A): Bezeichnen wir die Häufigkeit eines Ereignisses A mit f (A) und die Anzahl aller Ereignisse einer Versuchsreihe mit n, so ergibt sich als Formel für die A-posteriori-Wahrscheinlichkeit:

pA = lim fA X n3I n

1X1

Im Folgenden wenden wir uns den wichtigsten Gesetzen der Wahrscheinlichkeitsrechnung zu, dem Additions- und Multiplikationssatz für Wahrscheinlichkeiten.

1.1.4 Additions- und Multiplikationssatz

Beispiel 1: Beim Würfelspiel können wir uns fragen, wie groß die Wahrscheinlichkeit

ist, eine Sechs oder eine Fünf zu werfen. Da wir es hier mit 2 günstigen unter 6

möglichen Fällen zu tun haben, ist p = 2a6  0Y33. Die Wahrscheinlichkeit, eine

Sechs, eine Fünf oder eine Zwei zu werfen, ist entsprechend durch 1/6 + 1/6 + 1/6 = 0,5

gegeben. Sie ist also die Summe der Wahrscheinlichkeiten, eine Sechs, eine Fünf oder

eine Zwei zu werfen.

Die Verallgemeinerung dieser Überlegung führt zum Additionssatz der Wahr-

scheinlichkeit. Er lautet: Die Wahrscheinlichkeit p, dass von n einander ausschlie-

ßenden Ereignissen das erste oder das zweite oder das dritte oder das n-te eintritt,

ist gleich der Summe der Wahrscheinlichkeiten für das Auftreten der Einzelereignis-

se. Bezeichnen wir allgemein mit pi die Wahrscheinlichkeit des i-ten Ereignisses, so

beträgt die zusammengesetzte Wahrscheinlichkeit

n

p = p1 + p2 + p3 + X X X + pi + X X X + pn = pi X

1X2

i=1

Beispiel 2: Wenn wir einen Würfel 2-mal hintereinander werfen, so können wir uns

fragen: Wie groß ist die Wahrscheinlichkeit p, dass wir 2-mal eine Sechs werfen? Die-

selbe Frage wäre auch für den gleichzeitigen Wurf zweier Würfel zu stellen. Die the-

oretische Wahrscheinlichkeit könnten wir genauso wie im Beispiel 1 bestimmen; sie

leitet sich aus folgender Überlegung her: Die Wahrscheinlichkeit, dass der 1. Wurf

eine Sechs ist, beträgt p1 = 1/6. Angenommen, wir hätten geworfen und wirklich eine Sechs erhalten. In diesem Fall besteht wiederum eine Wahrscheinlichkeit von

p2 = 1/6, dass auch der 2. Wurf eine Sechs ergibt. Dieselbe Wahrscheinlichkeit p2 = 1/6 hätte auch in jenen 5 Fällen Geltung, in denen wir beim 1. Wurf keine Sechs erhalten hätten. Die beiden Würfe sind nämlich voneinander unabhängig.

Die Wahrscheinlichkeit p, 2-mal nacheinander eine Sechs zu werfen, beträgt

demgemäß nur 1/6 der Wahrscheinlichkeit, überhaupt eine Sechs zu werfen. Folglich

ist p = p1 · p2 = 1/6 · 1/6 = 1/36. Entsprechend ist die Wahrscheinlichkeit, mit einer Münze 2-mal „Zahl“ zu werfen: p = p1 · p2 = 1/2 · 1/2 = 1/4. Wir können diesen als Multiplikationssatz der Wahrscheinlichkeit bekannten Tatbestand allgemein so formu-

lieren: Die Wahrscheinlichkeit p, dass n voneinander unabhängige Ereignisse ge-

1.1 · Grundlagen der Wahrscheinlichkeitsrechnung

5

1

meinsam auftreten, ist gleich dem Produkt der Einzelwahrscheinlichkeiten pi dieser

Ereignisse.

n p = p1 Á p2 Á p3 Á X X X Á pi Á X X X Á pn = pi X

1X3

i1

Additions- und Multiplikationssatz sind wichtige Ausgangspunkte der folgenden

Ausführungen über die Kombinatorik und der späteren über die statistische Ent-

scheidung.

1.1.5 Punktwahrscheinlichkeiten
Wenden wir uns von den Würfelversuchen, die 6 mögliche Resultate ergeben, wieder dem einfacheren Münzenversuch mit 2 Alternativen zu. Fragen wir uns, welche Kombinationen von „Zahl“ (Z) und „Adler“ (A) wir bei gleichzeitigem Wurf mit 3 Münzen theoretisch erhalten könnten. Im Folgenden sind die Möglichkeiten vollzählig zusammengestellt: ZZZ, ZZA, ZAZ, ZAA, AAA, AAZ, AZA, AZZ.
Unter den 23 = 8 möglichen Resultaten finden wir nur eins, bei dem alle Münzen auf „Zahl“ fallen. Die Wahrscheinlichkeit, 3-mal „Zahl“ zu erhalten, ist demnach p = 1/8. Die Wahrscheinlichkeit, dass wir bei einem Wurf die Kombination 2-mal „Zahl“, 1-mal „Adler“ antreffen werden, beträgt 3/8 wie auch für die Kombination 1-mal „Zahl“ und 2-mal „Adler“. Die Wahrscheinlichkeit, 3-mal „Adler“ zu werfen, ergibt sich wiederum zu 1/8.
Die Wahrscheinlichkeit, ein bestimmtes Ereignis (z. B. 2 ´ Z, 1 ´ A) zu erzielen, nennt man Punktwahrscheinlichkeit. Man erhält die Punktwahrscheinlichkeit – mit (klein) p bezeichnet –, indem man die Häufigkeit der 4 im vorigen Absatz als Beispiel genannten Kombinationen von n = 3 Elementen durch 8 als Anzahl aller möglichen Kombinationen dividiert. Diese p-Werte erhalten wir auch, wenn wir die Zahlen der 4. Zeile aus . Tab. 1.1, dem sog. Pascalschen Dreieck, durch 23 = 8 dividieren.
Das Pascalsche Dreieck in . Tab. 1.1 wurde für n = 1 bis n = 5 in Einserschritten oder kurz für n = 1(1)5 entwickelt. (Die in Klammern gesetzte Zeile n = 0 wurde

. Tabelle 1.1

Überwiegen von „Zahl“

Überwiegen von „Adler“

(1)

1

1

Z

A

1

2

1

ZZ

ZA

AA

1

3

3

1

ZZZ

ZZA ZAA

AAA

1

4

ZZZZ ZZZA

6 ZZAA

4 ZAAA

1 AAAA

1

5

10

10

5

1

ZZZZZ ZZZZA ZZZAA ZZAAA ZAAAA AAAAA

n

2n

(0)

(1)

1

2

2

4

3

8

4

16

5

32

6
1

Kapitel 1 · Wahrscheinlichkeitslehre
der Vollständigkeit halber mit aufgenommen.) In allgemeiner Schreibweise kennzeichnet a(i)n, dass von a bis n in Intervallen der Größe i gezählt wird.
Wie man leicht erkennt, ergeben sich die Werte einer Zeile als Summen von jeweils 2 benachbarten Werten der vorangehenden Zeile, ergänzt durch die Zahl 1 am Anfang und am Ende der Zeile. Diesem Prinzip folgend, lässt sich das Pascalsche Dreieck in . Tab. 1.1 beliebig ergänzen.
Aus dieser Tabelle entnehmen wir weiter, dass bei einem Wurf mit n = 4 Münzen p(4 ´ Z) = 1/16, p(3 ´ Z, 1 ´ A) = 4/16, p(2 ´ Z, 2 ´ A) = 6/16, p(1 ´ Z, 3 ´ A) = 4/16 und p(4 ´ A) = 1/16 resultieren.
Entsprechend sind die Punktwahrscheinlichkeiten für bestimmte Adler-ZahlKombinationen für mehr als 4 Münzen zu berechnen (zur Herleitung des Pascalschen Dreiecks 7 S. 14).
Die Berechnung von Punktwahrscheinlichkeiten ist essenziell für viele verteilungsfreie Verfahren. Allerdings werden wir dazu wie auch für die im folgenden zu besprechenden Überschreitungswahrscheinlichkeiten in der Regel kompliziertere Wahrscheinlichkeitsmodelle benötigen als das beispielhaft verwendete Wahrscheinlichkeitsmodell des Münzwurfes (7 Abschn. 1.1.7).
1.1.6 Überschreitungswahrscheinlichkeiten
Wir wollen im Folgenden noch eine andere Wahrscheinlichkeit kennenlernen, die sich am besten anhand eines Wettbeispiels einführen lässt: Angenommen, wir haben gewettet, mit n = 4 Münzen mindestens x = 3-mal „Zahl“ zu werfen. Wie groß ist die Wahrscheinlichkeit, diese Wette zu gewinnen? Die Antwort ist einfach: „Mindestens 3-mal“ bedeutet 3-mal oder 4-mal „Zahl“ zu werfen; also ist die gesuchte Wahrscheinlichkeit – wir bezeichnen sie mit (groß) P und nennen sie Überschreitungswahrscheinlichkeit – nach dem Additionssatz gleich der Punktwahrscheinlichkeit, 3-mal „Zahl“ zu werfen: p(x = 3) = 4/16 plus der Punktwahrscheinlichkeit, 4-mal „Zahl“ zu werfen: p(x = 4) = 1/16; also ist P = 4/16 + 1/16 = 5/16. In gleicher Weise könnten wir nach der Wahrscheinlichkeit, mindestens 2-mal „Zahl“ zu werfen, fragen: Sie beträgt analog P = 6/16 + 4/16 + 1/16 = 11/16. Wir können die Überschreitungswahrscheinlichkeit definieren als die Wahrscheinlichkeit des Auftretens eines bestimmten Ereignisses, vermehrt um die Wahrscheinlichkeiten aller „extremeren“ Ereignisse.
Statt nach der Wahrscheinlichkeit für „mindestens 3-mal Zahl“ hätten wir auch nach der Wahrscheinlichkeit für „höchstens 1-mal Adler“ fragen können. Für beide Fälle ist die Überschreitungswahrscheinlichkeit natürlich identisch. Allgemein: Die Wahrscheinlichkeit, dass ein Ereignis A bei n Versuchen mindestens x-mal auftritt, entspricht der Wahrscheinlichkeit, dass das zu A komplementäre Ereignis A" (lies: non-A) höchstens (n – x)-mal auftritt.
In dem obigen Beispiel haben wir sozusagen einseitig gewettet. Was unter einer einseitigen Wette zu verstehen ist, wollen wir gleich am entgegengesetzten Fall einer zweiseitigen Wette illustrieren: Wir wetten, bei 4 Würfen entweder 4-mal oder 0-mal „Zahl“ zu werfen. Wie groß ist die Chance, diese Wette zu gewinnen? Die Punktwahrscheinlichkeit für x = 4 beträgt p(x = 4) = 1/16, und die Punktwahrscheinlichkeit für x = 0 ist p(x = 0) = 1/16, so dass die zweiseitige Überschreitungs-

1.1 · Grundlagen der Wahrscheinlichkeitsrechnung

7

1

wahrscheinlichkeit, die wir durch P' kennzeichnen, mit P' = 2/16 der doppelten einseitigen Überschreitungswahrscheinlichkeit entspricht. Hätten wir gewettet, mindestens 3-mal „Zahl“ oder höchstens 1-mal „Zahl“ zu werfen, so wäre dies ebenfalls eine zweiseitige Wette, deren Gewinnchancen nach dem Pascalschen Dreieck wie folgt zu berechnen wären: Mindestens 3-mal „Zahl“ heißt 3- oder 4-mal „Zahl“, deren Punktwahrscheinlichkeiten 4/16 und 1/16 betragen. Hinzu kommen die Wahrscheinlichkeiten für 1-mal Zahl (p = 4/16) und für 0-mal Zahl (p = 1/16). Die gesamte zweiseitige Überschreitungswahrscheinlichkeit ist also P' = 1/16 + 4/16 + 4/16 + 1/16 = 10/16.
Die Frage, ob es sich um eine einseitige oder zweiseitige Wette oder – in der Terminologie der Statistik – um einen einseitigen oder zweiseitigen Test handelt, ist für die Entscheidung bestimmter empirischer Fragestellungen von großer Bedeutung. Wir werden darauf an späterer Stelle (7 Abschn. 2.2.1) noch zurückkommen. Festzuhalten ist, dass die Wahrscheinlichkeit für die zweiseitige Frage durch Verdopplung der Wahrscheinlichkeit für die einseitige Frage zu ermitteln ist, sofern die Wahrscheinlichkeitsverteilung für x symmetrisch ist (7 Abschn. 1.2).

1.1.7 Elemente der Kombinatorik
Es wäre unökonomisch, wollten wir A-priori-Wahrscheinlichkeiten für das Auftreten bestimmter Ereignisse auf die beschriebene Art ermitteln; außerdem würden wir komplexere Probleme mit unseren bisherigen Mitteln gar nicht bewältigen. Zur Berechnung komplexer A-priori-Wahrscheinlichkeiten bedienen wir uns verschiedener Formeln eines Teilgebietes der Mathematik, der Kombinatorik. Diese Formeln gründen sich auf 2 Prinzipien, die wir sofort als Analoga des Additionsund Multiplikationssatzes der Wahrscheinlichkeitsrechnung erkennen werden:
Prinzip 1: Wenn ein Ereignis A auf m-fache und ein anderes Ereignis B auf n-fache Weise entstehen kann, so kann das Ereignis A oder B auf (m + n)-fache Weise entstehen, vorausgesetzt, dass A und B nicht gleichzeitig auftreten können.
Prinzip 2: Wenn ein Ereignis A auf m-fache und ein Ereignis B auf n-fache Weise entstehen kann, dann kann das Ereignis (A, B), d. h. dass zunächst A und dann B eintritt, auf (m · n)-fache Weise entstehen, vorausgesetzt, dass alle Möglichkeiten auftreten können.
Was diese beiden Sätze beinhalten, wollen wir uns wieder an einem einfachen Beispiel überlegen: Das Ereignis A – eine Herzkarte aus einem Skatblatt zu entnehmen – kann auf 8 verschiedene Weisen verwirklicht werden; das Ereignis B – eine Kreuzkarte zu entnehmen – kann ebenfalls auf 8 verschiedene Weisen erfolgen. Es gibt also 8 + 8 = 16 verschiedene Möglichkeiten, eine Herz- oder eine Kreuzkarte aus einem Skatblatt von 32 Karten zu ziehen, oder die Wahrscheinlichkeit, eine Herz- oder Kreuzkarte aus dem Skatblatt zu ziehen, beträgt p = 16/32 = 0,5. Dies war das 1. Prinzip.
Das 2. Prinzip können wir uns dadurch veranschaulichen, dass wir nacheinander 2 Karten aus dem Skatspiel entnehmen. Bleiben wir bei den Farben Herz und Kreuz. Eine Herzkarte konnten wir auf 8fache Weise entnehmen, ebenso eine

8
1

Kapitel 1 · Wahrscheinlichkeitslehre
Kreuzkarte. Auf wievielfache Weise können wir nun eine Herzkarte und eine Kreuzkarte entnehmen? Wir können das Herzass mit einem Kreuzass, einen Kreuzkönig, einer Kreuzdame usw. paaren; es resultieren 8 Paarungsmöglichkeiten. Dieselbe Anzahl von Möglichkeiten ergibt sich für den Herzkönig, für die Herzdame, den Buben usw. bei der Paarung mit einer Kreuzkarte. Im Ganzen gibt es also 8 · 8 = 64 Möglichkeiten.
Die beiden Prinzipien können von 2 auf k Ereignisse verallgemeinert werden. Für drei einander ausschließende Ereignisse A, B, C, die auf m-, n-, o-fache Weise entstehen können, gilt: Das Ereignis A oder B oder C kann auf (m + n + o)-fache Weise zustande kommen; das Ereignis (A, B, C) kann in (m · n · o)-facher Weise zustande kommen.

Permutationen und Variationen

Überlegen wir uns einmal, auf wieviele Weisen wir die 3 Buchstaben des Wortes ROT anordnen können. Versuchen wir es erst durch Probieren:

ROT RTO OTR ORT TRO TOR

Es haben sich 6 Anordnungen ergeben. Wie ist die Entstehung dieser Anordnungen zu denken? Wir haben 3 Möglichkeiten, einen der 3 Buchstaben an die 1. Stelle zu setzen. Nach der Entscheidung für eine Möglichkeit, z. B. das R, haben wir nur mehr 2 Möglichkeiten, einen der verbleibenden Buchstaben an die 2. Stelle zu setzen; wir wählen z. B. das O. Für die Besetzung der 3. Stelle ergibt sich nur noch eine Möglichkeit, das restliche T. Die 1. Stelle kann also auf 3fache, die 2. auf 2fache und die 3. Stelle auf 1fache Weise besetzt werden. Betrachten wir die Besetzung der 3 Stellen, so ergibt sich unmittelbar, dass sie auf 3 · 2 · 1 = 6fache Weise möglich ist.
Die 6 möglichen Anordnungen der 3 Buchstaben des Wortes ROT sind die Permutationen der Elemente R, T, O; die 4 Ziffern 3, 5, 6 und 9 ergeben nach derselben Regel 4 · 3 · 2 · 1 = 24 Permutationen, k Objekte liefern entsprechend k (k – 1) . . . 2 · 1 Permutationen. Schreiben wir das fortlaufende Produkt der natürlichen Zahlen von 1 bis k vereinfachend als k! (lies: k Fakultät), so ist die Zahl der Permutationen Pk von k Elementen durch die Gleichung

Pk = k!

(1.4)

gegeben. Wie steht es nun mit der Permutationszahl von n Elementen, wenn jeweils nur
ein Teil, also z. B. k Elemente in einer Anordnung benutzt werden? Wieviele Permutationen zu je k = 4 Buchstaben lassen sich beispielsweise aus dem Wort MORGEN mit n = 6 bilden?
Stellen wir analoge Überlegungen wie oben an. Die 1. Stelle der Anordnung kann auf n-fache Weise besetzt werden, die 2. kann in (n – 1)-facher Weise besetzt werden, die 3. in (n – 2)-facher Weise usw. bis zur k-ten Stelle. Ehe wir die k-te Stelle einsetzen, haben wir (k – 1) von den n Elementen in der Anordnung untergebracht, und es verbleiben noch n – (k – 1) = n – k + 1 Elemente zur Disposition für die Besetzung der letzten Stelle. Die Anzahl dieser möglichen Permutationen beträgt demnach n(n – 1) . . . (n – k + 1).

1.1 · Grundlagen der Wahrscheinlichkeitsrechnung

9

1

Dass auch hier wieder die Fakultätenschreibweise möglich ist, wird deutlich, wenn wir dieses Produkt erweitern, indem wir es mit der Anzahl aller Faktoren multiplizieren, die zwischen (n – k + 1) und 1 liegen, und es durch dieselben Faktoren dividieren:

nÁ n

1 Á n

2X X Xn k + 1Á n kÁ n k 1Án k n kÁn k 1Á n k 2Á X X X2Á1

2Á X X X2Á1 X

Wenden wir auf diesen Ausdruck die Fakultätenschreibweise an, so erhalten wir

die Anzahl der Permutationen von n Elementen zu je k Elementen oder – wie man

auch sagt – Variationen von n Elementen zur k-ten Klasse nach der Gleichung:

nPk

=

n3 n k3

X

1X5

Aus dem Wort MORGEN lassen sich also 6!/(6 – 4)! = 360 Permutationen zu je 4 Buchstaben herstellen.
Kann ein Element mehrfach eingesetzt werden, so spricht man von Variationen mit Wiederholungen. Die Zahl der Variationen von n Elementen zur k-ten Klasse (in Kombination zu je k Elementen mit Wiederholungen) beträgt:

nVk = nk X

1X6

Demnach lassen sich z. B. aus dem Wort MOST (n = 4) 42 = 16 verschiedene Variationen zu je k = 2 Buchstaben bilden, wenn Buchstabenwiederholungen (MM, OO, SS und TT) zulässig sind.
Durch die Wiederholung von Elementen kann k > n sein. Für n = 2 Elemente und k Klassen ist

2Vk = 2k X

1X7

Beim Werfen mit einer Münze z. B. haben wir n = 2 Elemente (Zahl und Adler). Diese lassen sich auf 23 = 8fache Weise in Dreiervariationen anordnen. Dies sind
die Zahl-Adler-Abfolgen, die sich bei k = 3 Münzwürfen ergeben können. Bei 5 Würfen wären also 25 = 32 Abfolgen möglich. Um welche Abfolgen es sich hier je-
weils handelt, lässt sich leicht dem Pascalschen Dreieck (. Tab. 1.1) entnehmen.

Kombinationen
Wenn wir aus n Elementen alle Gruppen von k Elementen bilden, erhalten wir alle Kombinationen von n Elementen zur k-ten Klasse. Zwei Kombinationen sind verschieden, wenn sie sich mindestens in einem Element unterscheiden. 123, 124, 234 etc. sind damit unterschiedliche Dreierkombinationen der Elemente 1234, aber nicht 123, 213, 312 etc. Dies wären Permutationen der Kombination 123.
Die in Gl. (1.5) errechnete Zahl der Permutationen von n Elementen zur k-ten Klasse umfasst sowohl alle Kombinationen als auch deren Permutationen. (Die Buchstabenabfolgen MORG, MOGR, MROG etc. wurden hier als verschiedene Permutationen gezählt.) Bei der Bestimmung der Anzahl der Kombinationen lassen wir die Permutationen von Buchstaben außer Acht, d. h. deren Reihenfolge ist beliebig. Wir wissen aus Gl. (1.4), dass jede Kombination zu k Elementen k!-fach permutiert werden kann. Die Anzahl der Kombinationen mal der Anzahl der Permuta-

10 Kapitel 1 · Wahrscheinlichkeitslehre

tionen aus jeder Kombination muss also die Gesamtzahl der Permutationen von n

1

Elementen zur k-ten Klasse gemäß Gl. (1.5) ergeben. Bezeichnen wir mit nCk die An-

zahl der Kombinationen von n Elementen zur k-ten Klasse, so können wir schreiben:

k3 Án Ck = nPk X

1X8

Setzen wir den Wert für nPk aus Gl. (1.5) ein und lösen die Gleichung nach nCk auf, so erhalten wir den Ausdruck für die Berechnung der Kombinationszahl

nCk

=

n3 k3n k3

X

1X9

SmtaetisttddesasveSrybmlebiboel nÀdnkeÁn,

Bruches das von

auf der rechten Seite der Gleichung schreibt man Euler eingeführt wurde und deshalb auch Euler-

sches Symbol genannt und als „n über k“ gelesen wird:


nCk =

n k

nn =

1n

2X X Xn k3

k + 1 X

1X10

Aus dem Wort MORGEN lassen sich also 15 Kombinationen mit jeweils 4 verschiedenen Buchstaben bilden:

6 C4

=

6Á5Á4Á3 4Á3Á2Á1

=

15 X

Aus

Gl.

(1.9)

ergibt

sich,

dass

ÀnÁ
k

=

zu berechnen, auch so bewältigen: 6C4

À

n n

ÁSe=tzÀennÀn nwÁir=

iÀnn
0

ÁGl. (1.9) n = k, so ebenfalls 1 sein.

À

n nÀk

Á .

So

= ist

6

CÀ 6nÀÁ4
n

= =

würdenÀ 6C2 =

62wÁir=u6nÁse5rae2

Aufgabe, Á 1 = 15.

6 C4

1, andererseits muss dann aber

Ein weiteres Beispiel: Das Blatt eines Skatspielers repräsentiert eine Zehner-

kombination aus den 32 Karten des Spiels. Danach kann ein Spieler im Verlauf

seines Lebens höchstens

32 Á 31 Á 30 Á 29 Á 28 Á 27 Á 26 Á 25 Á 24 Á 23

32C10 =

10 Á 9 Á 8 Á 7 Á 6 Á 5 Á 4 Á 3 Á 2 Á 1

= 64 512 240

verschiedene Blätter erhalten, eine Möglichkeit, die er in der Tat wohl kaum ausschöpfen kann und bei der die Spielregel, über den sog. Skat nochmals Karten austauschen zu können, noch gar nicht berücksichtigt ist.

1.2 Wahrscheinlichkeitsverteilungen
1.2.1 Verteilungsformen von Zufallsvariablen
Das n-fache Werfen einer Münze stellt einen beliebig oft wiederholbaren Vorgang dar, der nach einer ganz bestimmten Vorschrift ausgeführt wird und dessen Ergebnis vom Zufall bestimmt ist. Einen Vorgang dieser Art bezeichnen wir als Zufallsexperiment. Die Zahl x zur Kennzeichnung des Ergebnisses eines Zufallsexperimentes (z. B. x = 3-mal Adler) stellt dabei eine Realisierung der Zufallsvariablen X dar. Kann die Zufallsvariable nur bestimmte Zahlenwerte annehmen, wie 0, 1, 2,

1.2 · Wahrscheinlichkeitsverteilungen

11

1

3, 4 als Anzahl der „Adler“ beim Wurf von 4 Münzen, dann handelt es sich um eine diskrete Zufallsvariable; kann sie (u. U. auch nur innerhalb gewisser Grenzen) alle möglichen Werte annehmen, wie der Fußpunkt eines einmal gerollten Zylinders alle Werte zwischen 0 und 2rp, dem Umfang des Zylinders, dann spricht man von einer stetigen Zufallsvariablen. Zufallsvariablen werden im Allgemeinen mit lateinischen Großbuchstaben (X, Y, A, B) bezeichnet, wenn die Gesamtheit aller möglichen Werte gemeint ist, z. B. X = alle natürlichen Zahlen zwischen 0 und 4 oder Y = alle reellen Zahlen zwischen 0 und 2rp; sie werden mit lateinischen Kleinbuchstaben (x, y, a, b) symbolisiert, wenn bestimmte, durch Zufallsexperimente gewonnene Werte (Realisationen) gemeint sind, z. B. x = (3, 0, 2) oder y = (6,2r; 1,76r; 0,39r; 3,14r) im Falle der obigen beiden Experimente.

Wahrscheinlichkeitsfunktion

Bei einer diskreten Zufallsvariablen ordnet die Wahrscheinlichkeitsfunktion f(X) jeder Realisation xi eine Wahrscheinlichkeit pi zu:

&

fX =

pi fur X = xi 0 fur alle ubrigen x .

Für x = 3-mal Adler beim Werfen von n = 4 Münzen beträgt die Wahrscheinlichkeit nach 7 Abschn. 1.1.5 f(x = 3) = 4/16. Durch die Wahrscheinlichkeitsfunktion ist die Wahrscheinlichkeitsverteilung oder kurz die Verteilung einer Zufallsvariablen vollständig bestimmt. Die Summe der Wahrscheinlichkeiten aller möglichen Realisationen einer diskreten Zufallsvariablen ist 1 : f(xi) = 1.
Wird eine Wahrscheinlichkeitsverteilung von einer stetigen Variablen X gebildet, dann resultiert analog eine stetige Wahrscheinlichkeitsverteilung, die nicht durch Einzelwahrscheinlichkeiten, sondern durch eine sog. Dichtefunktion f(X) mathematisch beschrieben wird, deren Integral – wie oben die Summe – gleich 1 ist: f(X)dX = 1. Hier kann die Wahrscheinlichkeit, dass ein mögliches Ergebnis realisiert wird, nur auf ein bestimmtes Intervall J der Dichtefunktion bezogen werden: Man kann also – um dies am Zufallsexperiment des Zylinderrollens zu veranschaulichen – fragen, wie groß die Wahrscheinlichkeit ist, dass der Zylinder in einem Intervall zwischen den Marken 3,14r und 6,28r des Zylinderumfanges aufliegen werde. Diese Wahrscheinlichkeit ist im vorliegenden Fall (einer stetigen Gleichverteilung) mit p = 0,5 ebenso groß wie die Wahrscheinlichkeit, dass der Fußpunkt des Zylinders nach dem Rollen zwischen 0,00r und 3,14r liegen werde.

Verteilungsfunktion
Wahrscheinlichkeitsverteilungen lassen sich auch so darstellen, dass sie angeben, wie groß die Wahrscheinlichkeit P ist, dass in einem Zufallsexperiment die Variable einen Wert kleiner oder gleich x annimmt. Aus derartigen Verteilungen lassen sich damit einfach die in 7 Abschn. 1.1.6 behandelten Überschreitungswahrscheinlichkeiten P ablesen. Diese Darstellungsform der Wahrscheinlichkeiten einer Zufallsvariablen bezeichnet man als Verteilungsfunktion F(X). Bei diskreten Zufallsvariablen erhält man sie – wie das folgende Beispiel zeigt – durch fortlaufende

12 Kapitel 1 · Wahrscheinlichkeitslehre

Summation (Kumulation) der Punktwahrscheinlichkeiten der Wahrscheinlichkeits-

1

funktion. Für das Werfen von n = 4 Münzen erhält man:

Anzahl der „Adler“ = Xi

0

1

2

3

4

Wahrscheinlichkeitsfunktion f(xi) 1/16

4/16

6/16

4/16

1/16

Verteilungsfunktion F(xi)

1/16

5/16

11/16

15/16

16/16.

Formalisiert man das Vorgehen der fortlaufenden Summierung bis jeweils zum Variablenwert xk, so ergibt sich für diskrete Wahrscheinlichkeitsverteilungen

k Fxk = fxi X
i0

1X11 a

Die Verteilungsfunktion stetiger Zufallsvariablen F(X) erhält man in entsprechender Weise, wenn man statt von 0 bis xk zu summieren von –I bis xk integriert:

xk Fxk = fXdX X
ÀI

1X11 b

Die stetige Wahrscheinlichkeitsverteilung unseres Zylinderbeispiels beginnt zwar bei x = 0 (und nicht bei x = –I), doch können wir in gleicher Weise argumentieren: Die Wahrscheinlichkeit, einen Variablenwert von 3,14r oder einen niedrigeren Wert zu „errollen“ (x £ 3,14 r), beträgt P = F(3,14 r) = 0,5, die Wahrscheinlichkeit eines Wertes x £ 4,71 r ist 0,75 und die Wahrscheinlichkeit eines Wertes x £ 6,28 r ist 1,00.

Erwartungswerte
Oft stellt sich die Frage, wieviele Realisationen einer bestimmten Art man bei einem Zufallsexperiment zu erwarten hat, beim Münzenwurf etwa, wie oft man bei N Würfen mit n = 4 Münzen x = i „Adler“ zu erwarten hat. Kennt man die Wahrscheinlichkeitsfunktion der Zufallsvariablen, dann bildet man einfach
E(N, x = i) = Nf(x = i) = N · pi . Mittels dieser Gleichung wären die theoretisch zu erwartenden Häufigkeiten E(xi) der Ergebnisse von N Zufallsexperimenten vorauszusagen: Werfen wir n = 4 Münzen N = 128-mal, so erwarten wir
E(x = 0) = 128 · (1/16) = 8-mal „0 Adler“,
E(x = 1) = 128 · (4/16) = 32-mal „1 Adler“,
E(x = 2) = 128 · (6/16) = 48-mal „2 Adler“,
E(x = 3) = 128 · (4/16) = 32-mal „3 Adler“
und
E(x = 4) = 128 · (1/16) = 8-mal „4 Adler“.
Mit dieser theoretisch zu erwartenden Häufigkeitsverteilung könnten wir die Ergebnisse eines tatsächlich durchgeführten Experimentes – 128-mal 4 Münzen wer-

1.2 · Wahrscheinlichkeitsverteilungen

13

1

fen – vergleichen und feststellen, wie gut Beobachtung und Erwartung überein-

stimmen, wie gut sich die beobachtete der erwarteten Häufigkeitsverteilung an-

passt (7 Abschn. 5.1.3).

Ebenso oft stellt sich die Frage, welchen durchschnittlichen Wert die Zufalls-

variable X bei vielen Versuchen annimmt. Dieser Wert wird als Erwartungswert ei-

ner Zufallsvariablen X bezeichnet. Für diskrete Zufallsvariablen errechnet man

den Erwartungswert E(X) nach folgender Gleichung:
EX = fxi Á xi X

1X12 a

i

Der Erwartungswert E(X) der Zufallsvariablen „Anzahl der Adler“ bei einem Wurf mit n = 4 Münzen lautet damit

E(X) = 0 · 1/16 + 1 · 4/16 + 2 · 6/16 + 3 · 4/16 + 4 · 1/16 =2.

Bei stetigen Zufallsvariablen errechnet man den Erwartungswert nach folgender Beziehung:

I

EX =

X Á fXdX X

1X12 b

ÀI

Für den Erwartungswert einer Zufallsvariablen verwendet man auch das Symbol

l. l bzw. E(X) kennzeichnen damit den Mittelwert bzw. die „zentrale Tendenz“ ei-

ner Verteilung. Ein weiteres wichtiges Maß zur Charakterisierung der Verteilung einer Zufallsvariablen ist die Varianz r2. Mit ihr wird die Unterschiedlichkeit, die

die Werte einer Zufallsvariablen X aufweisen, beschrieben:

 r2 = xi l2 Á fxi X

1X13 a

i

Betrachten wir den Ausdruck xi – l als eine neue Zufallsvariable, erkennt man un-
ter Bezug auf Gl. (1.12), dass die Varianz mit dem Erwartungswert der quadrierten Abweichung (X – l)2 identisch ist:

r2 = EX l2 X

1X14

Im oben genannten Münzwurfbeispiel errechnen wir eine Varianz von

r2 = 0 22 Á 1a16  1 22 Á 4a16  2 22 Á 6a16  3 22 Á 4a16  4 22 Á 1a16
= 1X

Ist die Zufallsvariable stetig, errechnet man die Varianz nach folgender Beziehung:

I

r2 =

X l2fXdX X

1X13 b

ÀI

14 Kapitel 1 · Wahrscheinlichkeitslehre

1.2.2 Die Binomialverteilung
1 Mit dem Münzbeispiel haben wir eine Wahrscheinlichkeitsverteilung verwendet, die für gleich mögliche Ereignisse („Z“ und „A“) gilt. Diese Verteilung heißt Binomialverteilung für gleich wahrscheinliche Alternativereignisse. Die Wahrscheinlichkeitsfunktion für die Zufallsvariable X (z. B. Häufigkeit für das Ereignis „Zahl“) lautet:


pX =

n X

Á 12n X

1X15

DZfinaiehdsleeennVwweerirrtteedileuimnngKDewrheurirewdceekrtebne2trnsepidtresescihm2e. nFPaadksectmoarlss1c.hdFeeanrkGtDolrr.e(Ài1enxc.1Ák5. )(I.n.WdTiearrb.krö1e.cn1h)nteetnanbdRealalnineadrctsh.paDdltiieee Punktwahrscheinlichkeiten, x-mal „Zahl“ zu werfen, für Würfe mit beliebig vielen (n) Münzen berechnen.
Es ist nun der allgemeine Fall zu betrachten, dass die beiden Ereignisse nicht gleich wahrscheinlich sind.

Herleitung der Wahrscheinlichkeitsfunktion
Ein Ereignis E habe die Realisationswahrscheinlichkeit p (E) = 1/2 und das alternative Ereignis E" (lies: Non-E) die komplementäre Wahrscheinlichkeit (E") = 1 – (E).
Nach dem Multiplikationssatz gelten dann für die Sukzession des Auftretens von E oder E" in n = 2 Versuchen, wobei zur Veranschaulichung E das Würfeln einer „Sechs“ und E" das Würfeln einer anderen Augenzahl bedeuten möge, folgende Wahrscheinlichkeiten [für p (E) schreiben wir vereinfachend p]:

p (EE) = p · p p (EE") = p · (1 – p) p (E"E) = (1 – p) · p
p (EE) = (1 – p) · (1 – p) .

Lässt man die Reihenfolge der Ereignisse unberücksichtigt, ergeben sich die folgenden Wahrscheinlichkeiten:

p (EE) p (EE" oder E"E) p (EE)

= p·p = p · (1 – p) + (1 – p) · p = (1 – p) · (1 – p)

= (1) · p2 = (2) · p · (1 – p) = (1) · (1 – p)2

= = =

À À À

2 2
2 1
2 0

Á · p2 · (1 – p)0 Á · p1 · (1 – p)1 Á · p0 · (1 – p)2 .

In n = 3 Versuchen wären die entsprechenden Wahrscheinlichkeiten

p (EEE)

= p·p·p

= (1) · p3

p (EEE" oder EE"E oder E"EE)

= (3) · p2 · (1 – p)

p (EEE oder E"EE" oder EEE)

= (3) · (1 – p)2 · p

p (EEE)

= (1 – p) · (1 – p) · (1 – p) = (1) · (1 – p)3

= = = =

À À À À

3 3
3 2
3 1
3 0

Á Á Á Á

· · · ·

p3 p2 p1 p0

· · · ·

(1 (1 (1 (1

– – – –

p)0 p)1 p)2 p)3

.

1.2 · Wahrscheinlichkeitsverteilungen

15

1

Wir sehen, dass die eingeklammerten Pascalschen Dreiecks entsprechen, die

FsiackhtoarlesnÀdnxeÁnmZiathxle=nnd, e. r. .,20.

und 3. Zeile ergeben.

des

Verallgemeinern wir von n = 3 auf n Versuche, so erhalten wir folgende Wahr-

scheinlichkeiten für das x-malige Auftreten des Ereignisses E:

x = n: x = n – 1: xFFF = n – 2: x = 0:

p (n-mal E und 0-mal E") p (n – 1-mal E und 1-mal E") p (n – 2-mal E und 2-mal E")
p (0-mal E und n-mal E")

= = =

À À À

n n

Á

·

n nÀ1

n nÀ2

pn · (1 Á · pn – Á · pn –

– p)0 1 · (1 – 2 · (1 –

p)1 p)2

=

À

n 0

Á

·

p0

·

(1

– p)n

.

Da mit x = n, n – 1, . . . , 0 alle möglichen Realisierungen der Zufallsvariablen X

erschöpft sind, muss die Summe der Wahrscheinlichkeiten dieser Realisierungen 1

ergeben. Setzt man p = p und q = 1 – p, muss wegen p + q = 1 folgende Gleichung

gelten:


p + qn = n Á pn Á q0 + n Á pnÀ1 Á q1 n Á pnÀ2 Á q2

n   n1

n2

+ F F F + n Á p0 Á qn X

0

Die n-te

rechte Seite Potenz dar

dieser Verteilung und heißt deshalb

sbteinllot mdiisechEentEwnitcwkilucknlgundge.sDBieinKomoesffpiz+ieqntefünrÀdnxiÁe

rheecihßnenenBsininodm. iaSlektozteffmizaienntwenei,tedriheinnaÀcnhÀnxdÁem=

PÀ anxsÁc,alwscohbeeni

Dreieck einfach x die Zahlen 0,

zu be1, . . . , n

durchläuft, so erhält man


px =

n x

Á px Á 1

pnÀx

=

n3 x3n

x3

Á

px

Á

1

pnÀx X

1X16

Nach dieser Gleichung lässt sich die Wahrscheinlichkeit berechnen, genau x-mal E zu beobachten. Die Wahrscheinlichkeitsverteilung für alle Realisierungen der Zufallsvariablen X heißt Binomialverteilung. Ist = 1 – p = 1/2, geht Gl. (1.16) in Gl. (1.15) über.
Wie man zeigen kann (vgl. etwa Kreyszig, 1973, Abschn. 40) beträgt der Erwartungswert E(X) der Binomialverteilung l = n · p und die Varianz r2 = n · p · (1 – p).

Verteilungsfunktion

Will man nicht Punktwahrscheinlichkeiten, sondern Überschreitungswahrschein-

lichkeiten dafür ermitteln, dass X £ k, bedient man sich zweckmäßiger der Vertei-

lungsfunktion bzw. der Summenfunktion der Binomialverteilung. Für den speziel-

len Fall p = 1 – p = 1/2 lautet sie

PX

k

=

k
x0


n x


Á

12n

X

1X17

Für beliebiges p lautet die Summenfunktion der Binomialverteilung entsprechend

16 Kapitel 1 · Wahrscheinlichkeitslehre

1

PX k = k  n  Á px Á 1 À pnÀx X x0 x

1X18

Diese Verteilung ist für ausgewählte Werte p tabelliert (7 Tafel 1 des Anhangs). Die Benutzung dieser Tafel sei anhand von Beispielen demonstriert. Bei einer
Jahrmarktslotterie möge die Chance für ein Gewinnlos 10% (p = 0,1) betragen. Wie groß ist die Wahrscheinlichkeit, beim Kauf von n = 15 Losen mindestens 4-mal zu gewinnen? Wir entnehmen der Tafel für n = 15, p= 0,1 und x = 4; 5 . . . 15:

P = 0,0428 + 0,0105 + 0,0019 + 0,0003 + 8 · (0) = 0,0555 .

Oder als ein Beispiel für eine zweiseitige Fragestellung: Wie groß ist die Wahrscheinlichkeit, dass sich in einer Familie mit n = 10 Kindern höchstens 2 oder mindestens 8 Jungen befinden, wenn wir davon ausgehen, dass die Wahrscheinlichkeit für die Geburt eines Jungen bei p = 0,5 liegt? Für n = 10, p= 0,5 und x = 0; 1; 2 bzw. x = 8; 9; 10 entnehmen wir Tafel 1:

P' = 0,0010 + 0,0098 + 0,0439 + 0,0439 + 0,0098 + 0,0010 = 2 · 0,0547 = 0,1094 .

Liegt die Wahrscheinlichkeit für die untersuchte Alternative im Bereich p > 0,50, benutzt man die andere Alternative und deren Häufigkeiten n – x für die Ermittlung der Überschreitungswahrscheinlichkeit. Bezogen auf das 1. Beispiel ist die Wahrscheinlichkeit für mindestens 4 Gewinnlose (p = 0,1) mit der Wahrscheinlichkeit für höchstens 15 – 4 = 11 Nieten (p = 0,9) identisch.

1.2.3 Die Normalverteilungsapproximation der Binomialverteilung

Wird die Anzahl der Versuche groß (n > 50), dann ermittelt man die Überschreitungswahrscheinlichkeiten bei nicht zu kleiner oder nicht zu großer Wahrscheinlichkeit der betrachteten Alternative (0,1 <p < 0,9) ökonomischer über die sog. Normalverteilung, der sich die Binomialverteilung mit wachsender Anzahl der Versuche schnell nähert. (Zur Bedeutung der Normalverteilung für die Statistik vgl. z. B. Bortz, 2005, Abschn. 2.5.1.) Die Gleichung für die Dichtefunktion der Normalverteilung lautet:

fx = p1 Á exp x l2a2r2 r 2p

1X19

mit p = 3,1416. mialverteilung,

Ersetzt l= np

man und,

die r=

Ppanrapmq,etseor

l und lautet

r durch die Parameter der Binodie Gleichung für die Normalap-

proximation der Binomialverteilung

fx = p2p1npq Á exp x np2a2npq X

1X20

Die Normalverteilung liegt als sog. Standard- oder Einheitsnormalverteilung mit l = 0 und r = 1 tabelliert vor (7 Tafel 2 des Anhangs):

fu = p1 Á exp u2a2 X 2p

1X21

1.2 · Wahrscheinlichkeitsverteilungen

17

1

Hier kann zu jedem Wert x bzw. dem ihm entsprechenden Wert x np
u = pnpq

1X22

die zugehörige Überschreitungswahrscheinlichkeit P abgelesen werden (7 S. 34). Die Transformation überführt eine Verteilung mit beliebigem und r in eine Verteilung mit l = 0 und r = 1 (vgl. dazu etwa Bortz, 2005, unter dem Stichwort z-Transformation).
Die Wahrscheinlichkeit, beim Wurf von n = 10 Münzen mindestens x = 8 „Zahlen“ zu erhalten, errechnen wir nach der exakten Binomialverteilung [Gl. (1.18)] zu P = 0,0547. Über die Normalverteilung erhalten wir für p = q = 1/2

u = p810Á1a2 = 1Y90 10 Á 1a2 Á 1a2

Diesem Abszissenwert u der Standardnormalverteilung entspricht nach Tafel 2 des Anhangs ein P-Wert von 0,0287, der im Verhältnis zum exakt ermittelten P = 0,0547 zu niedrig ausgefallen ist. Offenbar ist unsere Stichprobe mit n = 10 zu klein für die Normalverteilungsapproximation. Die Unterschätzung lässt sich allerdings – wie wir in 7 Abschn. 5.1.1 sehen werden – mit Hilfe der sog. Kontinuitätskorrektur reduzieren.
Da die Normalverteilung symmetrisch ist, entspricht einem positiven u-Wert dieselbe Überschreitungswahrscheinlichkeit wie einem negativen u-Wert.

1.2.4 Die Polynomialverteilung

Lassen wir die Beschränkung auf 2 Ausprägungsarten fallen, so geht die Binomialverteilung in die Polynomialverteilung oder auch Multinomialverteilung über. Für m Ausprägungsarten mit den Wahrscheinlichkeiten p1, p2, . . . pm ergibt sich die Punktwahrscheinlichkeit einer bestimmten Zusammensetzung einer Stichprobe des Umfanges n mit n1 Elementen der ersten, n2 Elementen der zweiten und nm Elementen der m-ten Ausprägung zu

pn1Y n2Y F F F Y nm

=

n1

3

Á

n2

n3 3Á

F

F

F

nm

3

Á

pn1 1

Á pn22 Á F F F pnmm X

1X23

Die Überschreitungswahrscheinlichkeit P, die beobachtete oder eine extremere Zu-

sammensetzung der Stichprobe durch Zufall anzutreffen, ergibt sich zu


P  pÃ =

pnÃ1Y nÃ2Y F F F Y nÃm Y

1X24

wobei die pÃ alle Punktwahrscheinlichkeiten für Anordnungen mit nÃ1Y nÃ2Y F F F Y nÃm Elementen bezeichnet, die kleiner oder gleich der Punktwahrscheinlichkeit der beobachteten Zusammensetzung sind.
Die Ermittlung von Punkt- und Überschreitungswahrscheinlichkeiten sei an einem Beispiel verdeutlicht. Angenommen, in einem akademischen Entscheidungsgremium befinden sich n = 4 Studenten, denen die folgenden Parteizugehörigkeiten nachgesagt werden:

18 Kapitel 1 · Wahrscheinlichkeitslehre

Partei A: n1 = 0,

1

Partei B: n2 = 1

und

Partei C: n3 = 3.

In der studentischen Population haben die 3 Parteien folgende Sympathisantenanteile: p1 = 0,5, p2 = 0,3 und p3 = 0,2. Wir fragen nach der Wahrscheinlichkeit der Gremienzusammensetzung angesichts dieser Populationsverhältnisse. Nach Gl. (1.23) ergibt sich

pn1

= 0Y n2

=

1Y n3

=

3 =

03

Á

43 13

Á

33

Á

0Y50

Á

0Y31

Á

0Y23

= 0Y0096 X

Diese Wahrscheinlichkeit ist sehr gering und spricht nicht für eine „repräsentative“ Auswahl. Fragen wir – im Sinne der Überschreitungswahrscheinlichkeit –, wie wahrscheinlich diese und noch extremere Auswahlen sind (extremer im Sinne einer noch stärkeren Abweichung von der Populationsverteilung), benötigen wir die Punktwahrscheinlichkeiten der extremeren Auswahlen. In unserem Beispiel sind dies die Zusammensetzungen

nÃ1 = 0Y nÃ2 = 4Y nÃ3 = 0 mit pÃ = 0Y0081 Y nÃ1 = 0Y nÃ2 = 0Y nÃ3 = 4 mit pÃ = 0Y0016 X

Alle übrigen Zusammensetzungen haben eine größere Punktwahrscheinlichkeit als die angetroffene. Als Überschreitungswahrscheinlichkeit errechnen wir damit

P = 0,0096 + 0,0081 + 0,0016 = 0,0193 .

Die Polynomialverteilung spielt überall dort als Prüfverteilung eine Rolle, wo Elemente oder Ereignisse nach mehr als 2 Klassen aufgeteilt sind; sie wird, wie wir im nächsten Abschnitt sehen werden, durch eine andere, viel leichter zu handhabende Verteilung hinreichend gut angenähert, bei der die Bestimmung von Überschreitungswahrscheinlichkeiten keinerlei Mühe macht.
Ein Spezialfall der Polynomialverteilung ist die Gleichverteilung oder Rechteckverteilung, in der p1 = p2 = . . . pm = 1/m für alle m Klassen ist. Die Punktwahrscheinlichkeit einer Stichprobe von n1, n2, . . . , nm Elementen ist gegeben durch

pn1Y n2Y F F F Y nm

=

n13

Á

n3 n23 Á F

F

F

Á

nm3

1amn1

n2 FFFnm

=

n1

3

Á

n2

n3 3ÁF

F

F

Á

nm

3

Á

1 mn

X

1X25

Die Gleichverteilung für m = 2 Klassen ist die Binomialverteilung für p = 0,5. Nach der Terminologie von Gl. (1.15) entspricht n1 = x und n2 = n – x, so dass

pn1Y n2 =

n1

n3 Án2

3

Á

1 2n

=

x3

Á

n3 n À

x3

Á

1 2n

=

n x

Á

1 2n

X

1.2 · Wahrscheinlichkeitsverteilungen

19

1

1.2.5 Die v2-Approximation der Polynomialverteilung

Die Ermittlung der Überschreitungswahrscheinlichkeiten nach der Polynomialver-
teilung ist schon für kleine Stichproben sehr mühsam. Glücklicherweise geht sie be-
reits für relativ kleine Stichprobenumfänge in eine andere theoretische Verteilung, die v2-Verteilung, über, die von Pearson (1900) nach Überlegungen von Helmert (1876) erarbeitet wurde. Diese Verteilung liegt ebenfalls tabelliert vor (7 Tafel 3 des
Anhangs). Die v2-Verteilung – genauer: die v2-Verteilung für k Freiheitsgrade – ist defi-
niert als Verteilung der Summe der Quadrate von k unabhängigen Standardnormalvariablen ui = (xi – l)/r nach

v2 = u21  u22 + F F F + u2k X

1X26

Durch infinitesimale Ableitung lässt sich zeigen, dass die Ordinate f der v2-Verteilung im Punkt v2 der Abszisse gegeben ist durch

f v2 = K Á vkÀ1 Á eÀv2a2

1X27

wobei die Konstante K den folgenden Wert annimmt:

K

=

À

kÀ2 2

Á1 32kÀ2a2

X

Wie die Polynomialverteilung eine Verallgemeinerung der Binomialverteilung ist, so ist auch die v2-Verteilung eine Verallgemeinerung der Normalverteilung: Entnimmt man jeweils nur k = 1
normalverteilte Zufallszahlen, dann geht der Ausdruck (1.27) in die Form

f v2 = K Á eÀx2a2

1X28

über,

die

mit

Gl.

(1.21)

identisch

ist,

wenn

man

v2

durch

u2

und

K

durch

p 1a 2p

ersetzt.

Kritisch für die Bestimmung der zu einem bestimmten v2-Wert gehörenden
Überschreitungswahrscheinlichkeit P ist die Zahl der Freiheitsgrade (Fg). In der
Definitionsgleichung (1.26) ist Fg = k, also gleich der Zahl der unabhängigen u-Werte. Liegt aber u = const. fest, weil etwa lu = u/k als Durchschnitt der u-Variablen gegeben ist, dann reduziert sich die Zahl der Freiheitsgrade um 1; dies ist auch bei m Klassen von Häufigkeiten f der Fall, wenn f = n = const.
Wie Pearson gezeigt hat, ist auch der folgende Ausdruck approximativ v2-ver-
teilt:

v2 =  m bi ei2 X i1 ei

1X29

Dabei sind bi die in einer Kategorie i beobachteten und ei die theoretisch erwarteten Häufigkeiten. Dieser Ausdruck ist v2-verteilt, wenn die erwarteten Häufigkei-
ten ei genügend groß sind. Als Richtwerte für ein ausreichend großes ei werden in der statistischen Literatur unter verschiedenen Bedingungen Werte ei = 5, ei = 10 oder ei = 30 angegeben (7 dazu Kap. 5).
Zur Verdeutlichung von Gl. (1.29) greifen wir erneut das in 7 Abschn. 1.2.4 ge-
nannte Beispiel auf, nun allerdings mit einer größeren Stichprobe. Angenommen,
von n = 30 Studenten sympathisieren b1 = 15 mit Partei A, b2 = 11 mit Partei B und

20 Kapitel 1 · Wahrscheinlichkeitslehre

b3 = 4 mit Partei C. Die theoretisch erwarteten Häufigkeiten erhalten wir, indem

1

die auf S. 18 genannten p-Werte mit n multipliziert werden: e1 = 0,5 · 30 = 15,

e2 = 0,3 · 30 = 9 und e3 = 0,2 · 30 = 6. Nach Gl. (1.29) resultiert damit ein v2 von

v2 = 15

152 11 +

92 4 +

62 = 1Y11 X

15

9

6

Da die theoretischen Häufigkeiten in diesem Beispiel die gleiche Summe ergeben müssen wie die beobachteten, hat dieser v2-Wert m – 1 = 2 (m = Anzahl der Katego-
rien) Freiheitsgrade. Tafel 3 des Anhangs ist zu entnehmen, dass für Fg = 2 ein v2 = 1,022 eine Überschreitungswahrscheinlichkeit von P = 0,60 und ein v2 = 1,386 ei-
ne Überschreitungswahrscheinlichkeit von P = 0,50 aufweisen. Demnach hat der empirisch ermittelte v2-Wert eine Überschreitungswahrscheinlichkeit, die zwischen
0,50 und 0,60 liegt. Daraus wäre zu folgern, dass die theoretische Verteilung nicht gravierend von der empirischen Verteilung abweicht (Näheres dazu 7 Abschn. 5.1.3).

1.2.6 Die Poisson-Verteilung

Wenn die Anzahl der Ereignisse n sehr groß und die Wahrscheinlichkeit des untersuchten Ereignisses p sehr klein sind, wird die Ermittlung binomialer Wahrscheinlichkeiten nach Gl. (1.16) sehr aufwendig. In diesem Falle empfiehlt es sich, die exakten binomialen Wahrscheinlichkeiten durch die Wahrscheinlichkeiten einer anderen Verteilung, der Poisson-Verteilung, zu approximieren. Die Wahrscheinlichkeitsfunktion der Poisson-Verteilung lautet:

px

=

lx x3

Á

eÀl

1X30

mit l = n · p und e = 2,7183 (Basis der natürlichen Logarithmen). Die Binomialverteilung geht in die Poisson-Verteilung über, wenn n ? ?,
p ? 0 und n · p = const. (vgl. dazu etwa Kreyszig, 1973, Abschn. 42). Varianz und Mittelwert sind bei der Poisson-Verteilung identisch: l = r2 = n · p.

Die Poisson-Verteilung wird gelegentlich auch als Verteilung seltener Ereignisse

bezeichnet. Ihre Berechnung sei im Folgenden an einem Beispiel verdeutlicht.

(Weitere Anwendungen der Poisson-Verteilung findet man z. B. bei Hays, 1973,

Abschn. 5.21).

An einem Roulettetisch werden an einem Abend n = 300 Spiele gemacht. Ein

Spieler behauptet, dass an diesem Abend die Zahl 13 nicht häufiger als 2-mal fällt.

Mit welcher Wahrscheinlichkeit hat der Spieler mit seiner Behauptung recht, wenn es sich um ein „faires“ Roulette handelt, d. h. wenn p = 1/37?
Nach Gl. (1.30) errechnen wir l = 300/37 = 8,11 und

px

=

0

=

8Y 110 03

Á

eÀ8Y11

=

0Y0003

px

=

1

=

8Y 111 13

Á

eÀ8Y11

=

0Y0024

px

=

2

=

8Y 112 23

Á

eÀ8Y11

=

0Y0099 X

1.2 · Wahrscheinlichkeitsverteilungen

21

1

Als Überschreitungswahrscheinlichkeit ergibt sich damit der Wert P = 0,0126. Es empfiehlt sich also nicht, der Intuition des Spielers zu folgen.
Unter Verwendung von Gl. (1.16) lautet die exakte Überschreitungswahrscheinlichkeit nach der Binomialverteilung P = 0,0003 + 0,0023 + 0,0094 = 0,0120. Die Poisson-Approximation kann damit bereits für n- und p-Werte in der Größenordnung des Beispiels als brauchbar angesehen werden.

1.2.7 Die hypergeometrische Verteilung

Wir haben nun abschließend noch eine Wahrscheinlichkeitsverteilung kennen-

zulernen, die sich dann ergibt, wenn Stichproben zweiklassiger Elemente aus einer

endlich begrenzten Grundgesamtheit entnommen werden: die hypergeometrische

Verteilung.

Die hypergeometrische Verteilung lässt sich anhand eines sog. Urnenmodells

folgendermaßen herleiten: In einer Urne befinden sich K farbige und N – K farb-

lose Kugeln, insgesamt also N Kugeln. Die Wahrscheinlichkeit, eine farbige Kugel

zu ziehen, ist damit p = K/N. Die Wahrscheinlichkeit, genau x farbige Kugeln in ei-

nEneesrnbSefatsirtcebhhipgeernonbÀKeKxuÁvgoeMnlnönghleKicruhagukeselzintuegnzru,exiffienfnad;rebenisg, ebeerKsgutiebghteelsnnicwahuesiatuedsrehnfionKlgÀeiNnnnÀÀdsKxgeenÁsaMÜmbötegrlviloechgrhukanenigtdeeenn-:,

n – x farblose rauszugreifen.

Kugeln Daher

aus den insgesamt vorhandenen N – K farblosenÀ ergeben sich nach dem Multiplikationssatz

KKx uÁgÁeÀlnNnÀÀhKxeÁ-

Möglichkeiten, aus Da die Gesamtzahl

den N Kugeln x farbige aller Kombinationen für

und n – x n Kugeln

farblose KugelnÀ aus N Kugeln

NzÁu
n

ziehen. beträgt,

ergibt sich die Wahrscheinlichkeit p(x) für x farbige Kugeln aus n Kugeln zu:

À K ÁÀ NÀK Á px = x À NnÁÀx X
n

1X31

Der Ausdruck p(x) entspricht einer Punktwahrscheinlichkeit. Die Überschreitungswahrscheinlichkeit, x oder weniger farbige Kugeln zu ziehen, bestimmt man als Summe der zugehörigen Punktwahrscheinlichkeiten: P = p(x) + p(x – 1) + . . . + p(0).
Die hypergeometrpischeVerteilunghateinenMittelwert von n · p und eine Standardabweichung von n Á p Á 1 p Á N naM 1; sie hpatalsodasgleic he Mittel wie die Binomialverteilung, nur eine um den Faktor N naN 1 kleinere Streuung. Sie geht in die Binomialverteilung über, wenn N ??.
Auch diese Verteilung sei an einem Beispiel erläutert: Wenn wir berechnen wollen, wie hoch die Chance ist, im Zahlenlotto „6 aus 49“ den niedrigsten Gewinnrang (x = 3 Richtige) zu haben, so wären einzusetzen: K = 6 (Anzahl der möglichen Treffer), x = 3 (Anzahl der tatsächlichen Treffer), N = 49 (Anzahl der Kugeln im Ziehungsgerät), n = 6 (Anzahl zu ziehender Kugeln), N – K = 43 und n – x = 3.

px

=

3

=

À 6 ÁÀ 43 Á 3À 49 Á3
6

=

20 Á 12341 13983816

=

0Y0177 X

2
2 Beobachtungen, Hypothesen und Tests

Ein wichtiges – wenn nicht gar das wichtigste – Anliegen der empirischen Forschung ist darin zu sehen, allgemeine Vermutungen (Hypothesen) über die Art der Beziehung von Merkmalen an der Realität zu überprüfen. Dazu werden hypothesenrelevante Ausschnitte der Realität empirisch beobachtet und der hypothetischen Erwartung gegenübergestellt. Die Entscheidung, ob die empirischen Beobachtungen die Hypothese stützen oder nicht, erfordert einige Überlegungen, die Gegenstand dieses Kapitels sind.
Wir werden zunächst fragen, wie man hypothesenrelevante Ausschnitte der Realität in Form von Stichproben möglichst genau numerisch beschreiben bzw. erfassen kann. Daran anschließend wird zu prüfen sein, wie die stichprobenartigen Beobachtungen im Lichte der Hypothese zu bewerten sind. Dies geschieht mit Hilfe eines sog. Signifikanztests, der in seinen Grundzügen dargestellt wird.

2.1 Beobachtungen und Verteilungshypothesen

2.1.1 Übereinstimmung von Beobachtungen mit Hypothesen

Beim Werfen von Münzen und beim Ziehen von Spielkarten machen wir Beobach-

tungen und beurteilen diese dahingehend, ob sie mit einer Verteilungshypothese

aufgrund eines statistischen Modells, wie etwa dem der Binomialverteilung, über-

einstimmen. Dies geschieht im Beispiel des Münzwurfs auf folgende Weise: Wir

beobachten ein Ereignis, z. B. den Wurf von 10 Münzen, und stellen fest, dass

9-mal Zahl gefallen ist. Wir möchten nun wissen, ob dieses empirische Ereignis

noch mit unserer Vorannahme der gleichen Wahrscheinlichkeit von Adler (A) und

Zahl (Z) übereinstimmt oder ob wir davon ausgehen müssen, dass dieses Ergebnis

nicht zufällig zustande gekommen ist. Dazu ermitteln wir die Wahrscheinlichkeit

P, dass das beobachtete oder ein extremeres Ereignis bei Geltung der Binomial-

hypothese p (Z) = p (A) zustandegekommen sei:


P = 10 a210 + 10 a210 = 0Y0098  0Y0010 = 0Y0108 X

9

10

Genau denselben Weg gehen wir bei der wissenschaftlichen Beurteilung der Übereinstimmung von Beobachtungen mit theoretischen Annahmen: Die Mendelschen Gesetze lassen uns erwarten, dass je eine Hälfte der Neugeborenen männlichen (M), die andere weiblichen (W) Geschlechts ist. Wir stellen deshalb die Hypothese auf, dass sich die Geschlechterkombinationen von Zwillingen binomialverteilen,

24 Kapitel 2 · Beobachtungen, Hypothesen und Tests

dass also gleichgeschlechtliche Zwillinge (MM und WW) mit der Wahrscheinlich-

keit p = 0,5 auftreten. Daraufhin entnehmen wir eine Stichprobe von Zwillingen

aus dem Geburtenregister eines Standesamtes und zählen die Geschlechterkom-

2

binationen aus. Dabei ergibt sich, dass gleichgeschlechtliche Zwillinge wesentlich

häufiger vorkommen, als aufgrund der Binomialverteilung zu erwarten war, und

dass diese Verteilung nur eine sehr geringe Wahrscheinlichkeit hat, mit der Bino-

mialverteilung übereinzustimmen. Wir stehen angesichts dieses Ergebnisses vor

der Wahl, die Binomialverteilungshypothese einfach zu verwerfen und aufgrund

unseres empirischen Befundes eine neue Hypothese über die Verteilung der Ge-

schlechterkombination von Zwillingen aufzustellen oder aber die Geltung der Bi-

nomialhypothese auf eine bestimmte Klasse von Beobachtungen einzuschränken.

In unserem Fall wäre der letzte Weg zu beschreiten, denn Zwillinge sind nach ge-

genwärtigem biologischen Erkenntnisstand entweder zweieiige Zwillinge, deren Ge-

schlechtskombination dem Binomialverteilungsmodell folgen sollte, oder eineiige

Zwillinge, die stets gleichen Geschlechts sind, für die also p (MM) = p (WW) = 0,5

gilt. Wir restringieren deshalb unsere Verteilungshypothese auf die Klasse der zwei-

eiigen Zwillinge. Nachdem wir die eineiigen Zwillinge aus der Stichprobe entfernt

und erneut auf Übereinstimmung mit dem Binomialmodell geprüft haben, stellen

wir fest, dass nunmehr die beobachteten Häufigkeiten von MM, MW und WW mit

relativ großer Wahrscheinlichkeit Realisationen des Binomialmodells darstellen.

Diese Erkenntnis halten wir so lange als gültig fest, als weitere Beobachtungen ihr

nicht widersprechen.

2.1.2 Stichproben und Grundgesamtheiten
Wie wir an dem Zwillingsbeispiel und zuvor an dem Münzenversuch gesehen haben, beobachten wir Merkmale – im Regelfall ein Merkmal (Geschlecht, Wurfergebnis) – üblicherweise an einer Stichprobe von Elementen oder Untersuchungseinheiten (Zwillingspaaren, Münzwürfen) und ziehen aus diesen Beobachtungen Schlussfolgerungen, die für die Population aller Untersuchungseinheiten gelten sollen.
Unter Grundgesamtheit oder Population wollen wir alle Untersuchungseinheiten verstehen, denen ein zu untersuchendes Merkmal gemeinsam ist. Dabei ist der Begriff der Population genereller oder spezifizierter zu fassen, je nach dem Allgemeinheitsgrad, den man für seine Schlussfolgerungen anstrebt. So spricht man von der Population der Ratten schlechthin, von der einer bestimmten Rasse, eines bestimmten Stammes und schließlich von der (zahlenmäßig sehr begrenzten) Population eines bestimmten Wurfes.
Man unterscheidet zwischen realen und endlichen Populationen (der eineiigen Zwillinge in Hamburg, der roten und weißen Kugeln in einer Urne, der Rinder in einem Zählbezirk, der Schulentlassenen eines Ortes und Jahrgangs etc.) und fiktiven und unendlichen Populationen von Beobachtungen (wie alle denkbaren Münzwurfergebnisse, alle Körperlängen, alle Reaktionszeiten usw.). Sofern die endlichen Populationen groß sind, können sie vom statistischen Gesichtspunkt her wie unendliche Populationen behandelt werden, was in allen weiteren Ausführungen – wenn nicht ausdrücklich anders vermerkt – stets geschehen wird. Als

2.1 · Beobachtungen und Verteilungshypothesen

25

2

„groß“ gelten nach Dixon u. Massey (1957) endliche Populationen, deren Umfang mehr als etwa 20-mal so groß ist wie aus ihnen entnommene Stichproben.
Unter Stichprobe verstehen wir einen „zufallsmäßig“ aus der Population entnommenen Anteil von Untersuchungseinheiten. Zufallsmäßig heißt, dass jede Einheit (z. B. jedes Individuum) der Population die gleiche Chance haben muss, in die Stichprobe aufgenommen zu werden. Haben die Untersuchungseinheiten nicht die gleiche Chance, in die Stichprobe aufgenommen zu werden, dann entstehen verzerrte Stichproben („biased samples“), die nicht repräsentativ für die Grundgesamtheit sind und die daher keine oder nur bedingte Schlüsse auf Letztere zulassen. Leider sind viele Stichproben, mit denen Biologie, Medizin und Sozialwissenschaften arbeiten, keine Zufallsstichproben, sondern sog. Ad-hoc-Stichproben, die gerade zugänglich oder – bei seltenen Erkrankungen etwa – allein verfügbar waren. Wenn überhaupt, so ist von solchen Stichproben lediglich auf eine fiktive Population zu schließen, auf eine Population, für welche die Ad-hoc-Stichprobe eine Zufallsstichprobe darstellt. Unter „Zufallsstichprobe“ wird dabei nicht nur eine zufallsmäßig aus einer Population entnommene Stichprobe bezeichnet, sondern auch ein nach Zufall ausgewählter Anteil einer solchen Stichprobe. In diesem Zusammenhang spricht man auch von randomisierten Stichproben.
Stichproben und Populationen von qualitativen und quantitativen Beobachtungen müssen beschrieben und der wissenschaftlichen Kommunikation zugänglich gemacht werden. Die vollständigste und zugleich übersichtlichste Beschreibung erfolgt durch die (graphische oder tabellarische) Darstellung ihrer Häufigkeitsverteilungen in der Art, wie sie in 7 Abschn. 3.3 empfohlen wird.
Eine Beschreibung bestimmter Aspekte von Stichproben und Populationen ist aber auch durch numerische Kennwerte möglich: Solche Kennwerte sind etwa die Anteile der 4 Blutgruppen A, B, AB, 0 in der Gesamtbevölkerung, Mittelwert und Streuung der Körperlängen von Kindern bestimmten Alters, die Konfidenzgrenzen eines biochemischen Merkmals etc. Man nennt diese auf die Population bezogenen Kennwerte Parameter und bezeichnet sie mit griechischen Buchstaben wie pA als den Anteil der Personen mit der Blutgruppe A, l und rx als Durchschnitt und Standardabweichung der Körperlängen x und m als die Gesamtzahl der Individuen einer Population. Die Kennwerte einer Stichprobe dagegen heißen Statistiken und werden mit lateinischen Buchstaben bezeichnet: So wäre pA der Anteil der A-Blutgruppenträger in der Stichprobe von N Individuen, "x und sx der Mittelwert und die Standardabweichung der Körperlängen (7 Abschn. 3.3.2). Mit griechischen Buchstaben werden wir aber nicht nur Populationsparameter, sondern auch Kennwerte für eine bestimmte, aufgrund einer Hypothese postulierte, theoretische Verteilung kennzeichnen. Mit dem Symbol N wird künftig der Umfang der untersuchten Stichprobe gekennzeichnet.
Stichproben werden hauptsächlich aus 2 Gründen erhoben: Erstens will man mit Hilfe von Stichprobenstatistiken auf die in der Regel unbekannten Parameter einer Population schließen, und zweitens will man anhand von Stichproben statistische Hypothesen über Populationen (z. B. der Mittelwert lA einer Population A ist größer als der Mittelwert lB einer Population B) testen.
Die Testproblematik wird in den folgenden Kapiteln ausführlich behandelt. Zum Problem des Schließens (Bestimmung von Konfidenzintervallen) findet der

26 Kapitel 2 · Beobachtungen, Hypothesen und Tests

Leser Ausführungen und Literatur bei Lienert (1978, Kap. 11 über verteilungsfreie

Schätzmethoden) oder Bortz u. Döring (2006, Kap. 7 über parametrische Metho-

den der Konfidenzintervallbestimmung).

2

Die Verbindlichkeit der aus Stichproben gezogenen Schlussfolgerungen hängt

von der Repräsentativität der Stichproben ab. Entscheidend für die Repräsentativi-

tät einer Stichprobe ist der Modus ihrer Entnahme aus der Grundgesamtheit; sie

muss zufallsgesteuert sein. Wie man zu repräsentativen Stichproben gelangt, wird

im Folgenden kurz erörtert.

2.1.3 Stichprobenarten

Eine Stichprobe soll – wie gesagt – ein repräsentatives, d. h. in allen Verteilungskennwerten mit der Population übereinstimmendes Abbild sein. Stichproben dieser Art erzielt man durch Entnahmetechniken, bei denen ein „Zufallsmechanismus und damit ein wahrscheinlichkeitstheoretisches Modell zur Geltung kommt“ (Kellerer, 1960, S. 144).
Zur Frage der Bildung repräsentativer Stichproben liegen ältere Monographien von Cochran (1962), Strecker (1957), Kellerer (1953) und vom Statistischen Bundesamt (1960) vor. Eine neuere Arbeit zu Stichprobenverfahren hat Schwarz (1975) vorgestellt. Die Beziehung zwischen Umfang und Genauigkeit von Stichproben behandelt eine Arbeit von Koller (1958).
Eine grundsätzlichere, kritische Auseinandersetzung mit dem Repräsentativitätsbegriff wird bei Holzkamp (1983) geführt. Die Frage, inwieweit Repräsentativität einer Stichprobe für Populationen in den Sozialwissenschaften angesichts der heute aus Datenschutzgründen bestehenden Notwendigkeit, von jedem Untersuchungsteilnehmer eine schriftliche Einverständniserklärung einzuholen, a priori eingeschränkt ist, also zwangsläufig mit „biased samples“gearbeitet werden muss, kann hier nicht ausführlicher diskutiert werden (vgl. dazu etwa Boehnke, 1988). Vor dem Hintergrund solcher und ähnlicher Einschränkungen ist die folgende Unterscheidung von Erhebungstechniken nur als idealtypisch zu verstehen:
Die einfache Zufallsstichprobe simuliert weitgehend das Modell der Urnenentnahme: Man entnimmt aus einer definierten Population (z. B. der Infarktkranken einer Klinik) eine Stichprobe derart, dass man die m Individuen der Population (die Krankenblätter) durchnumeriert und nach einer Tabelle von Zufallsziffern eine Stichprobe von N Individuen auswählt (etwa um das Alter der darin enthaltenen männlichen und weiblichen Patienten zum Zeitpunkt der Erkrankung zu vergleichen).
Lässt sich die Population in homogene Subpopulationen (Schichten oder Strata) aufgliedern (z. B. in männliche und weibliche Patienten mit Haupt-, Real- oder Gymnasialabschluss), dann empfiehlt sich eine geschichtete oder stratifizierte Stichprobenerhebung, bei der aus jeder Schicht proportional zu ihrem Umfang eine einfache Stichprobe gezogen wird. (Zur disproportional geschichteten Stichprobe vgl. etwa Bortz, 2005, Kap. 3.) Bei örtlich verstreuten Populationen wird meist eine Klumpenstichprobe gezogen. Man entnimmt dabei „naturgegebene“ oder leicht zugängliche Kollektive von Individuen (Klumpen oder Cluster) nach Zufall aus der Gesamtheit der die Population konstituierenden Kollektive. Dieses Verfahren wird z. B. bei der Eichung von Schulfortschrittstests angewendet, wo man vollständige Schulklassen als Klumpen testet, die Schulklassen aus dem Schulbezirk aber nach Zufall auswählt.
Für klinische Untersuchungen eignet sich oft ein mehrstufiges Stichprobenverfahren am besten, wenn man Repräsentativität anstrebt: So wären für eine Arzneimittelwirkungskontrolle in einer 1. Stufe die Städte auszuwählen, in denen kontrolliert werden soll, dann müssten unter den dort niedergelassenen Ärzten in einer 2. Stufe einige nach Zufall ausgewählt und um Mitarbeit gebeten werden, und

2.1 · Beobachtungen und Verteilungshypothesen

27

2

schließlich wäre das Arzneimittel in einer 3. Stufe an einigen Personen mit einschlägiger Diagnose zu erproben, die ebenfalls per Los aus den teilnahmebereiten Patienten auszuwählen sind. Die Festlegung eines optimalen Stichprobenumfanges für ein Forschungsvorhaben wird aus den verschiedensten Blickrichtungen zu diskutieren sein. Entscheidend ist zunächst die angestrebte Genauigkeit der Aussagen über die Population. Jedem Leser ist ohne weiteres plausibel, dass etwa Wählerbefragungen mit N = 800 weniger verlässlich sind als Befragungen mit N = 2000.
Bei längsschnittlich angelegten Untersuchungen, auch Paneluntersuchungen genannt, muss die mutmaßliche Ausfallrate über die Zeit in die Überlegungen einbezogen werden (vgl. dazu St. Pierre, 1980). An späterer Stelle (7 Abschn. 2.2.7 und 2.2.8) werden wir darauf eingehen, dass auch der zwischen 2 Populationen zu erwartende Unterschied und der für die Überprüfung verschiedener Hypothesen verwendete statistische Test einen Einfluss auf den optimalen Stichprobenumfang haben sollten.
Untersucht man mehrere Stichproben, so ist es wichtig, zwischen unabhängigen und abhängigen Stichproben zu unterscheiden. Von unabhängigen Stichproben spricht man, wenn die Ziehungen beider bzw. aller Stichproben nach dem Zufallsprinzip erfolgen. Ebenso spricht man von unabhängigen Stichproben, wenn eine Stichprobe nach dem Zufallsprinzip z. B. in 2 Hälften aufgeteilt wird, wie dies in der experimentellen Forschung häufig erfolgt (randomisierte Stichproben).
Abhängige Stichproben (korrelierte Stichproben, Parallelstichproben oder „matched samples“) liegen vor, wenn die Zusammensetzung einer Stichprobe durch die Zusammensetzung einer anderen Stichprobe determiniert ist. Dies wäre etwa dann der Fall, wenn wir zunächst eine Zufallsstichprobe von Anorexia-nervosa-Patientinnen ziehen und diese dann z. B. mit ihren Geschwistern vergleichen wollen. In diesem Fall wäre die Zusammensetzung der Geschwisterstichprobe von der Zusammensetzung der Ausgangsstichprobe abhängig. Jeder Person der einen Stichprobe ist eine bestimmte Person der anderen Stichprobe zugeordnet. Abhängige Stichproben (bzw. „independent matched samples“ nach Krauth, 1990, S. 122) erhält man durch Paarbildung von Individuen nach einem Passpaarkriterium (wie etwa nach paarweise gleichen Ausgangswerten einer Reaktionsvariablen) und Zufallszuordnung der Paarlinge z. B. zu einer Experimental- bzw. Kontrollbedingung.
Ein häufiger Sonderfall einer abhängigen Stichprobe liegt bei Untersuchungen mit Messwiederholung bzw. bei Längsschnittuntersuchungen vor. Man misst ein Merkmal an ein und derselben Zufallsstichprobe von Individuen 2- oder mehrmals (möglicherweise) unter verschiedenen Bedingungen (Behandlungen), so dass mehrere voneinander abhängige (Daten-)Stichproben entstehen. Messwiederholungsanalysen unter verschiedenen experimentellen Bedingungen sind aber nur dann konklusiv, wenn sie keinem zeitlichen Trend folgen und die Abfolge der Bedingungen losbestimmt ist.
Die Einteilung in unabhängige und abhängige Stichproben ist deshalb so bedeutsam, weil für beide Erhebungsarten unterschiedliche statistische Tests angewendet werden, wobei die für abhängige Stichproben bestimmten Tests im Allgemeinen „wirksamer“ sind, ein Aspekt, auf den wir in 7 Abschn. 2.2.7 noch ausführlicher eingehen.
Bevor wir uns in 7 Kap. 3 umfassender mit verschiedenen Techniken der Datenerhebung an Stichproben und der Aufbereitung der erhobenen Daten beschäftigen, wollen wir uns im Folgenden zunächst mit einigen grundlegenden Begriffen der statistischen Hypothesenprüfung auseinandersetzen.

28 Kapitel 2 · Beobachtungen, Hypothesen und Tests
2.2 Statistische Hypothesen und Tests
2.2.1 Ein- und zweiseitige Fragestellungen
2 Die Darstellung der Theorie der statistischen Entscheidung wollen wir mit einem Beispiel einleiten, das die möglichen Arten der statistischen Fragestellung näher beleuchten wird. Wenn wir wissen wollen, ob 2 Getreidesorten einen unterschiedlichen Ertrag liefern und wir keine Mutmaßung darüber besitzen, welche der beiden Sorten den höheren Ertrag liefert – Erfahrungen fehlen oder widersprechen einander –, so stellen wir an einen für diesen Zweck angestellten Versuch die folgende Frage: Liefert die Sorte I einen höheren Ertrag als die Sorte II oder liefert umgekehrt die Sorte II einen höheren Ertrag als die Sorte I? Dies wäre eine zweiseitige Fragestellung. Bleiben wir bei den 2 Getreidesorten. Die Sorte I sei wohl bekannt und gut eingeführt, die Sorte II sei eine Neuzüchtung und erhebt den Anspruch, höhere Erträge als Sorte I zu liefern. Wir wollen also durch einen Versuch lediglich herausfinden, ob die Sorte II tatsächlich, wie vermutet, höhere Erträge liefert als die Sorte I; das Gegenteil interessiert uns nicht. Unser jetziges Anliegen ist eine einseitige Fragestellung an das Experiment. Während die zweiseitige Fragestellung die übliche Ausgangsfragestellung empirisch-statistischer Untersuchungen ist, muss die einseitige stets speziell begründet werden. Eine einseitige Hypothese lässt sich formulieren:
a) auf der Basis einer „starken“ Theorie oder Vorerfahrung, die eine begründete Hypothese über die Richtung des zu erwarteten Unterschiedes zulässt;
b) im Falle logischer und/oder sachlicher Irrelevanz eines Unterschiedes in der anderen (durch die einseitige Fragestellung ausgeschlossenen) Richtung.
Zu a) und b) je ein Beispiel:
a) Aus theoretischen Überlegungen und empirischen Befunden wissen wir, dass ein egalitär-induktiver Erziehungsstil die Entwicklung altruistischer Helfensmotive fördert (vgl. Hoffman, 1977). Nun bereiten wir eine Untersuchung vor, mit der wir herausfinden wollen, ob der postulierte Zusammenhang kulturübergreifend, d. h. etwa auch für eine Stichprobe von türkischen Migrantenkindern, gilt. In diesem Falle ist eine einseitige Fragestellung angemessen, da die Richtung der Wirkweise des induktiven Erziehungsstils als ausreichend gesichert gelten darf.
b) Wenn eine Klinik ein neues Versuchspräparat daraufhin untersucht, ob es Harnausscheidungen bei Nierenkranken fördert, so darf einseitig gefragt werden, denn einmal interessiert nur eine diuresefördernde Wirkung, zum anderen käme das Versuchspräparat – sollte es die Harnausscheidung etwa hemmen – erst gar nicht in den Handel (sachliche Irrelevanz).
Allgemein gilt: Die Art der Fragestellung, ein- oder zweiseitig, muss bereits vor der Gewinnung von Beobachtungs- oder Versuchsdaten festgelegt sein. Im anderen Fall könnte man jeweils so fragen, wie es die Ergebnisse nahelegen. Mit der einseitigen Fragestellung sollte man sehr sparsam operieren, denn man muss bereit und in der Lage sein, ihre Anwendung gegen jeden möglichen Einwurf zu verteidigen. Für eine ausführlichere Auseinandersetzung mit der Frage der Formulierung einsei-

2.2 · Statistische Hypothesen und Tests

29

2

tiger vs. zweiseitiger Hypothesen sei auf Metzger (1953) und Steger (1971) verwiesen. Warum der Richtung der Fragestellung viel Gewicht beizumessen ist, wird im Zusammenhang mit der sog. Teststärke (7 Abschn. 2.2.7) noch klarer werden.

2.2.2 Nullhypothesen
Ausgangspunkt statistischer Inferenz ist üblicherweise die sog. Nullhypothese. Sie kann z. B. lauten: Zwei oder mehrere Stichproben entstammen ein und derselben Grundgesamtheit. Diese Formulierung bezieht sich auf sämtliche (stetigen) Parameter der Populationsverteilung.
Soll die Nullhypothese nur für einen bestimmten Parameter gelten, so ist sie entsprechend zu präzisieren: Zwei oder mehrere Stichproben mit den Statistiken p1, p2 . . . stammen aus Grundgesamtheiten mit dem gleichen Parameter p.
Die große Bedeutung der Nullhypothese für die klassische Prüfstatistik beruht darauf, dass dem Inferenzschluss ein Falsifikationsprinzip zugrunde liegt. Grundsätzlich wird versucht zu überprüfen, ob das Eintreffen eines bestimmten Ereignisses mit den theoretischen Vorannahmen der Nullhypothese kompatibel ist. Im strengen Sinne ist ein statistischer Schluss nur zulässig, wenn die Kompatibilitätsannahme nicht mehr plausibel ist, wenn man „beim besten Willen“ nicht mehr davon ausgehen kann, dass ein bestimmtes Ereignis bei Gültigkeit der Nullhypothese – sozusagen per Zufall – zustande gekommen sein könnte.
Die genannten Nullhypothesen – kurz H0 – sind bewusst etwas leger formuliert. Strenger formuliert würde die H0 – auf den anstehenden Vergleich spezifiziert und auf einen Parameter bezogen – lauten:
a) Beim Vergleich einer Stichprobe mit einer bekannten Grundgesamtheit: Der Parameter p der Grundgesamtheit, der die Stichprobe mit der Statistik p angehört, ist gleich dem Parameter p0 der bekannten Grundgesamtheit. Symbolisch formuliert H0: p = p0.
b) Beim Vergleich zweier Stichproben: Der Parameter p1 der Grundgesamtheit, der die Stichprobe mit der Statistik p1 angehört, ist gleich dem Parameter p2 der Grundgesamtheit, der die Stichprobe mit der Statistik p2 angehört. Symbolisch formuliert bei zweiseitiger Fragestellung H0: p1 = p2, und bei einseitiger Fragestellung H0: p1 £ p2 oder H0: p1 ³ p2 .
c) Beim Vergleich von k Stichproben: H0: p1 = p2 = . . . = pk .
Nullhypothesen beziehen sich nicht nur auf Anteilsparameter, sondern z. B. auch auf Parameter der zentralen Tendenz, der Dispersion oder andere Parameter, auf die wir in 7 Abschn. 3.3.2 näher eingehen. Die Art der Nullhypothese richtet sich nach der Alternativhypothese, die wir im Folgenden behandeln.

30 Kapitel 2 · Beobachtungen, Hypothesen und Tests

2.2.3 Alternativhypothesen

Der Nullhypothese stellen wir eine bestimmte, durch das Untersuchungsziel nahe-

2

gelegte Alternativhypothese – kurz H1 – entgegen. Die Alternativhypothese bezieht sich auf denselben oder dieselben Parameter wie die Nullhypothese. Sie beinhaltet

eine mehr oder weniger spezifizierte Alternative zu dem, was durch die Nullhypo-

these behauptet wird; daher der Name „Alternativhypothese“.

Obwohl vom Standpunkt der wissenschaftslogischen Abfolge die Nullhypothese

der Alternativhypothese vorausgehen muss, beschreitet man in der Forschungspra-

xis oft – bewusst oder unbewusst – den umgekehrten Weg: Man bestätigt eine aus

Theorie oder Beobachtung hergeleitete Alternativhypothese, indem man eine an-

dere, eben die Nullhypothese, als unplausibel verwirft.

Bei der Gegenüberstellung von H0 und H1 ist zu beachten, dass die Nullhypothese meist einen höheren Allgemeinheitsgrad hat, zumindest aber von gleichem

Allgemeinheitsgrad ist wie die Alternativhypothese. Anders formuliert: Die Null-

hypothese umfasst nicht weniger Parameter als die Alternativhypothese. Wenn es

in der Nullhypothese heißt, 2 Stichproben stammten aus ein und derselben

Grundgesamtheit, so ist mit dieser Aussage ausgedrückt, dass sich die Populatio-

nen, aus denen die Stichproben tatsächlich stammen, weder in ihren Mittelwerten

noch in ihren Streuungen oder einem anderen Parameter unterscheiden. Die Al-

ternativhypothese mit gleichem Allgemeinheitsgrad besagt, dass die Stichproben

aus verschiedenen Populationen stammen, wobei diese H1 bereits zu akzeptieren wäre, wenn ein Unterschied nur in Bezug auf einen beliebigen Parameter besteht.

Die Annahme von H0 hingegen setzt Identität in allen Parametern voraus. Zu einer allgemeinen Nullhypothese können Alternativhypothesen auf 3 Gene-

ralisierungsstufen formuliert werden:

a) Die spezielle Alternativhypothese, die sich auf einen definierten Parameter (z. B. den Mittelwert) richtet;
b) die generalisierte Alternativhypothese, die sich auf eine Klasse von Parametern (z. B. alle Maße der zentralen Tendenz) richtet und
c) die sog. Omnibusalternativhypothese, die sich auf alle möglichen Parameter richtet.

Reagiert ein verteilungsfreier Test nur auf einen einzigen Parameter, ist auch die H0 entsprechend zu spezifizieren. Ablehnung dieser H0 bedeutet, dass sich die verglichenen Populationen im geprüften Parameter unterscheiden; über mögliche Unterschiede hinsichtlich weiterer Parameter kann keine Aussage formuliert werden. Entsprechendes gilt für den Fall, dass die H0 beizubehalten ist.
Die Alternativhypothese kann gerichtet (z. B. p1 > p2) oder ungerichtet sein (z. B. p1 = p2). Je nach Art der Alternativhypothese formuliert man die zur H1 komplementäre H0 als eine der in 7 Abschn. 2.2.2 beschriebenen Varianten:
H1: p1 = p2 (H0: p1 = p2), H1: p1 > p2 (H0: p1 £ p2), H1: p1 < p2 (H0: p1 ³ p2).
Das Testverfahren zur Überprüfung einer gerichteten oder ungerichteten Alternativhypothese nennt man einen einseitigen oder zweiseitigen Test (7 auch S. 40).

2.2 · Statistische Hypothesen und Tests

31

2

2.2.4 Das Risiko I
Haben wir die Nullhypothese und die Alternativhypothese klar formuliert, führen wir die Untersuchung durch und verarbeiten das resultierende Datenmaterial mit einer gegenstandsadäquaten Testmethode. Als letztes Ergebnis der statistischen Analyse erhalten wir schließlich einen Wahrscheinlichkeitswert P (oder P'). Rechnen wir diesen in einen Prozentwert um, dann können wir angeben, in wievielen von 100 Untersuchungen dieser Art wir einen solchen oder einen größeren Stichprobenunterschied durchschnittlich antreffen würden, sofern die Nullhypothese zutrifft. Greifen wir zur Verdeutlichung noch einmal das Münzwurfbeispiel aus 7 Abschn. 2.1.1 auf. Der dort berechnete Wahrscheinlichkeitswert von P = 0,0108 besagt, dass wir bei 100 Würfen mit 10 Münzen – wenn H0 (Gleichverteilung von Adler und Zahl) gilt – etwa einmal (genauer: in 1,08% aller Fälle) das Ereignis „9 Zahlen oder mehr“ erwarten können. Wenn die Wahrscheinlichkeit P in einem konkreten Untersuchungsfall sehr gering ist, werden wir H0 aufgeben und anstatt ihrer H1 annehmen. Wir sind uns bei dieser Entscheidung eines gewissen Risikos bewusst; immerhin kann in einem kleinen Bruchteil der Fälle ein Ereignis bei Gültigkeit von H0 auch per Zufall zustande gekommen sein. Die Statistiker haben dies Risiko oder Fehler (Risiko I) genannt; man bezeichnet es mit dem Symbol , wobei  zugleich auch die Höhe des Risikos I angibt.
Ein Untersuchungs- oder Beobachtungsergebnis, aufgrund dessen wir H0 aufgeben, nennen wir „signifikant“. Dabei muss klar sein, dass diese Entscheidung nicht deterministischer Natur ist, sondern dass es sich um eine probabilistische Plausibilitätsaussage handelt. Eine Hypothese, die Alternativhypothese, wird einer anderen Hypothese vorgezogen, weil Letztere vor dem Hintergrund festgelegter Konventionen nicht mehr als plausibel gelten kann (vgl. dazu auch Weber, 1964).
Welches Risiko I dürfen wir nun auf uns nehmen, wenn wir im Sinne unserer Arbeitshypothese H0 verwerfen und H1 akzeptieren wollen? In der angewandten Statistik haben sich 3 Werte von  unter der Bezeichnung „Signifikanzniveau“ eingebürgert, nämlich  = 0,05, = 0,01 und  = 0,001. Erhalten wir als Untersuchungsergebnis P £  = 0,05, so sagen wir, das Ergebnis (der Unterschied, der Zusammenhang etc.) sei auf dem 5%-Niveau gesichert. Erhalten wir ein P £  = 0,01, so stellen wir entsprechend eine Signifikanz auf dem 1%-Niveau fest, usw.
Die Wahl des richtigen Signifikanzniveaus muss sich am Forschungsgegenstand orientieren. Dies macht Anderson (1956, S. 123 f.) sehr anschaulich deutlich, wenn er schreibt:
„In Wirklichkeit hängt unsere Sicherheitsschwelle im höchsten Grade davon ab, welche Wichtigkeit man dem Eintreffen des unwahrscheinlichen, d. h. außerhalb der angenommenen Wahrscheinlichkeitsgrenze liegenden ,ungünstigen‘ Ereignisses zumisst. Wenn z. B. die Wahrscheinlichkeit dafür, dass es morgen regnet, auf ,nur 5%‘ geschätzt wird, so hält man das bevorstehende gute Wetter für praktisch sicher. Wird unser Familienmitglied von einer Seuche befallen, die eine Sterblichkeit von 5% aufweist, so stellen wir besorgt fest, es sei lebensgefährlich erkrankt. Und wenn die Wahrscheinlichkeit dafür, dass eine Eisenbahnbrücke demnächst beim Durchgang eines Zuges einstürzt, ,ganze 5%‘ beträgt, so ist die Brücke nicht nur sofort zu schließen, sondern es werden auch die schuldigen Eisenbahnbeamten, die einen so katastrophalen Zustand überhaupt zugelassen haben, zur Verantwortung gezogen.“
Zum Abschluss sei noch darauf hingewiesen, dass das Risiko I in der deutschsprachigen statistischen Literatur unter verschiedenen Begriffen behandelt wird: Überschreitungswahrscheinlichkeit (als die Wahrscheinlichkeit, mit der eine be-

32 Kapitel 2 · Beobachtungen, Hypothesen und Tests

stimmte Abweichung von H0 in der Stichprobe bei Geltung von H0 in der Grundgesamtheit erreicht oder überschritten wird), Zufallswahrscheinlichkeit (weil man

mit dieser Wahrscheinlichkeit annehmen muss, dass die Abweichung von H0

2

durch Zufall bedingt ist), Irrtumswahrscheinlichkeit (weil man mit dieser Wahr-

scheinlichkeit irrt, wenn man H1 anstelle von H0 akzeptiert), Gegenwahrscheinlich-

keit (weil diese Wahrscheinlichkeit gegen die Annahme von H1 spricht).

Wir wollen im Folgenden das Signifikanzniveau als Ausdruck des zulässigen Ri-

sikos I mit dem Symbol  bezeichnen; das jeweils resultierende Risiko I, das wir bei

der Annahme von H1 in einem konkreten Untersuchungsfall eingehen bzw. eingehen würden, wenn wir H1 akzeptierten, wollen wir mit dem Buchstaben P symbolisieren.
Das Signifikanzniveau ist gemäß der Fragestellung vor der Durchführung der

Untersuchung festzulegen und darf nicht etwa erst angesichts der Ergebnisse ver-

einbart werden. In der praktischen Analyse wird diese Forderung jedoch nur sel-

ten beachtet. Man prüft, ob und auf welcher Stufe die Ergebnisse gesichert sind

und interpretiert sie dann entsprechend. Dieses Vorgehen ist, gemessen am wis-

senschaftstheoretischen Anspruch des quantitativ-statistischen Forschungsparadig-

mas, inkorrekt. Wir werden in unseren Beispielen das Signifikanzniveau stets –

explizit oder implizit – im Voraus festlegen.

Die Terminologie „Risiko I“ legt nahe, dass es auch ein Risiko II gibt. Und in

der Tat ist es denkbar, dass ein statistischer Test die Nullhypothese nicht verwirft,

obwohl sie „in Wahrheit“, z. B. für den Vergleich zweier Populationen, falsch ist.

Die Gefahr, einen solchen Fehler zu begehen, nennen wir Risiko II. Auf die Be-

deutsamkeit dieses Fehlers gehen wir in 7 Abschn. 2.2.6 näher ein.

2.2.5 Statistische Prüfgrößen und statistische Tests
Wenn wir vom Risiko I als dem Endresultat der statistischen Analyse gesprochen haben, so müssen wir uns jetzt fragen: Auf welche Weise ermitteln wir nun dieses Risiko I bzw. den Wahrscheinlichkeitswert P?
Die Bestimmung von P erfolgt in jedem Fall über eine sog. statistische Prüfgröße; diese ist eine Maßzahl, die sich aus Stichproben nach einer bestimmten Rechenvorschrift ableitet und unmittelbar oder mittelbar eine Wahrscheinlichkeitsaussage ermöglicht.
In 7 Kap. 1 hatten wir verschiedene Verteilungen von Zufallsvariablen kennengelernt, die die Art der Verteilung bestimmter empirischer Ereignisse optimal beschreiben, z. B. die diskrete Gleichverteilung als „Würfelverteilung“, die hypergeometrische Verteilung als „Lottoverteilung“ oder die Normalverteilung als Verteilung z. B. der Armlängen bei Neugeborenen. Diese und andere Verteilungen sind aber nicht nur als empirische Verteilungen von Bedeutung, sondern vor allem als theoretische Verteilungen, nämlich sog. Stichprobenkennwerteverteilungen (englisch „sampling distributions“) oder Prüfverteilungen.
Eine der wichtigsten statistischen Prüfverteilungen ist die Standardnormalverteilung. Ihre Bedeutung liegt darin, dass viele statistische Kennwerte normalverteilt sind und dass sich diese Normalverteilungen durch einfache Transformation [7 Gl. (2.1)] in die Standardnormalverteilung mit den Parametern l = 0 und r = 1 überführen lassen.

2.2 · Statistische Hypothesen und Tests

33

2

Wählen wir als Beispiel für einen normalverteilten statistischen Kennwert das arithmetische Mittel "x. Die Zufallsvariable X" ist unbeschadet der Verteilungsform des Merkmals in der Population bei hinreichend großen Stichproben normalverteilt. Oder anders formuliert: Ziehen wir aus einer beliebig verteilten Grundgesamtheit (mit endlicher Varianz) wiederholt Stichproben des Umfanges N, so verteilen sich die Mittelwerte dieser Stichproben – sofern N genügend groß ist – normal. Diesen Sachverhalt bezeichnet man als „zentrales Grenzwerttheorem“, über dessen mathematische Herleitung z. B. Schmetterer (1966) informiert.
Die Wirkungsweise des zentralen Grenzwerttheorems kann man sich einfach anhand eines kleinen Experiments verdeutlichen. Man nehme einen Würfelbecher mit N = 3 Würfeln und notiere nach jedem Wurf den Durchschnitt der geworfenen Augenzahlen. Sehr bald wird man feststellen, dass die Zufallsvariable „durchschnittliche Augenzahl“ eine Verteilungsform annimmt, die der Normalverteilung stark ähnelt. Diese Ähnlichkeit wird noch offensichtlicher, wenn man statt 3 Würfel 4 oder mehr Würfel einsetzt. Obwohl das Merkmal (Augenzahlen beim Würfeln) gleichverteilt ist, nähert sich die Verteilung der Mittelwerte mit wachsendem N (= Anzahl der Würfel) einer Normalverteilung.
Hier interessiert nun vorrangig, wie man das Risiko I bzw. die Wahrscheinlichkeit P beim statistischen Hypothesentesten bestimmen kann. Der allgemeine Gedankengang, der jedem statistischen Test zugrundeliegt, ist folgender: Zunächst wird aus den erhobenen Stichprobendaten ein „hypothesenrelevanter“ statistischer Kennwert berechnet (z. B. die Differenz zweier Stichprobenmittelwerte, ein Häufigkeitsunterschied, der Quotient zweier Stichprobenvarianzen, die Differenz von Rangsummen etc.). Dieser statistische Kennwert wird in eine statistische Prüfgröße transformiert. (Dies sind die Formeln für die verschiedenen sog. „Signifikanztests“.) Vorausgesetzt, die Daten erfüllen bestimmte Zusatzannahmen, wie z. B. Unabhängigkeit, Varianzhomogenität oder Normalverteilung (dies sind die Voraussetzungen der Signifikanztests), folgen die Prüfgrößen unter der Annahme, die H0 sei richtig, bestimmten klassischen Prüfverteilungen, wie z. B. der Standardnormalverteilung, der t-, F- oder v2-Verteilung.
Die Verteilungsfunktionen dieser Prüfverteilungen sind bekannt und liegen – zumindest auszugsweise – in tabellierter Form vor. Anhand dieser Tabellen lässt sich einfach ermitteln, ob die mit einer Prüfgröße assoziierte Wahrscheinlichkeit P größer oder kleiner als das zuvor festgelegte Signifikanzniveau ist. Ist der P-Wert für die empirisch ermittelte Prüfgröße kleiner als , wird die H0 verworfen und die H1 angenommen. Das Ergebnis ist statistisch signifikant. Andernfalls, bei größeren P-Werten, wird die H0 beibehalten.
Dieses vor allem in der parametrischen Statistik praktizierte Vorgehen bezeichnen wir als „mittelbare Bestimmung des Risikos I“. Die verteilungsfreien Methoden ermitteln die Irrtumswahrscheinlichkeit P in der Regel nicht mit Hilfe der genannten klassischen Prüfverteilungen, sondern mit Prüfverteilungen, die aufgrund kombinatorischer Überlegungen auf die jeweilige Fragestellung zugeschnitten entwickelt wurden (unmittelbare Bestimmung des Risikos I; 7 z. B. Abschn. 5.1.1).
Viele der verteilungsfreien Prüfgrößen folgen jedoch auch, wenn sie auf größere Stichproben angewendet werden, klassischen Prüfverteilungen. Von besonderer Bedeutung ist auch hier die Normalverteilung. Wie man bei einer normalverteilten Prüfgröße die Überschreitungswahrscheinlichkeit P (bzw. P') bestimmt, sei im Folgenden verdeutlicht.

34 Kapitel 2 · Beobachtungen, Hypothesen und Tests

Eine beliebige normalverteilte Zufallsvariable X mit dem Erwartungswert lX

und der Streuung rX lässt sich durch die folgende Transformation in eine stan-

dardnormalverteilte Zufallsvariable u mit lu = 0 und ru = 1 transformieren:

2

u

=

x lX rX

X

2X1

(In der psychologischen Statistik verwendet man üblicherweise statt des Symbols u den Buchstaben z.)
Betrachten wir als Prüfgröße z. B. die Differenz D von 2 Stichprobenmittelwerten (D = "x1 "x2), von der bekannt ist, dass sie bei genügend großen Stichprobenumfängen normalverteilt ist, lässt sich Gl. (2.1) folgendermaßen anwenden:

u

=

D lD rD

X

2X2

lD ist hier die durchschnittliche Differenz, die wir bei Gültigkeit von H0 erwarten. Da gemäß H0 l1 = l2 gesetzt wird (von dieser Annahme können wir bei ein- und zweiseitiger Frage ausgehen; vgl. etwa Bortz, 2005, Abschn. 4.5), ist natürlich lD = 0. rD kennzeichnet die Streuung von Differenzen D (Standardfehler von D), die man erhält, wenn die Untersuchung mit anderen Zufallsstichproben identi-
schen Umfanges theoretisch beliebig oft wiederholt wird. Auf die Bestimmung von rD ist hier nicht näher einzugehen.
Gemäß H0 erwarten wir u-Werte „in der Nähe“ von 0. Extreme u-Werte sind nach Zufall bzw. gemäß H0 sehr unwahrscheinlich. Mit welcher Wahrscheinlichkeit nun ein empirisch ermittelter u-Wert oder gar extremere u-Werte bei Gültigkeit
von H0 auftreten können, veranschaulicht . Abb. 2.1.

. Abb. 2.1. Standardnormalverteilung mit l = 0 und r = 1. Der Signifikanzbereich auf der 5%-Stufe ist für die einseitige Fragestellung grau markiert und für die zweiseitige Fragestellung schraffiert
Wird die Gesamtfläche unter der in . Abb. 2.1 dargestellten Standardnormalverteilung gleich 1 gesetzt, kann man die zu jedem u-Wert gehörende Überschreitungswahrscheinlichkeit einfach in Tafel 2 ablesen. Wenn dabei ein Wert P £  resultiert, ist der Unterschied (allgemein das Ergebnis) auf dem entsprechenden -Niveau signifikant. Die Bedingung P £  ist z. B. für  = 0,05 und einseitigem Test für u ³ 1,64 erfüllt (7 auch S. 37 f.). Hätten wir zweiseitig gefragt, so wäre ein |u| ³ + 1,96 erforderlich; in diesem Falle verteilen sich die 5% der Fläche symmetrisch auf 2,5% des linken und des rechten Kurvenauslaufes.
Eine weitere für große Stichproben wichtige Prüfverteilung ist die bereits in 7 Abschn. 1.2.5 eingeführte v2-Verteilung. Die zweiseitige Überschreitungswahr-

2.2 · Statistische Hypothesen und Tests

35

2

scheinlichkeit P' ermittelt man bei einer v2-verteilten Prüfgröße wie folgt: Zu jedem v2-Wert als einem bestimmten Abszissenpunkt der v2-Verteilung gehört eine be-

stimmte (rechts von diesem Punkt liegende) Verteilungsfläche, die jene Wahrscheinlichkeit P' angibt, mit der der erhaltene oder ein höherer v2-Wert unter der Null-

hypothese erzielt werden kann, nach der die beobachteten Häufigkeiten mit den the-

oretischen Häufigkeiten übereinstimmen. Diese Wahrscheinlichkeitswerte sind unter

der entsprechenden Anzahl von Freiheitsgraden Tafel 3 des Anhangs zu entnehmen. Da der v2-Test auf überzufällig große v2-Werte prüft, ist er eigentlich einseitig
(überzufällig kleine v2-Werte interessieren bei praktischen Forschungsfragen äußerst selten). Dennoch bezeichnen wir die im v2-Test ermittelten Überschreitungs-

wahrscheinlichkeiten als zweiseitig. Die Begründung dafür liefert die sehr häufig eingesetzte Gl. (1.29): Wegen der quadrierten Abweichungen (b – e)2 tragen be-

obachtete Häufigkeiten, die sowohl über als auch unter der Zufallserwartung liegen, zur Vergrößerung des v2-Wertes bei, d. h. die Richtung der Abweichungen ist für den v2-Test unerheblich.
Gelegentlich ist es wichtig, eine v2-verteilte Prüfgröße mit einer normalverteil-

ten Prüfgröße zu vergleichen. Dafür gelten die folgenden Regeln:

Für Fg > 100 gilt (vgl. Fisher, 1925):

p p u = 2v2 2Fg 1 X

2X3

Für Fg > 10 lässt sich eine v2-Verteilung mit der Transformation von Wilson u. Hil-

ferty (1931) in eine Normalverteilung überführen (vgl. auch Vahle u. Tews, 1969):

u

=

p  3 v2aFg 1
s

9

2 Á Fg


X

2X4

2

9 Á Fg

Im speziellen Fall einer v2-Verteilung mit Fg = 2 ist der v2-Wert mit der Überschreitungswahrscheinlichkeit P wie folgt verknüpft (vgl. Kendall, 1948, S. 123 f.):

ln P = v2a2 X

2X5

Für Fg = 1 gilt [7 auch Gl. (1.26)]: u2 = v2 X

2X6

Verfahren, die – wie oben beschrieben – zur Entscheidung über Beibehaltung oder Zurückweisung der Nullhypothese führen, bezeichnet man als statistische Tests oder als Signifikanztests. Gewöhnlich wird ein Test nach der von ihm benutzten Prüfgröße benannt; so spricht man von einem u-Test (in der psychologischen Statistik auch z-Test genannt), von einem v2- oder einem F-Test. Verschiedentlich werden Tests auch nach ihrem Autor (z. B. McNemar-Test) bzw. nach den geprüften statistischen Kennwerten (z. B. Mediantest) benannt.
Der Frage der Benennung eines Tests vorgeordnet ist die Frage seiner Charakterisierung als parametrischer oder nichtparametrischer, verteilungsfreier Test. Die erste Gruppe von Tests ist an das Vorliegen und das Bekanntsein bestimmter Vertei-

36 Kapitel 2 · Beobachtungen, Hypothesen und Tests

lungsformen gebunden. Diese Verfahren heißen deshalb verteilungsgebundene oder,

weil innerhalb einer bestimmten Verteilungsform nur die Parameter der Verteilung

von Interesse sind, parametrische Tests. Die andere Gruppe, die die verteilungsfreien,

2

verteilungsunabhängigen oder nichtparametrischen Tests umfasst, macht keine An-

nahmen über die genaue Form der Verteilung der geprüften statistischen Kennwerte.

Die verteilungsfreien Tests sind jene, die weniger oder schwächere Vorausset-

zungen implizieren als die verteilungsgebundenen. Die parametrischen Tests sind

Methoden, die nur unter speziellen Voraussetzungen gültig und aussagekräftig

sind. Dass diese Voraussetzungen gegeben sind, muss – formal gesehen – in jedem

Einzelfall belegt werden.

Die Aussage, dass verteilungsfreie Tests weniger Voraussetzungen haben, be-

zieht sich auch auf die Qualität der Messwerte, die mit einem Test verarbeitet wer-

den sollen. Auf diesen Aspekt werden wir in 7 Kap. 3 ausführlich eingehen.

Neben der Unterscheidung parametrischer und verteilungsfreier Tests sowie der

Unterscheidung nach dem zu prüfenden statistischen Kennwert – Lokationstest, Dis-

persionstest etc. – werden in der statistischen Literatur Tests auch nach der Art der

Alternativhypothese unterschieden. Zu erwähnen wären hier z. B. Tests, die:

a) die Anpassung einer Stichprobenverteilung an eine theoretische Verteilung prüfen (7 Kap. 5),
b) 2 oder mehrere beobachtete Verteilungen daraufhin prüfen, ob sie aus der gleichen Grundgesamtheit stammen können oder nicht (7 Kap. 6 und 7),
c) prüfen, ob eine (zeitliche) Folge von Daten aus einer gleichbleibenden oder sich ändernden Population entnommen wurde (7 Kap. 11).

2.2.6 Das Risiko II
In 7 Abschn. 2.2.4 hatten wir ausgeführt, dass statistische Entscheidungen immer ein Risiko einschließen: Wenn wir H1 gegenüber H0 akzeptieren, gehen wir das sog. Risiko 1. Art ein. Dieses Risiko ist um so größer, je höher wir  ansetzen, bei 0,05 also größer als bei 0,01. Wenn wir uns nun aufgrund eines bestimmten Risikos I dafür entscheiden, H0 beizubehalten, nehmen wir ein anderes Risiko in Kauf, das die Statistiker als Risiko 2. Art kennen und mit dem Symbol b bezeichnen.
Das Risiko II ist die Wahrscheinlichkeit, dass wir die Nullhypothese beibehalten, obwohl sie falsch ist. Zwischen 2 Populationen mag der Unterschied l1 =l2 tatsächlich bestehen, dennoch wird es uns bei 100 Stichproben in einer bestimmten Anzahl von Fällen nicht gelingen, diesen Unterschied zu belegen. Die Wahl der Höhe des Risikos I liegt bekanntlich weitgehend in unserem Ermessen. Wie steht es nun mit der Höhe des Risikos II? Von welchen Faktoren hängt es ab, und können wir es im konkreten Analysefall numerisch bestimmen?
Betrachten wir zunächst, wie sich Risiko I und Risiko II bei Vorliegen eines bestimmten Unterschiedes und Verwendung eines bestimmten Tests zueinander verhalten. Es ist ohne weiteres einsichtig, dass wir das Risiko II erhöhen, d. h. einen tatsächlich bestehenden Unterschied eher übersehen, wenn wir die Alternativhypothese nur mit einem sehr geringen Risiko I akzeptieren, wenn wir also die Annahme von H1 erschweren. Risiko I und Risiko II verhalten sich demnach gegenläufig. Es scheint unter diesen Umständen nicht opportun, das Risiko I durch eine überspitzte

2.2 · Statistische Hypothesen und Tests

37

2

. Abb. 2.2. Abhängigkeit des Risikos II von Risiko I und Stichprobenumfang
Signifikanzforderung allzu stark herabzudrücken, denn damit erhöht sich das Risiko II in einem entsprechenden Maße. Man beraubt sich dadurch zu einem gewissen Teil der Möglichkeit, tatsächlich vorhandene Unterschiede nachzuweisen.
In . Abb. 2.2 wird unsere zunächst nur logisch begründete Feststellung anschaulich untermauert und ihr zugleich ein konkreter Inhalt gegeben.
Angenommen, wir entnehmen einige tausend Stichproben von je N = 16 Probanden im Vorschulalter, ermitteln die durchschnittliche Körpergröße einer jeden Stichprobe von Probanden und stellen diese Durchschnittsgrößen als Häufigkeitsverteilung dar. Es sei dies die Verteilung V0 in . Abb. 2.2 mit dem Mittelwert l0 = 100 und der Streuung r0 = 4.
Nun entnehmen wir auf die gleiche Weise einige tausend Stichproben von je N = 16 Probanden, die sämtlich die 1. Klasse besuchen. Deren durchschnittliche Körpergrößen sollen die Verteilung V1 ergeben haben, bei der der Mittelwert bei l1 = 110 und die Streuung ebenfalls bei r1 = 4 liegt.
Von diesen Voraussetzungen ausgehend wollen wir überprüfen, ob eine Stichprobe von N = 16 6-jährigen Kindern, die in einem Heim erzogen wurden, ihrer Körpergröße nach eher zur Population der Vorschulkinder oder zur Population der Erstklässler gehört. Die Nullhypothese möge eine Zugehörigkeit dieser Kinder zur Population der Vorschulkinder behaupten. Dieser H0 stellen wir die einseitige Alternativhypothese entgegen, nach der die Kinder zur Population der Erstklässler gehören.
Die durchschnittliche Körpergröße der 16 Kinder möge "x = 106,6 cm betragen. Wir fragen zunächst, wie groß das Risiko I bzw. der -Fehler wäre, wenn man bei diesem Mittelwert die H0 verwerfen und die H1 akzeptieren würde. Dazu errichten wir in "x = 106,6 das Lot () und betrachten die Fläche der Verteilung V0 rechts von diesem Lot. Dieser auf 1 bezogene Flächenanteil entspricht der Wahrscheinlichkeit, fälschlicherweise die H1 anzunehmen, denn mit dieser Wahrscheinlichkeit könnte ein "x-Wert von 106,6 bzw. ein noch größerer "x-Wert auch auftreten, wenn die H0 gilt.

38 Kapitel 2 · Beobachtungen, Hypothesen und Tests

Diese Fläche, die der Überschreitungswahrscheinlichkeit P entspricht, ist in

. Abb. 2.2 schraffiert. Ihre Größe lässt sich leicht anhand Tafel 2 ermitteln, wenn

wir die Normalverteilung V0 mit l0 = 100 und r0 = 4 in die Standardnormal-

2

verteilung mit l = 0 und r = 1 transformieren. Nach Gl. (2.1) ermitteln wir

u = (106,6 – 100)/4 = 1,65. Dieser u-Wert schneidet vom rechten Zweig der Stan-

dardnormalverteilung genau 5% der Gesamtfläche ab, d. h. wir ermitteln  = 5%.

Gemessen an den konventionellen Signifikanzgrenzen ( = 1% bzw. = 5%) wäre

diese Abweichung gerade eben auf dem 5%-Niveau signifikant. Wir würden die H0 zugunsten der H1 verwerfen.
In diesem Beispiel, bei dem sowohl die unter H0 als auch unter H1 gültigen Verteilungen der "x-Werte bekannt sind, lässt sich auch der b-Fehler bestimmen.

Wir fragen nach der Wahrscheinlichkeit für "x £ 106,6 bei Gültigkeit der H1. Diese Wahrscheinlichkeit entspricht der Fläche b von V1 links vom Lot  (grau mar-
kiert). Wir ermitteln u1 = (106,6 – 110)/4 = –0,85 und nach Tafel 2 einen Flächenanteil von 0,1977. Hätten wir uns bei "x = 106,6 zugunsten der H0 entschieden, wäre mit dieser Entscheidung eine b-Fehlerwahrscheinlichkeit von 19,77% verbunden.

. Abbildung 2.2 verdeutlicht ferner, dass die Streuung der Stichprobenkennwer-

teverteilung mit wachsendem Stichprobenumfang sinkt (dünne Linie für N = 20).

Damit wird ein allgemein plausibler Befund untermauert: Je größer der Stichpro-

benumfang, desto geringer ist das Risiko, in der statistischen Entscheidung einen

Fehler zu begehen, und zwar sowohl bezogen auf  als auch auf b.

Wollten wir das Risiko I mit  = 0,025 verringern, so würde sich – wie das ge-

strichelte Lot ' andeutet – unter sonst gleichen Bedingungen das Risiko II ent-

sprechend vergrößern. b läge in diesem Falle, wie man wiederum unter Zuhilfe-

nahme von Tafel 2 berechnen kann, bei 0,29. Je geringer das Risiko I – so verdeut-

licht . Abb. 2.2 – desto größer wird das Risiko II.

Außer vom Risiko I und vom Umfang der Stichproben hängt das Risiko II vom

Grad des Unterschiedes (z. B. hinsichtlich der zentralen Tendenz) in den zugrun-

deliegenden Populationen ab. Wir nennen diesen Populationsunterschied Effekt-

größe und bezeichnen ihn mit D = l1 – l0. Eine Verschiebung der Verteilung V1 nach links oder nach rechts führt uns diese Abhängigkeit unmittelbar vor Augen.

Zusammenfassend ist also festzustellen, dass das Risiko II bei einer gegebenen

Untersuchung abhängig ist von:

a) dem Risiko I (), b) dem Stichprobenumfang (N), c) der Effektgröße (D).

Ein numerischer Wert für das Risiko II, das wir bei Beibehaltung von H0 eingehen, lässt sich allerdings – wie in unserem Beispiel – nur bestimmen, wenn neben dem Risiko I und dem Stichprobenumfang ein spezifischer H1-Parameter bzw. eine Effektgröße vorgegeben sind. Die funktionale Verknüpfung von , b, N und D hat natürlich auch Konsequenzen für die Wahl des Signifikanzniveaus bzw. eines angemessenen Stichprobenumfanges – Konsequenzen, die wir im folgenden Abschnitt diskutieren.

2.2 · Statistische Hypothesen und Tests

39

2

2.2.7 Die Stärke statistischer Tests

Mit b oder dem Risiko II wird die Wahrscheinlichkeit bezeichnet, eine an sich richtige H1 fälschlicherweise abzulehnen. Folglich erhält man mit 1 – b die Wahrscheinlichkeit, in einer Untersuchung eine richtige H1 auch als solche zu erkennen. Dies genau ist die Teststärke:

e = 1 bX

2X7

Bei konstantem N und  ist e eine Funktion von D, der Effektgröße. In den sog. Teststärkekurven (. Abb. 2.3) veranschaulichen wir die Teststärke e eines „starken“ Tests (z. B. des t-Tests, vgl. etwa Bortz, 2005, Abschn. 5.1) und eines „schwachen“ Tests (z. B. des Mediantests, 7 Abschn. 6.1.1.1) als Funktion der Effektgröße D zweier Populationsmittelwerte l0 einer bekannten Population und l einer unbekannten Population, aus der die Stichprobe gezogen wurde. Wir setzen dabei eine Signifikanzstufe von  = 0,05 und ein konstantes N voraus.
Was besagen die einer zweiseitigen Fragestellung entsprechenden Teststärkekurven?

a) Besteht kein Unterschied zwischen den Populationsmittelwerten (l – l0 = 0), so werden wir – gleichgültig, ob wir den starken t-Test oder den schwachen Me-
diantest heranziehen – in 95 unter 100 Stichproben H0 beibehalten und sie nur in 5% der Fälle (zu Unrecht) aufgeben.
b) Besteht zwischen beiden Populationen ein sehr großer Unterschied (es liege et-
wa die Differenz der Mittelwerte bei –2,0), so ist es ebenfalls gleichgültig, welchen Test wir heranziehen. Beide haben praktisch die Teststärke e = 1 bzw. beinhalten ein Risiko von b = 0. Alle Stichproben mit dem Umfang N, die wir aus der Population mit dem Mittelwert l entnehmen und gegen l0 testen, werden in diesem Falle Signifikanz ergeben. c) Liegt aber nun l nur ein wenig abseits von l0 – sagen wir um 0,5 Einheiten von r0 – so wird der stärkere t-Test bei 100 Stichproben im Durchschnitt 85-mal den bestehenden Unterschied nachweisen (e = 0,85, b= 0,15). Dagegen

. Abb. 2.3. Teststärkekurven verschiedener Tests bei zweiseitiger Fragestellung

40 Kapitel 2 · Beobachtungen, Hypothesen und Tests
2
. Abb. 2.4. Teststärkekurve bei zwei- und einseitiger Fragestellung
wird der schwächere Mediantest nur in 30% der Fälle den Unterschied aufdecken (e = 0,30, b= 0,70) (zur Erläuterung der Teststärkekurve des „verzerrten“ Tests 7 S. 46). In . Abb. 2.3 wurden die Teststärkekurven in ihren Verlaufsformen bei zweiseitiger Fragestellung wiedergegeben. Fragen wir aber einseitig, so fällt ein Auslauf der Kurve außer Acht und es ergeben sich Verlaufsformen wie die in . Abb. 2.4 dargestellten, wobei die ausgezogene Kurve sich auf die zweiseitige Fragestellung und die gestrichelten Linien auf die einseitigen Fragestellungen beziehen. Ein einseitiger Test ist gegenüber der gewählten Alternativhypothese (wenn sie auf die Grundgesamtheiten zutrifft) stärker als der zweiseitige Test. Der einseitige Test ist jedoch gegenüber der anderen möglichen Alternativhypothese nahezu unempfindlich. Das Risiko II des einseitigen Tests ist bei konstantem Risiko I stets geringer als das des zweiseitigen Tests; anders formuliert: Der einseitige Test deckt bestehende Unterschiede eher auf als der zweiseitige. Darin liegt zweifelsohne eine gewisse Versuchung, den einseitigen Test missbräuchlich oder unkritisch anzuwenden. Zur Interpretation der 3 Kurven in . Abb. 2.4 greifen wir wie vorhin einige spezielle Situationen heraus. a) Liegt ein Unterschied zwischen l0 und l nicht vor, so wird ein solcher vom einseitigen wie vom zweiseitigen Test in höchstens 5% der Fälle zufällig angezeigt. b) Ist l um 0,5r0 kleiner als l0, und testen wir die einseitige Alternativhypothese H1: l < l0, so ist der Test stärker (e = 0,43), als wenn wir die zweiseitige Alternativhypothese H1: l = l0 testen (e = 0,30). Hätten wir die (falsche) einseitige Alternativhypothese H1: l > l0 aufgestellt, so würde der Test praktisch nie (e = 0,01) zu einer Entscheidung im Sinne von H1 führen.
Die Bestimmung von Teststärkekurven – besonders von parametrischen Tests – lässt sich ohne weiteres mathematisch herleiten (vgl. z. B. Mood, 1950). Jedoch können wir Teststärkekurven auch „empirisch“ in Modellversuchen, sog. Monte-Carlo-Studien, gewinnen.

2.2 · Statistische Hypothesen und Tests

41

2

Stellen wir uns z. B. vor, wir hätten in 2 Urnen zwei normalverteilte Grundgesamtheiten, sozusagen Lose mit Messwerten, aufbewahrt. Die eine Grundgesamtheit mit l0 und r0 als Parameter bildet das Bezugssystem und bestimmt den Abszissenmaßstab in . Abb. 2.3 und 2.4. Die andere Grundgesamtheit ändert ihren Parameter l entlang dieser Skala, besitzt aber die gleiche Streuung wie die Bezugspopulation. Immer, wenn diese 2. Population ihr l geändert hat, entnehmen wir eine große Anzahl von Stichproben mit dem Umfang N und testen deren Mittel gegen die Nullhypothese H0: l = l0. Wenn wir z. B. den Parameter l die 3 Werte (l0 + 1,5 r0), (l0 + 0,5 r0) durchlaufen lassen und aus jeder dieser 3 Grundgesamtheiten 1000 Stichproben entnehmen, sie gegen H0 testen und abzählen, wieviele davon auf der 5%-Stufe signifikant sind, erhalten wir mit 3 Kurvenpunkten und dem 4. bei l0 = l = 0 (in der Höhe b = 1 – ) genügend viele Marken, um die eine Hälfte der Teststärkekurve zu zeichnen; die andere Hälfte ergibt sich aus dem Wissen um die Symmetrie der Kurve bei zweiseitiger Fragestellung. Für eine allgemeine Auseinandersetzung mit der besonders für die Ermittlung von Teststärkefunktionen bei verteilungsfreien Verfahren bedeutsamen Monte-Carlo-Methode sei der interessierte Leser auf Sˇhreider (1966) oder Müller (1975) verwiesen.
Für den Vergleich von 2 Tests gilt allgemein, dass derjenige Test eine höhere Teststärke aufweist, der: – im Sinne des Skalenniveaus höherwertige Daten verwendet (ein Test, der z. B.
auf Messwerten aufbaut, hat eine höhere Teststärke als ein analoger Test, der nur Ranginformationen verwendet; 7 Kap. 3); – an mehr Verteilungsparameter gebunden ist (ein parametrischer Test, der Normalverteilung und Varianzhomogenität voraussetzt, ist stärker als sein verteilungsfreies Pendant, das an keinerlei Verteilungsvoraussetzung gebunden ist, es sei denn, die Voraussetzungen des parametrischen Tests sind nicht erfüllt).
An dieser Stelle wollen wir auf die Frage der Wahl des Signifikanzniveaus noch einmal näher eingehen. Welches der 3 üblichen Signifikanzniveaus  = 0,05,  = 0,01 und  = 0,001 soll in einem speziellen Fall zugrunde gelegt werden? Diese Frage ist nur vom Untersuchungsgegenstand her zu beantworten.
Im Allgemeinen werden wir eine statistische Aussage dann an ein geringeres -Risiko (0,01 oder 0,001) binden und damit ein höheres Risiko II eingehen, wenn:
a) H1 einen wissenschaftstheoretisch bedeutsamen Tatbestand impliziert oder b) H1 einer bisher anerkannten Theorie oder Hypothese widerspricht.
Dazu einige Beispiele:
Zu a). H1: Eine bestimmte natürliche Spurensubstanz fördere das Pflanzenwachstum. Wenn diese Hypothese zutrifft, so ist das von strukturverändernder Bedeutung für die gesamte Landwirtschaft. Wir werden unter diesen Umständen H1 nur dann akzeptieren, wenn das damit verbundene Risiko I sehr gering ( = 0,001) ist.
Zu b). H1: Zwischen mathematischer und altsprachlicher Begabung bestehe eine negative Korrelation. Diese Hypothese steht im Widerspruch zu der Lehrererfahrung, die für eine positive Korrelation plädiert. Daher werden wir auch in diesem Fall eine höhere Aussagesicherheit fordern, als wir sie ohne die Lehrererfahrung fordern würden, und etwa  = 0,01 festsetzen.
In den meisten anderen Fällen wird man z. B. im biologischen Bereich mit einem höheren -Risiko von  = 0,05 arbeiten können, insbesondere dann:
a) wenn es sich um den ersten Abschnitt einer umfassenden Untersuchung handelt, b) wenn eine allgemein anerkannte Hypothese durch H1 bestätigt oder für einen
Spezialfall belegt werden soll,

42 Kapitel 2 · Beobachtungen, Hypothesen und Tests

c) wenn durch die Annahme von H1 weitere Untersuchungen angeregt werden sollen.

In diesen Fällen hat das Risiko II eine größere Bedeutung. Sollen z. B. im Falle a)

2

aus einer großen Anzahl von Substanzen in einer Vorselektion diejenigen ermittelt

werden, die für eine nähere Untersuchung geeignet erscheinen, dann besteht das

Risiko II in der Zurückweisung einer das Wachstum fördernden Substanz ohne

ausreichende Prüfung. Dieses Risiko ist schwerwiegender als das Risiko I, so dass

wir in diesem Fall  = 0,05 oder sogar  = 0,10 verwenden sollten.

Die angeführten Regeln und Beispiele sind keinesfalls als bindende Verpflich-

tung, sondern lediglich als Richtlinien aufzufassen. Ausdrücklich zu warnen ist

davor, das Signifikanzniveau in irgendeiner Weise von den zu erwartenden oder

gar von den bereits erhaltenen Ergebnissen abhängig zu machen.

Angesichts der immer weiteren Verbreitung der rechnergestützten Auswertung

von Forschungsdaten wird diese Warnung noch bedeutsamer. Die Durchführung

eines statistischen Tests per Computerprogramm ist selbstverständlich nicht an

die vorherige Festlegung eines Signifikanzniveaus gebunden. Da die gängigen

Computerprogramme im Regelfall keine Signifikanzentscheidung anhand von kri-

tischen Schwellenwerten der Prüfgröße fällen, sondern die exakte Wahrscheinlich-

keit eines empirischen Ergebnisses unter Gültigkeit der H0 angeben, erhöht sich

die Gefahr, dass im vorhandenen empirischen Material hypothesenunabhängig

und theoriefern nach Signifikanzen gesucht wird. Zur Auswirkung dieses Prob-

lems nehmen z. B. Hager u. Westermann (1983) Stellung.

Hat man – wie bei der später zu behandelnden Sequenzanalyse – die Möglich-

keit zur freien Wahl für das Risiko II (neben der für das Risiko I), so wird man

hinsichtlich der partiellen Inkompatibilität von sachlichen und ökonomischen An-

forderungen einen Kompromiss schließen müssen: Dem Untersuchungsgegenstand

angemessen ist meistens ein geringes Risiko II; in dem Maße jedoch, in dem man

dieser Forderung nachgibt, nimmt man bei gleichbleibendem Risiko I die Last ei-

nes wachsenden Stichprobenumfanges auf sich; die Ökonomie der Untersuchung

verlangt daher ein höheres Risiko II.

Meist wird man gut daran tun,  £ b zu wählen, denn es ist mit der tradierten

Logik empirischer Forschung besser zu vereinbaren, einen real existenten Unter-

schied nicht zu entdecken als fälschlich einen Unterschied als echt auszugeben.

Oft ist das Risiko II bei Vorliegen eines praktisch bedeutsamen Unterschieds

bzw. bei Effektgrößen D, die nach dem Kriterium der praktischen Bedeutsamkeit

festgelegt wurden, genügend klein und nur bei unbedeutenden Unterschieden

groß. Würde man das Risiko II etwa durch eine groß angelegte Untersuchungsrei-

he auch für kleine D-Werte erniedrigen, dann würden auch geringe, praktisch un-

erhebliche Unterschiede als signifikant herausgestellt werden. (Zur Bestimmung

„optimaler“ Stichprobenumfänge in Abhängigkeit von , b und D vgl. Cohen,

1977, oder Bortz u. Döring, 2006, Kap. 9.)

Die Bewertung, was ein praktisch erheblicher Unterschied ist, erfolgt meistens

auf der Grundlage einfacher Kosten-Nutzen-Analysen. Oft werden dabei natürlich

auch subjektive Wertentscheidungen des Forschers eine Rolle spielen. Festzuhalten

ist, dass statistische Signifikanz eine notwendige, aber keine hinreichende Bedin-

gung für praktische Bedeutsamkeit ist.

2.2 · Statistische Hypothesen und Tests

43

2

Vom Standpunkt der praktischen Bedeutsamkeit betrachtet, ist es keineswegs sinnvoll, statistische Analysen an Mammutstichproben durchzuführen: Liegen praktisch bedeutsame Unterschiede vor, so müssen sie auch mit einer begrenzten Stichprobe nachgewiesen werden können, andernfalls sind sie mit großer Wahrscheinlichkeit praktisch unbedeutsam.

2.2.8 Die Effizienz statistischer Tests

Wir haben gesehen, dass durch die Festlegung des Risikos II zusätzlich zu der Wahl des Risikos I der durchschnittlich erforderliche Stichprobenumfang N festgelegt wird, den man zum Signifikanznachweis einer festgelegten Effektgröße D benötigt. Daraus folgt, dass man den zu vorgegebenem D,  und b erforderlichen Stichprobenumfang auch als Maß für die Stärke eines Tests definieren kann.
Will man 2 Tests, die die gleiche Alternativhypothese prüfen (z. B. Dispersionsunterschiede zwischen 2 unabhängigen Stichproben), hinsichtlich ihrer Teststärke vergleichen, so kann man unter Berufung auf den Zusammenhang zwischen b und N die relative Effizienz eines Tests T1 im Vergleich zu einem Test T2 durch den Quotienten der für gleiche  und b notwendigen Stichprobenumfänge ausdrücken:

E = N2 X N1

2X8

In diesem „Effizienzindex“ stehen N1 und N2 für die Stichprobenumfänge, bei denen die Tests T1 und T2 jeweils das gleiche Risiko II bzw. die gleiche Stärke e haben. Wir hatten z. B. auf S. 39 f. festgestellt, dass der t-Test bei einer Effektgröße von 0,5 Streuungseinheiten in 85% der Fälle den bestehenden Unterschied nachweist, der Mediantest hingegen nur in 30% der Fälle. Zur Berechnung der „lokalen relativen Effizienz“, wie Marascuilo u. McSweeney (1977) es nennen, wird nun ermittelt, wie groß der Stichprobenumfang sein müsste, um bei gleicher Effektgröße auch mit dem Mediantest die gültige H1 in 85% der Fälle belegen zu können. Dies ist im Einzelfall ein recht mühsames Unterfangen. Festzuhalten ist, dass man im Allgemeinen mit T1 den schwächeren Test bezeichnet und E daher kleiner als 1 ist.
Einen allgemeinen Index für den Vergleich zweier Tests, der unabhängig ist vom Signifikanzniveau  und von der Effektgröße D, hat Pitman (1948) mit der sog. asymptotischen relativen Effizienz (ARE) vorgestellt. Diese Effizienzbewertung hat sich eingebürgert für den Vergleich parametrischer (p) und verteilungsfreier (v) Testverfahren. Die ARE ist als Grenzwert von

E = Np Nv

2X9

für Np ? ? definiert. Eine ausführlichere mathematische Herleitung findet sich bei Büning u. Trenkler (1978).
Die ARE erhält man, indem man zu immer größeren Werten Np übergeht und zu jedem Np diejenige Effektgröße D betrachtet, bei der der Test das Risiko b hat. Bei gleichem b und mit wachsendem Np wird der Populationsunterschied immer kleiner werden. Zu D wird der Wert Nv für den verteilungsfreien Test bestimmt, der das gleiche Risiko hat.

44 Kapitel 2 · Beobachtungen, Hypothesen und Tests

Die asymptotische relative Effizienz ist ein theoretischer Wert, der – wie gesagt

– sowohl vom Signifikanzniveau als auch vom tatsächlichen Populationsunter-

schied unabhängig ist. Abhängig ist er hingegen von der Form der Populationsver-

2

teilung. Aus diesen Gründen ist die ARE ein wertvoller Anhaltspunkt beim Ver-

gleich von parametrischen und verteilungsfreien Tests. Für alle gängigen Alternati-

ven (z. B.) zu t-Test und F-Test existieren Berechnungen der ARE sowohl für nor-

malverteilte Populationen als auch für Populationen mit anderen Verteilungsfor-

men. Die besten verteilungsfreien Tests erreichen für normalverteilte Populationen

eine ARE von ca. 0,955 zum stärksten parametrischen Analogon, d. h. unter voll-

ständig parametrischen Bedingungen können 95,5% der vom parametrischen Test

als falsch zurückgewiesenen Nullhypothesen auch vom verteilungsfreien Test

zurückgewiesen werden bzw. der Stichprobenumfang muss bei verteilungsfreien

Verfahren um 1 : 0,955% erhöht werden, um gleiche Stärke zu erreichen.

Im Kontext der Bestimmung von Teststärkekurven durch Monte-Carlo-Experi-

mente hat in Abwandlung der genannten theoretischen Definitionen folgender

Teststärkequotient an Bedeutung gewonnen: Relative Effizienz ist der Quotient aus

der Zahl der richtigen Entscheidungen des schwächeren Tests und der Zahl der

richtigen Entscheidungen des stärkeren Tests, ermittelt jeweils an den gleichen

Stichproben bei Gültigkeit der H1 in der Population. Beispiel: Hat ein verteilungsfreier Test die falsche H0 640-mal zurückgewiesen und der parametrische 670-mal, ergibt sich eine (lokale) relative Effizienz von 0,955.

Bei der Darstellung der verteilungsfreien Methoden (7 Kap. 5 ff.) werden häufig

Effizienzwerte genannt; findet sich hier nur eine Angabe, so ist ohne ausdrückli-

chen Hinweis stets die asymptotische Effizienz gemeint, die Effizienz also, die ein

verteilungsfreier Test bei Anwendung auf große Stichproben von normalverteilten

Messwerten gleicher Varianz zeigt; sind 2 oder mehrere Indizes aufgeführt, so be-

treffen diese, wenn nicht anders vermerkt, die lokale Effizienz für verschiedene

Stichprobenumfänge.

Gelegentlich werden wir finden, dass der Effizienzindex für kleine Stichproben

höher liegt als für große, dass also die asymptotische Effizienz geringer ist als die

lokale. Darin liegt nur ein scheinbarer Widerspruch: Selbstverständlich sinkt mit

abnehmendem Stichprobenumfang die Stärke eines jeden Tests; wenn jedoch bei

bestimmten Verteilungscharakteristika in der Population die Stärke eines vertei-

lungsfreien Tests bei abnehmendem N weniger sinkt als die des entsprechenden

parametrischen Tests, steigt der nach Gl. (2.8) definierte Effizienzindex natürlich an.

Vereinzelt findet man in der Literatur den Hinweis, ein verteilungsfreier Test

habe die asymptotische Effizienz Null. Man ist in diesem Fall geneigt anzuneh-

men, der Test sei wirkungslos; das ist aber falsch. Diese Aussage heißt lediglich

gemäß Gl. (2.9), dass der verteilungsfreie Test bei unendlich vielen Beobachtungen

„unendlich“ viel mehr Beobachtungen erfordert als der klassische Test, um ihm

an Teststärke gleichzukommen; es heißt nicht, dass er bei endlich vielen Beobach-

tungen keine Teststärke besitzt. Im Gegenteil, es ist gut möglich, dass derselbe

Test in Anwendung auf kleine Stichproben aus nichtnormalverteilten Populationen

eine hohe Teststärke besitzt.

Der Effizienzangabe sollte also nicht der Nutzen beigemessen werden, der in

ihrem numerischen Betrag zum Ausdruck kommt. Man bedenke stets, dass es sich

2.2 · Statistische Hypothesen und Tests

45

2

hier um „eigentlich irrelevante Informationen“ handelt, solange man nicht beabsichtigt, den Test auf Daten anzuwenden, die in vollem Umfang die Bedingungen einer parametrischen Auswertung erfüllen. Auch wäre es verfehlt, die verschiedenen verteilungsfreien Tests untereinander nach dem Grad ihrer asymptotischen Effizienz zu bewerten, weil sie gegenüber verschiedenen Abweichungen von den parametrischen Bedingungen verschiedene Teststärke besitzen. So kann es sein, dass ein asymptotisch wenig effizienter verteilungsfreier Test in Anwendung auf eine spitzgipflige Verteilung wirksamer ist als ein asymptotisch hoch effizienter Test. Stärkevergleiche zwischen verschiedenen verteilungsfreien Tests in Anwendung auf die gleichen Daten sind als empirische Methodenstudien bereits durchgeführt worden (vgl. Bradley, 1960), doch sind solche Studien relativ schlecht zu verallgemeinern.
Zusammenfassend wollen wir also festhalten: Wenn verteilungsfreie und verteilungsgebundene Tests unter parametrischen Bedingungen angewendet werden, dann sind die verteilungsfreien Tests weniger effizient als die analogen parametrischen Tests. Werden dagegen verteilungsfreie Tests unter „nichtparametrischen“ Bedingungen angewendet, dann erweisen sie sich insbesondere bei kleinen Stichproben häufig als effizienter, manchmal sogar als sehr viel effizienter als die parametrischen Tests.
Ob allerdings die relative Effizienz eines Tests gegenüber einer Alternative wirklich Hauptkriterium bei der Auswahl eines statistischen Verfahrens sein kann, erscheint problematisch. Ein gewichtiger Einwand gegen die Berechnung eines Effizienzkoeffizienten ist die Unterschiedlichkeit der Hypothesen bei parametrischen und verteilungsfreien Verfahren.
So vergleichen z. B. verteilungsfreie Verfahren zur Überprüfung von Unterschieden in der zentralen Tendenz (z. B. H-Test, 7 Abschn. 6.1.2.2), Mediane und parametrische Verfahren (z. B. die Varianzanalyse) arithmetische Mittelwerte. Feir-Walsh u. Toothaker (1974) weisen mit Recht darauf hin, dass im Prinzip sehr wohl eine Differenz der Mediane in der Population bestehen kann, obwohl die Mittelwerte bzw. Erwartungswerte gleich sind und umgekehrt. Dieser Einwand wird in der Praxis jedoch kaum berücksichtigt. Er ist auch von untergeordneter Bedeutung für einen Effizienzvergleich unter vollständig parametrischen Bedingungen, da für die Normalverteilung gilt, dass alle Maße der zentralen Tendenz zusammenfallen, Median und Erwartungswert also identisch sind. Für andere Verteilungsformen ist dies jedoch nicht der Fall. Vor dem Hintergrund dieser Überlegungen kann die relative Effizienz nur ein Kriterium unter mehreren bei der Testwahl sein.

2.2.9 Andere Gütekriterien statistischer Tests
Neben der Stärke und der Effizienz wird der fortgeschrittene Leser in der Literatur noch auf 2 andere Gütebegriffe von Tests stoßen. Es sind dies die Begriffe der Konsistenz („consistency“) und der Unverzerrtheit („unbiasedness“); Letztere wird auch Erwartungstreue genannt. Im Einzelnen bedeuten die beiden Begriffe Folgendes:
Ein statistischer Test ist gegenüber einer spezifizierten Alternativhypothese H1 konsistent, wenn die Teststärke e = 1–b gegen den Wert 1 konvergiert, sofern N gegen unendlich wächst; dabei wird vorausgesetzt, dass H1 zutrifft, dass sich also z. B. 2 Populationen hinsichtlich eines bestimmten Aspektes (z. B. zentrale Tendenz

46 Kapitel 2 · Beobachtungen, Hypothesen und Tests

oder Dispersion) unterscheiden. Anders formuliert: Die Wahrscheinlichkeit P, ei-

nen tatsächlich bestehenden Unterschied nachzuweisen, muss mit wachsendem

Stichprobenumfang ebenfalls wachsen, und zwar immer so, dass selbst der ge-

2

ringste Unterschied bei entsprechend (unendlich) großer Stichprobe mit Sicherheit

nachgewiesen werden kann. Die Bedeutung dieses scheinbar trivialen Kriteriums

liegt darin, dass sich Tests konstruieren lassen, die diese Bedingung nicht erfüllen.

Formal lässt sich das Konsistenzkriterium folgendermaßen darstellen:

Pjk Kj ` e 3 1 fur N 3 I X

2X10

Die Wahrscheinlichkeit, dass der absolute Differenzbetrag zwischen dem Schätzwert k und dem Parameter K kleiner ist als eine beliebige Größe e, geht gegen 1, wenn N gegen unendlich geht. Die Konsistenz eines Stichprobenkennwertes lässt sich unter Zuhilfenahme der sog. Tschebycheffschen Ungleichung überprüfen, mit der die Wahrscheinlichkeit beliebiger Abweichungen einer Zufallsvariablen von ihrem Erwartungswert kalkulierbar ist. Hays u. Winkler (1970) behandeln dieses Problem ausführlicher.
Tests, die auf mehrere Alternativhypothesen H1, . . . Hk gleichzeitig ansprechen (z. B. Tests für zentrale Tendenz und Dispersion), müssen sich gegenüber all diesen Alternativhypothesen als konsistent erweisen. Das gilt vor allem für sog. Omnibustests, die auf Unterschiede jeglicher Art in der Verteilung von 2 oder mehr Populationen ansprechen.
Ein statistischer Test ist unverzerrt oder erwartungstreu, wenn seine Teststärke e = 1 – b dann ein Minimum (nämlich gleich dem Signifikanzniveau ) ist, wenn die Nullhypothese H0 zutrifft. Anders formuliert: Die Wahrscheinlichkeit, H0 abzulehnen, muss bei einem bestehenden Populationsunterschied größer sein als bei einem fehlenden Unterschied. Diese Forderung ist bei dem in . Abb. 2.3 dargestellten verzerrten Test nicht erfüllt.
Der Nachweis von Konsistenz und Erwartungstreue ist bislang nur für wenige verteilungsfreie Tests geführt worden und wenn, dann oft nur im Hinblick auf spezielle Alternativhypothesen (vgl. z. B. Lehmann, 1951).

2.2.10 Zusammenfassung statistischer Entscheidungen
Der in den letzten Abschnitten behandelte statistische Signifikanztest ist das angemessene Verfahren, um in einer Untersuchung eine Alternativhypothese gegen eine Nullhypothese zu testen. Gelegentlich steht man jedoch vor dem Problem, die Ergebnisse mehrerer Untersuchungen, in denen die gleiche Hypothese getestet wurde, hinsichtlich ihrer statistischen Entscheidungen zusammenzufassen. Besonders gravierend wird dieses Problem bei Einzelfalluntersuchungen, wenn man die Gültigkeit von H0 oder H1 getrennt für mehrere Individuen überprüft hat und nun eine zusammenfassende Aussage über alle Individuen formulieren möchte. Problemfälle dieser Art tauchen insbesondere bei den in 7 Kap. 11 zu besprechenden Zeitreihenanalysen auf.
Verfahren, die die statistischen Entscheidungen aus mehreren Untersuchungen zusammenfassen, nennt man Agglutinationstests. Für die Anwendung derartiger Agglutinationstests unterscheiden wir 3 Fälle:

2.2 · Statistische Hypothesen und Tests

47

2

a) Es ist lediglich bekannt, wie viele Untersuchungen bei einem gegebenen konstanten Signifikanzniveau  zu einem signifikanten Ergebnis geführt haben.
b) In allen Untersuchungen wurde eine ungerichtete Alternativhypothese getestet, und es liegen zweiseitige Überschreitungswahrscheinlichkeiten P' vor.
c) In allen Untersuchungen wurde eine einheitlich gerichtete Alternativhypothese getestet, und es liegen die einseitigen u-Werte der Standardnormalverteilung bzw. einseitige Überschreitungswahrscheinlichkeiten P vor.

Zu a). Wenn bekannt ist, dass von k Untersuchungsergebnissen x signifikant sind,

bestimmen wir über die Binomialverteilung (7 Abschn. 1.2.2) mit p =  und n = k

die Wahrscheinlichkeit für x oder mehr signifikante Ergebnisse. Setzen wir k = 6,

x = 2 und  = 0,05, resultiert nach Gl. (1.18):


Px ! 2 = 6 Á 0Y052 Á 0Y954 + 6 Á 0Y053 Á 0Y953 + 6 Á 0Y054 Á 0Y952

2

3

4

+ 6 Á 0Y055 Á 0Y951 + 6 Á 0Y056 Á 0Y950 = 0Y0328 X

5

6

Da P <  ist, betrachten wir das Gesamtergebnis als auf der 5%-Stufe signifikant. Wilkinson (1951) hat diesen Test für die konventionellen Signifikanzstufen für n = 2(1)20 vertafelt. Sind viele Untersuchungen zusammenzufassen, prüft man ökonomischer über die Poisson-Verteilungs-Approximation (7 Abschn. 1.2.6) bzw. die Normalverteilungsapproximation (7 Abschn. 1.2.3).
Bei der Anwendung dieses Tests ist darauf zu achten, dass in allen zusammengefassten Untersuchungen ungerichtete Hypothesen oder einheitlich gerichtete Hypothesen geprüft wurden. Treten bei den zweiseitigen Tests einander widersprechende Signifikanzen auf (z. B. sowohl für p1 > p2 als auch für p1 < p2), ist in der Regel nur die Beibehaltung von H0 sinnvoll interpretierbar, aber nicht deren Ablehnung.

Zu b). Gemäß Gl. (2.5) lässt sich eine zweiseitige Überschreitungswahrscheinlichkeit P' wie folgt transformieren:

v2 = À 2 Á ln P H X

2X11

Man erhält eine v2-verteilte Zufallsvariable mit Fg = 2. Da nun die Summe von k unabhängigen, v2-verteilten Zufallsvariablen ebenfalls v2-verteilt ist (wobei
Fg = 2 · k zu setzen ist), erhält man

k v2 = 2 Á ln PHj mit Fg = 2 Á k X
j1

2X12

Hat man beispielsweise in k = 3 voneinander unabhängigen Untersuchungen die Überschreitungswahrscheinlichkeiten P1' = 0,12, P2' = 0,04 und P3' = 0,06 ermittelt, resultiert nach Gl. (2.12)
v2 = 2 Á  2Y12 3Y22 2Y81 = 16Y31 mit Fg = 6 X

48 Kapitel 2 · Beobachtungen, Hypothesen und Tests

Da gemäß Tafel 3 für Fg = 6 v20,05 = 12,59 <16,31 ist, kann eine für  = 0,05 statistisch gesicherte Gesamtaussage formuliert werden. Auch hier ist eine Interpretati-

on des Ergebnisses jedoch nur dann sinnvoll, wenn alle P'-Werte auf gleichgerich-

2

teten Effekten basieren.

Diese von Fisher (1932) und Pearson (1933) begründete Agglutinationstechnik

setzt gleiches Gewicht für alle P'-Werte voraus, was bedeutet, dass die in den zusam-

mengefassten Untersuchungen verwendeten Stichproben gleich groß sind. Ist diese

Voraussetzung nicht erfüllt, verwendet man die unter a) beschriebene Methode. Wenn

alle Hypothesen gleichsinnig gerichtet sind, lässt sich der mit Gl. (2.12) beschriebene

Test auch für einseitige Überschreitungswahrscheinlichkeiten P verwenden.

Zu c). Wird eine gleichsinnig gerichtete Alternativhypothese in mehreren Untersuchungen über den u-Test [Gl. (2.1)] geprüft, agglutiniert man die resultierenden u-Werte nach Wartmann u. Wette (1952; vgl. auch Zschommler, 1968, S. 690, bzw. alternativ hierzu Edgington, 1972, zit. nach Krauth, 1990, S. 38 f.) auf folgende Weise:

k p u = uja k X
j1

2X13

Dieser Test basiert auf der Überlegupng, dass unter H0 die Summe von k u-Werten mit einer Standardabweichung von k wiederum um Null normalverteilt ist.
Wenn statt des u-Tests ein anderer Test eingesetzt wurde, können die für diesen Test resultierenden P-Werte über Tafel 2 in u-Werte transformiert werden, die ihrerseits über Gl. (2.13) auszuwerten sind. Für die Werte P1 = 0,12, P2 = 0,04 und P3 = 0,06 ermittelt man die einseitigen u-Werte u1 = 1,17, u2 = 1,75 und u3 = 1,55, so dass nach Gl. (2.13)
p u = 1Y17 + 1Y75 + 1Y55a 3 = 2Y58

resultiert. Da P(u = 2,58) = 0,0049 < 0,01 ist, führt die Gesamtauswertung zu einer für  = 0,01 gesicherten Aussage. Man beachte, dass das Ergebnis für die gleichen Werte nach Gl. (2.12) die 1%-Signifikanzschranke knapp verfehlt, das heißt der Test nach Gl. (2.13) ist geringfügig effizienter als der nach Gl. (2.12).
Auch bei dieser Technik sollten die u-Werte aus Untersuchungen mit (etwa) gleich großen Stichproben stammen; andernfalls ist auch hier die unter a) beschriebene Technik zu wählen.
Auf eine weitere Technik, die Agglutination von Vierfeldertests, gehen wir in 7 Abschn. 5.2.3 ausführlicher ein. Einen neuen Gesamtüberblick über Agglutinationstechniken geben Hedges u. Olkin (1985) unter dem Stichwort „Meta-Analyse“.

2.2.11 -Fehler-Adjustierung
Im letzten Abschnitt stand die Frage im Vordergrund, wie sich statistische Entscheidungen aus mehreren Untersuchungen zu einer Gesamtaussage zusammenfassen lassen. Das Problem der Bewertung mehrerer statistischer Entscheidungen stellt sich jedoch häufig auch im Rahmen einer einzigen Untersuchung, wenn über die erhobenen Daten mehrere statistische Tests gerechnet werden. Der Logik des Signifikanztests folgend wissen wir, dass bei einem signifikanten Ergebnis ( = 0,05) die H0 mit einer 5%igen Wahrscheinlichkeit zu Unrecht verworfen wird. Werden nun statt eines Signifikanztests mehrere durchgeführt, steigt natürlich die Wahrscheinlichkeit,

2.2 · Statistische Hypothesen und Tests

49

2

dass mindestens einer der Tests signifikant wird. Wenn in einer Untersuchung z. B. 100 Signifikanztests durchgeführt wurden, ist aus dem Signifikanzkonzept zu folgern, dass rein zufällig ca. 5 Tests „signifikant“ ausfallen. Um in dieser Situation korrekt entscheiden zu können, ist ggf. eine sog. -Fehler-Adjustierung bzw. eine -Fehler-Korrektur erforderlich.
Die Tragweite dieses Problems sei zunächst anhand einiger Beispiele verdeutlicht. Es handelt sich hier um prototypische Fragen der angewandten Statistik, für deren Beantwortung es belanglos ist, ob parametrisch oder verteilungsfrei geprüft wird, denn das Problem der -Fehler-Korrektur betrifft beide Verfahrensklassen gleichermaßen:
– Gibt es zwischen 8 physiologischen Variablen und 5 Variablen der subjektiven Befindlichkeit Zusammenhänge? Theoretisch wären hier 8 · 5 = 40 binäre Beziehungen statistisch zu testen.
– Sind Frauen oder Männer stressresistenter? Bei 12 Stressindikatoren könnte diese Hypothese mit 12 Signifikanztests geprüft werden.
– Ist die Leistung des Menschen von Umweltfaktoren abhängig? Wenn in dieser Untersuchung die Umweltfaktoren Lärm, Luftverschmutzung und Temperatur untersucht werden, sind im Rahmen einer varianzanalytischen Auswertung 7 Hypothesen (Haupteffekte und Interaktionen) überprüfbar.
– Unterscheiden sich 5 Therapeuten in ihren Behandlungserfolgen bei depressiven Patienten? Bei dieser Fragestellung wären theoretisch 25 sog. Einzelvergleichshypothesen zu testen.
– Unterscheiden sich die Verkaufszahlen von 3 Waschmitteln? Allein für diese einfache Frage sind 7 verschiedene Vergleiche möglich.
– Gibt es zwischen den 20 erhobenen Indikatoren des Erziehungsstiles von Eltern Zusammenhänge? Beschränkt man diese Fragestellung nur auf bivariate Zusammenhänge, wären 190 Zusammenhangshypothesen zu testen.
Diese Beispiele mögen genügen, um die Vielschichtigkeit der angesprochenen Problematik aufzuzeigen. Bevor wir die Frage klären, wie man in derartigen Forschungssituationen zu korrekten statistischen Entscheidungen gelangt, sind 2 Differenzierungen für Fragestellungen der genannten Art vorzunehmen:
Begründete A-priori-Hypothesen versus undifferenzierte Globalhypothesen. Die Beantwortung der Frage nach einer angemessenen -Fehler-Adjustierung hängt davon ab, ob vor Untersuchungsbeginn eine oder mehrere begründete Alternativhypothesen aufgestellt wurden oder ob man explorierend nach globalen Zusammenhängen oder Unterschieden fragt. Alle genannten Hypothesen sind global gehalten und damit der 2. Hypothesenkategorie zuzuordnen, für die Formulierungen wie „es gibt Zusammenhänge“ oder „es gibt Unterschiede“ charakteristisch sind. Signifikanztests über Hypothesen dieser Art erfordern eine andere Behandlung als Signifikanztests für spezifische, a priori formulierte Hypothesen, bei denen zu jeder Hypothese eine speziell begründete Erwartung formuliert wird. Im ersten der genannten Beispiele hätte man in diesem Sinne beispielsweise begründen müssen, dass eine spezielle Variante der Hautwiderstandsmessung mit der subjektiv empfundenen inneren Erregung positiv korreliert sei. Selbstverständlich ist es denk-

50 Kapitel 2 · Beobachtungen, Hypothesen und Tests

bar, dass im Rahmen einer Untersuchung mehrere solcher begründeter Hypothe-

sen aufgestellt werden. Lassen sich zu einigen Variablen begründete Hypothesen

aufstellen und zu anderen nicht, sind diese beiden „simultan formulierten“ Hypo-

2

thesenarten inferenzstatistisch unterschiedlich zu behandeln.

Unabhängige versus abhängige Tests. Führt man in einer Untersuchung mehrere Tests durch, können diese Tests (bzw. genauer: die Testergebnisse) voneinander abhängig oder unabhängig sein. Dies wird unmittelbar einleuchtend, wenn man den Geschlechtervergleich im 2. Beispiel einmal mit 2 korrelierenden Stressindikatoren und ein anderes Mal mit 2 unkorrelierten Stressindikatoren durchführt. Im 1. Fall sind die Testergebnisse voneinander abhängig, im 2. Fall nicht.
Die Frage, ob 2 oder mehr Testergebnisse voneinander abhängen, lässt sich allerdings nicht immer so einfach beantworten wie in diesem Beispiel. Wie man erkennt, ob z. B. die in einem mehrfaktoriellen Plan geprüften Effekte, die Tests über mehrere Einzelvergleiche oder die v2-Komponenten einer Kontingenztafel voneinander abhängen oder nicht, werden wir im Kontext der einzelnen zu besprechenden Verfahren detailliert erörtern.

Eine unkorrekte -Fehler-Korrektur kann zu falschen statistischen Entscheidungen führen. Dabei unterscheiden wir zwischen progressiven und konservativen Fehlentscheidungen, deren Bedeutung im Folgenden erläutert wird:
Angenommen, eine globale „Es-gibt“-Hypothese der genannten Art soll mit k = 6 voneinander unabhängigen Tests überprüft werden (Beispiel: Die Hypothese „es gibt Beeinträchtigungen der Arbeitsleistungen durch Umweltfaktoren“ wird durch 6 Tests, z. B. 3 Haupteffekttests und 3 Interaktionstests im Kontext einer orthogonalen Varianzanalyse, geprüft). Einer der Tests sei für  = 0,05 signifikant. Kann daraufhin auch die globale Hypothese mit  = 0,05 angenommen werden?
Sicherlich nicht, denn schließlich hatten 6 Tests die Chance, signifikant zu werden, und nicht nur einer. Würde man aufgrund einer Einzelsignifikanz mit  = 0,05 die globale H0 verwerfen, wäre diese Entscheidung mit einem erheblich höheren Risiko I (-Fehler-Wahrscheinlichkeit) verbunden, als es die Einzelsignifikanz mit einem nominalen -Niveau von  = 0,05 nahelegt. Entscheidungen dieser Art, bei denen die wahre -Fehler-Wahrscheinlichkeit größer ist als der nominelle -Fehler, bezeichnen wir als progressiv (antikonservativ). Bei progressiven Entscheidungsregeln kommt es zu mehr signifikanten Ergebnissen, als nach dem nominellen -Niveau bei Gültigkeit von H0 zu erwarten wäre.
Umgekehrt könnte man fordern, die globale H0 sei nur dann zu verwerfen, wenn alle Einzeltests signifikant ausfallen. Diese Entscheidung wäre – wie noch gezeigt wird – zu konservativ, weil bei diesem Vorgehen die wahre -Fehler-Wahrscheinlichkeit deutlich unter dem nominellen -Fehler liegt. Konservative Entscheidungen resultieren in zu wenig signifikanten Resultaten, d. h. es werden eigentlich vorhandene Signifikanzen „übersehen“.
Nach diesen Vorbemerkungen seien im Folgenden die wichtigsten Techniken zur -Fehler-Adjustierung vergleichend dargestellt.
a) Betrachten wir zunächst die genannte progressive Entscheidungsregel, nach der die globale H0 zu verwerfen ist, wenn (mindestens) ein einzelner Test signifi-

2.2 · Statistische Hypothesen und Tests

51

2

kant wird. Wir fragen nach der tatsächlichen Irrtumswahrscheinlichkeit P, die man bei dieser Entscheidungsregel riskiert bzw. genauer nach der Wahrscheinlichkeit, mindestens eine der k Nullhypothesen der Einzeltests zu verwerfen, wenn alle k Nullhypothesen richtig sind. Ferner nehmen wir an, dass alle Nullhypothesen für ein konstantes Signifikanzniveau  geprüft werden.
Die Wahrscheinlichkeit für mindestens eine Signifikanz ist komplementär zu der Wahrscheinlichkeit, dass keine H0 verworfen, dass also kein Einzeltest signifikant wird. Für diese Wahrscheinlichkeit errechnen wir über die Binomialverteilung (mit p =  und x = 0):
 px = 0 = k Á 0 Á 1 k
0
= 1 k X

Die Komplementärwahrscheinlichkeit dazu (mindestens ein signifikantes Ergebnis) lautet also

Px ! 1 = 1 1 k X

2X14

Für k = 6 und  = 0,05 errechnet man P(x ³ 1) = 1 – (1 – 0,05)6 = 0,2649, d. h. die Wahrscheinlichkeit, mindestens eine der 6 Nullhypothesen fälschlicherweise zu verwerfen (und damit die globale H0 zu verwerfen), beträgt 26,49% statt der ursprünglich geplanten 5%.
Um die globale Hypothese mit  = 0,05 verwerfen zu können, ist statt  ein korrigierter *-Wert zu verwenden. Der *-Wert wird so bestimmt, dass nach Gl. (2.14) P(x ³ 1) =  resultiert. Lösen wir Gl. (2.14) nach  auf, erhält man

Ã = 1 1 1ak

2X15

bzw. für das Beispiel Ã = 1 1 0Y051a6 = 0Y0085 X

Die globale H0 darf also erst verworfen werden, wenn mindestens ein Einzeltest für * = 0,0085 signifikant ist. Setzt man diesen Wert in Gl. (2.14) ein, resultiert der angestrebte Wert P(x ³ 1) =  = 0,05.
Angenommen, wir hätten in unserer Untersuchung (mit k = 6) x = 3 signifikante
Testergebnisse (jeweils mit Pj = 0,04) erzielt und k – x = 3 nicht signifikante Ergebnisse (jeweils mit Pj = 0,10), müsste die globale H0 beibehalten werden, da für keinen Test Pj < 0,0085 gilt (j = 1, . . . k).
b) Die Berechnung von P(x ³ 1) nach Gl. (2.14) lässt sich für große k- und kleine -Werte durch folgende einfache Gleichung approximieren:

Px ! 1 = k Á  X

2X16

Man erhält nach dieser Gleichung für unser Beispiel mit  = 0,05 eine faktische Irrtumswahrscheinlichkeit von P(x ³ 1) = 6 · 0,05 = 0,30. Will man die globale H1 nur akzeptieren, wenn P(x ³ 1) nicht größer als  ist, wäre das -Niveau für die Ein-
zeltests durch

Ã = ak

2X17

52 Kapitel 2 · Beobachtungen, Hypothesen und Tests

zu adjustieren, d. h. ein Einzeltest müsste mindestens für * = 0,05/6 = 0,0083 signifi-

kant sein. Diese Art der -Fehler-Adjustierung heißt Bonferroni-Korrektur. Die

Bonferroni-Korrektur ist – wie man auch dem Beispiel entnehmen kann – geringfü-

2

gig konservativer als die zuvor genannte Korrektur (0,0083 < 0,0085). Auch hier wäre

also die globale H0 bei k = 6 und x = 3 mit den genannten P-Werten beizubehalten.

c) Bei den beiden genannten Varianten bleibt unberücksichtigt, wieviele Ein-

zeltests tatsächlich signifikant geworden sind, denn hier gingen wir nur davon aus,

dass mindestens ein Test signifikant wird. Ergebnisse, bei denen 2, 3 oder gar alle

Einzeltests signifikant sind, werden nach diesen Regeln nicht differenziert. Es geht

also wertvolle Information verloren, denn es ist leicht einzusehen, dass die globale

Hypothese durch nur eine Einzelsignifikanz weniger bestätigt wird als durch meh-

rere Einzelsignifikanzen.

Dieser Sachverhalt wird berücksichtigt, wenn wir den bereits in 7 Abschn. 2.2.10

unter a) vorgestellten binomialen Ansatz verwenden. Da für jede Untersuchung

bei Gültigkeit von H0 ein signifikantes Ergebnis mit einer Wahrscheinlichkeit von  auftritt, errechnen wir die Wahrscheinlichkeit für x oder mehr signifikante, von-

einander unabhängige Ergebnisse bei Gültigkeit aller k Nullhypothesen über Gl.

(1.18). Für unser Beispiel mit k = 6, x = 3 und  = 0,05 ergibt sich


P = 6 Á 0Y053 Á 0Y953 + 6 Á 0Y054 Á 0Y952 + 6 Á 0Y055 Á 0Y951

3

4

5

+ 6 Á 0Y056 Á 0Y950

6

= 0Y002 X

Nach diesem Ergebnis ist die globale H0 abzulehnen (P = 0,002 <0,05). Dieser Ansatz führt natürlich für x = 1 zum gleichen Ergebnis wie Ansatz a).
Für x > 1 sind die unter a) und b) beschriebenen Korrekturen jedoch deutlich konservativer als die Korrekturvariante c).
Man beachte, dass im Ansatz c) keine -Fehler-Adjustierung vorgenommen wird. Über Bestätigung oder Ablehnung der globalen Hypothese wird aufgrund der Überschreitungswahrscheinlichkeit P befunden, unter k Tests mindestens x signifikante Resultate zu finden. Die globale H0 wird abgelehnt, wenn P £  ist. Auch hier ließe sich eine -Fehler-Korrektur vornehmen, indem man für variable x-Werte ein * bestimmt, für das P £  resultiert. Dieser Weg ist jedoch rechnerisch sehr aufwendig und führt letztlich zur gleichen Entscheidung wie der genannte Weg.
Statt einen P-Wert zu berechnen, kann man in Tafel 1 einen x-Wert ablesen, der bei gegebenem k für P £  erforderlich ist. Bezogen auf die konventionellen Signifikanzgrenzen ist Tafel 1 allerdings nur für  = 0,05 einzusetzen. Für k = 20 z. B. bestimmt man P(x ³ 4) = 0,0158 < 0,05, d. h. von 20 simultanen Tests müssten mindestens 4 signifikant sein, um die globale H0 für  = 0,05 verwerfen zu können. Für sehr viele Einzeltests verwendet man die in 7 Abschn. 1.2.3 beschriebene Normalverteilungs-Approximation bzw. die in 7 Abschn. 1.2.6 beschriebene PoissonVerteilungsapproximation der Binomialverteilung.
d) Der unter c) beschriebene binomiale Ansatz verwendet nur binäre Informationen der Art „signifikant vs. nicht signifikant“. Unterschiede zwischen den Pj-

2.2 · Statistische Hypothesen und Tests

53

2

Werten in der Gruppe der signifikanten Tests bzw. in der Gruppe der nichtsignifikanten Tests bleiben dabei unberücksichtigt. Eine bessere Informationsausschöpfung erzielen wir deshalb, wenn die einzelnen Pj'-Werte – soweit bekannt – über Gl. (2.12) agglutiniert werden. Diese Technik setzt jedoch – wie bereits erwähnt – voraus, dass die Einzeltests auf gleich großen Stichproben basieren. Angewendet auf das Beispiel erhält man

v2 = 2 Á 3 Á  3Y22 + 3 Á  2Y30 = 33Y12 X

Dieser Wert ist für Fg = 12 auf der  = 0,001-Stufe signifikant, d. h. im Beispiel sind – gleich große Stichprobenumfänge unterstellt – die Techniken a) bis c) deutlich konservativer als die 4. Technik. Würden die 3 nicht signifikanten Werte jedoch auf Überschreitungswahrscheinlichkeiten von Pj = 0,80 basieren, ergäbe sich mit v2 = 20,65 ein Wert, dessen Überschreitungswahrscheinlichkeit größer ist als die nach der 3. Technik ermittelte Überschreitungswahrscheinlichkeit.
Die unter a) bis d) beschriebenen Techniken gelten für simultan durchgeführte Tests, die voneinander unabhängig sind. Es ist nun zu überprüfen, wie man bei abhängigen Tests vorgehen sollte.
Betrachten wir zunächst den Extremfall perfekter Abhängigkeit: In dieser (theoretischen) Extremsituation genügt ein einziges signifikantes Ergebnis, um die globale H0 verwerfen zu können, denn in diesem Fall wären auch alle anderen Tests signifikant. Man braucht also nur einen Signifikanztest durchzuführen, denn alle übrigen Tests sind wegen der perfekten Abhängigkeit gegenüber diesem Test informationslos. Eine -Fehler-Korrektur ist nicht erforderlich.
Bei empirischen Untersuchungen mit abhängigen Tests ist die genaue Abhängigkeitsstruktur der Tests in der Regel unbekannt. Sie liegt irgendwo zwischen den Extremen der perfekten Unabhängigkeit und der perfekten Abhängigkeit, d. h. eine angemessene -Fehler-Korrektur müsste ihrem Effekt nach weniger konservativ sein als eine Korrektur für unabhängige Einzeltests, aber konservativer als das Vorgehen bei perfekt abhängigen Tests, bei denen auf eine -Fehler-Korrektur verzichtet werden kann.
Die Bonferroni-Korrektur kann nach Krauth (1973, S. 40 ff.) auch bei abhängigen Tests eingesetzt werden; angewandt auf abhängige Tests fallen Entscheidungen über die globale H0 noch konservativer aus als bei unabhängigen Tests. Weniger konservativ ist demgegenüber folgende von Cross u. Chaffin (1982) vorgeschlagene Korrektur der Bonferroni-Methode

Ã = ak x + 1 Y

2X18

wobei k = Anzahl aller Tests und x = Anzahl der signifikanten Tests ist. Aber auch diese Entscheidungsregel dürfte für einige Untersuchungssituationen zu konservativ sein. Man denke an ein Untersuchungsergebnis, bei dem alle simultanen Tests die -Schranke geringfügig unterschreiten. In diesem Falle wäre widersinnigerweise die globale H0 beizubehalten, weil kein einziger Test die *-Schranke unterschreitet. Wir übernehmen deshalb die praktische Empfehlung von Cross u. Chaffin (1982), Variante c) auch bei abhängigen Tests einzusetzen.
Zusammenfassend wird folgendes Vorgehen für den Umgang mit simultanen Tests vorgeschlagen: Wurden a priori spezifizierte Einzelhypothesen formuliert, ist

54 Kapitel 2 · Beobachtungen, Hypothesen und Tests

eine -Fehler-Korrektur überflüssig, und zwar sowohl bei abhängigen als auch bei

unabhängigen Tests. In diesem Falle wird bei jeder Entscheidung riskiert, die H0 fälschlicherweise mit einer Wahrscheinlichkeit von höchstens  zurückzuweisen.

2

Forschungslogisch wäre allerdings zu fordern, voneinander unabhängige Hypothe-

sen aufzustellen (7 unten), deren Interpretation im Falle ihrer Bestätigung frei von

Redundanzen ist.

Bei der Überprüfung einer globalen H0 sind mehrere Strategien möglich. Will man die globale H0 ablehnen, wenn mindestens einer der k Einzeltests signifikant ausfällt, ist bei unabhängigen Tests das -Niveau nach Methode a) bzw. – bei großem

k und kleinem  – approximativ nach Methode b) zu adjustieren. Diese Vorgehens-

weisen sind bei simultanen Einzeltests, die „gerade eben“ signifikant geworden sind,

eher konservativ. Sie entscheiden jedoch gegenüber der Methode c) progressiv, wenn

nur ein einziger Test auf einem sehr niedrigen *-Niveau signifikant wurde.

Für die Methode c) ist es irrelevant, wie gering die Irrtumswahrscheinlichkeit bei

einem einzigen signifikanten Test ausgefallen ist. Hier interessiert nur die Anzahl der

auf dem nominellen -Niveau erzielten Signifikanzen. Methode c) ist gegenüber den

Methoden a) und b) immer dann zu favorisieren, wenn sich die Ergebnisinterpreta-

tion hauptsächlich nur auf die globale Hypothese beziehen soll und die Frage, welche

Einzeltests signifikant wurden, eigentlich unwichtig ist. Bei den Methoden a) und b)

hingegen interessiert vorrangig die Frage, welcher der zur Überprüfung der Global-

hypothese herangezogenen Tests von besonderer Bedeutung ist.

Methode d) schließlich ist dem Spezialfall vorbehalten, dass für k unabhängige

Tests, die mit gleich großen Stichproben durchgeführt wurden, die Irrtumswahr-

scheinlichkeiten Pj' bekannt sind. Hat man es mit P-Werten aus k einseitigen und gleichgerichteten Tests (z. B.

P-Werte einer multizentrischen Studie mit k Zentren) zu tun, kann statt Gl. (2.13)

auch folgende, auf Edgington (1972, zit. nach Krauth, 1990, S. 38 f.) zurückgehende

Agglutination vorgenommen werden:

P = Skak3
k mit S = Pi
i1

(2.19)

Gl. (2.19) setzt voraus, dass S £ 1 ist (für S > 1 vgl. Krauth, 1990, S. 39).
Beispiel: In k = 5 Kliniken wurde eine neues Präparat (via U-Test) mit einem Standard verglichen mit folgenden einseitigen P-Werten zugunsten des neuen Präparates: P1 = 0,26; P2 = 0,20; P3 = 0,09; P4 = 0,15 und P5 = 0,18. Man errechnet S = 0,88 und nach Gleichung (2.19)
P = 0Y885a53 = 0Y0044 `  = 0Y01
Die Überlegenheit des neuen Präparates wäre also für  = 0,01 abgesichert, obwohl kein einziges Teilergebnis die  = 5%-Schranke erreicht.
Diese P-Wert-Agglutination kann auch benutzt werden, um in Äquivalenzstudien (vgl. etwa Röhmel, 1998) zu beurteilen, ob z. B. ein billigeres Novum nicht

2.2 · Statistische Hypothesen und Tests

55

2

schlechter wirkt als ein teurer Standard. Im Falle der Wirkungsäquivalenz sollte ein P-Wert um 0,50 resultieren, denn ein zu hohes P deutet auf Äquivalenzmanipulation der Daten hin, weil zu gute Übereinstimmungen nur selten ein Produkt des Zufalls ist.
Bevor man sich entschließt, über eine globale H0 aufgrund mehrerer abhängiger Tests zu befinden, sollte überprüft werden, ob sich die abhängigen Tests auf eine kleinere Anzahl unabhängiger Tests reduzieren lassen, die als nicht redundante Tests den gleichen Informationsgehalt aufweisen wie die abhängigen Tests. Dies kann z. B. durch den Einsatz multivariater Tests geschehen (Überprüfung multipler oder kanonischer Korrelationen statt Überprüfung aller bivariaten Korrelationen bei 2 Variablensätzen; Überprüfung von Faktoren im Sinne der Faktorenanalyse statt Überprüfung aller bivariaten Korrelationen eines Variablensatzes; Einsatz einer multivariaten Varianzanalyse statt vieler univariater Varianzanalysen etc.) oder – bei Einzelvergleichstests – durch die Verwendung sog. orthogonaler Einzelvergleiche. Ist der Einsatz abhängiger Tests nicht zu umgehen, kann über Gl. (2.18) bzw. behelfsmäßig auch über Methode c) geprüft werden (vgl. Cross u. Chaffin, 1982).
Gelegentlich werden an einem Datensatz mehrere Alternativhypothesen über verschiedene Verteilungsparameter getestet. Will man z. B. simultan auf Unterschiede in der zentralen Tendenz und auf Dispersionsunterschiede testen, sind die entsprechenden Tests (t-Test und F-Test im parametrischen Falle) nur bei Vorliegen einer normalverteilten Grundgesamtheit voneinander unabhängig; bei nicht normalverteilten Grundgesamtheiten ergeben sich Abhängigkeiten.
Auch hier richtet sich die Prüfstrategie nach der Art der Hypothese. Bei einer globalen Hypothese (z. B.: es gibt irgendwelche Unterschiede zwischen den verglichenen Populationen) sollte man – falls vorhanden – einen Omnibustest favorisieren, der auf Verteilungsunterschiede beliebiger Art reagiert (vgl. z. B. die einschlägigen Abschnitte aus 7 Kap. 7). Existiert kein geeigneter Omnibustest, sind für abhängige Tests -Fehler-Korrekturen nach Gl. (2.18) und für unabhängige Tests nach den Methoden a) und b) vorzunehmen. Methode c) gilt auch hier für unabhängige Tests und behelfsmäßig für abhängige Tests.
Begründete A-priori-Hypothesen über einzelne Verteilungsparameter machen auch hier keine Korrektur erforderlich. Der gleichzeitige Einsatz eines t-Tests und eines Median-Tests (7 Abschn. 6.1.1.1) beispielsweise ließe sich also nur rechtfertigen, wenn man eine Hypothese über Mittelwertsunterschiede und darüber hinaus eine Hypothese über Medianunterschiede begründen kann, was in der Praxis nur bei extremen Ausreißerwerten vorkommt. Der Regelfall ist eher eine Globalhypothese über Unterschiede in der zentralen Tendenz, die entweder über einen Omnibustest oder über 2 (oder mehrere) Tests mit entsprechender Korrektur zu überprüfen wäre. Das „Ausprobieren“ mehrerer, von ihrer Indikation her ähnlicher Tests ist deshalb praktisch in jedem Falle mit einer der genannten Korrekturmaßnahmen zu verbinden.
Die hier beschriebenen -Fehler-Adjustierungen dienen der expliziten -Fehler-Protektion. Was unter einer impliziten -Fehler-Protektion zu verstehen ist, werden wir anhand konkreter Verfahren erläutern (7 z. B. S. 230).

3
3 Datenerhebung und Datenaufbereitung
Im Folgenden werden Fragen des Messens sowie der Datenerhebung und -aufbereitung für quantitative Untersuchungen behandelt. Dabei wird die Vielfalt empirischen Materials erkennbar, das für die statistische Hypothesenprüfung geeignet ist. Grundsätzlich sei angemerkt, dass die zu untersuchende Fragestellung in der Regel nicht eindeutig vorschreibt, welche Art von Daten zu erheben und damit welcher statistische Test einzusetzen ist. Viele Merkmale der Bio- und Humanwissenschaften lassen sich auf unterschiedliche Weise operationalisieren, mit dem Effekt, dass je nach Art der Operationalisierung Daten mit unterschiedlichem Informationsgehalt auszuwerten sind.
Die Frage der angemessenen Operationalisierung von Variablen ist nur im Kontext des untersuchten Inhalts befriedigend zu beantworten. Diese sowie weitere Fragen, die im Vorfeld der eigentlichen statistischen Analyse stehen (Problemwahl und Hypothesenformulierung, Untersuchungsplanung, Designtechnik, Untersuchungsdurchführung etc.) können hier nicht behandelt werden. Informationen dazu findet der Leser z. B. bei Bortz u. Döring (2006) und Roth u. Holling (1999).
3.1 Theorie des Messens
Das Wort „Messen“ haben wir bereits mehrmals gebraucht, und zwar meist im landläufigen Sinn als Anlegen einer „Messlatte“ an einen Untersuchungsgegenstand oder als Ablesen einer Zeigerstellung auf einer Messskala. Dies entspricht der physikalischen oder klassischen Art des Messens, wobei die Messwerte elementarer Art (wie Zentimeter, Gramm, Sekunden) sind oder von elementaren Messwerten durch Operationsvorschriften abgeleitete Messwerte (Volumina, spezifische Gewichte, Geschwindigkeiten) darstellen.
Spätestens seit die Frage des Messens auch für die Sozialwissenschaften bedeutsam geworden ist, wird der Begriff des Messens weiter gefasst und etwa mit Campbell (1938, S. 126) als „assignment of numerals to represent properties of material systems other than number, in virtue of the laws governing these properties“ bezeichnet. Dass in diesem Sinne Messen eine Abbildung von Realitäten auf ein abstraktes Bezugssystem darstellt, betont Sixtl (1967, S. 3) mit der Definition: „Messen bestehe darin, dass wir Objektrelationen, die nicht unsere Erfindung sind, auf Zahlenrelationen abbilden, die unsere Erfindung sind. Eine Abbildung dieser Art ist möglich, wenn bestimmte Eigenschaften der Zahlen isomorph zu bestimmten Eigenschaften der Objekte sind. Man sagt dann, bestimmte Eigenschaften des Zahlensystems dienen als Modell für bestimmte Objektrelationen“. Dabei

58 Kapitel 3 · Datenerhebung und Datenaufbereitung

müsse die Angemessenheit eines bestimmten Messmodells für den zu unter-

suchenden Aspekt der Objekte empirisch geprüft werden, und es gehe nicht an,

durch Explizieren der Eigenschaften von Modellen „Entdeckungen“ machen zu

wollen; denn Folgerungen aus Modellen, die keinen Zugang zur Empirie bieten,

seien wissenschaftlich unbrauchbar.

3

Diese Definitionen schließen eine Form der Zuordnung von Zahlen zu Objekten aus, nämlich die, in der bestimmte Relationen zwischen den Zahlen keine ana-

logen Relationen zwischen den Objekten wiedergeben. Männlichen Individuen das

Zahlensymbol „0“ und weiblichen das Zahlensymbol „1“ zuzuordnen, wäre danach

keine Messung, ebensowenig eine Zuordnung von Individuen oder Objekten zu

bestimmten, mit Zahlen symbolisierten qualitativen Klassen. Warum aber soll

solch eine vereinbarungsgemäß getroffene und konsequent durchgeführte Zuord-

nung nicht auch als Messen gelten, wenn man diesen Begriff schon über seine

klassische Denotation hinaus zu erweitern gewillt ist? Diesem Desiderat trägt die

in den Verhaltenswissenschaften allgemein anerkannte Definition des Messens

Rechnung, die Stevens (1951, S. 22) gegeben hat: „Measurement is the assignment

of numerals to objects or events according to rules“. Orth (1974, S. 13) präzisiert

diese Definition, indem er ausführt: „Messen ist die Bestimmung der Ausprägung

einer Eigenschaft eines Dinges. Messen erfolgt durch eine Zuordnung von Zahlen

zu Dingen, die Träger der zu messenden Eigenschaften sind . . . Notwendige Vo-

raussetzungen für die Messbarkeit einer Eigenschaft sind erstens das Vorhanden-

sein einer Menge von Dingen, die Träger der zu messenden Eigenschaften sind,

und zweitens das Vorhandensein mindestens einer beobachtbaren oder herstell-

baren Relation auf dieser Menge“. Auf der Grundlage dieser Definition ergeben

sich 3 bzw. 4 Dignitätsgrade oder Skalenniveaus der Messung, die Stevens bereits

1939 in seiner Skalentheorie unterschieden hat.

Bevor wir in 7 Abschn. 3.1.2 näher auf die verschiedenen Aspekte dieser Theorie

eingehen, soll noch zu zwei weiteren Fragen kurz Stellung genommen werden, die

im Zusammenhang mit dem Messen außerhalb der klassischen Naturwissenschaf-

ten bedeutsam sind. Am Anfang von Auseinandersetzungen um das Messen in

den Humanwissenschaften steht oftmals die Frage „Ist der Mensch überhaupt

Messbar?“ Wird die Frage nicht nur rhetorisch einzig zur Verdeutlichung des

Menschenbildes des Fragestellers formuliert, so muss konstatiert werden, dass sie

ein altes Missverständnis tradiert: Messen in den Humanwissenschaften hat nicht

das Ziel, den Menschen zu messen, sondern, wie Orths Definition deutlich macht,

Eigenschaften bzw. Attribute des Menschen. „Der Mensch“ ist in der Tat nicht

Messbar, Eigenschaften aber sind es sehr wohl.

Mit dieser Feststellung ist im Übrigen keineswegs eine Vorentscheidung in

dem Sinne gefallen, dass Forschung in den Humanwissenschaften vorrangig mit

Messoperationen zu arbeiten hätte. Die Frage, ob ein quantitativer oder ein quali-

tativer Forschungsansatz gewählt wird, muss immer am Forschungsgegenstand

entschieden werden. Eine gegenstandsadäquate Forschungsmethodik ist eines der

wichtigsten Ziele der Humanwissenschaften; es wäre wünschenswert, wenn dabei

in Zukunft paradigmatische Voreingenommenheiten – also Vorlieben z. B. für qua-

litative bzw. quantitative Methoden – an Bedeutung verlieren würden. Eine aus-

führliche Auseinandersetzung mit diesem Themenkomplex, also mit methodologi-

3.1 · Theorie des Messens

59

3

schen Aspekten des Messens in den Humanwissenschaften, ist an dieser Stelle nicht möglich. Festzuhalten ist, dass weder die Aussage, Wissenschaft ohne Messoperationen sei keine Wissenschaft, noch die apriorische Ablehnung solcher Operationen in Humanwissenschaften hilfreich ist. Mit Leiser (1978, S. 188) ist – nicht nur für die Sozialwissenschaften – zu konstatieren, dass eine „kritische Aufarbeitung konkreter Ansätze zur Formalisierung, Quantifizierung, Mathematisierung sozialwissenschaftlicher Prozesse mehr zur Klärung der Tragfähigkeit des logischmathematischen Paradigmas und der Reichweite logisch-mathematischer Kategorien in den Sozialwissenschaften beiträgt als das pauschale Reden von der NichtFormalisierbarkeit sozialwissenschaftlicher Prozesse“. Entscheidend ist nicht – wie bei Bortz u. Döring (2006) ausgeführt –, ob mit oder ohne Zahlen (also quantitativ oder qualitativ) gearbeitet wird, sondern welcher Gegenstand erforscht wird und welchen Status eine Untersuchung im Wissenschaftsprozess hat.
Neben der Frage nach der grundsätzlichen Bedeutung des Messens ist noch eine weitere methodologische Frage zu klären. Messoperationen in den Bio- und Humanwissenschaften beziehen sich nur z. T. auf deutlich zutage liegende Eigenschaften von „Dingen“ (Orth, 1974), nur z. T. auf so genannte manifeste Variablen. Häufig gelten sie angenommenen Eigenschaften, so genannten latenten Variablen oder hypothetischen Konstrukten. Zwar sind z. B. für Psychologen ebenso wie für Mediziner auch Eigenschaften von Bedeutung, die einer direkten Messung zugänglich sind, wie etwa die Körpergröße eines Schulkindes oder der Blutalkoholgehalt eines Angeklagten. Diese manifesten Variablen interessieren aber oft nur als Indikatoren für latente Variablen, beispielsweise für die Schulreife des Kindes oder die Schuldfähigkeit des Angeklagten.
Ist man an der Messung latenter Variablen interessiert, so bedarf es immer einer Theorie darüber, welche manifesten Variablen in welcher Art Indikatoren für interessierende latente Variablen sein können. Theorien über die Messung von latenten Variablen auf der Grundlage von Messoperationen an manifesten Variablen variieren in ihrer Komplexität erheblich. Einfache Theorien könnten z. B. davon ausgehen, dass die Addition der Messwerte manifester Variablen (etwa gelöster Testaufgaben) Auskunft über die Ausprägung einer latenten Variablen (z. B. der Intelligenz) geben. Komplexere Theorien könnten behaupten, dass der Wert einer Person auf einer faktorenanalytisch ermittelten Dimension – der sog. Faktorwert – die beste Auskunft über die Ausprägung einer latenten Variable gibt. Ein solcher Faktorwert würde in diesem Fall z. B. aus der Beantwortung von verschiedenen Fragen eines Fragebogens (den manifesten Variablen) mathematisch hergeleitet werden (vgl. dazu Loehlin, 1992).
Je stärker man im Forschungsprozess an Aussagen über latente Variablen (hypothetische Konstrukte) interessiert ist, um so wichtiger wird es, sich mit dem Problem auseinanderzusetzen, dass Messungen in Medizin, Soziologie, Biologie, Psychologie etc. in der Regel mit einem mehr oder weniger großen Messfehler behaftet sind. Dieses Problem leitet über zur Frage nach den Kriterien einer „guten“ Messung.

3.1.1 Gütekriterien des Messens
Grundsätzlich muss jede Messung bestimmte Kriterien – sog. Gütekriterien – erfüllen: Objektivität, Reliabilität und Validität.

60 Kapitel 3 · Datenerhebung und Datenaufbereitung

a) Unter Objektivität einer Messung versteht man, dass die Messoperation so weit

wie möglich unabhängig von (subjektiven) Einflüssen des Messenden erfolgen

muss bzw. dass 2 (oder mehrere) mit der Messung betraute Personen in ihren

Messergebnissen möglichst weitgehend übereinstimmen müssen. Eine Messung

ist objektiv, wenn verschiedene mit der Messung betraute Personen bei densel-

3

ben Messoperationen zu gleichen Ergebnissen kommen. Bei Messungen höherer Skalendignität (7 Abschn. 3.1.2) ist die Objektivität

definiert als die Korrelation zwischen den von 2 unabhängigen Personen an ei-

ner Stichprobe von N Untersuchungseinheiten durchgeführten Messungen (r

im parametrischen, rs im nicht parametrischen Fall (7 Abschn. 8.2.1), bei Messungen der niedrigsten Skalendignität als deren Kontingenz (7 Abschn. 8.1.3).

Die so definierte Objektivität sollte 0,9 erreichen oder nicht wesentlich unter-

schreiten; andernfalls ist der Messfehler zu Lasten mangelnder Objektivität un-

vertretbar hoch.

b) Unter Reliabilität einer Messung versteht man ihre Reproduzierbarkeit unter

gleichbleibenden Bedingungen, wobei Objektivität eine notwendige, wenngleich

nicht hinreichende Voraussetzung der Reliabilität darstellt. Die Reliabilität ist

in ihrer aus der klassischen Testtheorie hergeleiteten Definition (vgl. dazu z. B.

Lord u. Novick, 1968) nicht nur Ausdruck des Mess- und Registrierfehlers,

sondern auch Ausdruck zeitlicher Merkmalsfluktuation, wenn eine Zweitmes-

sung nicht unmittelbar nach der Erstmessung vorgenommen werden kann. Im

Unterschied zur Objektivität, die nur den Grad des Ablesungs- oder Bewer-

tungsfehlers angibt, gehen in die Reliabilität alle zufälligen Fehlerquellen der

Datengewinnung (z. B. Technik der Blutentnahme), der Datenverarbeitung (z. B.

Ausstrich und Färbung) und der Ablesung oder Bewertung (Auszählung der

Blutzellen) mit ein, ggf. auch Fehler der Primärfixation (im Krankenblatt), der

Datenbereitstellung (Datenbelege) und der Sekundärfixation (auf elektro-

nischen Datenträgern).

Bei quantitativen Messungen ist die Reliabilität als die Korrelation zwischen

2 unter gleichen Bedingungen durchgeführten Messungen definiert. Bei quali-

tativen Beobachtungen wird dazu der Kontingenzkoeffizient eingesetzt. Die so

definierte Reliabilität einer biologischen Beobachtung ist hoch, wenn sie 0,9 er-

reicht, sie ist zufriedenstellend, wenn sie 0,7 erreicht, und ausreichend, wenn

sie 0,5 erreicht. Je geringer die Reliabilität einer Beobachtung ist, um so mehr

Beobachtungen werden erforderlich sein, um ein statistisch signifikantes Er-

gebnis zu erzielen.

c) Unter Validität einer Messung versteht man den Grad, in dem eine Messung

dasjenige Merkmal der Untersuchungseinheit erfasst, das der Messende zu er-

fassen wünscht. Zur Abschätzung der Validität einer Messung wurden verschie-

dene Kriterien definiert, auf die hier im Einzelnen nicht eingegangen werden

kann. Die wichtigste Validitätsart ist die kriterienbezogene Validität, die als

Korrelation zwischen den Messungen und einem sinnvollen Außenkriterium

definiert ist. Diese Art der Validitätsprüfung ist um so bedeutsamer, je stärker

man an der Messung einer latenten Variablen interessiert ist, um so weniger es

sich also bei der durchgeführten Messoperation um eine sog. direkte Messung

(vgl. Koller, 1956) handelt.

3.1 · Theorie des Messens

61

3

Niemand wird bezweifeln, dass man mit der Stoppuhr die Geschwindigkeit eines Hundertmeterläufers valide messen kann oder mit der Waage das Körpergewicht eines Jugendlichen. Die Validität anderer Messungen, z. B. der Zeugnisnoten als Maß der Leistungsfähigkeit in Schulfächern, ist weniger evident. Ob man mit dem Zitterkäfig oder mit der Lauftrommel die Motilität von Ratten besser erfasst, ob man durch Krankheitstage oder durch Arbeitsplatzwechsel die Identifikation mit dem Arbeitsplatz zutreffender beurteilt, sind theoretische Fragen, deren Beantwortung einer ausführlichen Auseinandersetzung mit dem Verhältnis von Messoperation und zu messender Variable bedarf. Weiterführende Informationen findet man in der Literatur zur klassischen psychologischen Testtheorie, wie etwa bei Anastasi (1961), Cronbach (1961), Lienert u. Raatz (1998) oder Magnusson (1969).
3.1.2 Die Skalenniveaus
Im Anschluss an Stevens (1939) werden für die hierarchische Klassifikation von Messoperationen außerhalb der Naturwissenschaften üblicherweise 3 bzw. 4 sog. Skalenniveaus angenommen. Die niedrigste Stufe ist eine Zuordnung von Individuen zu qualitativ-attributiven, meist durch „Nomina“ bezeichneten Merkmalsklassen (Kategorien), zu einer Nominalskala. Die nächste Stufe besteht in einer Zuordnung von Individuen zu topologisch geordneten Klassen eines Merkmals, zu einer Ordinalskala. Die 3. Stufe ist schließlich diejenige, die wir aus dem Alltag als Messung kennen: Sie ermöglicht die Zuordnung der Individuen zu Intervallen einer äquidistant markierten Skala, zu einer Intervallskala.
Beispiele für eine Nominalskalenmessung sind: Klassifikation von Versuchstieren nach ihrem Geschlecht, Einordnung von Werktätigen in Berufskategorien, Gruppierung von Kranken nach nosologischen Einheiten.
Beispiele für eine Ordinalskalenmessung wiederum sind die Einstufung von Bewerbern um eine Lehrstelle nach ihrem Schulabschluss (Sonder-, Haupt-, Realschul- oder Gymnasialabschluss) oder das Ergebnis einer Agglutinationsprobe (negativ, fraglich, positiv). In diesen Beispielen wurde die Zahl der Merkmalsstufen k als stets kleiner als die Zahl der Individuen N angenommen; jede Stufe kann also mehr als ein Individuum enthalten. Man kann bei genügender Differenzierung des Merkmals aber auch so viele Stufen bilden, wie Individuen vorhanden sind, z. B. die Schüler einer Klasse nach dem Grade ihrer Mitarbeit in eine Rangreihe bringen oder Jungtiere nach der Tönung ihres Fells ordnen etc.
Beispiele für eine Intervallskalenmessung müssen kaum angeführt werden; hierher gehören Messungen der Wärmegrade nach Celsius. Auch Testergebnisse psychologischer Tests werden in der Praxis oft als intervallskaliert angesehen, was allerdings nicht unumstritten ist (vgl. Gutjahr, 1972). Mit Intervallskalen können wir je nach Präzisionsbedürfnis mehr oder weniger „genau“ messen, wobei wir mehr oder weniger große Messintervalle bilden und feststellen, in welches Intervall ein Individuum gehört.
Stevens (1939) hat außer den 3 genannten noch eine 4. hierarchisch höherstehende Messoperation definiert: Die sog. Verhältnisskalenmessung, zu der u. a. alle Messungen im Zentimeter-Gramm-Sekunden-System gehören. Die Verhältnisskala („ratio scale“) unterscheidet sich von einer Intervallskala dadurch, dass sie zusätzlich zur Intervallgleichheit einen „wahren“ Nullpunkt besitzt. Man kann sich den Unterschied zwischen Verhältnisskala und Intervallskala am besten anhand der Temperaturmessung veranschaulichen: Die Celsius-Skala hat einen willkürlich festgelegten Nullpunkt, definiert durch die Temperatur der Eisschmelze; die Kelvin-

62 Kapitel 3 · Datenerhebung und Datenaufbereitung

Skala dagegen hat einen absoluten Nullpunkt (–273 8C). Die Kelvin-Skala erlaubt

es, Verhältnisse von Messwerten zu bilden, also etwa festzustellen, ein Metall-

körper von 273 8 Kelvin (= 0 8 Celsius) sei halb so „heiß“ wie ein solcher von 546 8

Kelvin (= 273 8 Celsius), was bei der Celsius-Skala nicht sinnvoll ist. Alle so oder

ähnlich gebildeten Verhältniswerte setzen also voraus, dass die beteiligten Skalen

3

einen absoluten Nullpunkt besitzen. Verhältnis- und Intervallskalenmessung wollen wir mit einem gemeinsamen

Oberbegriff als Kardinalskalenmessungen bezeichnen, da ihre Unterscheidung für

die Anwendung statistischer Tests ohne Belang ist.

3.1.3 Informationsgehalt von Skalen
Um das bisher Gesagte etwas strenger zu fassen, wollen wir versuchen zu spezifizieren, welche formalen Bedingungen erfüllt sein müssen, um eine bestimmte Stufe der Messung zu erreichen. Messung ist nach Stevens (1939) definiert als die Zuordnung von Zahlen oder Symbolen zu Objekten (Individuen) gemäß bestimmten Vorschriften; diese Zuordnung konstituiert, je nachdem welche Vorschrift gegeben wird bzw. eingehalten werden kann, Skalen verschiedenen Niveaus, die ihrerseits Abbildungen der Merkmalsvarianten auf die reellen Zahlen darstellen. a) Wenn wir die Spezies einer Tiergattung statt mit Namen mit Zahlen bezeich-
nen (Nominalskala), so kommt darin nicht mehr zum Ausdruck, als dass sich ein Tier mit dem Skalenwert 1 von einem mit dem Skalenwert 2 und ebenso von einem mit dem Wert 3 unterscheidet; die Information, die die Zahlen vermitteln, ist gering in Bezug auf das untersuchte Merkmal „Spezies“. b) Wenn wir Amtsbezeichnungen von Beamten als Stufen einer Ordinalskala mit Zahlen belegten (Studienrat = 1, Oberstudienrat = 2, Studiendirektor = 3 usw.), so besitzen diese Zahlen bereits erheblich mehr Informationsgehalt: Wir wissen nicht nur, dass sich 2 Personen mit den Skalenwerten 1 und 3 unterscheiden, sondern auch, dass die Person mit dem Skalenwert 3 rangmäßig über der mit dem Skalenwert 1 steht. c) Noch mehr Informationen liefert die Numerik einer Intervallskala: Wenn ein Kind einen Intelligenzquotienten von 80, ein anderes einen solchen von 100 und ein drittes einen von 140 besitzt, so wissen wir damit – wenn wir den Grundannahmen der traditionellen Intelligenzdiagnostik folgen – nicht nur, dass das erste Kind schwach begabt, das zweite durchschnittlich begabt und das dritte Kind hoch begabt ist; wir wissen auch, dass das zweite Kind hinsichtlich der Begabung vom dritten doppelt so weit entfernt liegt wie vom ersten. Wir dürfen aber daraus nicht folgern, das dritte Kind sei 1,75-mal so intelligent wie das erste, denn die Intelligenzquotientenskala hat als Intervallskala keinen absoluten Nullpunkt. d) Den höchsten Informationsgehalt hat eine Verhältnisskala: Messungen von Längen, Gewichten oder Zeiten sind solcher Art. Messen wir z. B. die „Schrecksekunden“ dreier Führerscheinanwärter (A, B, C) und finden, dass A eine Reaktionszeit von 0,1, B von 0,2 und C von 0,4 s benötigt, um ein Gefahrensignal zu beantworten, so haben wir folgende Informationen: A, B und C unterschei-

3.1 · Theorie des Messens

63

3

den sich hinsichtlich ihrer Reaktionszeit (Nominalskaleninformation), sie bilden eine Rangordnung, denn A reagiert schneller als B und B reagiert schneller als C (Ordinalskaleninformation), sie haben ferner definierte Abstände, denn der Unterschied zwischen den Reaktionszeiten von B und C ist doppelt so groß wie zwischen denen von A und B (Intervallskaleninformation) und sie bilden sinnvolle Relationen, denn die Reaktionszeiten von A zu B und B zu C verhalten sich wie 1 zu 2, von A zu C wie 1 zu 4 (Verhältnisskaleninformation).

3.1.4 Konstituierungsmerkmale für Skalen

Kennzeichnend für eine Nominalskala ist: a) dass zwischen den Merkmalswerten Il, . . ., Ii, . . ., Ij, . . ., IN der einzelnen Indivi-
duen nur Gleichheits- und Ungleichheitsrelationen bestehen:
Ii = Ij oder Ii = Ij ,
b) dass erschöpfende und einander ausschließende Merkmalskategorien il, . . . , ik definiert worden sind, so dass jedes Individuum in eine und nur in eine Kategorie einzuordnen ist,
c) dass jede Kategorie mehr als ein Individuum enthalten kann.
Durch die Bedingung c) wird der Normalfall einer sog. gruppierten Nominalskala, d. h. einer Gruppierung von N Individuen in meist weniger als N Klassen (k), konstituiert. Muss man so viele Klassen bilden, wie Individuen vorhanden sind, also k = N festsetzen, so liegt der Grenzfall einer sog. singulären Nominalskala vor, dem keine praktische Bedeutung zukommt.
Kennzeichnend für eine Ordinalskala ist:
a) dass zwischen den Werten Il, . . ., IN der einzelnen Individuen Ordnungsrelationen bestehen derart, dass
Ii = Ij oder Ii < Ij oder Ii > Ij,
b) dass erschöpfende und einander ausschließende Merkmalsstufen il, . . ., ik definiert worden sind, die eine Rangordnung il < . . . < ik bilden,
c) dass die Anzahl der Stufen gleich groß oder kleiner als die Anzahl der Individuen ist (Genaueres hierzu vgl. Pfanzagl, 1959).
Die Kennzeichnung c) unterscheidet zwischen der gruppierten und der singulären Ordinalskala (k = N). Letzterer kommt große praktische Bedeutung für die meisten verteilungsfreien Tests zu. Der Fall der Ranggleichheit, Ii = Ij, kommt nur im Rahmen einer gruppierten Skala vor; im Fall der singulären Skala ist er ausgeschlossen.
Kennzeichnend für eine Kardinalskala ist:
a) dass neben der Bedingung a) für ordinalskalierte Daten die Ordnungsrelation der Ordinalskala auch für je zwei Paare Ii, Ij und Im, In gilt (Ordnungsaxiom):

Ii + Ij = Im + In oder Ii + Ij ` Im + In oder Ii + Ij b Im + In Y

2

2

2

2

2

2

64 Kapitel 3 · Datenerhebung und Datenaufbereitung

wobei statt des Mittelwerts auch eine andere Beziehung verwendet werden kann,

b) dass der Mittelwert der Mittelwerte zweier Paare Ii, Ij und Im, In gleich dem Mittelwert derjenigen Paare ist, bei denen die Paarlinge symmetrisch ver-

tauscht sind (Bisymmetrieaxiom),

c) dass möglichst wenig Gleichheitsrelationen resultieren: Frequenz (Ii = Ij) = Mini-

3

mum (Präzisionsforderung), dass also die äquidistanten Merkmalsintervalle il . . . ik so klein gewählt werden, wie es die Präzision des Messinstrumentes zu-

lässt.

Auch hier unterscheidet man, je nachdem ob ein Wert mehrfach auftreten kann oder nicht, zwischen gruppierten und singulären Messungen bzw. zwischen stetiger und diskreter Kardinalskala. Letztere liegt besonders bei Zählwerten vor, bei Messwerten also, die durch Abzählung entstehen.

3.1.5 Zulässige Skalentransformationen

Definiert man die Stevensschen Skalen danach, welche Transformationen zulässig sind, ohne dass dadurch der Informationsgehalt der Messungen verändert wird, so lässt sich in aller Kürze zusammenfassen:

a) Nominalskalen sind Skalen, die gegenüber allen umkehrbar eindeutigen Transformationen invariant sind; z. B. gilt für die Berufsgruppen der Handwerker:

Maurer 1

Bautischler
2

Dach-

Maurer

decker

3

?

2

Transformation

Bautischler
1

Dachdecker
3

wie auch jede andere numerische Zuordnung, bei der nicht 2 verschiedene Berufe eine gleiche Nummer erhalten. b) Ordinalskalen sind Skalen, die nur gegenüber monotonen Transformationen invariant sind. Eine Transformation y = f(x) heißt monoton steigend, wenn eine Vergrößerung des x-Wertes mit einer Vergrößerung des y-Wertes einhergeht; sie heißt monoton fallend, wenn mit größer werdendem x-Wert der y-Wert kleiner wird. Zum Beispiel ist es für die Anordnung der Planeten nach der Größe nicht von Bedeutung, ob sie nach dem Durchmesser oder nach dem Volumen angeordnet werden (Kugelgestalt vorausgesetzt), da das Volumen eine monoton steigende Funktion des Durchmessers ist. c) Kardinalskalen sind Skalen, die nur gegenüber linearen Transformationen invariant sind, was z. B. für die Umrechnung von Zentimeter in Zoll, von Celsius in Fahrenheit-Grade oder von einer Zeitrechnung in eine andere zutrifft.

Will man zwischen Intervall- und Verhältnisskalen ebenfalls durch Angabe der zulässigen Transformationsart unterscheiden, so gilt für Intervallskalen die Transformation: y = bx + a und für Verhältnisskalen die Transformation: y = bx (für b = 0).
Bei Verhältnisskalen sind also nur lineare Transformationen ohne die additive Konstante (d. h. Streckungen oder Stauchungen) zugelassen, wie etwa bei der Umrechnung von Zentimeter in Zoll.

3.1 · Theorie des Messens

65

3

Da die Konstituierung einer Skala aus den Vorschriften für die Messoperation erfolgt, entscheiden diese Vorschriften und ihre Realisierbarkeit über das jeweilige Skalenniveau von Daten. Auch wenn dies dem Leser trivial erscheinen mag, so ist doch immer wieder hervorzuheben, dass die Tatsache, dass numerische Werte gewonnen worden sind, noch keinesfalls das Vorliegen einer kardinalskalierten Messung verbürgt. Das gilt insbesondere für Daten, die von dritter Seite erhoben wurden, ohne dass der Informationsgehalt der Messung nachträglich noch eindeutig feststellbar wäre. Man muss in der Biologie und in den Humanwissenschaften stets damit rechnen, dass numerische Werte nur Ausdruck einer ordinal-, nicht aber einer kardinalskalierten Messung sind.

3.1.6 Festlegung des Skalenniveaus
Mit der Frage der Bewertung des Skalenniveaus psychologischer Messungen setzt sich besonders ausführlich Gutjahr (1972) auseinander. Festzuhalten ist, dass Messen nie ein rein technisches, sondern stets zugleich ein theoretisches Unterfangen ist. Die Bedeutung dieses Satzes wollen wir an einem Beispiel verdeutlichen:
Wüsste man nahezu nichts über das System deutscher Schulabschlüsse, müsste man den Sonderschul-, den einfachen Hauptschul-, den Realschul-, den Gymnasialund den Hochschulabschluss als nominalskalierte Messungen von Bildungsabschlüssen ansehen. Dieses bräuchte uns dennoch nicht davon abzuhalten, den Abschlüssen Zahlenwerte zuzuordnen, etwa Sonderschule = 0, Hauptschule = 1, Realschule = 2, Gymnasium = 3, Hochschule = 4; nur könnte man beim Vergleich von Messwerten einzelner Personen nur Gleich-ungleich-Aussagen machen. Größer-kleiner-Aussagen und Unterschieds-(Differenz-)Aussagen wären hingegen unzulässig.
Geht in die Messüberlegungen z. B. auch das gesellschaftliche Prestige der Schulabschlüsse ein, so lässt es sich in unserem Beispiel durchaus vertreten, von einem ordinalskalierten Merkmal „Bildungsgrad“ zu sprechen. Aussagen wie die, der Realschulabschluss sei höherwertig als der Sonderschulabschluss, sind auf diesem Skalenniveau zulässig, nicht jedoch die Aussage, der Gymnasialabschluss wäre dem Hauptschulabschluss um genausoviel überlegen wie der Real- dem Sonderschulabschluss.
Gelänge es nun ferner, anhand statistischer Daten zu belegen, dass die Skalenwerte des Merkmals „Bildungsgrad“ auch relativ exakt die Verdiensterwartungen der Befragten widerspiegeln, so könnte man das Merkmal auch als intervallskaliert auffassen. Würden z. B. Sonderschulabsolventen im Durchschnitt EUR 1200,–, Hauptschulabsolventen EUR 1900,–, Realschulabsolventen EUR 2700,– etc. verdienen, so spräche nichts dagegen, die Messung mit ihren möglichen Werten 0, 1, 2, 3 und 4 als intervallskaliert zu betrachten.
Die Art der Messoperation und ihre theoretische Begründung entscheidet über die Skalendignität einer Messung, nicht die Zuordnung von numerischen Werten zu Eigenschaften von Objekten. Auch typischerweise als nominalskaliert angesehene Merkmale wie Haarfarbe oder Geschlecht lassen sich durchaus auf einem höheren Skalenniveau messen, beispielsweise anhand der Wellenlänge oder eines Androgynitätsfragebogens nach der Theorie von Bem (1974). Andererseits sagt die rechnerische Durchführbarkeit von Operationen, die kardinale Messungen erfor-

66 Kapitel 3 · Datenerhebung und Datenaufbereitung

dern, noch nichts über die tatsächliche Skalendignität aus. Allgemein gilt der klas-

sische Satz von Lord: „The numbers do not know where they come from“ (1953,

S. 751). Gerade weil man jedoch mit Zahlen „alles“ machen kann, ist es für den

wissenschaftlichen Entscheidungsprozess unabdingbar, die Frage nach dem Niveau

der Messung eines Merkmals vor der Durchführung statistischer Tests und nicht

3

erst im Lichte der Ergebnisse zu beantworten. Die Festlegung des richtigen Skalenniveaus ist kein statistisches, sondern ein

interpretatives Problem. Es ist eine Sache zu überprüfen, ob das Datenmaterial

den mathematisch-statistischen Voraussetzungen eines Tests (parametrisch oder

verteilungsfrei) genügt. Darüber wird in 7 Kap. 4 zu sprechen sein. Eine andere

Sache hingegen ist es festzustellen, dass z. B. Differenzen oder Mittelwerte nomina-

ler Messungen nichtssagend bzw. uninterpretierbar sind, obwohl die Voraussetzun-

gen eines statistischen Tests (z. B. normalverteilte und varianzhomogene Fehler-

anteile) erfüllt sein können. (Weitere Einzelheiten zu dieser Problematik findet

man bei Gaito, 1980.)

Die Festlegung des Skalenniveaus hängt von der Art der Operationalisierung

des untersuchten Merkmals ab, die ihrerseits durch die Genauigkeit der Kenntnis-

se oder theoretischen Annahmen über das zu messende Merkmal bestimmt ist.

Können wir z. B. sagen, eine Person sei deshalb ängstlicher, weil sie für mehr Si-

tuationen Angst eingesteht als eine andere Person, oder müssen wir die Angststär-

ke nach der Gewichtigkeit des Anlasses zur Ängstlichkeit einstufen? Wissen wir

darüber nichts, sind nur nominale Vergleiche zulässig. Eine hinreichende Vor-

kenntnis mag ordinale Einstufungen zulassen. Erst eine gründliche Überprüfung

eines Messinstrumentes für Angst jedoch rechtfertigt es etwa, eine lineare Bezie-

hung des Angstmaßes und der Intensität bestimmter Vermeidungsreaktionen und

damit eine Intervallskala anzunehmen. Die Skalenqualität einer Messung ist also

letztlich von theoretischen Entscheidungen abhängig.

3.2 Arten von Ausgangsdaten
Jedes statistische Prüfverfahren geht von empirisch gewonnenen Daten aus, seien dies Ergebnisse eines Experimentes, einer Beobachtung, eines Tests oder einer Befragung. Im Allgemeinen gilt die Regel: Je strenger die Bedingungen, unter denen die Datenerhebung vonstatten geht, um so höher wird die Präzision der Messung ausfallen. Dagegen hängt das Niveau der Messung – ob also Nominal-, Ordinal- oder Kardinaldaten anfallen – von der jeweiligen operationalen Definition des untersuchten Merkmals ab. Welche Arten von Daten unter den jeweiligen Skalenniveaus in einer Untersuchung anfallen können, ist Gegenstand des folgenden Abschnittes.
3.2.1 Nominalskalierte Daten
Zweiklassenhäufigkeiten
Nominale Merkmale werden im einfachen Fall zweier Klassen dadurch erfasst, dass man auszählt, wieviele Individuen einer Stichprobe in die eine Klasse fallen

3.2 · Arten von Ausgangsdaten

67

3

und wieviele in die andere. Man gewinnt auf diese Weise eine zweiklassige Häufigkeitsverteilung des betreffenden Merkmals.
Zweiklassige Merkmale bezeichnet man auch als Alternativ- oder als dichotome Merkmale. Von einer natürlichen Dichotomie sprechen wir, wenn das Merkmal in der Population tatsächlich nur in 2 Ausprägungen auftreten kann (Überleben oder Tod eines Versuchstieres, männliches oder weibliches Geschlecht, Paarhufer oder Unpaarhufer etc.). Künstliche Dichotomien haben Ordinalskalencharakter und sind deshalb informativer als natürliche Dichotomien. Hier liegt in der Population ein stetig verteiltes Merkmal vor, das künstlich in 2 Klassen geteilt wird (ein Lehrstellenbewerber ist geeignet oder ungeeignet, ein Kind hat Schulreife oder nicht, die Zahl der weißen Blutkörperchen ist „normal“ oder „erhöht“ etc.).
Mehrklassenhäufigkeiten
Nominalskalenmerkmale, die 3 oder mehr (k) Klassen (Kategorien) konstituieren, wie Körperbau (leptosom, pyknisch, athletisch), Blutgruppen (A, B, AB, 0), Getreidesorten oder Hunderassen – man nennt sie auch „attributive Merkmale“ –, liefern mehrklassige Häufigkeitsverteilungen. Das Gleiche gilt für diskrete, gruppiertordinale Merkmale, wie Haupt-, Real- und Gymnasialabschluss oder Opaleszenz, Trübung, Flockung und Sedimentierung bei biologischen Tests – man nennt sie auch „graduierte“ Merkmale –, sowie für stetige, aber nur in Klassen erfasste polychotome Merkmale, wie Blond-, Braun- und Schwarzhaarigkeit, Kurz-, Normalund Weitsichtigkeit oder Altersklassen (Säugling, Kleinkind, Kindergartenkind, Schulkind, Jugendlicher, Erwachsener).

3.2.2 Ordinalskalierte Daten
Ordinaldaten können – so haben wir festgestellt – wie Nominaldaten erhoben werden, wenn ein graduiertes Merkmal zugrunde liegt. Wie gewinnen wir aber Ordinaldaten, die die Voraussetzungen einer singulären Skala erfüllen? Dazu muss vorausgesetzt werden, dass das Merkmal in der Population der Merkmalsträger stetig verteilt ist. Die Festlegung der Rangplätze kann dann subjektiv oder objektiv erfolgen.
Objektive Rangreihen
Eine sog. objektive Rangreihe setzt voraus, dass N Individuen (oder Objekte) entlang einer Kardinalskala so genau gemessen worden sind, dass gleiche Messwerte nicht auftreten. Man bildet sie in der Weise, dass man die N Messwerte in N Rangzahlen umwandelt, wobei vereinbarungsgemäß dem niedrigsten Messwert die Rangzahl 1 und dem höchsten die Rangzahl N zugeordnet werden soll. Aus der Verfahrensvorschrift ist ersichtlich, dass der Umfang der Stichprobe (N) nicht begrenzt zu werden braucht, wenn nur die Messungen so präzise sind, dass keine numerisch gleichen Messwerte (Verbundwerte, Bindungen, „ties“) vorkommen. Treten solche aber auf, dann stellt sich für eine objektive Rangreihe ein besonderes Problem, auf das wir auf 7 S. 69 f. zurückkommen.
Eine besondere Form der objektiven Rangreihe, bei der keine vorab erhobenen, kardinalskalierten Messungen vorliegen, ist die sog. originäre Rangreihe, wie

68 Kapitel 3 · Datenerhebung und Datenaufbereitung

sie etwa bei Sportturnieren entsteht. Wird z. B. ein Badmintonturnier nach dem System „doppeltes K.O. mit Ausspielung aller Plätze“ durchgeführt, entsteht als Ergebnis eine Rangreihe von 1 bis N, vom Sieger bis zum Letztplazierten, ohne dass das fiktive Merkmal „Spielstärke“ auf einer Kardinalskala gemessen worden wäre.

3

Subjektive Rangreihen

Eine subjektive Rangreihe gewinnt man durch Anwendung subjektiver Schätzver-

fahren auf Merkmale, die nicht direkt Messbar sind oder nicht gemessen werden.

In der Regel wird gefordert, dass diese Schätzung für alle N Individuen (oder Ob-

jekte) vom selben Beurteiler vorgenommen wird, der als kompetent für die Beur-

teilungen des betreffenden Merkmals anerkannt sein soll. Die Beurteilung kann

dabei in 2facher Weise vorgenommen werden:

a) Bei kleinem Stichprobenumfang (N) und ausgeprägter Merkmalsdifferenzierung wird eine subjektive Rangordnung direkt nach Augenschein hergestellt.
b) Bei größerem N und/oder geringerer Merkmalsdifferenzierung wird die Methode des Paarvergleiches angewendet, um so eine subjektive Rangordnung indirekt herzustellen, eine Methode, die auf Fechner (1860) zurückgeht und die von Thurstone (1927) zur Skalierungsmethode ausgebaut wurde. Sie besteht darin, dass man die N Merkmalsträger paarweise miteinander vergleicht – also N(N – 1)/2 Paarvergleiche durchführt und jeweils für den Paarling, der das Merkmal in stärkerer Ausprägung besitzt, eine 1 signiert; bei Gleichheit (oder Nichtunterscheidbarkeit nach dem Augenschein) wird für jeden Paarling der Wert 1/2 vergeben. Dann summiert man die Paarvergleichswerte je Merkmalsträger und verfährt mit ihnen wie mit Messwerten bei objektiver Rangreihung.

Bei der Erstellung subjektiver Rangreihen empfiehlt es sich, mehrere Beurteiler – ein Beurteilerkollektiv – heranzuziehen, um die interindividuellen Unterschiede in Wahrnehmung und Bewertung möglichst weitgehend auszuschalten. Dabei werden die Medianwerte (7 Abschn. 3.3.2) der ermittelten Rangzahlen, die die m Beurteiler an jeweils einen Merkmalsträger vergeben haben, als beste Schätzungen der wahren Merkmalsausprägungen betrachtet, d. h. die Merkmalsträger werden nach diesen Medianwerten in eine Rangreihe gebracht. Der Grad der Übereinstimmung zwischen den Beurteilern kann dabei über Konkordanz- oder Übereinstimmungskoeffizienten geprüft werden (7 Kap. 9). Treten vereinzelt gleiche Medianwerte auf, sollte auf diese gleichrangigen Merkmalsträger erneut ein Paarvergleichsverfahren angewendet werden.
Andere Methoden der Rangskalierung sind bei Torgerson (1962), Guilford (1954) oder Kendall (1948) beschrieben.

Gelegentlich lassen sich auch sog. semiobjektive Rangreihen erstellen, indem man den subjektiven Eindruck von der Merkmalsausprägung durch objektivierbare Kriterien zu stützen sucht. Dies geschieht z. B., wenn man das Gedeihen eines Jungtieres nach Gewicht, Motilität, Fellbeschaffenheit etc. im Vergleich zu anderen Jungtieren beurteilt oder wenn man sich bemüht, den Grad der vegetativen Labilität eines Patienten nach dem Ergebnis verschiedener mehr oder weniger objektiver Proben einzustufen. Oft werden sog. Punkteskalen zur Einstufung verwendet. Liegen Punktbeurteilungen hinsichtlich mehrerer Merkmale vor – wie im Fall des Jungtieres –, so kann behelfsweise ein Gesamtpunktwert erstellt werden, der dann als „QuasiMesswert“ die Grundlage für eine „objektive“ Rangordnung liefert.

3.2 · Arten von Ausgangsdaten

69

3

Rangreihen mit gleichen Rangplätzen
Nicht immer gelingt es, eine eindeutige Rangordnung aufzustellen, insbesondere dann, wenn die kardinalen Messungen, auf der eine objektive Rangreihe basiert, diskret sind bzw. wenn einzelne Individuen hinsichtlich der Ausprägung des untersuchten Merkmals ohne Zuhilfenahme weiterer Informationen nicht zu unterscheiden sind. Dieser Umstand wäre kaum weiter beachtenswert, wenn nicht etliche verteilungsfreie Tests ausdrücklich eine eindeutige Rangreihung voraussetzen würden. Wie verfahren wir nun, um dieser Forderung wenigstens im Grundsatz gerecht zu werden?
Die in solchen Fällen am häufigsten verwendete Methode ist die der Rangaufteilung: Dabei teilt man den merkmalsgleichen Individuen das arithmetische Mittel derjenigen Rangwerte zu, die sie im Falle ihrer Unterscheidbarkeit erhalten hätten. Wie dies vor sich geht, sei an einem Beispiel illustriert: Angenommen, wir könnten von 18 Individuen 2 mit niedriger Merkmalsausprägung, 4 mit durchschnittlicher Merkmalsausprägung und 3 mit hoher Merkmalsausprägung nicht unterscheiden, dann würden sich – wenn wir jedes Individuum durch einen Kreis symbolisieren – die in . Abb. 3.1 dargestellten Rangaufteilungen ergeben.

. Abb. 3.1. Symbolisierte Darstellung von Rangaufteilungen

Die übereinanderstehenden Kreise entsprechen Individuen mit nicht unterscheidbarer Ausprägung des Merkmals. Wir berechnen die mittleren Rangplätze wie in . Tab. 3.1 angegeben.
Daraus ergibt sich eine Rangordnung mit 3 Aufteilungen zu 2, 4 und 3 Rängen: 1 2 3,5 3,5 5 6 8,5 8,5 8,5 8,5 11 12 13 15 15 15 17 18.
Obwohl die auf Rangordnungen aufbauenden Prüfverfahren eine eindeutige Rangreihung voraussetzen, sind viele von ihnen dahingehend modifiziert worden, dass sie nahezu ebenso exakt auf Rangaufteilungen angewendet werden können.

. Tabelle 3.1

10

9

16

4

8

15

123

56

7

11 12 13 14

17 18

7/2 = 3,5

34/4 = 8,5

45/3 = 15

Sind Rangaufteilungen für ein Verfahren ausgeschlossen, muss man sich für eine der folgenden Rangordnungsmethoden entscheiden:

70 Kapitel 3 · Datenerhebung und Datenaufbereitung

Methode der Randomisierung. Man lässt hier den Zufall die „wahre“ Rangordnung bestimmen, etwa indem man den ranggleichen Individuen (oder Objekten) zufällige Ränge (mit Hilfe von Zufallszahlen, Münz- oder Würfelwurf) zuteilt. Diese Methode der Zufallsrangordnung bei gleicher Merkmalsausprägung entspricht zwar dem statistischen Konzept der Prüfgrößenverteilung unter H0 am besten (7 z. B. S. 202), doch bringt sie ein weiteres, unter Umständen nicht unproblematisches Zufallselement in die Daten.

3

A-fortiori-Methode. Methode besteht darin, dass man diejenige Rangzuordnung wählt, die die Nullhypothese begünstigt und also im Falle ihrer „Dennoch-Ablehnung“ einer Entscheidung a

fortiori gleichkommt. Man beachte, dass hier das Risiko 2. Art erhöht ist.

Pro-und-Kontra-Technik. Hier wird einmal eine Rangordnung zugunsten, das andere Mal eine Rangordnung zuungunsten der Nullhypothese gebildet und auf beide Rangordnungen der vorgesehene Test angewendet. Wird H0 in beiden Fällen beibehalten oder verworfen, dann hat der Test unbeschadet etwaiger Unstetigkeiten der Merkmalsverteilung Aussagekraft. Im anderen Fall muss man sich allerdings mit einem uneindeutigen Testergebnis begnügen, das keine Aussage über die Gültigkeit von H0 oder H1 zulässt.

Durchschnittliche Überschreitungswahrscheinlichkeiten. Liegen nur wenige paar-, tripel- oder
n-tupelweise gleiche Merkmalswerte vor, dann kann man auch so vorgehen, dass man die Prüfgröße für alle möglichen Anordnungen bestimmt, die zugehörigen Überschreitungswahrscheinlichkeiten Pi ermittelt und daraus einen Durchschnitt P" bildet. Diese Methode liefert jedoch oft weit auseinanderklaffende Pi-Werte, abgesehen davon, dass sie schon bei vereinzeltem Auftreten von gleichen Merkmalswerten höchst unökonomisch ist.

3.2.3 Kardinalskalierte Daten
Intervallskalen und Verhältnisskalen bezeichneten wir auf 7 S. 62 zusammenfassend als Kardinalskalen. Verteilungsfreie Verfahren zur Auswertung von kardinalen Daten wurden bislang – im Vergleich zu Verfahren für ordinale oder nominale Daten – kaum entwickelt. Für die Auswertung derartiger Daten kommen – zumal bei größeren Stichprobenumfängen – in erster Linie parametrische Verfahren in Betracht. Die wenigen wichtigen verteilungsfreien Techniken werden zusammenfassend in 7 Kap. 7 und in 7 Abschn. 11.4 dargestellt. Spezielle Datenprobleme (identische Messungen, Nullmessungen) werden wir im Kontext der einzelnen Verfahren erörtern.
Mit besonderen Problemen muss man rechnen, wenn man Messwertdifferenzen als Veränderungswerte statistisch analysieren will. Da eine gründliche Behandlung dieser Thematik weit über den Rahmen eines Statistikbuches über verteilungsfreie Verfahren hinausgehen würde, sei der Leser auf Spezialliteratur verwiesen (z. B. Petermann, 1978; Cronbach u. Furby, 1970; Swaminathan u. Algina, 1977; Zielke, 1980; Tack et al., 1986; Guthke u. Wiedl, 1996; Asendorpf u. Valsiner, 1992).

3.3 Graphische und numerische Darstellung empirischer Daten
3.3.1 Die Häufigkeitsverteilung
Wir wenden uns nun der Frage zu, wie Messwerte aus Stichproben so darzustellen sind, dass die Darstellung erstens erkennen lässt, welchem Verteilungstyp die Messungen folgen, und zweitens von subjektiven Beeinflussungen seitens des Messenden möglichst frei ist. Das 1. Ziel betrifft kardinale und nichtkardinale Messungen, das 2. Ziel ist nur für kardinale Messungen relevant, bei denen sich die Aufgabe stellt, Einzelwerte zu Klassen zusammenzufassen, um sie als Häufigkeitsverteilung darstellen zu können.

3.3 · Graphische und numerische Darstellung empirischer Daten

71

3

Haben wir an einer großen Stichprobe von N Individuen ein kardinalskaliertes Merkmal, z. B. Gewichtswerte, gemessen, so stellt sich zunächst die Frage, in wieviele gleich große Klassenintervalle k wir die Reihe der Messwerte einteilen sollen, um weder ein zu grobes noch ein zu detailliertes Bild von der Verteilung der Messwerte über den k Intervallklassen zu gewinnen. Meist heißt es, man solle 10 £ k £ 20 wählen, womit aber eine subjektive Epnts cheidung verbunden ist. Dem lässt sich vorbeugen, wenn man vereinbart, k = N (ganzzahlig gerundet) festzusetzen, womit eine objektive Entscheidung über k durch N herbeigeführt wird, die mit der Empfehlung, 10 £ k £ 20 zu wählen, durchaus im Einklang steht, sofern N nicht zu klein oder (was seltener der Fall ist) zu groß ist.
Sodann stellt sich die weitere Frage, wo das erste Klassenintervall beginnen und wo das letzte enden soll, denn auch diese Entscheidung verhindert – sofern sie subjektiv gefällt wird – die Konstruktion einer objektiven Häufigkeitsverteilung. Zwecks objektiver Beantwortung dieser Frage folgen wir einer Empfehlung von Lewis (1966), der vorschlägt, die Größe bzw. Breite eines Klassenintervalls J und den Beginn des ersten sowie das Ende des letzten Intervalls über folgende Formel zu bestimmen, nachdem man die Zahl k der Intervalle festgelegt hat:

J = M m k 1p + Y + y X k

3X1

Darin bedeutet M die größte, m die kleinste der N Beobachtungen, k die Zahl und J die Größe der Intervalle, Y den Betrag, um den das obere Skalenende über der höchsten Beobachtung, und y den Betrag, um den das untere Skalenende unter der niedrigsten Beobachtung liegt, wobei Y = y = (Y + y)/2, wenn (Y + y) gradzahlig ist; schließlich ist p die Präzision der Beobachtungen, wobei z. B. p = 0,001 ist, wenn auf 3 Dezimalstellen genau beobachtet wurde.
Durch die Einführung eines Verbindungsintervalls der Größe p zwischen aufeinander folgenden Intervallklassen umgeht man noch eine weitere Schwierigkeit, die einer objektiven Definition der Häufigkeitsverteilung von Messwerten entgegensteht, nämlich die, dass einzelne Messwerte mit den Klassengrenzen zusammenfallen und dann – nach subjektiver Entscheidung – entweder zur darunteroder zur darüberliegenden Klasse geschlagen werden. Wie Gl. (3.1) anzuwenden ist, zeigt das folgende Klassifizierungsbeispiel:

Beispiel 3.1
Aufgabe: Es soll festgestellt werden, ob die Serumkalziumwerte (mg/100 ml) von zufällig ausgewählten Erwachsenen normalverteilt sind.
Ergebnisse: Die Kalziumwerte wurden an N = 100 gesunden Erwachsenen bestimmt, und zwar auf 2 Dezimalstellen genau, so dass das Verbindungsintervall p = 0,01 beträgt. Die Ergebnisse der Bestimmung sind in der Reihenfolge ihrer Erhebung in . Tab. 3.2 verzeichnet.
Die Spalte R gibt die Rangfolge der N = 100 Beobachtungen an. Wir benötigen diese Rangfolge später z. B. für die Berechnung von Perzentilen (7 S. 75).
Konstruktion der Intervallklassen: Da die Zahl depr Beobachtungen N = 100 beträgt, setzen wir die Zahl der Intervallklassen mit k = 100 = 10 an. Der höchste Mess-

72 Kapitel 3 · Datenerhebung und Datenaufbereitung

. Tabelle 3.2 (aus Lewis 1966, S. 21)

R

R

R

10,46 68

10,06 52

11,49 94

11,39 91

10,91 81

11,18 87

11,37 90

9,52 31

8,62

9

3

11,39 92

11,79 96

9,89 49

9,72 42

8,81 12

10,66 77

10,20 57

10,16 54

12,27 98

10,77 79

10,38 64

9,49 29

9,67 38

9,71 41

10,16 55

10,63 75

10,38 65

8,58

8

10,42 67

10,59 72

10,86 80

12,46 99

7,47

1

9,65 36

9,49 28

8,96 16

9,51 30

11,68 95

9,85 47

10,60 73

9,74 43

9,64 35

11,83 97

7,99

4

11,18 86

8,86 14

10,21 58

10,27 61

10,61 74

10,08 53

8,30

6

9,66 37

11,28 89

9,86 48

9,11 18

9,46 25

8,06

5

10,49 69

9,56 33

10,66 76

9,11 19

R

9,47 26

8,50

7

11,01 82

8,66 11

9,56 34

10,04 51

10,29 62

8,65 10

9,45 24

10,24 60

9,53 32

10,76 78

9,10 17

10,54 71

10,36 63

9,69 39

9,48 27

10,19 56

9,76 44

9,37 22

R

11,02

83

9,31

21

9,99

50

11,04

85

11,49

93

8,87

15

11,03

84

11,25

88

9,69

40

9,45

20

9,44

23

10,23

59

8,84

13

7,94

3

9,77

45

7,90

2

12,99 100

9,80

46

10,53

70

10,40

66

wert ist M = 12,99 und der niedrigste m = 7,47. Die Klassenbreite J und den oberen

(M + Y) und unteren (m – y) Skalenendpunkt erhalten wir durch Einsetzen in Gl.

(3.1)

J = 12Y99 7Y47 10 1 Á 0Y01 + Y + y = 5Y43 + Y + y X

10

10

Wir wählen nun den Betrag Y, um den das obere Skalenende über dem höchsten

Messwert liegen soll, und den Betrag y, um den das untere Skalenende unter dem

niedrigsten Messwert liegen soll, so, dass die aufgerundete Zählersumme in ihrer

letzten Stelle 0 wird, d. h. 5,50 ergibt; daraus resultiert (Y + y) = 0,07. Wenn wir

nun zusätzlich vereinbaren, 0,07 nicht zu halbieren, sondern dem Kleinbuchstaben

y den kleineren Teil, also 0,03, und dem Großbuchstaben Y den größeren Teil, also

0,04, zuzugestehen, dann ergibt sich das untere Skalenende zu 7,47 – 0,03 = 7,44

und das obere Skalenende zu 12,99 + 0,04 = 13,03. Die Größe eines Intervalls beträgt

– wenn man Y + y = 0,07 einsetzt – J = 5,50/10 = 0,55. Bei der Skalenkonstruktion

braucht man nur noch zu berücksichtigen, dass zwischen aufeinanderfolgenden In-

tervallen das Verbindungsintervall von 0,01 liegen muss.

Gruppierung der Beobachtungen: Zwecks Erstellung einer tabellarischen Häufigkeitsverteilung ordnen wir die N = 100 Beobachtungen nach Art einer Strichlistenführung den gebildeten Klassen zu; wie ersichtlich, entstehen dabei keinerlei Ambiguitäten (. Tab. 3.3).

Verteilungsinspektion: Dem Augenschein nach zu urteilen, ähnelt die erhaltene Häufigkeitsverteilung der 100 Beobachtungen einer Normalverteilung. Verbindliche Auskunft würde aber erst ein Anpassungstest geben können, der auf Übereinstimmung

3.3 · Graphische und numerische Darstellung empirischer Daten

73

3

. Tabelle 3.3

Untere Klassen- Obere Klassen-

grenze

grenze

7,44 8,00 8,56 9,12 9,68 10,24 10,80 11,36 11,92 12,48

– 7,99 – 8,55 – 9,11 – 9,67 – 10,23 – 10,79 – 11,35 – 11,91 – 2,47 – 13,03

//// /// ///// ///// // ///// ///// ///// //// ///// ///// ///// ///// / ///// ///// ///// ///// ///// ///// ///// /// // /

Klassen- Klassenhäufigkeit mitte

4

7,715

3

8,275

12

8,835

19

9,395

21

9,955

20

10,515

10

11,075

8

11,635

2

12,195

1

12,755

Kumulierte Häufigkeit
4 7 19 38 59 79 89 97 99 100 = N

zwischen beobachteten (empirischen) und erwarteten (theoretischen) Verteilungen prüft. Ein solcher Vergleich ist jedoch nur dann „exakt“, wenn es gelingt, ohne jegliche subjektive Einflussnahme von Einzelbeobachtungen zu gruppierten Beobachtungen zu gelangen. Dazu ist das beschriebene Verfahren von Lewis eine geeignete Methode. Für den Vergleich empirischer und theoretischer Verteilungen sind v2-Tests (7 Abschn. 5.1.3) oder der Kolmogoroff-Smirnov-Test (7 Abschn. 7.3) einschlägig.
Vielfach erübrigt sich eine objektive Gruppierung von Messwerten insofern, als diese bereits durch die Messungenauigkeit auf bestimmte Klassenintervalle – meist die Einheiten der Intervallskala – reduziert worden sind. Eine solche Gruppierung ist insofern ebenfalls objektiv, als die Festlegung der Skalenintervalle bzw. der Einheiten ex definitione bereits vor der Beobachtung erfolgt ist; eine nachfolgende Änderung der Klassengrenzen ist nicht zulässig.
Wir haben in Beispiel 3.1 eine tabellarische Häufigkeitsverteilung erhalten, der eine Strichliste zugrunde lag. Zwar gibt die (um 90 8 entgegen dem Uhrzeigersinn gedrehte) Strichliste bereits eine anschauliche Vorstellung vom Verteilungstyp der Beobachtungen, doch wäre die Erstellung eines Säulen- oder eines Stabdiagramms instruktiver. Verbindet man in einem Stabdiagramm die Endpunkte der in den Klassenmitten der Abszissenachse errichteten Stäbe (deren Länge die Klassenhäufigkeit repräsentiert) durch gerade Linien, dann ergibt sich ein sog. Häufigkeitsoder Frequenzpolygon.
Einige verteilungsfreie Methoden gehen von einer anderen Form der Häufigkeitsverteilung, von einer Summenhäufigkeitsverteilung aus. Man gewinnt sie, indem man die Klassenhäufigkeiten „kumuliert“, d. h. fortlaufend summiert. Stellt man sich diese Summenhäufigkeit als Stabdiagramm dar und verbindet die Endpunkte der Stäbe durch Geraden, so erhält man bei normalverteilten Merkmalen ein ogivenförmiges Summenpolygon.
Durch die Relativierung auf N = 1 ist es möglich, 2 Häufigkeitsverteilungen verschiedenen Umfangs direkt zu vergleichen. Dabei ist es gleichgültig, ob man die Klassenhäufigkeit eines Frequenzpolygons oder die Summenhäufigkeit des Summenpolygons relativiert, d. h. durch N dividiert.

74 Kapitel 3 · Datenerhebung und Datenaufbereitung

3.3.2 Statistische Kennwerte
Hat man eine Häufigkeitsverteilung von Beobachtungen angefertigt, stellt sich meist die Aufgabe ihrer Beschreibung durch möglichst wenige Kennwerte (Reduktionsbeschreibung), als da sind: zentrale Tendenz und Dispersion, ggf. auch Schiefe und Exzess.
3

Zentrale Tendenz

Die zentrale Tendenz (Lokation, Lage, Position) einer Verteilung kann durch verschiedene Maße beschrieben werden: Der Modalwert ist definiert als der häufigste Wert einer Verteilung. Der Median ist bei ungerader Zahl von N EinzelMesswerten der mittlere unter den aufsteigend (oder absteigend) geordneten Messwerten, bei gerader Beobachtungszahl ist er als arithmetisches Mittel der beiden mittleren Messwerte definiert. Bei Vorliegen von gleichen Messwerten und Messwertgruppen kann der Median auch mit mehr als einem Messwert zusammenfallen. Bei gruppierten Messwerten errechnet man den Medianwert nach folgender Gleichung:

Md = U + J Á Na2 F X f

3X2

Darin bedeuten U die (wahre) untere Grenze desjenigen Klassenintervalls, das den Median enthält (bei Lewis’ Klassifikation also die Mitte des unteren Verbindungsintervalls), J die Größe der Klassenintervalle (bei Lewis’ Klassifikation ist dies der Abstand von der Mitte des unteren zur Mitte des oberen Verbindungsintervalls), N den Umfang der Stichprobe, F die Summenfrequenz bis unterhalb der Medianklasse und f die Frequenz in der Medianklasse. In Beispiel 3.1 ergibt sich der Median zu

Md = 9Y675 + 0Y56 Á 100a2 38 = 9Y995 X 21

Der aus den ungruppierten Beobachtungen ermittelte Median ist davon nur unwesentlich verschieden (Md = 10,015).
Das arithmetische Mittel "x ist definiert als Quotient der Summe aller Messwerte und der Anzahl der Messwerte:

N xi
"x = i1 X N

3X3

Für gruppierte Messwerte ist er definiert als

k

f Á x

"x = 1

Y

N

3X4

wobei f die Anzahl der Messwerte in einer Kategorie, x die Mitte der Kategorie und k die Anzahl der Kategorien ist. Das arithmetische Mittel unseres Beispiels lautet nach Gl. (3.4) "x = 10,005 und nach Gl. (3.3) "x = 10,024.

3.3 · Graphische und numerische Darstellung empirischer Daten

75

3

Dispersion

Zur Kennzeichnung der Dispersion (oder Variabilität) einer Stichprobe von Messwerten werden die folgenden Kennwerte eingesetzt: Die Variationsbreite (Spannweite oder englisch „range“) errechnet man als Differenz zwischen höchstem und niedrigstem Messwert. Der mittlere Quartilabstand Q

Q = P75 P25 2

3X5

bzw. die Dezildifferenz D

D = P90 P10

3X6

verwenden unterschiedliche Perzentile. Der mittlere Quartilabstand basiert auf den Grenzen des Wertebereiches für die mittleren 50% aller Messwerte und die Dezildifferenz auf den Grenzen des Wertebereiches für die mittleren 90% aller Messwerte. Das P-te Perzentil einer (aufsteigend geordneten) Folge von EinzelMesswerten ist die Beobachtung mit der Rangnummer P(N + 1)/100 oder – wenn die Rangnummer nicht ganzzahlig ist – der interpolierte Wert zwischen 2 aufeinanderfolgenden Messwerten, unterhalb dessen P% aller Messwerte gelegen sind. Danach erhalten wir für die ihrer Größe nach geordneten Messwerte in Beispiel 3.1 für die Perzentile P25, P75, P10 und P90 folgende Werte:
Da der Wert für P25 nach P(N + 1)/100 = 25(100 + 1)/100 = 25,25 keine ganze Zahl ist, müssen wir zwischen der 25. (9,46) und der 26. (9,47) Beobachtung interpolieren. Wir gehen dabei so vor, dass wir 0,25 der Differenz zwischen 9,46 und 9,47 zum niedrigeren Wert hinzuaddieren; wir erhalten dann den exakten Wert P25 = 9,4625. Ebenso berechnen wir die übrigen Perzentile und erhalten P75 = 10,6525, P10 = 8,651 und P90 = 11,388. Daraus ergeben sich der gesuchte mittlere Quartilabstand mit Q = 0,595 und die Dezildifferenz mit D = 2,737.
Das P-te Perzentil bei gruppierten Daten erhält man analog Gl. (3.2) für den Median als dem 50. Perzentil:

J Á P Á Na100

Pp = Up +

fp

Fp X

3X7

Darin bedeuten Up die untere Klassengrenze des Perzentils, Fp die Summenfrequenz bis zu dieser Grenze und fp die Frequenz in der Klasse des Perzentils; im Übrigen sind die Symbole wie in Gl. (3.2) definiert. Auf die gruppierten Messwerte unseres Beispieles angewendet, erhalten wir:

P10 = 8,555 + 0,56 (10 · 100/100 – 7)/12 = 8,695, P25 = 9,115 + 0,56 (25 · 100/100 – 19)/19 = 9,292, P75 = 10,235 + 0,56 (75 · 100/100 – 59)/20 = 10,683, P90 = 11,355 + 0,56 (90 · 100/100 – 89)/8 = 11,425, Q = 1/2 (10,683 – 9,292) = 0,695,

D = 11,425 – 8,695 = 2,730.

76 Kapitel 3 · Datenerhebung und Datenaufbereitung

Wie man sieht, stimmen – wie bei allen anderen bisher berechneten Kennwerten – die aus den

Einzelwerten und die aus den gruppierten Werten ermittelten Perzentile numerisch nicht genau überein; es sind jeweils nur Schätzungen der entsprechenden Parameter der Grundgesamtheit,

wobei das Dezilmaß einen geringeren Stichprobenfehler aufweist als das Quartilmaß (vgl. Peters

u. van Voorhis, 1940; Wallis u. Roberts, 1956; sowie Tate u. Clelland, 1957). Die Dispersions-

schätzung mit dem kleinsten Stichprobenfehler ist P93 – P07; die gebräuchlichere P90 – P10 hat je-

doch nur einen unbedeutend höheren Stichprobenfehler.

3

Das wichtigste Dispersionsmaß für Daten auf Kardinalskalenniveau ist die Stan-

dardabweichung (für die Stichprobendeskription; alternativ hierzu vgl. Bortz,

2005, Abschn. 3.3):

v u u u t Nxi"x2

s = i1

X

N

3X8

Für gruppierte Messwerte lautet die Formel s = v u u u u t k1fÁx"x2 Y N

3X9

wobei f wie in Gl (3.4) für die Anzahl der Messwerte der Klasse und x für die Klassenmitte stehen. Für die gruppierten Messwerte unseres Beispiels liegt die Standardabweichung bei s = 1,042, für die ungruppierten Messwerte bei s = 1,040.
Das Quadrat der Standardabweichung bezeichnet man als Varianz.

Schiefe

Eine eingipflige, aber asymmetrische Verteilung von Messwerten nennt man schief, wobei man von Rechtsschiefe spricht, wenn der längere Ast der Verteilung nach rechts ausläuft und von Linksschiefe, wenn er nach links ausläuft. Für den verteilungsfreien Fall empfehlen Tate u. Clelland (1957, S. 11) das Folgende, auf den schon bekannten Perzentilen gründende Schiefemaß Sp

Sp

=

P90 2Md + P10 P90 P10

X

3X10

Handelt es sich um eine rechtsschiefe Verteilung, dann ist der Wert für Sp positiv, bei einer linksschiefen negativ. Seine Anwendung auf die Perzentile der gruppier-

ten Beobachtungen erbringt Sp = + 0,048. Der Schiefewert deutet auf eine geringfügig Rechtsschiefe hin, wie sie auch in der Strichlistengraphik unseres Beispiels

zum Ausdruck kommt.

Ein anderes, nichtparametrisches Maß der Schiefe ist (P75 + P25 – 2Md)/2Q. Dieses Maß hat den Vorteil, von – 1 bis + 1 zu variieren, aber den Nachteil größerer

Stichprobenfluktuation als das obige Maß (vgl. Yule u. Kendall, 1950, S. 160 ff.).

Parametrische Schiefemaße sind das von Pearson (1895, S. 370): S = "x Mdas,

und ein S = x

Schiefemaß, das sich auf das "x3aN Á s3 (vgl. Weber, 1964, S. 83 ff.).

Moment

3.

Grades

gründet:

3.3 · Graphische und numerische Darstellung empirischer Daten

77

3

Exzess

Eine Häufigkeitsverteilung kann man weiter dahingehend beschreiben, ob sie spitz- oder breitgipflig ist bzw. welchen Exzess sie hat. Man spricht von hypoexzessiven Verteilungen bei einer arkadenähnlichen Verteilungsfigur mit vielen Messwerten um den Median und wenigen Extremwerten sowie von hyperexzessiven Verteilungen bei einer pagodenähnlichen Figur mit relativ wenig zentralen und relativ vielen extremen Messwerten. Geht man vom Exzess der Normalverteilung aus bzw. setzt man diesen gleich Null, dann ergibt sich folgendes Exzessmaß aufgrund der schon erhaltenen Perzentile:

Ep = 0Y263

P75 P25 2 Á P90 P10

= 0Y263 QaD X

3X11

Die Konstante 0,263 ist gleich dem Ausdruck (Q/D), wenn eine Normalverteilung

vorliegt, bei der dem Perzentilabstand P75 – P25 ein Abszissenwert von 0,6745 und dem Abstand P90 – P10 ein Abszissenwert von 1,2816 entspricht. Der Exzess ist also 0, wenn es sich um eine Normalverteilung handelt, und positiv, wenn mehr, nega-

tiv, wenn weniger Extremwerte als bei einer Normalverteilung vorhanden sind (Ta-

te u. Clelland, 1957, S. 11).

tenzEidneprasrtaamndetarridscishieesrtMenaßAfbüwredicehnuEnxgzeenssvgormünMdeitttaeulwf edretm: ED=urchscxhn"xitt4daeNr

4. PoÁ s4 3

(vgl. Weber, 1964, S. 84 ff.).

4
4 Verteilungsfreie und parametrische Tests
Ehe wir in 7 Kap. 5 vom allgemeinen in den speziellen statistischen Teil eintreten, wollen wir noch einige wichtige Überlegungen darüber anstellen, wann parametrisch (bzw. verteilungsgebunden) und wann verteilungsfrei (bzw. non- oder nichtparametrisch; zur Erläuterung dieser Begriffe 7 S. 36 f.) getestet werden sollte. Wir haben in 7 Abschn. 2.2.5 bereits zur Wahl eines geeigneten statistischen Tests Stellung bezogen, aber dort implizit angenommen, dass über die Frage, ob eine parametrische oder eine verteilungsfreie Auswertung vorgenommen werden soll, bereits entschieden ist; diese Vorentscheidung haben wir nunmehr zu treffen bzw. zu begründen.
Beim statistischen Testen sind 3 Entscheidungen zu fällen, nämlich erstens die Entscheidung über ein- oder zweiseitige Fragestellung und damit über einen Teilaspekt des Risikos 2. Art, zweitens die Festlegung des Signifikanzniveaus, d. h. des zulässigen Risikos 1. Art, und drittens die Auswahl eines bestimmten Tests, womit über einen anderen Teilaspekt des Risikos 2. Art vorentschieden wird, und zwar insofern, als ein starker Test ein geringeres und ein schwacher Test ein höheres Risiko 2. Art impliziert.
Unter den 3 vom Untersucher zu verantwortenden Entscheidungen ist die 3. insofern die bedeutsamste, als sie u. a. eine Vorentscheidung über die Alternative „parametrisch“ gegen „nichtparametrisch“ fordert. Hat man diese Vorentscheidung aufgrund der nachstehenden Argumente getroffen, dann ist es relativ einfach, auch die eigentliche Testentscheidung zu fällen, wenn man – unabhängig von der Anwendung eines parametrischen oder eines verteilungsfreien Tests – vereinbart, stets denjenigen Test zu wählen, der als statistisches Modell für die Auswertung am geeignetsten und unter mehreren möglichen Tests der stärkste ist und so einen etwa bestehenden Unterschied oder Zusammenhang am ehesten aufdeckt.
Die Frage, ob mit einem parametrischen oder verteilungsfreien Test gearbeitet werden soll, kann aus 3 Blickwinkeln diskutiert werden: Erstens im Hinblick auf das Messniveau der erhobenen Daten, zweitens im Hinblick auf die Erfüllung der mathematisch-statistischen Voraussetzungen der in Frage kommenden Verfahren und drittens im Hinblick auf die sog. Robustheit der Verfahren gegen Voraussetzungsverletzungen. Auf alle 3 Aspekte soll im Folgenden ausführlicher eingegangen werden.
4.1 Probleme des Messniveaus
Die Ergebnisse parametrischer Tests (wie etwa der Vergleich zweier Stichprobenmittelwerte via t-Test oder der Vergleich zweier Stichprobenvarianzen via F-Test)

80 Kapitel 4 · Verteilungsfreie und parametrische Tests

sind – so eine allgemeine Regel – nur dann interpretierbar, wenn die Daten kardi-

nales Messniveau aufweisen. Sind die Daten einem niedrigeren Skalenniveau zuzu-

ordnen, muss verteilungsfrei getestet werden.

Diese an sich eindeutige Indikationsstellung nützt dem Anwender statistischer

Tests allerdings wenig, wenn die Frage nach dem Skalenniveau erhobener Daten

nicht eindeutig beantwortet werden kann (Beispiele dafür sind Schulnoten, Test-

werte, Ratingskalen etc.). Die Entscheidung „parametrisch“ oder „verteilungsfrei“

ist daher unmittelbar mit dem messtheoretischen Problem verknüpft, ob sich das

4

Vorliegen von Kardinaldaten plausibel belegen lässt. Wir haben hierüber bereits

ausführlich in 7 Abschn. 3.1.6 berichtet.

Auf der anderen Seite ist es natürlich erlaubt, die Frage zu stellen, was passiert,

wenn man einen parametrischen Test einsetzt, obwohl das Datenmaterial den Anfor-

derungen kardinaler Messungen nicht genügt. Eine Antwort auf diese Frage liefert

u. a. eine Arbeit von Baker et al. (1966). In dieser Monte-Carlo-Studie wurde die For-

derung nach Äquidistanz der Intervalle einer Intervallskala systematisch in folgen-

der Weise verletzt: a) Die Intervallgrenzen wurden zufällig variiert; b) die Intervalle

in den Extrembereichen der Skala waren breiter als im mittleren Bereich, und c) die

Skala hatte nur halbseitig äquidistante Intervalle. Mit diesem Material wurden 4000

t-Tests über Paare zufällig gezogener Stichproben (N = 5 bzw. N = 15) gerechnet. Das

Resultat dieser Untersuchung fassen die Autoren wie folgt zusammen (S. 305): „If an

investigator has a measuring instrument which produces either an interval scale or

an ordinal scale with randomly varied interval sizes, he can safely use t for statistical

decision under all circumstances examined in the study.“

Offenbar sind parametrische Verfahren (hier der t-Test) gegenüber Verletzun-

gen des Intervallskalenpostulats weitgehend insensitiv. Dies ändert jedoch nichts

an der Tatsache, dass – unbeschadet der Korrektheit der statistischen Entschei-

dungen bei nicht kardinalen Messungen – z. B. die Größe eines gemessenen Mittel-

wertsunterschiedes zweier Stichproben nicht mit dem realen Unterschied überein-

stimmen muss, denn die Differenz zweier Mittelwerte für ordinale Daten ist nicht

interpretierbar. Wenn man also die Äquidistanz der Intervalle einer Messskala

nicht plausibel belegen kann, sollte man auf Verfahren verzichten, in denen Mittel-

werte, Varianzen oder andere, nur für Kardinaldaten definierte Maße verwendet

werden, und statt dessen ein verteilungsfreies Verfahren wählen, das nur die ordi-

nale Information der erhobenen Daten nutzt.

Unter dem Blickwinkel der Skalendignität der Daten lässt sich die Frage nach

einem datenadäquaten Test bezogen auf Verfahren zum Vergleich von Stichproben

folgendermaßen zusammenfassend beantworten:

– Werden in einer Untersuchung Häufigkeiten erhoben (dies können Auszählungen der Kategorien von natürlich oder künstlich dichotomen Merkmalen, von attributiven Merkmalen, von graduierten oder polychotomen Merkmalen sein; 7 Abschn. 3.2.1), kommen für die statistische Analyse die in 7 Kap. 5 behandelten Verfahren in Betracht. Ob es sich dabei um verteilungsfreie oder parametrische Tests handelt, wird auf S. 109 diskutiert.
– Besteht das Datenmaterial aus subjektiven, semiobjektiven oder objektiven (originären) Rangreihen (7 Abschn. 3.2.2), sind die in 7 Kap. 6 behandelten ver-

4.2 · Probleme mathematisch-statistischer Voraussetzungen

81

4

teilungsfreien Verfahren einzusetzen. Wenn kardinalskalierte Daten die Voraussetzungen eines parametrischen Tests deutlich verletzen, sind die Daten in objektive Rangreihen zu transformieren und in dieser Form ebenfalls nach einem der in 7 Kap. 6 zusammengestellten Verfahren auszuwerten. – Für kardinalskalierte Daten, die den Anforderungen eines parametrischen Tests nicht genügen, sind auch die in 7 Kap. 7 behandelten verteilungsfreien Verfahren einschlägig. – Lässt sich die Kardinalsqualität der Daten plausibel belegen, sind parametrische Tests einzusetzen, soweit deren Voraussetzungen erfüllt sind (7 Abschn. 4.2). Eine Zusammenstellung der wichtigsten parametrischen Verfahren findet man in Lehrbüchern über (parametrische) Statistik, wie z. B. bei Bortz (2005).

4.2 Probleme mathematisch-statistischer Voraussetzungen
Die Korrektheit statistischer Entscheidungen ist bei allen Signifikanztests an bestimmte mathematisch-statistische Voraussetzungen gebunden. Bei parametrischen Tests ist dies in der Regel die Normalverteilung der zu prüfenden statistischen Kennwerte bzw. bei kleineren Stichproben (N < 30) des untersuchten Merkmals und bei stichprobenvergleichenden Tests die Varianzhomogenität der jeweiligen Referenzpopulationen. Es werden damit Anforderungen an die Form der Populationsverteilungen bzw. deren Parameter gestellt.
Ähnliches gilt abgeschwächt auch für verteilungsfreie Tests. Ihre Anwendbarkeit setzt oft eine stetig verteilte Variable und vielfach auch Homomerität der Populationsverteilungen, d. h. Verteilungen gleichen Typs der untersuchten Populationen, voraus.
Auch hinsichtlich der Voraussetzungen ist die Frage nach der richtigen Indikation parametrischer oder verteilungsfreier Verfahren also im Prinzip einfach zu beantworten: Wenn die Voraussetzungen parametrischer Tests nicht erfüllt sind, muss nonparametrisch getestet werden; sind weder die Voraussetzungen parametrischer noch die verteilungsfreier Tests erfüllt, muss u. U. ganz auf statistische Tests verzichtet werden.
Da jedoch im Regelfall die Populationscharakteristika nicht bekannt sind, sondern aus Stichprobendaten erschlossen werden müssen, geht es letztlich auch bei der Abschätzung, ob das Datenmaterial die jeweils geforderten mathematisch-statistischen Voraussetzungen erfüllt, um eine Plausibilitätsentscheidung. In verschiedenen Lehrbüchern wird vorgeschlagen, Normalverteilungs- und Varianzhomogenitätsvoraussetzung mit verschiedenen Tests (Kolmogoroff-Smirnov-Test, BartlettTest) anhand der Stichprobendaten zu prüfen (vgl. z. B. Clauss et al., 1999). Dieses Vorgehen dürfte besonders dann inadäquat sein, wenn es sich bei den voraussetzungsüberprüfenden Tests selbst – wie z. B. beim Bartlett-Test – um parametrische Tests handelt, deren Anwendbarkeit ihrerseits an das Vorliegen bestimmter Verteilungsvoraussetzungen gebunden ist.
Boehnke (1983) schlägt deshalb vor, die Überprüfung der Verteilungsvoraussetzungen nur dem Augenschein nach vorzunehmen, dabei allerdings nicht nur auf die mathematisch-statistischen Voraussetzungen selbst zu achten, sondern bei der

82 Kapitel 4 · Verteilungsfreie und parametrische Tests

Testwahl auch Stichprobencharakteristika (wie z. B. die Korreliertheit von Stich-

probenumfang und Stichprobenmittelwert) zu berücksichtigen. Sich ausschließlich

auf die Resultate der voraussetzungsprüfenden Tests zu verlassen, wird nicht emp-

fohlen.

Wie Games (1971) theoretisch und Boehnke (1984) an einem Beispiel zeigen,

kann es durchaus vorkommen, dass ein parametrischer Test wahre Populations-

unterschiede „übersieht“, obwohl die mathematisch-statistischen Voraussetzungen

des Tests (die man – um das b-Fehler-Risiko gering zu halten – wegen der Gegen-

4

läufigkeit von  und b z. B. für  = 0,25 prüfen sollte) offenbar erfüllt sind. Der

vermeintlich schwächere verteilungsfreie Test ist hingegen in der Lage, die Unter-

schiede als signifikant zu belegen. Auch Illers (1982) resümiert, dass die Unver-

zerrtheit eines statistischen Tests von sehr viel mehr Fragen abhängt als von der

Erfüllung der „klassischen“ mathematisch-statistischen Voraussetzungen. Allge-

mein gilt deshalb: Eine sorgfältige Augenscheinprüfung der Verteilungscharakte-

ristika der Stichproben reicht im Regelfall aus, um über die Zulässigkeit paramet-

rischer Tests zu entscheiden. Deutliche Abweichungen von Normalverteilung und

Varianzhomogenität dürften zusammen mit theoretischen Kenntnissen über die

Populationsverteilung auch bei einer Augenscheinprüfung offenbar werden. Gerin-

ge Abweichungen hingegen können – zumal bei größeren Stichproben (N > 30) –

vernachlässigt werden, denn diese verzerren die Resultate parametrischer Tests in

der Regel nur unerheblich. Bei der Untersuchung größerer Stichproben kann man

auf die Wirksamkeit des zentralen Grenzwerttheorems (7 Abschn. 2.2.5) vertrauen,

das gewährleistet, dass sich die meisten statistischen Kennwerte auch dann nor-

malverteilen, wenn die untersuchten Merkmale selbst nicht normalverteilt sind.

Hat man bei der Augenscheinprüfung deutliche Voraussetzungsverletzungen

festgestellt, so wird man im Regelfall verteilungsfrei testen. Lienert (1973) schlägt

als möglichen Zwischenschritt unter bestimmten Bedingungen eine Transformati-

on der Messwerte vor und nennt dafür eine Reihe von Transformationsregeln. Ska-

lentransformationen ermöglichen in bestimmten Fällen die Homogenisierung der

Varianzen in Stichproben oder die Überführung links- oder rechtsschiefer Vertei-

lung in Normalverteilungen.

Die Durchführung von Skalentransformationen ist jedoch nicht unumstritten

und sollte nur vorgenommen werden, wenn die Transformationen nicht nur ma-

thematisch-statistisch adäquat, sondern auch sachlogisch plausibel sind. Ist die

abhängige Variable z. B. die Reaktionszeit in Sekunden oder der Monatslohn in

EUR, so hat man es dabei normalerweise mit einer rechtsschiefen Verteilung zu

tun. Die Überführung in eine Normalverteilung wäre hier z. B. durch eine loga-

rithmische Transformation mathematisch-statistisch durchaus adäquat, sachlo-

gisch ist sie jedoch nur schwer begründbar: Die transformierten Messwerte sind

dann zwar normalverteilt, die interessierende Variable – z. B. Monatslohn der

Bürger der Bundesrepublik Deutschland – ist es aber de facto nicht, und gerade

dies ist inhaltlich bedeutsam.

Weniger problematisch ist die Transformation von Messwerten, wenn Vertei-

lungs- oder Varianzbesonderheiten der abhängigen Variablen sozusagen „kon-

struktionsbedingt“ sind, wenn die abhängige Variable z. B. ein Prozentwert oder

eine Proportion aus 2 ursprünglich normalverteilten Variablen ist. In solchen Fäl-

4.4 · Entscheidungsschema: parametrisch oder verteilungsfrei?

83

4

len kann z. B. eine Winkeltransformation wie etwa die Arkus-Sinus-Transformation durchaus angebracht sein.
Weitere Einzelheiten über die Auswahl einer datenadäquaten Transformation findet man bei Lienert (1973, Abschn. 4.3) oder bei Winer (1971, Abschn. 5.21).

4.3 Probleme der Robustheit statistischer Verfahren
Insgesamt lässt sich eine begründete Testwahl nicht ohne Überlegungen zur Robustheit der in Frage kommenden Tests treffen. Unter Robustheit versteht man die Unempfindlichkeit von Tests gegenüber Voraussetzungsverletzungen und gegenüber ungewöhnlichen Stichprobencharakteristika. Robustheitsanalysen parametrischer und in selteneren Fällen auch verteilungsfreier Tests werden üblicherweise als Monte-Carlo-Studien durchgeführt. Aus bekannten Populationen, für die die H0 gilt (z. B. gleichverteilte Zufallszahlen), werden viele (z. B. 1000) Zufallsstichproben gezogen, die Anzahl der falschen und richtigen Entscheidungen des untersuchten Tests wird tabelliert und mit den erwarteten Werten bei vollständiger Erfüllung der mathematisch-statistischen Voraussetzungen verglichen (vgl. Niederreiter, 1992).
Von einem robusten Test spricht man, wenn bei verletzten Voraussetzungen dennoch mit nur unwesentlich mehr Fehlentscheidungen gerechnet werden muss als bei erfüllten Voraussetzungen. Viele parametrische Verfahren, so z. B. alle, die die F-Verteilung, die v2-Verteilung bzw. die t-Verteilung als Prüfverteilung verwenden, haben sich gegenüber einfachen Voraussetzungsverletzungen (also der Verletzung einer von mehreren Voraussetzungen) als relativ robust erwiesen. Wie Bradley (1984) aufzeigt, ist jedoch mit erheblichen Verzerrungen zu rechnen, wenn 2 Voraussetzungen gleichzeitig verletzt sind oder eine Voraussetzung bei gleichzeitigem Vorliegen ungewöhnlicher Stichprobencharakteristika verletzt ist. Bradleys Analysen (vgl. auch Bradley, 1980, 1982) zeigen, dass in diesen Fällen eine A-priori-Abschätzung der Robustheit eines statistischen Verfahrens sehr schwierig ist. In ähnlicher Weise argumentieren Hübner u. Hager (1984).

4.4 Entscheidungsschema: parametrisch oder verteilungsfrei?
Für die Testwahl in einem empirischen Forschungszusammenhang empfehlen wir zusammenfassend eine Entscheidungspragmatik, die in . Abb. 4.1 dargestellt ist. Das Diagramm bezieht sich auf die in der Praxis am häufigsten vorkommenden kritischen Situationen, in denen zu entscheiden ist, ob bei Vorliegen von kardinalen Daten parametrisch ausgewertet werden darf bzw. ob eine verteilungsfreie Auswertung der ordinalen Information der erhobenen Daten angemessen ist. Werden Häufigkeiten für nominale Merkmalskategorien analysiert, sind die in 7 Kap. 5 bzw. in 7 Abschn. 8.1 behandelten Verfahren anzuwenden.
. Abb. 4.1 macht folgenden Entscheidungsgang deutlich: Zunächst bedarf es einer Prüfung, ob die abhängige Variable kardinales Skalenniveau hat. Eine allzu