4737 lines
211 KiB
Plaintext
4737 lines
211 KiB
Plaintext
Mario Schneider
|
||
Datenanalyse für Naturwissenschaftler, Mediziner und Ingenieure
|
||
|
||
Datenanalyse für Naturwissenschaftler, Mediziner und Ingenieure
|
||
|
||
Mario Schneider
|
||
Datenanalyse für Naturwissenschaftler, Mediziner und Ingenieure
|
||
|
||
Mario Schneider Oppenau, Deutschland
|
||
|
||
ISBN 978-3-662-61865-3
|
||
|
||
ISBN 978-3-662-61866-0 (eBook)
|
||
|
||
https://doi.org/10.1007/978-3-662-61866-0
|
||
|
||
Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.
|
||
|
||
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung des Verlags. Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von allgemein beschreibenden Bezeichnungen, Marken, Unternehmensnamen etc. in diesem Werk bedeutet nicht, dass diese frei durch jedermann benutzt werden dürfen. Die Berechtigung zur Benutzung unterliegt, auch ohne gesonderten Hinweis hierzu, den Regeln des Markenrechts. Die Rechte des jeweiligen Zeicheninhabers sind zu beachten. Der Verlag, die Autoren und die Herausgeber gehen davon aus, dass die Angaben und Informationen in diesem Werk zum Zeitpunkt der Veröffentlichung vollständig und korrekt sind. Weder der Verlag, noch die Autoren oder die Herausgeber übernehmen, ausdrücklich oder implizit, Gewähr für den Inhalt des Werkes, etwaige Fehler oder Äußerungen. Der Verlag bleibt im Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutionsadressen neutral.
|
||
|
||
Planung/Lektorat: Stephanie Preuss Springer Spektrum ist ein Imprint der eingetragenen Gesellschaft Springer-Verlag GmbH, DE und ist ein Teil von Springer Nature. Die Anschrift der Gesellschaft ist: Heidelberger Platz 3, 14197 Berlin, Germany
|
||
|
||
Dieses Buch widme ich Felix und Aurelia.
|
||
|
||
Vorwort
|
||
Ich habe die Erfahrung gemacht, dass zwar Statistik in vielen wissenschaftlichen Disziplinen Teil des Lehrplans ist, diese jedoch häufig nur theoretisch behandelt wird und nicht anhand von Beispielen aus der wissenschaftlichen Praxis, wo es viel um Datenanalyse geht. Die entsprechenden Kurse werden dann häufig von Mathematikprofessoren gehalten, und dementsprechend ist der Stoff dann auch aufbereitet. Verstehen Sie mich nicht falsch, ich achte Mathematiker sehr, es hat jedoch auch seinen Grund, dass die Mathematik nicht zu den Naturwissenschaften zählt. Falls es dann praktische Übungen im Rahmen der Statistikmodule gibt, müssen sich die Studenten zunächst eine gewisse Zeit in ein mehr oder minder komplexes Softwarepaket einarbeiten, Zeit, die ihnen für das grundlegende Verständnis, wie Daten wissenschaftlich ausgewertet werden können, am Ende fehlt. Spätestens, wenn Sie selbst einmal ein wissenschaftliches Projekt eigenständig bearbeiten sollen, holt Sie schnell die Realität ein. Hier tauchen Fragen auf wie bspw. „Sollte ich meine Daten mit der Modellfunktion A oder B fitten?“ oder „Darf ich den den Wert aus meinen Daten entfernen?“ oder „Welche Faktoren beeinflussen mein Experiment?“ usw. Ich habe in meiner beruflichen Praxis z. T. mit Wissenschaftlern zu tun gehabt, die nicht wussten, was ein Median oder was die Standardabweichung von Daten ist, geschweige denn, wie man diese errechnet. Für deren Berechnung gibt es nämlich mehr als eine Formel, die je nachdem zu stark unterschiedlichen Ergebnissen führen können (später dazu mehr). Vermutlich schrecken viele Wissenschaftler davor zurück, sich mit Datenanalyse zu beschäftigen, da sie denken, ihnen fehle erstens das mathematische Rüstzeug und zweitens Kenntnisse im Umgang mit statistischer Software. Meines Erachtens nach ist es sicherlich nicht verkehrt, ein gewisses mathematisches Vorwissen mitzubringen, aber es reicht in den meisten Fällen das Wissen aus dem Grundkurs Mathematik. Sie müssen für viele Analysen auch kein R-, SPSS- oder Minitab-Profi zu sein, um Ihre Daten analysieren zu können. Vieles können Sie mit Microsoft Excel (oder vergleichbaren Tabellenkalkulationsprogrammen) machen, von beschreibender Statistik bis hin zu Machine Learning. In diesem Buch werden Sie kein einziges Excel-Makro benötigen. Im Gegenteil, ich werden Ihnen zeigen, dass die meisten Berechnungen, sogar die der multivariaten Datenanalyse, mit verhältnismäßig einfachen Bordmitteln funktionieren. Mir ist
|
||
VII
|
||
|
||
VIII
|
||
|
||
Vorwort
|
||
|
||
durchaus bewusst, dass es je nach Problemstellung besser geeignete Softwarelösungen gibt. Ich selbst bin ein großer Fan von R, Octave und MATLAB (The MathWorks). Doch kennen sich die meisten bereits relativ gut mit Excel aus, es ist beinahe auf jedem Bürorechner vorhanden und man erhält direktes Feedback, sobald der an einer Berechnung beteiligte Zellinhalt geändert wird. Dadurch verinnerlicht man die Grundlagen nochmals sehr gut. Hier kann ich aus eigener Erfahrung sprechen, denn mein damaliger Professor für Chemometrie, Dr. Ernst Cleve, hat auch Excel verwendet, um uns die Datenanalyse praktisch näherzubringen. Ihm möchte ich an dieser Stelle für die Durchsicht und die Anmerkungen zum Manuskript, sowie für die Bereitstellung diverser Unterrichtsmaterialien herzlich danken.
|
||
Ich habe das Buch so aufgebaut, dass wir uns im ersten Kapitel zunächst mit den Grundlagen im Umgang mit Microsoft Excel beschäftigen, v. a. damit, wie Sie Zellbezüge richtig setzen und Ihre Berechnungen automatisieren können. Außerdem lernen Sie, wie Sie in Excel mit Vektoren und Matrizen rechnen können, was in den darauffolgenden Kapiteln häufig angewendet wird.
|
||
Im zweiten Kapitel beschäftigen wir uns mit den Möglichkeiten zur Darstellung von Daten. Im Grunde genommen erhalten Sie dadurch einen kleinen Einblick in die Elemente der explorativen Datenanalyse, wobei ich dieses Wort bewusst nicht in einer der Überschriften verwendet habe. Sie lernen hier v. a., wie Sie bestimmte Daten(-Typen) in welcher Form darstellen können. Hier zeige ich Ihnen außerdem, wie Sie publikationsreife Abbildungen aus Excel heraus erzeugen können.
|
||
Im dritten Kapitel beschäftigen wir uns mit Wahrscheinlichkeitsverteilungen, die in der wissenschaftlichen Praxis an der ein oder anderen Stelle auftreten. Dies schließt diejenigen Verteilungen ein, die bei den sogenannten Hypothesentests eine wichtige Rolle spielen, mit denen wir uns ebenso in diesem Kapitel beschäftigen.
|
||
Im vierten Kapitel lernen wir verschiedene Methoden der Datenvorbehandlung kennen. Neben Skalierungs- und Glättungsmethoden beinhaltet diese auch Interpolationsmethoden, die in der Praxis des Öfteren verwendet werden.
|
||
Im fünften Kapitel kommen wir dann zur häufig in der Praxis angewendeten linearen bzw. der nicht-linearen Regression, mit deren Hilfe Sie eine Modellfunktion an Ihre experimentellen Daten anpassen können.
|
||
Im sechsten Kapitel beschäftigen wir uns mit verschiedenen Klassifikationsmethoden, um Muster in multivariaten Daten erkennen zu können. Hierbei gehe ich sowohl auf unüberwachte Methoden wie die Hauptkomponentenanalyse und Clusteranalyse ein, aber auch auf überwachte Methoden wie die des aktiven Lernens mittels künstlicher neuronaler Netze.
|
||
Im siebten Kapitel erfahren Sie dann, wie Sie Versuche mit mehreren Einflussgrößen statistisch sinnvoll planen und umsetzen können und wie Sie die Haupteinflussgrößen Ihrer Experimente bestimmen können.
|
||
Im achten Kapitel finden Sie ausführliche Lösungswege und Hilfen zu den Übungsaufgaben aus den zuvor genannten Kapiteln.
|
||
|
||
Vorwort
|
||
|
||
IX
|
||
|
||
Im neunten Kapitel habe ich u.a. mathematische Grundlagen zusammengefasst, die zum besseren Verständnis der Inhalte der anderen Kapitel beitragen sollen. Außerdem finden Sie hier eine Sammlung statistischer Tabellen, die zum Lösen der Beispiele und der Übungsaufgaben benötigt werden.
|
||
Die Lösungen zu den Übungen finden Sie im nächsten Kapitel. Datenanalytische Konzepte lernt man meiner Erfahrung nach am besten, wenn man sie anhand von Übungen, oder noch besser, anhand von eigenen Problemstellungen (aus der Praxis) anwendet, daher kann ich Ihnen die praxisnahen Übungsaufgaben nur ans Herz legen. Ebenso wichtig wie die Übungen sind die Videos, die zu diesem Buch gehören. Hier werden Sie anhand von Fallbeispielen lernen, wie man Daten in Excel analysieren kann. In den Videos gehe ich komplette Analysen mit Ihnen von Anfang bis Ende durch. Ein Video kann durch Scannen des jeweiligen QR-Codes mittels QR-Code-Scanner-App aufgerufen werden. Sie werden hierbei auf eine YouTube-Website weitergeleitet, auf der Sie das jeweilige Video anschauen können. Zusätzlich stelle ich Ihnen die Videos auf meiner Website unter http://dataanalysistools.de/videos-to-the-book/ zur Verfügung, auf die Sie, nach Eingabe des Passworts DaNiM (das steht für Datenanalyse für Naturwissenschaftler, Ingenieure und Mediziner), freien Zugriff haben. Wenn Sie Fragen zu Inhalten im Buch oder in den Videos haben, sparen Sie sich die Zeit und recherchieren Sie nicht stundenlang im Internet. Gehen Sie bitte den kurzen Weg und kontaktieren Sie mich einfach per Mail (contact@dataanalysistools.de). Ich werde versuchen, Ihnen möglichst schnell zu antworten. Nutzen Sie die Kontaktmöglichkeit bitte auch für Feedback, denn so weiß ich, was ich in Zukunft besser machen könnte. Sie können mich auch gerne über meine Website http://www.dataanalysistools.de kontaktieren. Dort führe ich einen Blog, lade hier regelmäßig Videos zum Thema Datenanalyse hoch und stelle kleine Software-Tools kostenfrei zur Verfügung. Ich wünsche Ihnen viel Spaß mit dem Buch.
|
||
|
||
Oppenau 30. Mai 2020
|
||
|
||
Mario Schneider
|
||
|
||
Inhaltsverzeichnis
|
||
1 Streifzug durch Excel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1 Tabellenkalkulation mit Excel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Rechnen mit Vektoren und Matrizen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.3 Der Solver – ein starkes Werkzeug . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.4 Numerisches Differenzieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.5 Numerische Integration. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
|
||
2 Darstellung von Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.1 Tabellen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.2 Diagramme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.2.1 Grafische Darstellung mathematischer Funktionen. . . . . . . . . . . . . 31 2.2.2 Streudiagramme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.2.3 Box-Whisker-Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.2.4 Histogramm. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 2.2.5 Kumulative Häufigkeitsverteilung. . . . . . . . . . . . . . . . . . . . . . . . . . 38 2.2.6 Violin-Plot. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.2.7 Fehlerbalken. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.2.8 Darstellung dreidimensionaler Daten. . . . . . . . . . . . . . . . . . . . . . . . 44 2.2.9 Publikationsreife Abbildungen in Excel . . . . . . . . . . . . . . . . . . . . . 44 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
|
||
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen. . . . . . . . . . . . . 47 3.1 Was ist Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.2 Wichtige Wahrscheinlichkeitsverteilungen. . . . . . . . . . . . . . . . . . . . . . . . . 50 3.2.1 Binomialverteilung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.2.2 Poissonverteilung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 3.2.3 Gauß’sche Normalverteilung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 3.2.4 Logarithmische Normalverteilung. . . . . . . . . . . . . . . . . . . . . . . . . . 57 3.2.5 χ2-Verteilung – und die Gammafunktion. . . . . . . . . . . . . . . . . . . . . 58 3.2.6 Student-t-Verteilung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
|
||
XI
|
||
|
||
XII
|
||
|
||
Inhaltsverzeichnis
|
||
|
||
3.2.7 F-Verteilung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 3.2.8 Maßzahlen von Wahrscheinlichkeitsverteilungen. . . . . . . . . . . . . . 62 3.3 Erzeugung von Zufallszahlen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 3.4 Hypothesentests. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 3.4.1 Parametrische Tests – ANOVA & Co.. . . . . . . . . . . . . . . . . . . . . . . 74 3.4.2 Nichtparametrische Hypothesentests. . . . . . . . . . . . . . . . . . . . . . . . 110 3.4.3 Das Problem der multiplen Vergleiche. . . . . . . . . . . . . . . . . . . . . . . 119 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
|
||
4 Datenvorbehandlung und Signalwertanalyse. . . . . . . . . . . . . . . . . . . . . . . . . . 123 4.1 Datenskalierung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 4.1.1 Zentrierung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 4.1.2 Bereichsskalierung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 4.1.3 Standardisierung/Autoskalierung. . . . . . . . . . . . . . . . . . . . . . . . . . . 125 4.1.4 Vektornormierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 4.2 Glätten von Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 4.2.1 Gleitender Mittelwert. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 4.2.2 Medianglättung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 4.2.3 Savitzky-Golay-Glättung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 4.2.4 Glättung mit Gauß’schen Gewichten. . . . . . . . . . . . . . . . . . . . . . . . 131 4.3 Konvolution und Dekonvolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 4.4 Korrelation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 4.5 Interpolationsmethoden. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 4.5.1 Lineare Interpolation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 4.5.2 Kubische Spline-Interpolation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 4.6 Fouriertransformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
|
||
5 Lineare und nicht-lineare Regression. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 5.1 Lineare Regression. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 5.1.1 Lineare Regression in analytischer Form. . . . . . . . . . . . . . . . . . . . . 155 5.1.2 Lineare Regression in Matrixform. . . . . . . . . . . . . . . . . . . . . . . . . . 160 5.2 Nicht-lineare Regression. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 5.2.1 Gradienten-basierte Verfahren. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 5.2.2 Simplex-Optimierung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 5.2.3 Genetische Algorithmen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 5.3 Regression mit Replikaten. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 5.4 Globale Regression mit geteilten Parametern. . . . . . . . . . . . . . . . . . . . . . . 176 5.5 Gewichtete Regression. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 5.6 Robuste Regression. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
|
||
|
||
Inhaltsverzeichnis
|
||
|
||
XIII
|
||
|
||
5.7 Beurteilung von Regressionsergebnissen/-analysen . . . . . . . . . . . . . . . . . . 182 5.7.1 Gütemaße der Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 5.7.2 Vergleich von Fitmodellen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
|
||
Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
|
||
6 Multivariate Datenanalyse. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 6.1 Multivariate lineare Regression. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 6.2 Methoden der unüberwachten Klassifikation. . . . . . . . . . . . . . . . . . . . . . . . 204 6.2.1 Hauptkomponentenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205 6.2.2 Clusteranalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 6.3 Methoden der überwachten Klassifikation. . . . . . . . . . . . . . . . . . . . . . . . . . 223 6.3.1 k-nächste-Nachbarn-Klassifikation . . . . . . . . . . . . . . . . . . . . . . . . . 224 6.3.2 Bayes’sche Klassifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227 6.3.3 Support Vector Machine-Klassifizierung. . . . . . . . . . . . . . . . . . . . . 231 6.3.4 Klassifizierung mittels Entscheidungsbäumen. . . . . . . . . . . . . . . . . 240 6.3.5 Klassifizierung mittels künstlicher neuronaler Netze . . . . . . . . . . . 241 6.3.6 Klassifikationsfehlerrate. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254
|
||
7 Statistische Versuchsplanung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255 7.1 Versuchsplan 1. Ordnung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255 7.1.1 Vollfaktorieller Versuchsplan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258 7.1.2 Teilfaktorielle Versuchspläne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266 7.2 Versuchsplan 2. Ordnung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269 7.3 Zentral zusammengesetzter Versuchsplan. . . . . . . . . . . . . . . . . . . . . . . . . . 273 7.4 Box-Behnken-Versuchsplan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274 7.5 Allgemeine Hinweise zu Versuchsplänen . . . . . . . . . . . . . . . . . . . . . . . . . . 278 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278
|
||
8 Lösungen zu den Übungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279 8.1 Lösungen zu Kap. 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279 8.2 Lösungen zu Kap. 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282 8.3 Lösungen zu Kap. 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285 8.4 Lösungen zu Kap. 4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292 8.5 Lösungen zu Kap. 5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294 8.6 Lösungen zu Kap. 6. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302 8.7 Lösungen zu Kap. 7. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306
|
||
9 Anhang. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309 9.1 Ein klein wenig lineare Algebra. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309 9.1.1 Rechnen mit Vektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310 9.1.2 Rechnen mit Matrizen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312 9.1.3 Eigenwerte und Eigenvektoren von Matrizen. . . . . . . . . . . . . . . . . 316
|
||
|
||
XIV
|
||
|
||
Inhaltsverzeichnis
|
||
|
||
9.2 Lagrange’sches Multiplikationsverfahren – Optimierung mit Nebenbedingungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318
|
||
9.3 Mehr zur Fehlerfortpflanzung – für mathematisch Versierte. . . . . . . . . . . . 320 9.4 Statistische Tabellen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323 9.5 Software. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 349 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352
|
||
Stichwortverzeichnis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353
|
||
|
||
Streifzug durch Excel
|
||
|
||
1
|
||
|
||
1.1 Tabellenkalkulation mit Excel
|
||
Wenn Excel geöffnet wird, lädt automatisch eine leere Arbeitsmappe mit einer Tabelle. Die Tabelle hat 1.048.576 Zeilen und 16.384 Spalten, die entsprechend von 1 bis 1.048.576 bzw. mit A bis XFD bezeichnet werden. Es kann also schon mit relativ großen Datenmengen umgehen, im Gegensatz zu dem ein oder anderen Statistikprogramm. Durch ihre jeweilige Zeilen- und Spaltenbezeichnung ist jede Zelle im Tabellenblatt eindeutig gekennzeichnet. Excel unterscheidet generell drei Arten von Datentypen: Zahlen, Text und Formeln. Alle drei können jeweils direkt in Zelle eingegeben werden und Excel erkennt automatisch den Datentyp. Zahlen sind in der jeweiligen Zelle rechtsbündig angeordnet1, im Gegensatz zu Text, der linksbündig angeordnet wird. Damit Excel eine Formel erkennen kann, muss sie mit einem Gleichheitszeichen eingeleitet werden. Angenommen, Sie wollen die Werte der Zellen A1 = 2 und B1 = 3 miteinander addieren und das Ergebnis in Zelle C1 schreiben, dann markieren Sie C1 und geben direkt in die Zelle, oder in die Bearbeitungsleiste, die Formel = A1 + B2 ein. Die Bearbeitungsleiste ist das lang gestreckte Feld neben dem fx -Zeichen (vgl. Abb. 1.1).
|
||
Nach Drücken der Eingabetaste wird das Ergebnis 5 in der Zelle C1 angezeigt. Markieren Sie nun die Zelle C1, dann finden Sie die zuvor eingegebene Formel nur noch in der Bearbeitungsleiste, aber nicht in der Zelle selbst. Dennoch ist der Zellinhalt von C1 immer noch funktional mit A1 und B1 verknüpft. Das erkennen Sie spätestens dann, wenn Sie bspw. den Wert von A1 ändern, denn dann ändert sich der Wert in C1 automatisch mit. Neben Addieren kann Excel natürlich auch Subtrahieren, Dividieren und Multiplizieren. Darüber hinaus bringt Excel eine relativ große Bibliothek an vorgefertigten Funktionen aus verschiedensten Disziplinen mit, von denen die statistischen Funktionen, die mathematischen und trigonometrischen, aber auch die technischen Funktionen hier von besonderem Interesse sind.
|
||
|
||
1Sofern Sie nicht im Eingabemodus sind.
|
||
|
||
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020
|
||
|
||
1
|
||
|
||
M. Schneider, Datenanalyse für Naturwissenschaftler, Mediziner und Ingenieure,
|
||
|
||
https://doi.org/10.1007/978-3-662-61866-0_1
|
||
|
||
2
|
||
|
||
1 Streifzug durch Excel
|
||
|
||
Abb. 1.1 Die Oberfläche von Microsoft Excel 2016. In der (markierten) Zelle C1 wurde die Summe der Inhalte aus den Zellen A1 und B1 berechnet. In der Bearbeitungsleiste (s. Beschriftung) erkennt man die zugehörige Formel. Hervorgehoben habe ich hier auch das Ausfüllkästchen. Bewusst habe ich im Menüband die Registerkarte Daten ausgewählt, weil sich hier das Datenanalyse-Werkzeug und der Solver befinden (oben rechts), die beide noch eine große Rolle in diesem Buch spielen werden. „Nutzung mit Genehmigung von Microsoft.“
|
||
Die Funktionenbibliothek kann mithilfe des fx -Symbols der Bearbeitungsleiste aufgerufen werden. Häufig kennt man bereits den Funktionsnamen und man kann ihn nach dem Gleichheitszeichen eingeben. Excel macht bereits nach dem ersten Buchstaben Vorschläge für Funktionen, die mit demselben Buchstaben anfangen. Wenn Sie in Excel eine oder mehrere Zellen kopieren, die Formeln enthalten, dann beachten Sie, dass beim „normalen“ Einfügen (z. B. über strg + v ) auch die Zellbezüge mit kopiert werden. Standardmäßig werden relative Zellbezüge gesetzt, d. h., wenn Sie die Zelle C1 von oben kopieren und bspw. bei D5 wieder einfügen, dann wird Ihnen dort eine Null angezeigt werden (vorausgesetzt, die Zellen B5 und C5 waren leer wie in Abb. 1.1). Wenn in B5 eine 7 und C5 eine 1 gestanden hätten, dann wäre nach dem Kopieren der Zelle C1 in D5 der Inhalt Letzterer gleich 8. Ein relativer Zellbezug bedeutet hier also relativ zur Position der Formel enthaltenden Zelle (hier die neue Position D5). Gehen Sie nun nochmals zurück zur Zelle mit der ursprünglichen Formel in C1 und doppelklicken Sie auf die Zelle. Nun gehen Sie auf den ersten Summanden A1 und drücken F4 . Das Gleiche machen Sie mit dem zweiten Summanden B2. Die Formel hat nun insgesamt vier Dollarzeichen hinzubekommen. Diese sagen Excel, dass es sich hierbei jeweils um einen absoluten Zellbezug handelt, d. h., sowohl die Zelle A1 als auch die Zelle B1 sind jetzt fester Bestandteil der Formel, die in C1 geschrieben wurde. Wenn Sie nun diese Zelle kopieren und wiederum in D5 einfügen, dann bekommen Sie nun auch in dieser Zelle das Ergebnis 5. Wenn Sie nochmals auf die Formel in der Bearbeitungsleiste schauen, dann ist diese identisch mit der in C1. Wir werden weiter unten auch Gebrauch von den
|
||
|
||
1.1 Tabellenkalkulation mit Excel
|
||
|
||
3
|
||
|
||
sogenannten absoluten Zeilenadressen und den absoluten Spaltenadressen machen. Im ersten Fall hat die Zeile einen absoluten-, die Spalte jedoch einen relativen Bezug, im zweiten Fall hat die Spalte einen absoluten- und die Zeile einen relativen Bezug. Um sich das klarer zu machen, bearbeiten Sie noch einmal die Formel in C1, indem Sie wiederum jeweils beide Summanden markieren und F4 drücken. Ihre Formel sollte nun so aussehen: = A$1 + B$1. Wenn Sie nun die Zelle nach C2 kopieren, sollten Sie genau dasselbe Ergebnis und dieselbe Formel erhalten wie in C1. Wenn Sie aber die Zelle nach D2 kopieren, dann sollten Sie als Ergebnis 8 erhalten, nämlich als Summe der Zelle B1 und C1. Sie sehen, die Zeile ist gleich geblieben, lediglich die Spalte ist dynamisch. Dies war ein Beispiel für eine absolute Zeilenadresse. In diesem Zusammenhang möchte ich auf eine Kleinigkeit hinweisen, die viele gar nicht kennen, die aber in den Anwendungen das Leben erleichtern, und zwar das Ausfüllkästchen. Sie sehen es rechts unten am Rand der aktuell markierten Zelle2 (vgl. auch Abb. 1.1). Wenn die aktive Zelle eine Formel enthält und Sie mit dem Mauszeiger über das Ausfüllkästchen fahren, die linke Maustaste gedrückt halten und nach rechts, links, oben oder unten ziehen, so wird die Zelle kopiert. Wenn dort eine Zahl oder Text drinstand, so wird die Zahl oder der Text kopiert, wenn eine Formel drinstand, so wird die ganze Formel kopiert. Excel ist auch in der Lage, einfache Reihen automatisch zu erkennen. Geben Sie bspw. 1 in Zelle A1 ein und 2 in Zelle A2. Nun markieren Sie beide Zellen und ziehen nun (am Ausfüllkästchen) nach unten. Excel führt dann die Reihe mit 3, 4 etc. automatisch weiter. Ein von mir regelmäßig verwendetes Tool zum Erzeugen von Datenreihen ist das Datenreihe-Tool unter Start → Ausfüllen → Datenreihe... Hierzu geben Sie in einer Zelle die Startzahl Ihrer Reihe ein, markieren diese Zelle und öffnen anschließend besagtes Tool. Hier können Sie angeben, ob Sie die Datenreihe in Spalten oder in Zeilen ausfüllen möchten. Die Bezeichnungen beziehen sich dabei auf die Tatsache, dass Sie mehrere Spalten bzw. Zeilen mit diesem Werkzeug ausfüllen lassen können. Sie können auch angeben, ob Sie bspw. Linear oder Geometrisch ausfüllen möchten, mit welchem Inkrement das geschehen soll und bis zu welchem Endwert die Reihe fortgesetzt werden soll. Das Reihenwerkzeug ist in den Anwendungen oft sehr nützlich. In folgender Übung können Sie dies einmal ausprobieren.
|
||
|
||
1.1 Übung Erzeugen Sie mit dem Datenreihe-Werkzeug in Excel x-Werte von 1 bis 2 in 0,1er-Schritten in der Spalte A. Anschließend schreiben Sie in die Zellen C1 und C2 die Parameternamen b1 bzw. b2 und die zugehörigen Werten 5 bzw. 0, 5 in den darauffolgenden Zellen D1 bzw. D2. Nun berechnen Sie neben den Zellen der x-Werte die zugehörigen Funktionswerte f (x) = b1 + b2x. Verwenden Sie hierbei absolute Zellbezüge.
|
||
|
||
2Falls Sie es nicht sehen sollten, gehen Sie unter Datei → Optionen → Erweitert, und unter den Bearbeitungsoptionen finden Sie den Punkt Ausfüllkästchen und Drag & Drop von Zellen aktivieren, der aktiviert sein muss.
|
||
|
||
4
|
||
|
||
1 Streifzug durch Excel
|
||
|
||
1.2 Rechnen mit Vektoren und Matrizen
|
||
|
||
Oben habe ich Ihnen gezeigt, wie Sie einzelne Zahlen miteinander verrechnen können. In der datenanalytischen Praxis hat man es häufig mit Matrizen und Vektoren statt mit einzelnen Zahlen zu tun. Kurz zur Erinnerung, eine Matrix ist ein rechteckiges Schema von Zahlen mit m Zeilen und n Spalten, für die besondere Rechenregeln gelten. Ein Vektor ist ein Spezialfall einer Matrix, mit nur einer Zeile (Zeilenvektor) oder nur einer Spalte (Spaltenvektor). Zum Rechnen mit Vektoren und Matrizen in Excel brauchen wir den sogenannten ArrayOperator) {}. Schauen wir uns den Gebrauch dieses Operators mal anhand der Addition zweier Matrizen A und B an.
|
||
|
||
Beispiel 1.1 Wir berechnen die Summe der beiden Matrizen in Excel:
|
||
|
||
⎡⎤ 03
|
||
|
||
⎡⎤ 43
|
||
|
||
A = ⎣1 4⎦ und B = ⎣6 1⎦
|
||
|
||
25
|
||
|
||
71
|
||
|
||
Angenommen, die Matrix A stünde in den Zellen A1:B3 und die Matrix B in den Zellen D1:E3. Da beides 3 × 2-Matrizen sind, können beide problemlos addiert werden. Das geschieht jeweils elementweise (für mehr Details siehe Abschn. 9.1.2). Die Ergebnismatrix C ist dann ebenfalls eine 3 × 2-Matrix. Nehmen wir an, diese soll in den Zellen G1:H3 ausgegeben werden. Unter Excel gehen Sie wie folgt vor:
|
||
|
||
1. Markieren Sie die Zellen G1:H3 und klicken Sie anschließend in die Bearbeitungsleiste.
|
||
2. Geben Sie hier = ein und markieren Sie die Zellen A1:B3. Nachdem Sie + eingegeben haben, markieren Sie die Zellen D1:E3.
|
||
3. Dann drücken Sie shift + strg + und Sie erhalten die Matrix C in Ihren Ausgabezellen G1:H3.
|
||
|
||
Wenn Sie sich die Formel in den Ausgabezellen danach noch einmal in der Bearbeitungsleiste anschauen, sehen Sie, dass Excel automatisch die geschweiften Klammern um die Formel {=B11:C13+E11:F13} gesetzt hat. Dadurch weiß Excel, dass diese Zellen Teil eines Arrays sind. Würden Sie versuchen, eine Zelle, die Teil eines solchen Arrays ist, zu löschen oder zu bearbeiten, so gibt Excel einen Hinweis, dass Teile einer Matrix nicht bearbeitet werden können.
|
||
|
||
Der Nachteil beim Rechnen mit Matrizen in Excel ist, dass Sie vorab bereits die Größe der resultierenden Matrix kennen müssen und die richtigen Zellen markieren, in denen
|
||
|
||
1.2 Rechnen mit Vektoren und Matrizen
|
||
|
||
5
|
||
|
||
das Ergebnis stehen soll3. Wenn Sie bspw. wie hier, eine 3 × 2-Matrix mit einer anderen 3 × 2-Matrix addieren wollen, dann müssen Sie vorab 3 × 2-Zellen in Excel markieren und dann erst die Formel in der Bearbeitungsleiste eingeben. Bei der Addition ist das vielleicht nicht so schwer, denn die Ergebnismatrix ist genauso groß wie die beiden zu addierenden Matrizen, aber bei der Multiplikation sieht das ganze schon anders aus (für mehr Details siehe Abschn. 9.1.2). Das Rechnen mit Matrizen ist in der Praxis sehr wichtig, daher widme ich ihm hier auch einen eigenen Abschnitt. Matrizen treten bspw. dann auf den Plan, wenn es um das Lösen linearer Gleichungssysteme geht:
|
||
|
||
0,7 x1 + 0,1 x2 = 0,3 x1 + x2 = 1
|
||
|
||
(1.1)
|
||
|
||
Dieses Gleichungssystem lässt sich in Form einer Matrixgleichung darstellen:
|
||
|
||
0,7 0,1 x1 = 0,3
|
||
|
||
(1.2)
|
||
|
||
1 1 x2
|
||
|
||
1
|
||
|
||
A
|
||
|
||
x
|
||
|
||
b
|
||
|
||
A ist die sogenannte Koeffizientenmatrix, x ist der Variablenvektor und b ist der Lösungsvektor. Bevor wir nun zur Lösung eines Gleichungssystems wie in Gl. 1.2 zurückkommen, erinnern Sie sich bitte daran, dass zwei Matrizen A und B nur dann in der Form AB miteinander multipliziert werden können, wenn die Anzahl der Spalten von A gleich der Anzahl Zeilen von B ist. In der Regel gilt AB = BA (siehe auch Abschn. 9.1). Das kann man sich v. a. dann klarmachen, wenn beide Matrizen nicht quadratisch sind (bspw. wenn A eine 2 × 3-Matrix und B eine 3 × 5-Matrix ist), dann können Sie zwar AB berechnen, aber BA aufgrund unpassender Matrixdimensionen nicht. Excel zeigt im Namensfeld (links über der Spaltenbezeichnung A) beim Markieren der entsprechenden Zellen, wie viele Zeilen und Spalten ausgewählt wurden. Zur Multiplikation von zwei Matrizen A und B verwendet man die Funktion MMULT(A;B). Da Vektoren Spezialfälle von Matrizen sind, kann man mit der gleichen Funktion auch Matrizen mit Vektoren multiplizieren.
|
||
|
||
Beispiel 1.2 Angenommen, Sie haben 1 l einer 70 %igen und 1 l einer 10 %igen
|
||
|
||
Acetonitril-Lösung. Nun wollen Sie durch geschicktes Mischen 1 l einer 30 %igen
|
||
|
||
Acetonitril-Lösung herstellen. Um dieses Problem zu lösen, stellt man ein lineares
|
||
|
||
Gleichungssystem auf:
|
||
|
||
0,7 x1 + 0,1 x2 = 0,3 x1 + x2 = 1
|
||
|
||
(1.3)
|
||
|
||
3Nachtrag: Das hat sich übrigens in Excel für Office 365, aufgrund der Einführung dynamischer Arrays im Jahr 2019, geändert. Da ich aber für dieses Buch mit Excel 2016 gearbeitet habe, werde ich weiterhin die alte Vorgehensweise für Arrays beschreiben, da sie auch für ältere Excel-Versionen gilt.
|
||
|
||
6
|
||
|
||
1 Streifzug durch Excel
|
||
|
||
x1 bzw. x2 sind jeweils die zu mischenden Volumina der 70 %igen bzw. der 10 %igen Acetonitril-Lösung. Die obere Gleichung bezieht sich auf den reinen Anteil Acetonitril. Die 70 %ige Acetonitril-Lösung enthält 0,7 l reines Acetonitril. Die 10 %ige Acetonitril-Lösung enthält 0,1 l reines Acetonitril. Die Endlösung soll letztlich 0,3 l reines Acetonitril beinhalten. Die untere Gleichung berücksichtigt, dass man nach dem Mischen am Ende 1 Liter 30 %ige Acetonitril-Lösung erhalten soll. In der Schule haben Sie sicherlich verschiedene Verfahren kennengelernt, wie man ein solches lineares Gleichungssystem lösen kann. Ich zeige nun die Matrixvariante. Man kann nämlich o.g. Gleichungen durch eine Matrixgleichung ausdrücken:
|
||
|
||
0,7 0,1 x1 = 0,3
|
||
|
||
(1.4)
|
||
|
||
1 1 x2
|
||
|
||
1
|
||
|
||
A
|
||
|
||
x
|
||
|
||
b
|
||
|
||
A ist die Koeffizientenmatrix, x bezeichnet man als Variablen- und b als Lösungsvek-
|
||
|
||
tor. Ich nehme jetzt schon mal vorweg, dass die Lösung der Matrixgleichung wie folgt
|
||
|
||
lautet:
|
||
|
||
x1 x2
|
||
|
||
=
|
||
|
||
1/3 2/3
|
||
|
||
(1.5)
|
||
|
||
Sie müssen demnach 0,33 l der 70 %igen Acetonitril-Lösung mit 0.66 l der 10 %igen Lösung mischen, um 1 l der 30 %igen Acetonitril-Lösung zu erhalten.
|
||
|
||
Wie lösen Sie typischerweise eine herkömmliche Gleichung der Form Ax = b nach x auf? Sie teilen beide Seiten durch A und erhalten x = b/A. Mathematisch sagt man, Sie multiplizieren beide Seiten mit dem inversen Element 1/A = A−1, wodurch auf der linken Seite x und auf der rechten Seite b · A−1 = A−1 · b übrig bleibt. Mit der letzten Gleichung wollte ich andeuten, dass es bei der normalen Multiplikation egal ist, ob man A−1 von links
|
||
oder von rechts zur ursprünglichen Gleichung multipliziert. Dasselbe gilt allgemein nicht
|
||
für die Matrizenmultiplikation (vgl. auch Abschn. 9.1). Um nun eine Matrizengleichung in
|
||
der Form von Gl. 1.4 nach dem Vektor x aufzulösen, müssen Sie diese von links her mit der inversen Matrix A−1 multiplizieren:
|
||
|
||
Ax ⇔ A−1Ax ⇔ Ix ⇔x
|
||
|
||
=b = A−1b = A−1b = A−1b
|
||
|
||
| × A−1(von links)
|
||
|
||
(1.6) (1.7) (1.8) (1.9)
|
||
|
||
I ist hierbei die Einheitsmatrix. Die Inverse von A lässt sich in Excel mit der Funktion MINV berechnen. Nur quadratische Matrizen können eine Inverse haben. Woran kann man nun (schnell) erkennen, ob eine quadratische eine Inverse hat? Indem man ihre Determinante
|
||
|
||
1.3 Der Solver – ein starkes Werkzeug
|
||
|
||
7
|
||
|
||
berechnet. Ist diese ungleich null, dann existiert eine eindeutige Lösung. In Excel können Sie die Determinante mit der Funktion MDET berechnen. Anhand der Koeffizientenmatrix A aus Beispiel 1.2 hätte man bereits sehen können, dass das Gleichungssystem eine eindeutige Lösung besitzt. Die Determinante ist hier gleich 3/5 = 0, und das bedeutet, A ist tatsächlich invertierbar und das System hat eine eindeutige Lösung. Kommen wir abschließend noch zum Begriff der Transponierten einer Matrix. Eine gängige Schreibweise für die Transponierte einer Matrix A ist AT . Beim Transponieren werden die Zeilen von A zu Spalten und umgekehrt. Z. B. wird eine 2 × 3-Matrix durch Transponieren zu einer 3 × 2-Matrix. In Excel lässt sich das mithilfe der Funktion MTRANS bewerkstelligen.
|
||
|
||
1.2 Übung Berechnen Sie das Skalarprodukt vT w der beiden Vektoren:
|
||
|
||
⎡⎤ 1
|
||
|
||
⎡⎤ 0
|
||
|
||
v = ⎣0⎦ und w = ⎣1⎦
|
||
|
||
0
|
||
|
||
1
|
||
|
||
Verwenden Sie hierzu die oben genannten Excel-Funktionen.
|
||
|
||
1.3 Der Solver – ein starkes Werkzeug
|
||
Der Solver muss in Excel zunächst aktiviert werden. Dazu geht man unter Datei -> Optionen -> Add-Ins, und in der Dropdown-Liste Verwalten wählen Sie Excel-Add-Ins und klicken auf Los... Dann werden Ihnen alle verfügbaren Add-Ins angezeigt. Den Solver aktivieren Sie, indem Sie vor das entsprechende AddIn einen Haken setzen4. Ebenso können Sie hier auch direkt die Analyse-Funktionen mit aktivieren, da wir sie später noch brauchen werden. Nachdem Sie beide aktiviert haben, sind sowohl der Solver als auch die Datenanalysefunktionen im Register Daten verfügbar. Was kann man nun mit dem Solver machen? Das möchte ich im Folgenden an mehreren Beispielen aus der Praxis zeigen5.
|
||
|
||
4Der Solver wird übrigens von einer Firma namens Frontline Systems entwickelt (https://www.solver. com), wobei laut Microsoft Teile des Programmcodes dem Urheberrecht von Frontline Systems, Inc., Copyright 1990–2009 unterliegen und Teile dem Urheberrecht von Optimal Methods, Inc., Copyright 1989 (siehe hierzu https://support.office.com/en-us/article/define-and-solve-a-problem-by-usingsolver-5d1a388f-079d-43ac-a7eb-f63e45925040?omkt=en-US&ui=en-US&rs=en-US&ad=US). 5Die Beispiele sollen Ihnen für Ihr Problem als Richtschnur dienen. Es sind Beispiele, bei denen ich in meiner Praxis den Solver angewendet habe.
|
||
|
||
8
|
||
|
||
1 Streifzug durch Excel
|
||
|
||
Beispiel 1.3 Das Mischungsproblem aus Beispiel 1.2 konnte mithilfe des folgenden linearen Gleichungssystems beschrieben werden:
|
||
|
||
0,7 x1 + 0,1 x2 = 0,3 x1 + x2 = 1
|
||
|
||
(1.10)
|
||
|
||
Wir haben dieses Gleichungssystem bereits mithilfe der Matrizenrechnung lösen können. Auf dieselbe Lösung kann man relativ einfach mit dem Solver kommen. Dazu schreibt man sich zunächst noch einmal die entsprechenden Koeffizienten der Gleichungen hin und errechnet in einer Ergebnisspalte (Spalte $F$9:$F$10, vgl. Abb. 1.2) mit entsprechenden Startvorgaben für x1 = 1 und x2 = 1 die Lösungen b = [b1, b2]. Es lohnt oft, die Startparameter etwas zu variieren und zu schauen, ob man der eigentlichen Lösung des Gleichungssystems b1 = 0,3 und b2 = 1 näher kommt.
|
||
Wie oben beschrieben, rufen Sie den Solver auf. Wählen Sie als Zielzelle die Zelle $F$9 und weisen ihr den Wert 0,3 zu. Unter den Nebenbedingungen für den Solver wählen Sie Zelle $F$10 aus, der ein Wert von =1 zugewiesen wird. Die Lösungsmethode LP-Simplex ist standardmäßig nicht voreingestellt (sondern GRG-Nichtlinear). Die LP-Simplex-Methode wird zur Lösung linearer Probleme empfohlen und kann daher zur Lösung unseres linearen Gleichungssystem verwendet werden. Mit dem GRG-Nichtlinear lassen sich allgemein auch nicht-lineare Probleme lösen. Ich werde weiter unten im Buch noch näher auf die Konzepte hinter diesen Lösungsmethoden zu sprechen kommen und spare mir daher hier weitere Erklärungen. Bitte beachten Sie, dass der Haken bei Nicht eingeschränkte Variablen als nicht-negativ festlegen nicht gesetzt ist, damit allgemein auch negative Werte als Lösung erlaubt sind. Nachdem Sie Lösen geklickt haben, sollte derselbe Parametervektor als Lösung erscheinen wie beim Lösen mithilfe der Matrizen in Beispiel 1.2.
|
||
|
||
Es ist recht interessant, unter Optionen einen Blick auf Einstellungen zu werfen, die man für die jeweiligen Lösungsmethoden vorgeben kann. Unter Alle Methoden können Sie die Anzahl an Iterationen (Iterationen) oder die Zeit (Höchstzeit) beschränken, die der Solver maximal zum Rechnen verwenden sollte. Für den GRG-Nichtlinear kann man zusätzlich noch Einfluss auf die Konvergenz nehmen, d. h., der Solver iteriert so lange, bis sich die Lösung bis auf die, durch Konvergenz vorgegebene, Nachkommastelle nicht mehr ändert. Es sollte außerdem darauf geachtet werden, dass unter Ableitungen die zentrale Ableitung ausgewählt ist. Sie ist nämlich genauer als die Vorwärtsableitung, wie wir in Abschn. 1.4 noch sehen werden. Beispiel 1.3 ist natürlich eines von vielen, das mithilfe des Solvers gelöst werden kann. Ebenso kann er bspw. zum Lösen von Nullstellen- oder Extremwertproblemen eingesetzt werden. Hierzu ein weiteres Beispiel (1.4) aus der Praxis.
|
||
|
||
1.3 Der Solver – ein starkes Werkzeug
|
||
|
||
9
|
||
|
||
Abb. 1.2 Lösen des linearen Gleichungssystems aus Beispiel 1.2 mithilfe des Solvers. „Nutzung mit Genehmigung von Microsoft.“
|
||
|
||
Beispiel 1.4 Angenommen, Sie haben ein Experiment gemacht, bei dem Sie mithilfe von Standards definierter Konzentrationen eine Kalibrationskurve erstellt haben (siehe Abb. 1.3).
|
||
Für eine unbekannte Probe haben Sie anschließend das Signal yu = 60 gemessen und wollen mithilfe des Kalibrationsmodells auf die Konzentration xu dieser Probe schließen. Das Kalibrationsmodell sei durch folgende Funktion gegeben (durchgezogene Linie in Abb. 1.3):
|
||
|
||
A−B
|
||
|
||
y(x) = B + 1+
|
||
|
||
x C
|
||
|
||
D
|
||
|
||
(1.11)
|
||
|
||
mit A = 100, B = 10, C = 0,0005 und D = 1. Um Ihre unbekannte Konzentration
|
||
|
||
zu berechnen, geben Sie zunächst einen Startwert für xu vor und berechnen in einer
|
||
|
||
Zelle mit diesem x-Wert den zugehörigen y-Wert. Dieser wird vermutlich nicht gleich
|
||
|
||
dem Signalwert sein, den Sie gemessen haben. Nun verwenden Sie den Solver, um
|
||
|
||
verschiedene x-Werte durchzuprobieren, um einen y-Wert von yu zu erreichen. Dazu
|
||
|
||
markieren Sie im Solver-Fenster die Zellen, in der y berechnet wurde als Zielzelle.
|
||
|
||
Diese soll einen Wert von yu haben. Leider erlaubt der Solver an dieser Stelle nicht
|
||
|
||
die Auswahl einer Zelle, in der Sie yu vorgelegt haben, Sie müssen yu direkt unter
|
||
|
||
Wert eintragen. Die Variablenzelle ist diejenige, in die Sie den Startwert für xu ein-
|
||
|
||
getragen haben. Bitte beachten Sie, dass der Haken bei Nicht eingeschränkte
|
||
|
||
Variablen als nicht-negativ festlegen wiederum nicht gesetzt ist.
|
||
|
||
10
|
||
|
||
1 Streifzug durch Excel
|
||
|
||
Meines Erachtens sollte das in den meisten Fällen so sein, es sei denn, es können bspw. aus physikalischen Gründen keine negativen Werte als Ergebnis der Optimierung rauskommen. Wenn Sie auf Lösen klicken, wird Ihnen xu = 0,0004 berechnet, und Sie haben die Konzentration Ihrer unbekannten Probe ermittelt. Anstatt den yuWert im Solver-Fenster einzutragen, könnten Sie den Solver auch die Nullstelle der Funktion yu − y(xu) berechnen lassen. Hierzu geben Sie wiederum eine erste Schätzung des xu-Wertes vor, berechnen anschließend in einer weiteren Zelle yu − y(xu) und suchen für diese (Differenz-)Funktion die Nullstelle, indem Sie die jeweilige Zelle als Ziel festlegen, den Wert auf 0 setzen und wiederum xu als Variablenzelle definieren. Es sollte dasselbe rauskommen wie zuvor. Zugegeben, Gl. 1.11 kann man tatsächlich noch analytisch nach x auflösen. Probieren Sie es doch mal und kontrollieren, ob der Solver alles richtig gemacht hat. Spätestens, wenn das Kalibrationsmodell nicht mehr oder nur schwer noch analytisch nach x auflösbar ist, müssen Sie auf den Solver zurückgreifen.
|
||
|
||
Im Laufe des Buches werden Sie den Solver bei den verschiedensten Szenarien im Einsatz sehen. Insbesondere im Kapitel zur linearen- und nicht-linearen Regression werden wir auf seine Verwendung zurückkommen.
|
||
1.3 Übung Angenommen, die Daten in Tab. 1.1 entstammen der linearen Kalibrierung eines photometrischen Verfahrens, wobei die Absorption y einer Substanz bei verschiedenen Konzentrationen c gemessen wurde. Ermitteln Sie die Bestimmungsgrenze cB in Gl. 1.12 mithilfe des Solvers.
|
||
|
||
Abb. 1.3 Bestimmung der Konzentration einer unbekannten Probe mithilfe des Solvers
|
||
|
||
120
|
||
100
|
||
80
|
||
y 60 yu
|
||
40
|
||
20
|
||
0 5.10 −7
|
||
|
||
xu
|
||
|
||
5.10 −5
|
||
|
||
5.10 −3 x
|
||
|
||
5.10 −1
|
||
|
||
1.4 Numerisches Differenzieren
|
||
|
||
11
|
||
|
||
Tab. 1.1 Beispieldaten zur Berechnung der Bestimmungsgrenze mithilfe des Solvers
|
||
|
||
c
|
||
|
||
0,010 0,030 0,050 0,070 0,090 0,110 0,130 0,150 0,170
|
||
|
||
y
|
||
|
||
0,022 0,181 0,353 0,421 0,604 0,741 0,884 0,984 1,092
|
||
|
||
0,190 1,226
|
||
|
||
cB
|
||
|
||
=
|
||
|
||
k
|
||
|
||
·
|
||
|
||
t1−α/2,n−2
|
||
|
||
SE b2
|
||
|
||
1+ 1 + nm
|
||
|
||
(cB − c¯)2
|
||
n
|
||
(ci − c¯)2
|
||
|
||
i =1
|
||
|
||
cB
|
||
|
||
=
|
||
|
||
6,92 S E b2
|
||
|
||
1.01 +
|
||
|
||
(cB − c¯)2
|
||
n
|
||
|
||
(ci − c¯)2
|
||
|
||
i =1
|
||
|
||
(1.12)
|
||
|
||
k ist der sogenannte k-Faktor und wird zur Berechnung der Bestimmungsgrenze meist gleich 3 gesetzt. t1−α/2,n−2 ist das (1 − α/2)-Quantil der Student-t-Verteilung mit n − 2 Freiheitsgraden (hierzu später mehr), wobei n der Gesamtzahl an Messungen entspricht (hier n = 10). Dieser Wert lässt sich in Excel mit der Funktion T.INV(1-α/2;n − 2) berechnen6, wobei α das Signifikanzniveau bezeichnet, welches in der Praxis häufig zu α = 0,05 gesetzt wird.
|
||
m entspricht der Anzahl an Parallelbestimmungen (hier gleich 1), und S E bezeichnet den Standardfehler7, der sich mithilfe der Excel-Funktion STFEHLERYX berechnen lässt. c¯ ent-
|
||
spricht dem Mittelwert der Konzentrationen, b2 der Steigung der Regressionsgeraden. Diese können Sie aus den Daten mit der Funktion STEIGUNG berechnen.
|
||
|
||
1.4 Numerisches Differenzieren
|
||
|
||
Kommen wir vorab zur mathematischen Definition der Ableitung f (x) einer differenzierbaren Funktion f (x) an einer Stelle x0:
|
||
|
||
f (x0) =
|
||
|
||
lim f (x0 +
|
||
x →0
|
||
|
||
x) − f (x0) x
|
||
|
||
(1.13)
|
||
|
||
Die Ableitung ist demnach die Steigung einer Geraden (Sekante), die durch die Punkte (x0, f (x0)) und (x0 + x, f (x0 + x)) geht und durch Grenzwertbildung x → 0 zur Tangente im Punkt x0 wird (vgl. Abb. 1.4).
|
||
Die Sekante S2, die durch die Punkte x0 und x0 + x2 verläuft, ist eine erste, aber schlechte Näherung für die Tangente T durch den Punkt x0. Die Steigung von S2, f2/ x2, ist weit größer als die der Tangente. Das liegt daran, dass x2 relativ groß gewählt wurde. Verkleinern wir dieses, so erkennt man, dass die Sekante S1 bereits deutlich mehr Ähnlichkeit
|
||
|
||
6Alternativ können Sie auch die Funktion T.INV.2S(α;n − 2) verwenden. 7In Abschn. 5 sage ich mehr dazu.
|
||
|
||
12
|
||
Abb. 1.4 Zur Veranschaulichung der numerischen Differentiation
|
||
|
||
1 Streifzug durch Excel
|
||
|
||
∆f2
|
||
|
||
S2
|
||
|
||
f(x) S1 T
|
||
|
||
∆f1
|
||
|
||
x0 x0+∆x1
|
||
|
||
x0+∆x2
|
||
|
||
mit der Tangente hat und somit auch die Steigung f1/ x1 weit näher bei der Steigung
|
||
|
||
der Tangente liegt. Machen wir nun x sehr klein, dann wird die Annäherung der Sekante
|
||
|
||
an die Tangente und somit deren Steigungen nicht mehr voneinander unterscheidbar sein.
|
||
|
||
Den Ausdruck hinter dem Gleichheitszeichen in Gl. 1.13 können wir noch etwas verkürzt
|
||
|
||
schreiben und führen
|
||
|
||
dabei nebenher den
|
||
|
||
Differentialquotient
|
||
|
||
df dx
|
||
|
||
ein:
|
||
|
||
lim f = d f x→0 x d x
|
||
|
||
(1.14)
|
||
|
||
Im Laufe des Buches werden wir noch des Öfteren die Schreibweise mit dem Differen-
|
||
|
||
tialoperator
|
||
|
||
d dx
|
||
|
||
sehen. n-fach auf eine Funktion
|
||
|
||
f
|
||
|
||
angewendet, erhält man die n-te Ableitung
|
||
|
||
dn f dxn
|
||
|
||
.
|
||
|
||
Zur
|
||
|
||
numerischen
|
||
|
||
Berechnung
|
||
|
||
einer
|
||
|
||
Ableitung,
|
||
|
||
legen
|
||
|
||
wir
|
||
|
||
Gl.
|
||
|
||
1.13
|
||
|
||
zugrunde,
|
||
|
||
verwenden
|
||
|
||
jedoch den Buchstaben h anstelle von x und benutzen zur Approximation von f (x):
|
||
|
||
f (x) ≈ f (x + h) − f (x) h
|
||
|
||
(1.15)
|
||
|
||
h ist hierbei eine hinreichend kleine Zahl (z. B. 10−6) und wird oft Schrittweite genannt.
|
||
|
||
h darf weder zu groß, noch zu klein gewählt werden. Wenn man es zu groß wählt, ist die
|
||
|
||
Approximation des Differentialquotienten genau genug, wenn man es zu klein wählt, v. a. bei
|
||
|
||
zweiten und höheren Ableitungen, kann es bspw. zu numerischen Unterläufen kommen. Als
|
||
|
||
Daumenregel sollte man h ungefähr zwei bis drei Zehnerpotenzen kleiner als die Auflösung
|
||
|
||
x der x-Werte wählen. Gl. 1.15 stellt das sogenannte Vorwärtsableiten dar, weil man zur
|
||
|
||
Berechnung der Ableitung an der Stelle x zusätzlich den Funktionswert an der Stelle x + h
|
||
|
||
benötigt. Dementsprechend gibt es auch ein rückwärts Ableiten, bei dem man, neben f (x)
|
||
|
||
den Funktionswert an der Stelle x − h benötigt:
|
||
|
||
f (x) ≈ f (x) − f (x − h) h
|
||
|
||
(1.16)
|
||
|
||
1.4 Numerisches Differenzieren
|
||
|
||
13
|
||
|
||
Wie jede Approximation haben natürlich auch diejenigen in Gl. 1.15 und 1.16 einen
|
||
gewissen Fehler. Ohne hier näher ins Detail gehen zu wollen, lässt sich dieser relativ leicht abschätzen. Der Fehler ist 1. Ordnung, d. h., er ist proportional zu h1. (gängige Schreibweise O(h1)). Eine noch bessere Approximation der Ableitung lässt sich mit der sogenannten zentralen Ableitung erreichen:
|
||
|
||
f (x) ≈ f (x + h) − f (x − h) 2h
|
||
|
||
(1.17)
|
||
|
||
Mit ihr lässt sich die Approximation auf einen Fehler 2. Ordnung (O(h2)) nochmals
|
||
|
||
deutlich reduzieren. Die Herleitung von Gl. 1.17 lässt sich übrigens relativ einfach mithilfe
|
||
|
||
der Taylor-Reihe für f (x +h) und f (x −h) bewerkstelligen. Ebenso lassen sich entsprechend
|
||
|
||
weitere Approximationen für f (x) herleiten, die eine noch höhere Genauigkeit haben. In
|
||
|
||
der Praxis ist jedoch die zentrale Ableitung oft völlig ausreichend. Machen wir doch mal
|
||
|
||
den Vergleich.
|
||
|
||
Beispiel 1.5 Wir vergleichen einmal die Genauigkeiten der Ableitungen durch Vor-
|
||
wärtsableiten, Rückwärtsableiten und zentrales Ableiten gegenüber der analytischen Lösung der Funktion f (x) = x2 an der Stelle x0 = 2. Wir wählen für alle Methoden h = 10−6.
|
||
|
||
1. Vorwärtsableiten
|
||
|
||
f (x) = (2 + h)2 − 22 = 4,0000010006 h
|
||
2. Rückwärtsableiten
|
||
|
||
(1.18)
|
||
|
||
f (x) = 22 − (2 − h)2 = 3,9999989996 h
|
||
3. Zentrales Ableiten
|
||
|
||
(1.19)
|
||
|
||
f (x) = (2 + h)2 − (2 − h)2 = 4,0000000001 2h
|
||
|
||
(1.20)
|
||
|
||
Bei der zentralen Ableitung ist die Lösung bis auf die neunte Nachkommastelle gleich mit der wahren Lösung f (x0) = 2x0 = 2 · 2 = 4.
|
||
|
||
Kommen wir nun noch zur numerischen Berechnung der zweiten Ableitung und von partiellen Ableitungen. Ausgehend von Gl. 1.17 können wir die zentrale Ableitung für f (x) berechnen:
|
||
|
||
14
|
||
|
||
1 Streifzug durch Excel
|
||
|
||
f (x) ≈ f (x + h) − f (x − h) 2h
|
||
|
||
=
|
||
|
||
f (x
|
||
|
||
+ 2 h) − 2 f (x) + 4 h2
|
||
|
||
f (x
|
||
|
||
− 2 h)
|
||
|
||
(1.21)
|
||
|
||
Der Ausdruck hinter dem Gleichheitszeichen kommt durch Anwenden der zentralen Ableitung (Gl. 1.17) auf f (x + h) bzw. f (x − h) in Gl. 1.21 zustande. Da auch diese zweite Ableitung zentral ist, hat sie die Fehlerordnung O(h2). Bei einigen Anwendungen, wie bspw. der Nahen-Infrarot-Spektroskopie, kommt es häufig vor, dass die erste und zweite Ableitung des Signals berechnet werden muss. Zum Vergleich, schauen wir uns das an einem Beispiel an:
|
||
|
||
Beispiel 1.6 Für diese Beispiel habe ich ein Kosinus-Signal hergenommen und künstlich ein ganz kleines normalverteiltes Rauschen mithilfe der Funktion NORMINV(ZUFALLSZAHL();0;0,005) aufaddiert. Das Signal ist mit 0,1er-tInkrementen im Intervall 0 bis 2π aufgelöst. Abb. 1.5 soll Ihnen zur Kontrolle dienen8. Sie sehen im Diagramm (rechts), dass das Rauschen des ursprünglichen Signals (blau gepunktete Linie) kaum auffällt, es jedoch durch die beiden Differentiationsschritte deutlich verstärkt wird. Bei der 1. Ableitung (gestrichelte orangefarbene Linie)), einem sinusförmigen Signal, fällt das Rauschen dann auf. Es wird durch die Bildung der 2. Ableitung (durchgezogene Linie) nochmals verstärkt. Die gegenüber dem Ursprungssignal Frequenz-verschobene Kosinusfunktion erkennt man in der 2. Ableitung kaum noch.
|
||
Wie Sie sehen, habe ich in diesem Beispiel die 2. Ableitung nicht direkt berechnet, sondern als Ableitung der 1. Ableitung, da ich die drei Graphen gemeinsam darstellen wollte.
|
||
|
||
Zweite Ableitungen kommen in den Anwendungen öfter mal vor, aber eben häufig in Form
|
||
|
||
von partiellen Ableitungen. Die partielle Ableitung einer Funktion f (x1, x2, . . . , xn) erhält man dann, wenn man diese Funktion nach einer oder mehreren der Variablen x1, . . . , xn
|
||
|
||
differenziert und die anderen Variablen dabei konstant hält. Auch die partielle Ableitung
|
||
|
||
schreibt
|
||
|
||
man
|
||
|
||
oft
|
||
|
||
in
|
||
|
||
Form
|
||
|
||
eines
|
||
|
||
Differentialoperators
|
||
|
||
∂ ∂x
|
||
|
||
.
|
||
|
||
Hierbei
|
||
|
||
deutet
|
||
|
||
das
|
||
|
||
del
|
||
|
||
(∂
|
||
|
||
)
|
||
|
||
darauf
|
||
|
||
hin,
|
||
|
||
dass es sich um eine partielle Ableitung handelt. Es gibt einige Besonderheiten bei partiellen
|
||
|
||
Ableitungen gegenüber nicht-partiellen Ableitungen. Es kann bspw. mehrere verschiedene
|
||
|
||
zweifache Ableitungen geben. Es kann auch gemischte Ableitungen geben. Wenn wir bspw.
|
||
|
||
eine Funktion f (x, y) zunächst nach x ableiten und anschließend nach y, so erhalten wir die gemischte Ableitung. Für f (x, y) = x y2 ergeben sich bspw. die nachfolgenden partiellen
|
||
|
||
Ableitungen:
|
||
|
||
8Aufgrund des zufälligen Rauschens werden Sie natürlich nicht exakt dieselben Werte erhalten.
|
||
|
||
1.4 Numerisches Differenzieren
|
||
Abb. 1.5 Numerische Ableitung eines kosinusförmigen Signals (gepunktete Linie). Durch Bildung der ersten (gestrichelte Linie) und der zweiten Ableitung (durchgezogene Linie) erhöht sich das Rauschen deutlich
|
||
|
||
f(t)
|
||
|
||
15 2,0
|
||
|
||
1,0
|
||
|
||
0,0
|
||
|
||
t
|
||
|
||
123456
|
||
|
||
-1,0
|
||
|
||
-2,0
|
||
|
||
∂
|
||
|
||
f
|
||
|
||
(x, ∂x
|
||
|
||
y)
|
||
|
||
=y2
|
||
|
||
∂2 f (x, y) ∂x∂y
|
||
|
||
=2y
|
||
|
||
(1.22) (1.23)
|
||
|
||
∂ f (x,y) ∂x
|
||
|
||
schreiben wir in Kurzform als
|
||
|
||
fx . Dementsprechend schreiben wir
|
||
|
||
∂2 f (x,y) ∂x∂y
|
||
|
||
als
|
||
|
||
fxy. Die partielle Ableitung fx einer Funktion f (x, y) nach x lässt sich gemäß Gl. 1.22
|
||
|
||
numerisch berechnen:
|
||
|
||
fx ≈
|
||
|
||
f (x + hx, y) − f (x − hx, y) 2hx
|
||
|
||
(1.24)
|
||
|
||
Das ist formal identisch mit Gl. 1.17. hx ist hierbei die Schrittweite in x-Richtung. Die partielle Ableitung von f (x, y) nach y sieht entsprechend wie folgt aus:
|
||
|
||
fy ≈
|
||
|
||
f (x, y + hy) − f (x, y − hy) 2h y
|
||
|
||
(1.25)
|
||
|
||
Hierbei ist h y die Schrittweite in y-Richtung. Die gemischte partielle Ableitung fxy von f (x, y) nach x und nach y lässt sich schließlich wie folgt approximieren:
|
||
|
||
fxy ≈
|
||
|
||
f (x + hx , y + hy) − f (x + hx , y − hy) − f (x − hx , y + hy) + f (x − hx , y − hy) 4hx h y
|
||
|
||
(1.26)
|
||
|
||
Die ersten und zweiten Ableitungen einer Funktion sind mitunter deshalb so wichtig, weil Sie mit ihnen die Extremwerte einer Funktion (Maxima und Minima) bestimmen können. Für eine univariate Funktion kennen Sie das vermutlich noch aus Ihrer Schulzeit. Eine Funktion f (x) hat am Punkt x = a ein
|
||
|
||
16
|
||
|
||
1 Streifzug durch Excel
|
||
|
||
• Minimum, falls f (a) = 0 und f (a) > 0, bzw. ein • Maximum, falls f (a) = 0 und f (a) < 0.
|
||
|
||
Für eine bivariate Funktion lassen sich ebenso die Extremwerte bestimmen. Eine Funktion f (x, y) hat am Punkt a0 = a1 a2 ein
|
||
|
||
• Minimum, falls fx (a) = fy(a) = 0 (häufig auch als Vektor ∇ f (a) = 0 geschrieben)
|
||
|
||
und
|
||
|
||
fxx
|
||
|
||
fyy
|
||
|
||
−
|
||
|
||
f
|
||
|
||
2 xy
|
||
|
||
> 0 gilt, sowie ein
|
||
|
||
•
|
||
|
||
Maximum, falls
|
||
|
||
fx (a) =
|
||
|
||
fy(a) = 0 und
|
||
|
||
fxx
|
||
|
||
fyy −
|
||
|
||
f
|
||
|
||
2 xy
|
||
|
||
< 0.
|
||
|
||
Der Ausdruck fxx fyy − fx2y stammt übrigens aus der Berechnung der Determinanten9 der sogenannten Hesse-Matrix, der Matrix aller partiellen zweiten Ableitungen einer allgemeinen Funktion f (x1, x2, . . . , xn):
|
||
|
||
⎡ fx1x1 (a) fx1x2 (a) . . . fx1xn (a)⎤
|
||
|
||
H
|
||
|
||
f
|
||
|
||
(a)
|
||
|
||
=
|
||
|
||
⎢⎢⎢⎣
|
||
|
||
fx2
|
||
|
||
x1
|
||
...
|
||
|
||
(a)
|
||
|
||
fx2x2 (a) . . . ... . . .
|
||
|
||
f
|
||
|
||
x2
|
||
|
||
xn
|
||
...
|
||
|
||
(a)⎥⎥⎥⎦
|
||
|
||
fxn x1 (a) fxn x2 (a) . . . fxn xn (a)
|
||
|
||
(1.27)
|
||
|
||
Falls Sie die Extremwerte höherdimensionaler Funktionen finden wollen, kommen Sie
|
||
|
||
um die Hesse-Matrix leider nicht herum. Diese wird in den Anwendungen aber in der Regel
|
||
|
||
numerisch berechnet. Die Hesse-Matrix kann aus der sogenannten Jacobi-Matrix, der Matrix
|
||
|
||
aller ersten partiellen Ableitungen berechnet werden. Die Jacobi-Matrix werden wir bspw.
|
||
|
||
in Abschn. 5 noch näher kennenlernen.
|
||
|
||
1.4 Übung Berechnen Sie die partiellen Ableitungen fx , fy, fxx , fyy und fxy der Funktion f (x, y) = (x + 0,5)2 + (y − 0,5)2 am Punkt (x0, y0) = (−1/2, 1/2) numerisch in Excel
|
||
und bestimmen Sie, was für eine Art Extremwert vorliegt.
|
||
|
||
Die partielle Differentiation spielt u. a. bei der Fehlerfortpflanzung eine große Rolle, mit der wir uns im kommenden Abschnitt beschäftigen werden.
|
||
Fehlerfortpflanzung Bevor wir zur numerischen Integration übergehen, möchte ich an dieser Stelle kurz etwas zu Fehlerfortpflanzung sagen, da dieses Konzept bspw. hilfreich für das Verständnis der Konfidenzintervalle von Fitparametern ist, über die wir in Abschn. 5.7 noch ausführlicher sprechen werden. Ich habe mich entschieden es an dieser Stelle im Buch zu bringen, weil sie zur Berechnung der Fehlerfortpflanzung partielle Ableitungen verwenden. In der Praxis kommt es häufig vor, dass man eine Messgröße nicht direkt, sondern nur indirekt mithilfe
|
||
|
||
9Wie sie diese berechnen können, zeige ich im Abschn. 9.
|
||
|
||
1.4 Numerisches Differenzieren
|
||
|
||
17
|
||
|
||
von anderen (direkten) Messgrößen bestimmen kann. Ein Beispiel ist die Bestimmung der Konzentration eines Chromophors (indirekte Messgröße) in Lösung, aus der Messung der Extinktion E (direkte Messgröße) der Lösung mithilfe eines Photometers. Gemäß dem Lambert-Beer’schen Gesetz lässt sich die Konzentration c wie folgt berechnen:
|
||
|
||
c= E d
|
||
|
||
(1.28)
|
||
|
||
Im Nenner von Gl. 1.28 finden sich der Extinktionskoeffizient , der eine Konstante für
|
||
|
||
den jeweiligen Chromophor und die jeweilige Wellenlänge darstellt und die Schichtdicke
|
||
|
||
d, also die Länge des Weges, den das Licht durch die Lösung geht. Häufig wird die Chro-
|
||
|
||
mophorlösung in einer Küvette mit bekannter Schichtdicke gemessen. Sowohl E, als auch
|
||
|
||
d und ganz streng genommen auch (das lassen wir aber an dieser Stelle mal außen vor)
|
||
|
||
haben jeweils eine gewisse Messunsicherheit, die sich aufgrund des gesetzmäßigen Zusam-
|
||
|
||
menhangs der Messgrößen gemäß Gl. 1.28 auch auf c auswirken. Angenommen, wir kennen
|
||
|
||
die Standardabweichung sE von E und sd von d, dann können wir die Standardabweichung sc von c, die wir als Maß für die Messunsicherheit von c heranziehen wollen, mithilfe der partiellen Ableitungen von c nach den direkten Messgrößen gemäß dem Gauß’schen
|
||
|
||
Fehlerfortpflanzungsgesetz abschätzen:
|
||
|
||
sc =
|
||
|
||
∂c ∂E
|
||
|
||
2
|
||
sE2 +
|
||
|
||
∂c ∂d
|
||
|
||
2
|
||
sd2
|
||
|
||
Verallgemeinert lässt sich das dann in Form von Gl. 1.30 schreiben:
|
||
|
||
(1.29)
|
||
|
||
sz =
|
||
|
||
∂z ∂ x1
|
||
|
||
2
|
||
sx21 +
|
||
|
||
∂z ∂ x2
|
||
|
||
2
|
||
sx22 + · · · +
|
||
|
||
∂z ∂ xn
|
||
|
||
2
|
||
sx2n
|
||
|
||
(1.30)
|
||
|
||
Hierbei ist z die indirekte Messgröße, und x1, . . . , xn sind die direkten Messgrößen. Streng genommen gilt Gl. 1.30 nur, sofern die indirekten Messgrößen voneinander unab-
|
||
|
||
hängig sind, denn die Gleichung berücksichtigt keine Kovarianzen zwischen den direkten
|
||
|
||
Messgrößen. Wenn wir davon ausgehen, dass wir die Schichtdicke der Küvette mit einer
|
||
|
||
separaten Messmethode (im einfachsten Fall mit einem Messschieber) bestimmt haben und
|
||
|
||
die Extinktion mit dem Photometer gemessen haben, dann können wir von der Unabhängigkeit der beiden Messgrößen ausgehen10. Wenn Sie die partiellen Ableitungen für unser
|
||
|
||
kleines Absorptionsbeispiel in Gl. 1.29 berechnen und in Gl. 1.29 einsetzen, dann sollten Sie
|
||
|
||
auf folgenden Ausdruck kommen:
|
||
|
||
sc =
|
||
|
||
1 d
|
||
|
||
2
|
||
|
||
s
|
||
|
||
2 E
|
||
|
||
+
|
||
|
||
−
|
||
|
||
E d2
|
||
|
||
2
|
||
sd2
|
||
|
||
(1.31)
|
||
|
||
10Falls das Photometer in der Lage wäre, bis zu einer Wellenlänge von 1000 nm zu messen, dann könnte man die Schichtdicke auch mithilfe der NIR-Absorption von Wasser bei 1000 nm bestimmen (vgl. [1]).
|
||
|
||
18
|
||
|
||
1 Streifzug durch Excel
|
||
|
||
Zur Kontrolle lohnt es sich, einmal nach den Einheiten zu schauen. E hat keine Einheit, hat typischerweise die Einheit M−1cm−1, und d hat die Einheit cm. Die Varianz sE2 ist ebenfalls einheitenlos, während sd2 die Einheit cm2 hat. Der erste Term unter der Wurzel in Gl. 1.31 hat demnach die Einheit M2 und der zweite Term ebenso. Das passt also.
|
||
Nehmen wir einmal an, Sie haben sowohl E als auch d mehrfach bestimmt, dann können Sie für beide Größen sowohl den Mittelwert E¯ bzw. d¯ als auch die Standardabweichung
|
||
des Mittelwertes seE¯ bzw. sed¯ bestimmen. Ich habe hier die Buchstaben se verwendet, um der Tatsache Rechnung zu tragen, dass die Standardabweichung des Mittelwertes in der
|
||
Literatur oft auch als Standardfehler (engl. standard error, se) bezeichnet wird. Der Mittelwert c¯ der indirekten Messgröße lässt sich nun einfach durch Einsetzen der Mittelwerte E¯ und d¯ in Gl. 1.28 berechnen. Der zugehörige Standardfehler lässt sich analog zur normalen
|
||
Standardabweichung gemäß Gl. 1.29 berechnen:
|
||
|
||
sec¯ = oder wieder allgemein:
|
||
|
||
∂c ∂E
|
||
|
||
2
|
||
se2E¯ +
|
||
|
||
∂c ∂d
|
||
|
||
2
|
||
sed2¯
|
||
|
||
(1.32)
|
||
|
||
sez¯ =
|
||
|
||
∂z ∂ x1
|
||
|
||
2
|
||
se2x¯1 +
|
||
|
||
∂z ∂ x2
|
||
|
||
2
|
||
se2x¯2 + · · · +
|
||
|
||
∂z ∂ xn
|
||
|
||
2
|
||
s e2x¯n
|
||
|
||
(1.33)
|
||
|
||
Bitte beachten Sie, dass nun jeweils die Mittelwerte E¯ bzw. d¯ bei den partiellen Ablei-
|
||
|
||
tungen in Gl. 1.29 eingesetzt werden müssen:
|
||
|
||
sec¯ =
|
||
|
||
1 d¯
|
||
|
||
2
|
||
se2E¯ +
|
||
|
||
E¯ − d¯2
|
||
|
||
2
|
||
sed2¯
|
||
|
||
(1.34)
|
||
|
||
Im obigen Beispiel waren wir davon ausgegangen, wir hätten sowohl das E als auch das d mehrfach gemessen und konnten demnach die Standardabweichungen berechnen. Was, wenn wir aber bspw. keine Möglichkeit gehabt hätten die Schichtdicke selbst zu bestimmen? Dann macht es Sinn, beim Hersteller der Küvetten nachzufragen. Diese liefern in der Regel auch Fehlerdaten, aber häufig in der Form d¯ ± d. Hierbei könnte [d¯ − d, d¯ + d] dann das Konfidenzintervall für den Mittelwert d¯ sein (mehr zu Konfidenzintervallen in Abschn. 5.7) oder ein Toleranzbereich11. In solchen Fällen bleibt der obige Formalismus prinzipiell erhalten, nur dass Sie statt der Standardabweichung nun das nehmen, was Sie haben, nämlich d. E müssen Sie ggf. dann noch berechnen. Außerdem verwendet man nun Beträge statt Quadrate, um die maximal mögliche Messunsicherheit zu berechnen. Das sieht dann für unser Beispiel wie folgt aus:
|
||
|
||
c=
|
||
|
||
∂c ∂E
|
||
|
||
|
|
||
|
||
E| +
|
||
|
||
∂c ∂d
|
||
|
||
|
|
||
|
||
d|
|
||
|
||
(1.35)
|
||
|
||
11Leider rücken Hersteller oft nicht mit den Details raus, wie das einer Messgröße bestimmt wurde und was es am Ende aussagt.
|
||
|
||
1.5 Numerische Integration
|
||
|
||
19
|
||
|
||
c nennt man den (absoluten) Größtfehler von c. Die -Werte werden häufig bei Messgeräten mitgeliefert. Wenn Sie also nur eine einmalige Messung einer oder mehrerer Größen machen und eine Toleranzangabe der Form x¯ ± x eines Herstellers haben, dann verwenden Sie diese in der allgemeinen Formel für den Größtfehler:
|
||
|
||
z=
|
||
|
||
∂z ∂ x1
|
||
|
||
|
|
||
|
||
x1| +
|
||
|
||
∂z ∂ x2
|
||
|
||
|
|
||
|
||
x2| + . . .
|
||
|
||
∂z ∂ xn
|
||
|
||
|
|
||
|
||
xn|
|
||
|
||
(1.36)
|
||
|
||
Bisweilen werden die Messunsicherheiten in Form von relativen bzw. prozentualen Mes-
|
||
|
||
sunsicherheiten angegeben. Hierzu wird die absolute Messunsicherheit durch den Mittelwert
|
||
|
||
geteilt und von dem Ergebnis der Absolutbetrag gebildet, also allgemein in der Form
|
||
|
||
z z¯
|
||
|
||
angegeben, wobei hier jetzt z auch die Standardabweichung sein könnte.
|
||
|
||
1.5 Übung Bei der sogenannten Fluoreszenzkorrelationsspektroskopie kann man mithilfe eines konfokalen Lasermikroskops die Diffusionskonstante D von fluoreszierenden Molekülen bestimmen, die durch einen Laserfokus der Breite ω diffundieren. ω wird zunächst in einem Kalibrationsexperiment bestimmt, um anschließend die Diffusionskonstante DX aus der Diffusionszeit τX einer unbekannten Probe X durch den Laserfokus zu bestimmen. Es gilt folgender Zusammenhang:
|
||
|
||
DX
|
||
|
||
=
|
||
|
||
ω2 4τX
|
||
|
||
(1.37)
|
||
|
||
Angenommen, wir hätten ω = 0,26 ± 0,05 μm und τX = 60 ± 10 μs bestimmt. Die Zahlen hinter dem ±-Zeichen sind hierbei die Standardabweichungen der Wiederholungs-
|
||
|
||
messungen. Berechnen Sie die Diffusionskonstante DX der Probe inklusive des zugehörigen
|
||
|
||
(Größt-)Fehlers und der Standardabweichung bzw. des mittleren Fehlers.
|
||
|
||
1.5 Numerische Integration
|
||
Als wir im Studium das Thema Integrieren und Differenzieren durcharbeiteten, pflegte mein Matheprofessor zu sagen: „Das Differenzieren ist ein stupides Anwenden von Regeln, das Integrieren hingegen ist eine Kunst.“ Das sagte er v. a. dann, wenn es um die analytische Lösung eines Integrals ging, denn hier konnte man oft das ursprünglich kompliziert anmutende Integral durch eine geschickte Substitution in ein relativ einfach zu lösendes Integral überführen. In der Praxis zieht dieser Ausspruch nicht mehr so sehr, denn hier wird die Integration in aller Regel numerisch durchgeführt. Das bedeutet aber nicht, dass man sich nicht vorab ein paar Gedanken zur Vereinfachung eines Integralproblems machen sollte. Oft hilft bspw. der Wechsel zu einem dem Problem angepassten Koordinatensystem. Ähnlich wie die Ableitung einer Funktion, ist auch das Integral über eine Grenzwertbildung definiert. Wir schauen uns diese Grenzwertbildung einmal im Detail an, weil sie nachher zum besseren Verständnis der Approximationsformeln für die numerische Berechnung bestimmter
|
||
|
||
20
|
||
|
||
1 Streifzug durch Excel
|
||
|
||
Integrale führt. Beginnen wir einmal mit der einfachen Funktion f (x) = x, für die wir das Integral im Intervall (a, b) berechnen wollen (vgl. Abb. 1.6). Wir teilen das genannte Intervall zunächst in n Teilintervalle der Breite (b − a)/n. Ein Punkt xk aus dem Intervall ergibt sich dann mithilfe der folgenden Gleichung:
|
||
|
||
xk
|
||
|
||
=
|
||
|
||
a
|
||
|
||
+
|
||
|
||
k
|
||
|
||
b
|
||
|
||
− n
|
||
|
||
a
|
||
|
||
Für die Teilintervalle (xk, xk+1) berechnen wir dann Folgendes:
|
||
|
||
(1.38)
|
||
|
||
1.
|
||
|
||
Den Flächeninhalt AUk (n) des Rechtecks, das durch die Breite xk − xk−1 =
|
||
|
||
b−a n
|
||
|
||
und
|
||
|
||
die
|
||
|
||
Höhe f (xk−1) über folgende Gleichung
|
||
|
||
AUk (n) =
|
||
|
||
f
|
||
|
||
(xk−1)
|
||
|
||
b
|
||
|
||
− n
|
||
|
||
a
|
||
|
||
b−a = xk−1 n
|
||
|
||
= a + k − 1 (b − a) n
|
||
|
||
b−a n
|
||
|
||
b−a
|
||
|
||
b−a 2
|
||
|
||
=a
|
||
|
||
+ (k − 1)
|
||
|
||
n
|
||
|
||
n
|
||
|
||
(1.39)
|
||
|
||
vollständig definiert ist (vgl. Abb. 1.6a).
|
||
|
||
2.
|
||
|
||
Den Flächeninhalt AkO (n) des Rechtecks, das durch die Breite xk − xk−1 =
|
||
|
||
b−a n
|
||
|
||
und
|
||
|
||
die
|
||
|
||
Höhe f (xk) über die Gleichung
|
||
|
||
AkO (n) =
|
||
|
||
f
|
||
|
||
(xk
|
||
|
||
)
|
||
|
||
b
|
||
|
||
− n
|
||
|
||
a
|
||
|
||
=
|
||
|
||
xk
|
||
|
||
b
|
||
|
||
− n
|
||
|
||
a
|
||
|
||
= a + k (b − a) n
|
||
|
||
b−a n
|
||
|
||
= ab−a +k b−a 2
|
||
|
||
n
|
||
|
||
n
|
||
|
||
(1.40)
|
||
|
||
vollständig definiert ist (vgl. Abb. 1.6b).
|
||
|
||
Durch Aufsummieren aller n Rechtecksflächen erhält man die Gesamtfläche AU , die kleiner ist als die des eigentlichen Integrals und die Gesamtfläche AO , die größer ist als die des
|
||
eigentlichen Integrals:
|
||
|
||
1.5 Numerische Integration
|
||
|
||
a
|
||
|
||
b
|
||
|
||
f(x)=x
|
||
|
||
f(xk-1)
|
||
|
||
21
|
||
f(x)=x f(xk)
|
||
|
||
a
|
||
|
||
xk-1 xk
|
||
|
||
b
|
||
|
||
a
|
||
|
||
Abb. 1.6 Zur Veranschaulichung der numerischen Integration
|
||
|
||
xk-1 xk
|
||
|
||
b
|
||
|
||
n
|
||
AU (n) = AUk
|
||
k=1
|
||
|
||
n b−a
|
||
|
||
b−a 2
|
||
|
||
=a
|
||
|
||
+ (k − 1)
|
||
|
||
k=1
|
||
|
||
n
|
||
|
||
n
|
||
|
||
= ab−a
|
||
|
||
n
|
||
1+
|
||
|
||
b−a
|
||
|
||
2
|
||
|
||
n
|
||
|
||
n
|
||
|
||
k− 1
|
||
|
||
n k=1
|
||
|
||
n
|
||
|
||
k=1
|
||
|
||
k=1
|
||
|
||
= a b − a n + b − a 2 n(n + 1) − n
|
||
|
||
n
|
||
|
||
n
|
||
|
||
2
|
||
|
||
n
|
||
AO (n) = AkO
|
||
k=1
|
||
|
||
n
|
||
=
|
||
|
||
ab−a +k b−a 2
|
||
|
||
n
|
||
|
||
n
|
||
|
||
k=1
|
||
|
||
= ab−a n 1+
|
||
|
||
b−a 2 n k
|
||
|
||
n k=1
|
||
|
||
n
|
||
|
||
k=1
|
||
|
||
= a b − a n + b − a 2 n(n + 1)
|
||
|
||
n
|
||
|
||
n
|
||
|
||
2
|
||
|
||
(1.41) (1.42)
|
||
|
||
Um vom vorletzten Term auf den letzten Term in den Gl. 1.41 und 1.42 zu gelangen, habe ich die Gauß’sche Summenformel verwendet12:
|
||
|
||
12Diese Formel ist nach Carl Friedrich Gauß benannt, der sie als neunjähriger Schüler im Mathematikunterricht auf seiner Dorfschule angewandt haben soll, um die Zahlen von 1 bis 100 aufzusummieren, eine Aufgabe, die er und seine Mitschüler vom Lehrer gestellt bekommen hatten. Gauß hatte das
|
||
|
||
22
|
||
|
||
1 Streifzug durch Excel
|
||
|
||
n k = n(n + 1)
|
||
|
||
k=1
|
||
|
||
2
|
||
|
||
(1.43)
|
||
|
||
Die Flächen AU und AO können nun als untere bzw. obere Schranke zur Bestimmung
|
||
|
||
des bestimmten Integrals
|
||
|
||
b a
|
||
|
||
xdx
|
||
|
||
verwendet
|
||
|
||
werden,
|
||
|
||
denn
|
||
|
||
offensichtlich
|
||
|
||
wird
|
||
|
||
die
|
||
|
||
Fläche
|
||
|
||
des bestimmten Integrals größer oder gleich der Fläche von AU und kleiner oder gleich der
|
||
|
||
Fläche von AO sein:
|
||
|
||
b
|
||
AU (n) ≤ xd x ≤ AO (n)
|
||
|
||
a
|
||
|
||
a(b − a) + b − a − (b − a)2 ≤ b xd x ≤ a(b − a) + b − a + (b − a)2
|
||
|
||
2
|
||
|
||
2n
|
||
|
||
a
|
||
|
||
2
|
||
|
||
2n
|
||
|
||
(1.44) (1.45)
|
||
|
||
Wenn wir nun den Grenzwert für n → ∞ bilden, sehen wir, dass das bestimmte Integral gegen folgenden Ausdruck geht:
|
||
|
||
lim
|
||
|
||
AU (n) ≤
|
||
|
||
b
|
||
xd x ≤ AO (n)
|
||
|
||
= 1 (b2 − a2)
|
||
|
||
n→∞
|
||
|
||
a
|
||
|
||
2
|
||
|
||
(1.46)
|
||
|
||
Ich habe hier ein paar einfache Zwischenberechnungsschritte weggelassen. Sie kön-
|
||
|
||
nen sich aber gerne mal selbst daran probieren. Die Diskretisierung der x-Werte, die bei
|
||
|
||
der Berechnung des Grenzwertes benutzt wurde, wird letztlich auch bei der numerischen
|
||
|
||
Berechnung des allgemeinen Integrals
|
||
|
||
b a
|
||
|
||
f (x)d x
|
||
|
||
eingesetzt.
|
||
|
||
Man
|
||
|
||
bildet
|
||
|
||
natürlich
|
||
|
||
keinen
|
||
|
||
Grenzwert im eigentlichen Sinne, aber n wird in der Regel relativ groß gewählt, um eine
|
||
|
||
gute Approximation des eigentlichen Integrals zu erreichen. Die Approximation des Inte-
|
||
|
||
grals mithilfe von Rechtecken auf den Teilintervallen führt zur sogenannten Mittelpunk-
|
||
|
||
tintegration. Anstelle von Rechtecken, werden auch andere Funktionen wie eine Gerade
|
||
|
||
oder eine quadratische Funktion verwendet. Die gängigen Approximationen gehen wir im
|
||
|
||
Folgenden durch. Bei der Mittelpunktregel, auch Rechteckregel genannt, wird die zu inte-
|
||
|
||
grierende Funktion f (x) intervallweise durch eine Konstante angenähert, das bedeutet, man
|
||
|
||
erhält am Schluss eine Treppenfunktion als Annäherung (vgl. Abb. 1.7). Das entspricht im
|
||
|
||
Prinzip dem Fall von oben, nur dass jetzt zur Berechnung des Funktionswertes beide Rand-
|
||
|
||
punkte (xk, xk+1) mit berücksichtigt werden. Hierzu wird der Funktionswert in der Mitte
|
||
|
||
des Intervalls berechnet f
|
||
|
||
xk −1 +xk 2
|
||
|
||
und nicht nur an einem der beiden Randpunkte wie
|
||
|
||
oben.
|
||
|
||
Die einzelnen Flächen Ak der Balken ergeben sich dann zu:
|
||
|
||
Ak = f
|
||
|
||
xk−1 + xk 2
|
||
|
||
b−a n
|
||
|
||
(1.47)
|
||
|
||
und das eigentliche Integral wird wiederum durch die Gesamtfläche A angenähert:
|
||
|
||
Ergebnis ohne irgendwelche Zwischenrechnungen auf seine Rechentafel geschrieben zum Erstaunen seines Lehrers. Er war jedoch nicht der Erste, der diese Rechenvorschrift entdeckt hatte [2].
|
||
|
||
1.5 Numerische Integration
|
||
Abb. 1.7 Zur Veranschaulichung der numerischen Integration mittels Mittelpunktregel
|
||
|
||
f([xk+xk−1]/2)
|
||
|
||
23 f(x)
|
||
|
||
Abb. 1.8 Zur Veranschaulichung der numerischen Integration mittels Trapezregel
|
||
|
||
a
|
||
|
||
xk−1 xk
|
||
|
||
b
|
||
|
||
f(x)
|
||
|
||
[f(xk−1)+f(xk)]/2)
|
||
|
||
a
|
||
|
||
xk−1 xk
|
||
|
||
b
|
||
|
||
n
|
||
|
||
A = Ak
|
||
|
||
k=1
|
||
|
||
b−a n
|
||
|
||
=
|
||
|
||
f
|
||
|
||
n k=1
|
||
|
||
xk−1 + xk 2
|
||
|
||
(1.48)
|
||
|
||
Bei der sogenannten Trapezregel treten Trapeze an die Stelle der Rechtecke, d. h., die zu integrierende Funktion f (x) wird intervallweise durch eine Gerade (Sehne) angenähert (vgl. Abb. 1.8).
|
||
Die Flächen Ak der einzelnen Trapeze lassen sich leicht berechnen:
|
||
|
||
Ak =
|
||
|
||
f (xk−1) + 2
|
||
|
||
f (xk) b − a n
|
||
|
||
(1.49)
|
||
|
||
24
|
||
|
||
1 Streifzug durch Excel
|
||
|
||
Das eigentliche Integral A über dem Intervall (a, b) ergibt letztlich aus der Summierung der einzelnen Trapezflächen Ak:
|
||
|
||
n
|
||
|
||
A = Ak
|
||
|
||
k=1
|
||
|
||
= b − a n f (xk−1) + f (xk )
|
||
|
||
n
|
||
|
||
2
|
||
|
||
k=1
|
||
|
||
(1.50)
|
||
|
||
Die Gl. 1.47 und 1.49 sehen sich relativ ähnlich, und man ist geneigt zu fragen, ob nicht
|
||
|
||
bei der Trapezregel und der Mittelpunktregel dasselbe rauskommt? Im Allgemeinen nicht. Testen Sie es bspw. mit f (x) = x2. Sie werden sehen, dass beide Verfahren nicht dasselbe
|
||
|
||
Ergebnis liefern. Beide Verfahren liefern jedoch eine ähnliche Genauigkeit. Man kann schon
|
||
|
||
vermuten, dass die beiden genannten Integrationsmethoden nur dann einigermaßen gut das
|
||
|
||
jeweilige
|
||
|
||
Integral
|
||
|
||
annähern,
|
||
|
||
wenn
|
||
|
||
die
|
||
|
||
Intervallbreiten
|
||
|
||
h
|
||
|
||
=
|
||
|
||
b−a n
|
||
|
||
relativ
|
||
|
||
klein
|
||
|
||
sind
|
||
|
||
(bzw.
|
||
|
||
die
|
||
|
||
Anzahl n der Teilintervalle groß). Sowohl bei der Rechtecks- als auch bei der Trapezregel
|
||
|
||
liegt die Fehlerordnung bei O(h2). Eine bessere Annäherung an das eigentliche Integral erreicht man mithilfe der sogenannten Simpson-Integration13. Hierbei wird die eigentliche
|
||
|
||
Funktion f (x) im Intervall (xk−1, xk+1), statt durch eine Gerade, wie im Fall der Trapezregel, durch ein quadratisches Polynom c1x2 + c2x + c3 angenähert. Da dieses Polynom drei Parameter hat (c1, c2, c3), bedarf es auch mindestens dreier Punkte im jeweiligen Intervall. Die drei Punkte ( f (xk−1), f (xk) und f (xk+1)) stammen jeweils aus den Randpunkten der beiden Teilintervalle bzw. Streifen (xk−1, xk) und (xk, xk+1). Das ist auch der Grund, warum bei der Simpson-Integration das zu integrierende Intervall [a, b] in 2n Teilintervalle unterteilt
|
||
|
||
wird. Ein Teilintervall hat somit eine Breite von
|
||
|
||
h = b−a 2n
|
||
Durch die drei Punkte wird jeweils eine quadratische Funktion der Form
|
||
|
||
(1.51)
|
||
|
||
f (x) = b0 + b1x + b2x2
|
||
|
||
(1.52)
|
||
|
||
gelegt, wobei die Koeffizienten bi eindeutig durch diese drei Punkte bestimmbar sind (vgl. Abb. 1.9). Bitte beachten Sie, dass in Gl. 1.52 mit f nicht die eigentlich zu integrierende Funktion f (x) gemeint ist. Tatsächlich ist es so, dass man die Koeffizienten überhaupt nicht bestimmen braucht, wie wir gleich sehen werden. Der Flächeninhalt Ak unter dem Doppelstreifen lässt sich also letztlich als bestimmtes Integral über eine quadratische Funktion schreiben:
|
||
|
||
13Der Name der Methode hat übrigens nichts mit Homer und Marge aus Springfield zu tun, sondern ist nach dem englischen Mathematiker Thomas Simpson benannt.
|
||
|
||
1.5 Numerische Integration
|
||
Abb. 1.9 Zur Veranschaulichung der numerischen Integration mittels Simpsonregel
|
||
|
||
25 f(x)
|
||
|
||
a
|
||
|
||
xk−1 xk xk+1
|
||
|
||
b
|
||
|
||
xk+1
|
||
|
||
Ak =
|
||
|
||
b0 + b1x + b22
|
||
|
||
xk−1
|
||
|
||
=
|
||
|
||
b0 x
|
||
|
||
+
|
||
|
||
b1 2
|
||
|
||
x2
|
||
|
||
+
|
||
|
||
b2 3
|
||
|
||
x3
|
||
|
||
xk+1 xk−1
|
||
|
||
=
|
||
|
||
b2 3
|
||
|
||
xk3+1
|
||
|
||
+
|
||
|
||
b1 2
|
||
|
||
xk2+1
|
||
|
||
+ b0xk+1
|
||
|
||
−
|
||
|
||
b2 3
|
||
|
||
xk3−1
|
||
|
||
−
|
||
|
||
b1 2
|
||
|
||
xk2−1
|
||
|
||
− b0xk−1
|
||
|
||
=
|
||
|
||
b2 3
|
||
|
||
(xk−1
|
||
|
||
+ 2 h)3
|
||
|
||
+
|
||
|
||
b1 2
|
||
|
||
(xk−1
|
||
|
||
+ 2 h)2
|
||
|
||
+ b0 (xk−1
|
||
|
||
+ 2 h)
|
||
|
||
=
|
||
|
||
− b2 3
|
||
|
||
xk3−1
|
||
|
||
−
|
||
|
||
b1 2
|
||
|
||
xk2−1
|
||
|
||
−
|
||
|
||
b0 xk −1
|
||
|
||
(1.53)
|
||
|
||
In der letzten Zeile von Gl. 1.53 habe ich von der Beziehung xk+1 = xk−1 + 2h Gebrauch
|
||
|
||
gemacht,
|
||
|
||
wobei
|
||
|
||
h
|
||
|
||
=
|
||
|
||
b−a n
|
||
|
||
ist.
|
||
|
||
Wenn
|
||
|
||
man
|
||
|
||
in
|
||
|
||
dieser
|
||
|
||
Gleichung
|
||
|
||
die
|
||
|
||
Terme
|
||
|
||
einmal
|
||
|
||
ausmultipli-
|
||
|
||
ziert, zusammenfasst und vereinfacht, erhält man
|
||
|
||
Ak
|
||
|
||
=
|
||
|
||
2b2 xk2−1
|
||
|
||
h
|
||
|
||
+
|
||
|
||
4b2 xk −1 h 2
|
||
|
||
+
|
||
|
||
8 3
|
||
|
||
b2h
|
||
|
||
3
|
||
|
||
+ 2b1xk−1h
|
||
|
||
+
|
||
|
||
2b1h2
|
||
|
||
+
|
||
|
||
2b0h
|
||
|
||
=h 3
|
||
|
||
6b2xk2−1 + 12b2xk−1h + 8b2h2 + 6b1xk−1 + 6b1h + 6b0
|
||
|
||
(1.54)
|
||
|
||
Der Ausdruck in der Klammer ist identisch mit f (xk−1)+4 f (xk)+ f (xk+1). Das ist zwar nicht auf Anhieb ersichtlich, aber wenn Sie mal für die drei f (xi ) jeweils die quadratische Gleichung einsetzen und wiederum beachten, dass xk = xk−1 + h und xk+1 = xk−1 + 2h gilt, dann erhalten Sie letztlich den Flächeninhalt unter dem Doppelstreifen:
|
||
|
||
Ak
|
||
|
||
=
|
||
|
||
( f (xk−1) + 4 f (xk ) +
|
||
|
||
f (xk+1))
|
||
|
||
h 3
|
||
|
||
(1.55)
|
||
|
||
26
|
||
|
||
1 Streifzug durch Excel
|
||
|
||
Den gesamten Flächeninhalt unter der Kurve erhalten Sie dann als Summe über alle Doppelstreifen:
|
||
|
||
2n
|
||
|
||
A = Ak
|
||
|
||
⎛k=1
|
||
|
||
⎞
|
||
|
||
= ⎝ f (x0) +
|
||
|
||
2n−1
|
||
f (x2n) + 4
|
||
k=1,3,5,...
|
||
|
||
2n−2
|
||
f (xk) + 2
|
||
k=2,4,6,...
|
||
|
||
f (xk )⎠
|
||
|
||
h 3
|
||
|
||
(1.56)
|
||
|
||
Wie ich auf die zweite Zeile in Gl. 1.56 gekommen bin, können Sie sich mal in einer ruhigen Minute überlegen. Sie sehen, die Koeffizienten in Gl. 1.52 brauchten wir gar nicht zu bestimmen, sondern kommen bei einer sehr gut handhabbaren Formel aus. Alles, was Sie letztlich tun müssen, um das Integral der Funktion f (x) zu berechnen, ist, die Funktionswerte an den Intervallenden ( f (x0) = a und f (x2n) = b mit dem Vierfachen der Summe aller ungeraden Elemente und dem Zweifachen der Summe aller geraden Elemente zu addieren. So etwas kann man sowohl in einem Tabellenkalkulationsprogramm einfach rechnen, als auch mal eben schnell programmieren. Fehlertechnisch könnte sich der Aufwand lohnen, mit der Simpson-Formel zu arbeiten. Sie hat mit O(h4) nämlich eine deutlich höhere Fehlerordnung und somit einen deutlich kleineren Fehler.
|
||
|
||
Beispiel 1.7 In diesem Beispiel vergleichen wir einmal die verschiedenen Methoden
|
||
|
||
der numerischen Integration gegenüber der analytischen Lösung eines bestimmten Integrals. Nehmen wir hierzu die Funktion f (x) = 2x2 + 1 und integrieren sie im
|
||
|
||
Bereich von 1 bis 3 mit einer Schrittweite von x = 0,2.
|
||
|
||
xm in Tab. 1.2 bezeichnet jeweils den x-Wert in der Mitte von zwei Stützstellen xi , xi+1 und f (xm) entsprechend den Funktionswert an der Stelle xm. Im Prinzip ist
|
||
|
||
x hier eine Art Laufvariable, die von 1 bis 3 in 0,2er-Schritten läuft. Das Integral
|
||
|
||
1 1
|
||
|
||
f (x)
|
||
|
||
ist logischerweise
|
||
|
||
null,
|
||
|
||
daher
|
||
|
||
habe ich diese
|
||
|
||
auch
|
||
|
||
jeweils
|
||
|
||
als
|
||
|
||
erstes
|
||
|
||
Element
|
||
|
||
für die drei numerischen Integralmethoden (Mittelpunkt, Trapez und Simpson) für
|
||
|
||
x = 1 in Tab. 1.2 von Hand eingetragen. Die darauffolgenden Elemente habe ich
|
||
|
||
jeweils gemäß den für die jeweiligen Methoden geltenden Formeln berechnet und den
|
||
|
||
Wert in der Vorgängerzelle hinzuaddiert. Dadurch summieren sich die Werte am Ende
|
||
|
||
zu dem gesuchten Integral auf. Entsprechend steht dies am unteren Ende der Tabelle
|
||
|
||
(Werte sind unterstrichen). Bitte bedenken Sie, dass bei der Simpson-Integration die
|
||
|
||
xm-Werte mit als Stützpunkte zählen (sie sind hier für den Vergleich der Methoden nur
|
||
|
||
in einer separaten Spalte aufgeführt). Während Sie für die anderen beiden Methoden
|
||
|
||
h = x ansetzen können, ist dies bei der Simpson-Integration h = x/2 (vgl. auch
|
||
|
||
Gl. 1.51). In der Literatur finden Sie daher auch häufig die Formel:
|
||
|
||
1.5 Numerische Integration
|
||
|
||
27
|
||
|
||
Tab. 1.2 Vergleich der Genauigkeit der Mittelpunkts-Integration, der Trapez-Integration und der Simpson-Integration
|
||
|
||
x
|
||
|
||
xm
|
||
|
||
f (x)
|
||
|
||
f (xm ) Mittelpunkt Trapez Simpson Analytisch
|
||
|
||
1
|
||
|
||
3,00
|
||
|
||
0,00
|
||
|
||
0,00
|
||
|
||
0,00
|
||
|
||
1,2
|
||
|
||
1,1
|
||
|
||
3,88
|
||
|
||
3,42
|
||
|
||
0,68
|
||
|
||
0,69
|
||
|
||
0,69
|
||
|
||
1,4
|
||
|
||
1,3
|
||
|
||
4,92
|
||
|
||
4,38
|
||
|
||
1,56
|
||
|
||
1,57
|
||
|
||
1,56
|
||
|
||
1,6
|
||
|
||
1,5
|
||
|
||
6,12
|
||
|
||
5,50
|
||
|
||
2,66
|
||
|
||
2,67
|
||
|
||
2,66
|
||
|
||
1,8
|
||
|
||
1,7
|
||
|
||
7,48
|
||
|
||
6,78
|
||
|
||
4,02
|
||
|
||
4,03
|
||
|
||
4,02
|
||
|
||
2
|
||
|
||
1,9
|
||
|
||
9,00
|
||
|
||
8,22
|
||
|
||
5,66
|
||
|
||
5,68
|
||
|
||
5,67
|
||
|
||
2,2
|
||
|
||
2,1
|
||
|
||
10,68 9,82
|
||
|
||
7,62
|
||
|
||
7,65
|
||
|
||
7,63
|
||
|
||
2,4
|
||
|
||
2,3
|
||
|
||
12,52 11,58 9,94
|
||
|
||
9,97
|
||
|
||
9,95
|
||
|
||
2,6
|
||
|
||
2,5
|
||
|
||
14,52 13,50 12,64
|
||
|
||
12,67
|
||
|
||
12,65
|
||
|
||
2,8
|
||
|
||
2,7
|
||
|
||
16,68 15,58 15,76
|
||
|
||
15,79
|
||
|
||
15,77
|
||
|
||
3
|
||
|
||
2,9
|
||
|
||
19,00 17,82 19,32
|
||
|
||
19,36
|
||
|
||
19,33
|
||
|
||
19,33
|
||
|
||
Fehler: 1,33E-02 2,67E-02 0,00E+00 0,00E+00
|
||
|
||
A
|
||
|
||
=
|
||
|
||
1 6
|
||
|
||
n
|
||
(xk
|
||
k=1
|
||
|
||
−
|
||
|
||
xk−1)( f (xk ) + 4 f (xm ) +
|
||
|
||
f (xk−1))
|
||
|
||
(1.57)
|
||
|
||
xm ist hierbei wiederum gleich dem x-Wert in der Mittel von xk und xk−1, also xm = (xk +xk−1)/2. In diesem Beispiel ist der Fehler der Simpson-Integration null. Das liegt daran, dass die zu integrierende Funkion quadratisch war. Für solche Funktionen ist
|
||
die Simpson-Integration exakt. Im Allgemeinen ist sie jedoch auch nur eine Näherung.
|
||
|
||
Aufgrund ihrer Einfachheit verwende ich in der Praxis meistens die Trapezregel. Sie ist sehr einfach zu implementieren, im Gegensatz zur Simpson-Integration. Um genauere Ergebnisse zu erhalten, kann man einfach die Anzahl Teilintervalle n vergrößern. Für meine Anforderungen war das in aller Regel ausreichend. In vielen gängigen Softwarepaketen findet man jedoch auch Funktionen zur numerischen Integration mittels Simpson-Formel. Ich bin bei den Formeln für die drei verschiedenen numerischen Integrationsmethoden insgeheim davon ausgegangen, dass die x-Werte äquidistant sind (vgl. die Gl. 1.48, 1.50 und 1.56). Natürlich können Sie auch Daten integrieren, bei denen das nicht der Fall ist. Dann können Sie jedoch das x (bzw. h) nicht mehr vor die Summe setzen, sondern müssen es in die Summe ziehen. Für die Trapezregel sähe das dann wie folgt aus:
|
||
|
||
28
|
||
|
||
1 Streifzug durch Excel
|
||
|
||
n
|
||
A=
|
||
|
||
f (xk−1) + f (xk )
|
||
|
||
k=1
|
||
|
||
2
|
||
|
||
xk
|
||
|
||
(1.58)
|
||
|
||
Für die anderen Methoden wäre das entsprechend analog. Zum Schluss dieses Abschnitts
|
||
|
||
noch ein paar Anmerkungen zu uneigentlichen Integralen mit unbeschränkten Integrations-
|
||
|
||
bereichen, also z. B. ein Integral der Form:
|
||
|
||
x
|
||
|
||
f (s)ds
|
||
|
||
(1.59)
|
||
|
||
−∞
|
||
|
||
Solche Integrale müssen bspw. zur Ermittlung der Quantile x für eine gegebene Wahrscheinlichkeitsdichtefunktion f (s) (vgl. Abschn. 3) berechnet werden. Wie handhabt man nun die untere Integrationsgrenze bei der numerischen Integration? Gelegentlich lässt sich das Integral durch eine geeignete Transformation in ein eigentliches Integral überführen. In der Praxis wird jedoch häufig anstelle des −∞ eine hinreichend kleine Zahl eingesetzt. Falls möglich, kann es helfen, die Funktion vorher zu zeichnen, um abzuschätzen, wo der Integrand Funktionswerte hat, die signifikant zum Integral beitragen würden und nicht annähernd null sind. In der folgenden Übung sollen Sie ein solches Integral, das bei Hypothesentests eine große Rolle spielt, numerisch berechnen.
|
||
|
||
1.6 Übung Berechnen Sie das bestimmte Integral der Standardnormalverteilung (ExcelFunktion NORM.S.VERT) im Intervall a = −10...1,65 = b numerisch mithilfe der Trapezregel. Verwenden Sie hierzu n = 1000 x-Werte im angegebenen Intervall.
|
||
|
||
Literatur
|
||
1. Hafeman, D.G.: (Inventor). Bestimmung der optischen absorptions-weglänge in einem vertikalstrahlphotometer. EP Patent 0771417B1, Anmeldung eingereicht 25.07.1995, Antrag bewilligt 28.10.2009
|
||
2. Mania, H.: Gauß – Eine Biographie. Rowohlt Taschenbuch Verlag (2009) 3. de Levie, R.: How to Use Excel® in Analytical Chemistry: And in General Scientific Data Analysis.
|
||
Cambridge University Press, Cambridge (2001) 4. Papula, L.: Mathematik für Ingenieure und Naturwissenschaftler. Bd. 1: Ein Lehr- und Arbeitsbuch
|
||
für das Grundstudium. Friedr. Vieweg & Sohn Verlagsgesellschaft mbH, Braunschweig/ Wiesbaden (2001)
|
||
|
||
Darstellung von Daten
|
||
|
||
2
|
||
|
||
2.1 Tabellen
|
||
|
||
Obwohl eine Tabelle an sich nur ein 2D-Konstrukt darstellt, kann man durch eine geeignete Anordnung der Daten viel Information in einer Tabelle unterbringen, ohne gleich mehrere separate Tabellen generieren zu müssen. Nichtsdestotrotz sollten Daten nicht um jeden Preis in einer Tabelle zusammengefasst werden. Gerade wenn man die Daten anschließend in Form eines Diagramms darstellen will, bietet es sich ggf. an, gleich mehrere Tabellen anzulegen. Wie so vieles, ist die Darstellung einer Tabelle in einer DIN-Norm geregelt (DIN 5008). Natürlich müssen Sie ab jetzt nicht jede Tabelle gemäß den Vorgaben dieser Norm formatieren, ich will nur, dass Sie das mal gehört haben und an einem Beispiel gesehen haben, wie man eine Tabelle grundsätzlich aufbauen kann (vgl. Tab. 2.1). Die Tabelle zeigt anhand von Beispieldaten den typischen Aufbau einer Tabelle, die der DIN-5008 entsprechen sollte. Sie sehen, dass man durch einen solchen Aufbau schon eine ganze Menge an Information in eine Tabelle packen kann. In diesem Beispiel enthält die Tabelle sowohl qualitative (kategorische) Daten wie Form der Bakterien, als auch quantitative (stetige) Daten wie der Bakteriendurchmesser oder die Generationszeit. Die Begriffe kategorische Daten (engl. categorical data) und stetige Daten (engl. continuous data) werden Ihnen in der Literatur häufig über den Weg laufen. Es lohnt sich daher, sie einfach in Ihr statistisches Vokabular aufzunehmen. Da Wissenschaftler in der Regel in internationalen Fachjournalen publizieren, gelten natürlich die jeweiligen Vorgaben des Journals bezüglich Format und Layout. Vertikale Linien sind in Fachpublikationen meiner Erfahrung nach unüblich, obwohl eine DIN 5008-konforme Tabelle auch vertikale Linien enthalten kann.
|
||
Ein Vorteil, den eine Tabelle gegenüber einem Diagramm genießt, ist die Darstellung exakter Zahlen. Jede Zahl kann im Prinzip mit allen signifikanten Ziffern dargestellt werden, während man bei der Darstellung verschiedener Zahlen in einem Diagramm im Grunde genommen einen Kompromiss eingeht, um alle Zahlen möglichst auf einer Skala abbilden zu können. Um die Übersichtlichkeit zu erhalten, werden die Skalen des Diagramms dabei nur
|
||
|
||
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020
|
||
|
||
29
|
||
|
||
M. Schneider, Datenanalyse für Naturwissenschaftler, Mediziner und Ingenieure,
|
||
|
||
https://doi.org/10.1007/978-3-662-61866-0_2
|
||
|
||
30
|
||
|
||
2 Darstellung von Daten
|
||
|
||
Tab. 2.1 Beispiel für eine Tabelle, in der durch ein entsprechendes Format bereits viel Informationen untergebracht sind. Diese sollte konform mit der DIN-5008 Norm sein
|
||
|
||
Gattung
|
||
|
||
Bacillus
|
||
|
||
Escherichia
|
||
|
||
Streptococcus
|
||
|
||
Eigenschaften
|
||
|
||
Subtilis
|
||
|
||
Megaterium Coli
|
||
|
||
Aureus
|
||
|
||
Lactis
|
||
|
||
Morphologie
|
||
|
||
Form Durchmesser [µm]
|
||
|
||
Stäbchen 0,5
|
||
|
||
Stäbchen 1,5
|
||
|
||
Stäbchen 0,5
|
||
|
||
Kugel 1
|
||
|
||
Kugel 1
|
||
|
||
Wachstum
|
||
|
||
Generationszeit [min]
|
||
|
||
27
|
||
|
||
25
|
||
|
||
17
|
||
|
||
30
|
||
|
||
26
|
||
|
||
noch an wenigen Stellen beschriftet, wodurch es unmöglich wird, alle ursprünglichen Ziffern der Zahlen zu repräsentieren. In der Praxis ist das zugegebenermaßen häufig kein Problem, es gibt dennoch einige Punkte, über die man nachdenken sollte, wenn man vor der Wahl Tabelle versus Diagramm steht. Weitere Punkte finden sich bspw. hier [1]. Die Lesbarkeit einer Tabelle kann oft mithilfe geeigneter Werkzeuge verbessert werden. So können, Zellen mithilfe vordefinierter Regeln entsprechend gefärbt werden um bspw. extreme Datenwerte besser hervorzuheben. In Excel verwendet man hierzu die Bedingte Formatierung im Register Start. Das Ganze kann sogar mithilfe einer sogenannten heat-map (wörtlich übersetzt heißt das Wärmebild) auf die Spitze getrieben werden. Dabei werden die Daten im Prinzip nur noch als Farbcode dargestellt. Heat-maps eignen sich für einen schnellen Überblick über eine große Menge an Daten und werden bspw. gerne von Pharmaunternehmen beim Screenen nach neuen Wirkstoffen im Hochmikroplattendurchsatz eingesetzt. Hierbei werden Substanzen oft in Mikroplatten zur Reaktion gebracht, um sie auf ihre Wirksamkeit zu prüfen, wobei ein hohes Signal (rot in Abb. 2.1) auf einen potentiellen Hit hindeutet und somit in der heat-map hervorstechen würde.
|
||
2.2 Diagramme
|
||
Diagramme stellen eine tolle Möglichkeit dar, Daten zu visualisieren. Hiermit können Sie bereits eine erste explorative Datenanalyse betreiben. Ein vernünftig ausgewähltes Diagramm kann Ihnen nämlich bereits eine ganze Menge über Ihre Daten sagen. Die Darstellungsmöglichkeiten von Daten und Funktionen sind in Excel zwar nicht unbedingt so groß wie in dedizierten Softwarepaketen, aber dennoch für viele Zwecke ausreichend. Mit wenigen Tricks können oft sogar komplexere Diagramme erstellt werden. In diesem Abschnitt zeige ich Ihnen, wie Sie in Excel Funktionen zeichnen können und welche Möglichkeiten es gibt, experimentelle Daten wissenschaftlich darzustellen.
|
||
|
||
2.2 Diagramme
|
||
|
||
31
|
||
|
||
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 A B C D E F G H I J K L M N O P
|
||
Abb. 2.1 Heat-map aus den Daten einer Messung mit Mikroplatte. Daten mit hohem Signal sind rötlich eingefärbt, diejenigen mit niedrigem Signal sind grün eingefärbt
|
||
|
||
2.2.1 Grafische Darstellung mathematischer Funktionen
|
||
Um eine zweidimensionale Funktion in der Form von Punkten (x, f (x)) darzustellen, bedient man sich Excels Diagrammbibliothek unter dem Register Einfügen und Diagramme dem Punkt(XY)-Diagramm. Sie sollten vorab einen x-Bereich [xmin, xmax] wählen, über dem die Funktion f (x) dargestellt werden soll. Außerdem sollten Sie vorab über die Mindestanzahl darzustellender Punkte N nachdenken. Wenn der falsche Bereich bzw. zu wenig Punkte gezeichnet werden, könnten interessante Stellen, wie z. B. ein Maximum, nicht dargestellt werden. Bei der Suche nach dem Schnittpunkt zweier Funktionen bspw. sollten Sie das Intervall derart wählen, dass Sie auch die Chance haben, den (bzw. die) Schnittpunkt(e) zu finden. Häufig ist das Intervall durch die Frage- bzw. Problemstellung bereits vorgegeben. Zur Frage bezüglich der Anzahl darzustellender Punkte empfehle ich, praktischerweise N einfach relativ groß zu wählen (z. B. 1000). Damit sollte man in vielen Fällen richtig liegen. Wie Sie nun den Bereich [xmin, xmax] wählen, dafür gibt es keine Patentlösung. Im nachfolgenden Beispiel möchte ich aber einen Gedankenanstoß geben.
|
||
|
||
Beispiel 2.1 Angenommen, Sie sollen die nachfolgende Funktion grafisch in Excel darstellen:
|
||
|
||
f (x) = ax2 + bx + c
|
||
|
||
(2.1)
|
||
|
||
f (x) = − 1 x2 − 2x + 10
|
||
|
||
(2.2)
|
||
|
||
2
|
||
|
||
32
|
||
|
||
2 Darstellung von Daten
|
||
|
||
Anhand des negativen Koeffizienten a = −1/2 sieht man bereits, dass es sich um eine nach unten geöffnete Parabel handelt. Dementsprechend muss sie ein Maximum haben, das entsprechend dem Vorzeichen von b = −2 zu negativen x-Werten vorschoben ist. Es empfiehlt sich, das x-Intervall [xmin, xmax] symmetrisch um den x-Wert des Maximums zu setzen. Diesen Wert können Sie mithilfe des Solvers finden, indem Sie einen x-Wert (z. B. x0 = −1) in einer Zelle vorgeben und mit diesem den Funktionswert f (x0) in einer weiteren Zelle berechnen. Nun verwenden Sie den Solver und übergeben letztere Zelle als Zielzelle und erstere Zelle als Variablenzelle und lassen den Solver das Maximum finden. Bitte achten Sie auch hier darauf, den Haken bei Nicht eingeschränkte Variablen als nicht-negativ festlegen zu entfernen. Detaillierte Anweisungen zur Verwendung des Solvers finden sich in Abschn. 1.3. Der Solver sollte x0 = −2 gefunden haben. Nun können Sie Ihre x-Werte symmetrisch um x = −2 anordnen.
|
||
Das Beispiel 2.1 zeigt nur eine Art auf, wie man sich an Werte für xmin und xmax herantastet. Das habe mich mitunter auch deshalb so gemacht, damit Sie sehen konnten, wie Sie mithilfe des Solvers eine kleine Kurvendiskussion machen können. Überlegen Sie sich auch vorab, ob eine Funktion überhaupt Extremwerte und Unstetigkeitsstellen hat und wie sie sich für x → ±∞ verhält. Bei relativ einfachen Funktionen lässt sich das noch bewerkstelligen. Bei komplexeren funktionalen Zusammenhängen ist das leider nicht mehr so ohne Weiteres möglich. In der Praxis taste ich mich dann oft an die interessanten Stellen heran, indem ich xmin sehr klein und xmax sehr groß wähle. Ich verwende dabei gerne das AusfüllenWerkzeug, mit dem Sie, beginnend mit einer von Ihnen in einer Zelle vorgegebenen Zahl (xmin), das Inkrement x und den Endwert xmax vorgeben können, und Excel generiert für Sie automatisch die x-Werte (mehr zum Ausfüllen-Werkzeug habe ich in Abschn. 1.1 gesagt). Möchte ich dann eine bestimmte Region der Funktion höher auflösen, dann schränke ich das Intervall von xmin und xmax sukzessive ein. Alternativ können Sie die x-Werte auch selbst erzeugen, indem Sie beginnend bei xmin in der nachfolgenden Zelle das Inkrement
|
||
x selbst aufaddieren und mithilfe des Ausfüllkästchens die Berechnung nach unten ziehen, bis Sie xmax erreicht haben. Hierbei empfiehlt es sich, das Inkrement über die Anzahl der Punkte N im darzustellenden Bereich gemäß x = (xmax − xmin)/N zu definieren, damit Sie wissen, bis zu welcher Zelle (Zeilennummer) Sie die Berechnung nach unten ziehen müssen. Wenn Ihr xmin bspw. in Zelle B2 stünde, dann müssen Sie die Berechnung xmin + x, beginnend ab B3, bis runter zur Zelle B102 ziehen, falls N = 100 ist. Bitte denken Sie daran, einen absoluten Zellbezug zu verwenden, wenn Sie auf die Zelle für x referenzieren.
|
||
Funktionen grafisch in Excel darzustellen, ist nicht nur von theoretischem Interesse, sondern findet praktische Anwendung, wenn Sie bspw. mithilfe einer Regression ein mathematisches Modell an Ihre experimentellen Daten fitten und anschließend dieses Funktions-
|
||
|
||
2.2 Diagramme
|
||
|
||
33
|
||
|
||
modell grafisch darstellen wollen. Hierbei ist zu beachten, dass die Einheiten konsistent sein müssen. Wenn Sie bspw. den EC50-Wert für eine Dosis-Wirkungs-Kurve mithilfe einer Regression zu EC50 = 5 · 10−5 Molar bestimmt haben, dann sollten Sie die Funktionskurve nicht auf in Mikromolar-basierten x-Stützstellen darstellen. Doch bevor Sie mit der Regression beginnen, bietet sich oft zunächst mal eine grafische Darstellung der experimentellen Daten selbst an. Mit einem passenden Diagramm können Sie bereits gewisse Eigenschaften wie Mittelwert und Variation innerhalb der Daten abschätzen.
|
||
|
||
2.2.2 Streudiagramme
|
||
Streudiagramme (engl. scatter plots) sind sehr nützlich falls Sie Messvariabilitäten (Messwiederholbarkeit) oder biologische Variabilitäten abschätzen möchten. Ersteres entsteht durch Ungenauigkeit des Messgeräts, Letzteres durch die natürliche Variabilität, die einem biologischen System (Zellen, Tiere, Menschen, etc.) zugrunde liegt. Verschiedene Ansätze derselben Zellart sind nun mal nicht exakt identisch. Die Messvariabilität kommt bspw. in Abb. 2.2a zum Ausdruck, bei der bei jeder Konzentration eines Farbstoffes mehrere (technische oder Pseudo-) Replikate gemessen wurden. Sie sehen, dass man zu jeder Konzentration (x-Achse) mehrere Signalwerte erhält, die entlang der y-Achse streuen. Hierdurch bekommen Sie bereits einen ersten Eindruck, wie genau Sie den eigentlichen Messwert bestimmen können. Es ist zu erkennen, dass die Variabilität der Daten mit größer werdenden y-Werten zunimmt, eine Tatsache, die bei einer linearen Regression der Daten ggf. berücksichtigt werden sollte (vgl. Abschn. 5). Biologische Variabilität kommt in Abb. 2.2b zum Ausdruck, bei dem ein Datenpunkt jeweils dem Verhältnis der Kernfläche zur Gesamtfläche einer Zelle entspricht. In dieser Abbildung werden mithilfe eines sogenannten Spaltenpunktdiagramms (manchmal auch Gruppen-Streudiagramm genannt, engl. column scatterplot) zwei Zellarten jeweils miteinander verglichen. Damit die Datenpunkte mit ähnlichen Werten nicht zu sehr übereinanderliegen und man somit den Eindruck bekommt, es seien weniger Messwerte vorhanden, werden diese oft durch Hinzufügen kleiner zufälliger Schwankungen (engl. jitter) entlang der x-Achse verteilt, so wie es in Abb. 2.2b auch gemacht wurde. An der Verteilung der Daten in y-Richtung ändert das natürlich nichts.
|
||
In einem Video zeige ich Ihnen im Detail, wie Sie ein Gruppen-Streudiagramm mit jitter in Excel erzeugen können. Rufen Sie dieses Video durch Scannen des QR-Codes (unten) auf.
|
||
|
||
34
|
||
|
||
2 Darstellung von Daten
|
||
|
||
Fluoreszenz in RFU
|
||
|
||
a 80000 70000 60000 50000 40000 30000 20000 10000 0 0
|
||
|
||
Cytoplasma
|
||
|
||
b 0,7 0,6 0,5 0,4 0,3 0,2
|
||
|
||
Zellkern A / A
|
||
|
||
4·10 −4 8·10 −4 1,2·10 −3 Konzentration in µM
|
||
|
||
Zelllinie A Zelllinie B
|
||
|
||
Abb. 2.2 Darstellung von in der Praxis häufig auftretenden Streudiagrammen. (a) Die Streuung der neun (technischen) Replikate je Konzentration sind auf die Messvariabilität zurückzuführen. Dieses Streudiagramm lässt erkennen, dass die Streuung mit größer werdenden Fluoreszenzsignalwerten zunimmt. (b) Vergleich des Kern-Cytoplasma-Flächenverhältnisses zweier Zelllinien mithilfe eines Spaltenpunktdiagramms
|
||
|
||
Das Hinzufügen der zufälligen Schwankungen entlang der x-Achse macht meiner Meinung nach nur Sinn, wenn dort kategorische Variablen (wie Gruppen etc.) aufgetragen sind. Falls dort numerische Variablen aufgetragen wären, würde man durch die künstlich hinzugefügten zufälligen Schwankungen die eigentlichen x-Werte verfälscht darstellen. Spaltenpunktdiagramme (oft auch dot plots genannt) sind relativ beliebt bei Biologen und Medizinern, da hier häufig Daten mehrerer Gruppen (kategorische Variablen) miteinander verglichen werden. Oft werden statistische Kennwerte wie Mittelwerte (horizontale Striche in Abb. 2.2b) und Fehlerbalken eingezeichnet, um schon anhand der Abbildung Aussagen über die Vergleichbarkeit der Gruppen machen zu können. Bei vielen Datenpunkten können diese Kennwerte im Graph aber schnell untergehen. Dann geht man oft zu den sogenannten Box-Whisker-Plots über.
|
||
2.1 Übung Versuchen Sie einmal, für die Daten in Tab. 2.2 ein Spaltenpunktdiagramm in Excel zu erzeugen, das so ähnlich aussieht wie in Abb. 2.2.
|
||
|
||
Tab. 2.2 Beispieldaten zur Darstellung in einem Spaltenstreudiagramm
|
||
|
||
Gruppe 1 Gruppe 2
|
||
|
||
46,3 39,1 59,9 48,1 51,4 31,0 29,7 28,7 23,0 17,2
|
||
|
||
2.2 Diagramme
|
||
|
||
35
|
||
|
||
2.2.3 Box-Whisker-Plot
|
||
|
||
Im Gegensatz zu den Spaltenpunktdiagrammen werden in einem Box-Whisker-Plot (auch Box-Plot genannt) nicht mehr alle Datenpunkte dargestellt, sondern Quartile der Daten (vgl. Abschn. 3.2.8.2). Wie der Name bereits andeutet, besteht ein Box-Whisker-Plot aus einer Box, bei der das untere Ende das untere bzw. 1. Quartil (also ca. 25 % der Datenpunkte) und das obere Ende das obere bzw. 3. Quartil (also ca. 75 % der Datenpunkte) der Daten repräsentiert1. Box-Plots werden z. T. auch horizontal ausgerichtet. In diesem Fall ist das untere Quartil das linke Ende der Box und das obere Quartil das rechte Ende. Innerhalb der Box liegen ca. 50 % aller Datenpunkte. Dies ist der sogenannte Interquartilsbereich. Hierin liegt auch das 2. bzw. das 50 % Quartil, was man unter dem Namen Median kennt. Dieser ist häufig als separate Linie gekennzeichnet (gestrichelte Linie in Abb. 2.3). Die sogenannten Whisker erstrecken sich jeweils unterhalb und oberhalb der Box (bzw. links und rechts für horizontale Box-Plots) und können unterschiedliche Werte repräsentieren. Häufig repräsentieren sie das Minimum bzw. Maximum der Daten. Bisweilen stellen die Whisker auch andere Perzentile dar, wie das 5. Perzentil für den unteren Whisker und das 95. Perzentil für den oberen Whisker. Häufig werden Box-Plots nach der Methode von Tukey2 [2] dargestellt, bei dem der untere Whisker durch Subtraktion des 1,5-Fachen des Interquartilsbereichs vom 1. Quartil erhalten wird. Falls der so berechnete Wert unterhalb des Minimums liegt, endet der Whisker beim Minimumswert, ansonsten beim errechneten Wert, also zwischen Minimum und 1. Quartil. Der obere Whisker wird durch Addition des 1,5-Fachen des Interquartilsbereichs auf das 3. Quartil erhalten. Auch hier gilt, liegt der Wert oberhalb vom Maximum, erstreckt sich der Whisker nur bis zum Maximum, andernfalls liegt dieser zwischen dem 3. Quartil und dem Maximum. Mit dieser Darstellung werden häufig Ausreißer identifiziert. Als solche werden Werte angesehen, die außerhalb der Whisker liegen. Excel bietet ab Version 2016 eine einfache Möglichkeit an, Box-Plots zu erstellen. Unter Einfügen → Diagramme → Kastengrafik wird ein Box-Plot gezeichnet, dessen Whisker sich vom Minimum zum Maximum erstrecken.
|
||
Wollen Sie einen Box-Plot nach Tukey in Excel selbst erzeugen (v. a. für ältere ExcelVersionen interessant), müssen Sie zunächst die Perzentile und den Interquartilsbereich (IQB) vorab ausrechnen und dann mithilfe eines gestapelten Säulendiagramms und unter Zuhilfenahme von Fehlerbalken (für die Whisker) das Diagramm manuell erzeugen. Hierzu gibt es im Internet sehr gute Anleitungen. Im Übrigen können Box-Plots, die mit verschiedenen Softwarepaketen erzeugt wurden, z. T. etwas unterschiedlich aussehen. Das liegt v. a. daran, dass die Art der Berechnung der Perzentile unterschiedlich sein kann, je nachdem, welche Formel hierfür herangezogen wird [3]. Übrigens bietet Excel selbst zwei verschiedene Möglichkeiten zur Berechnung der Quartile, die man im Box-Plot-Dialog Datenreihen formatieren... auswählen kann. Anhand eines Box-Whisker-Plots lassen sich Ausreißer gut identifizieren. Hierbei handelt es sich um diejenigen Werte, die
|
||
|
||
1Ich habe hier angenommen, die Daten seien von klein (unten) nach groß (oben) sortiert. 2Tukey gilt als Erfinder der Box-Whisker-Plots.
|
||
|
||
36
|
||
Abb. 2.3 Box-Whisker-Plot zweier Datensätze
|
||
|
||
50 45 40 35 y 30 25 20
|
||
15
|
||
|
||
2 Darstellung von Daten
|
||
|
||
Gruppe A
|
||
|
||
Gruppe B
|
||
|
||
außerhalb der Whisker liegen und daher sofort ins Auge stechen. Bisweilen werden die Datenpunkte, ähnlich wie in Abb. 2.2b, mit im Box-Plot als Punkte dargestellt. Ausreißer werden dann zusätzlich als Sternchen gekennzeichnet. Excel zeichnet standardmäßig keine Datenpunkte ein, lediglich die außerhalb der Whisker liegenden Ausreißer werden als Punkte dargestellt. Dennoch kann man im o. g. Box-Plot-Dialog (rechte Maustaste, Datenreihen formatieren...) einstellen, dass die Datenpunkte zusätzlich angezeigt werden. BoxWhisker-Plots haben den Vorteil, dass man für ihre Darstellung nur fünf (oder mehr) Datenpunkte braucht3 im Gegensatz zu dem im Folgenden beschriebenen Histogramm, für dessen Darstellung 30 oder mehr Datenpunkte empfohlen werden [4].
|
||
|
||
2.2.4 Histogramm
|
||
Bei größeren Datenmengen (30 Datenpunkte und mehr) kann ein Histogramm dazu verwendet werden, einen Eindruck von der zugrunde liegenden Verteilung zu bekommen. Hierbei werden sie in Klassen (oft auch Bins genannt) eingeteilt und in Form eines Balkendiagramms dargestellt. Die Wahl der Breite und somit der Anzahl der Bins ist entscheidend für das Aussehen des Histogramms. Würde man bspw. die Breite der Bins sehr klein machen, so brächte man in einem Bin höchstens einen Datenpunkt unter und man könnte von der zugrunde liegenden Verteilung nichts mehr erkennen. Wenn die Bins umgekehrt zu breit gewählt werden, dann geht Information über die Streuung der Daten verloren. Es gibt verschiedene Ansätze zur Ermittlung einer passenden Anzahl Bins Nb bzw. einer passenden Binbreite Wb für einen Datensatz mit n Datenpunkten:
|
||
|
||
3Darunter empfiehlt sich die Darstellung aller Punkte in einem Streudiagramm (vgl. Abschn. 2.2.2).
|
||
|
||
2.2 Diagramme
|
||
|
||
37
|
||
|
||
• Regel nach Freedman-Diaconis: Wb = 2IQBn−1/3
|
||
|
||
(2.3)
|
||
|
||
Die Binbreite ist proportional zum Interquartilsbereich (IQB) und umgekehrt proportional zur dritten Wurzel der Anzahl Datenpunkte n • Ähnlich sieht die Regel nach Scott aus:
|
||
|
||
Wb = 3,5σ n−1/3
|
||
|
||
(2.4)
|
||
|
||
wobei hier die Standardabweichung σ statt dem Interquartilsbereich als Maß für die
|
||
|
||
•
|
||
|
||
Streuung der Daten verwendet wird.
|
||
|
||
√
|
||
|
||
Eine Regel, die ich gerne zuerst ausprobiere, ist die n-Regel
|
||
|
||
Nb = n1/2
|
||
|
||
(2.5)
|
||
|
||
• Ähnlich wird die Anzahl Bins nach der Regel von Rice berechnet:
|
||
|
||
Nb = 2n1/3
|
||
|
||
(2.6)
|
||
|
||
• Eine ebenfalls häufig eingesetzte Methode (aufgrund ihrer Einfachheit) ist die Methode nach Sturges:
|
||
|
||
Nb = 1 + log2 n
|
||
|
||
(2.7)
|
||
|
||
Das Symbol in den Gl. 2.5, 2.6 und 2.7 bedeutet ein Aufrunden zur nächsthöheren Ganzzahl. So wird bspw. 5, 1 aufgerundet zur 6. Abb. 2.4 zeigt beispielhaft zwei Histogramme, deren Datenbasis dieselbe ist wie die der Box-Plots in Abb. 2.3. Das Histogramm des ersten Datensatzes (durchgezogene Linie) weist darauf hin, dass die den Daten zugrunde liegende Verteilung vermutlich bimodal (zwei Maxima) ist, während das Histogramm des zweiten Datensatzes (gestrichelte Linie) unimodal ist.
|
||
|
||
Abb. 2.4 Histogramme der beiden Datensätze 1 (durchgezogene Konturlinie) und 2 (gestrichelte Konturlinie) aus dem vorangegangenen Abschnitt (vgl. Abb. 2.3). Die Binbreite wurde mithilfe der Regel nach Scott berechnet. Interessanterweise erhält man dieselben√Histogramme, wenn man die n-Regel verwendet
|
||
|
||
Häufigkeit
|
||
|
||
30 25 20 15 10 5 0
|
||
15 20 25 30 35 40 45 50 y
|
||
|
||
38
|
||
|
||
2 Darstellung von Daten
|
||
|
||
Seit der Version 2016 hat Microsoft die Möglichkeit zur Darstellung von Histogrammen im Diagrammbereich in Excel integriert. Die Binbreite wird zunächst automatisch mit der Regel von Scott (vgl. Gl. 2.4) berechnet. Sowohl die Binbreite als auch die Anzahl Bins kann aber nach Belieben geändert werden. Problematisch kann die Regel nach Scott dann werden, wenn die Daten stark von einer Normalverteilung abweichen. Dann bietet sich bspw. die Regel nach Freedman-Diaconis an. Aufgrund der Tatsache das hierbei der Interquartilsbereich zur Berechnung der Binbreite herangezogen wird, ist diese Methode relativ robust gegenüber Ausreißern. In der Praxis reicht häufig eine der einfachen Regeln wie Gl. 2.5, die ich selbst gerne nehme.
|
||
|
||
2.2.5 Kumulative Häufigkeitsverteilung
|
||
|
||
Eine kumulative Häufigkeitsverteilung erhalten Sie bspw. dadurch, dass Sie die Werte eines Histogramms sukzessive aufaddieren, d. h., der erste Balken wird auf den zweiten Balken addiert, der erste und zweite Balken auf den dritten Balken, der dritte, zweite und erste Balken wiederum auf den vierten und so weiter. Dadurch erhalten Sie eine Darstellung, bei der die aufaddierten Werte gegen die entsprechenden Werte der x-Achse des Histogramms dargestellt werden. Man erhält dadurch eine monoton steigende Funktion, die von 0 bis n, der Anzahl aller Datenpunkte, ansteigt. Sie müssen diese Prozedur natürlich nicht mit den Daten eines zuvor berechneten Histogramms machen, sondern können die kumulative Häufigkeitsverteilung auch direkt mithilfe der sortierten Rohdaten y1 ≤ y2 ≤ · · · ≤ yn erzeugen. Hierzu tragen Sie die Indizes 1, 2, 3, . . . , n gegen die zugehörigen y-Werte auf und erhalten so Ihr kumulatives Häufigkeitsdiagramm (vgl. Abb. 2.5a).
|
||
In Excel brauchen Sie lediglich die Daten zu sortieren und eine Spalte mit den Indizes zu erzeugen, um ein solches Diagramm zu erzeugen. Mithilfe der Indizes i lassen sich außerdem kumulierte Wahrscheinlichkeiten pi gemäß nachfolgender Gleichung berechnen:
|
||
|
||
pi
|
||
|
||
=
|
||
|
||
i − 3/8 n + 1/4
|
||
|
||
(2.8)
|
||
|
||
Durch Auftragung von pi gegen die Daten yi erhält man die kumulative Wahrscheinlichkeitsverteilung, aus der man interessante statistische Kenngrößen ablesen kann (vgl. Abb. 2.5b). Der Median bspw. befindet sich bei pi = 0,5. Das 25. bzw. 75. Perzentil, wie wir es vom Box-Whisker-Plot kennen, findet sich entsprechend bei pi = 0,25 bzw. pi = 0,75, d. h., Sie müssen das Lot von der pi -Achse auf die y-Achse schlagen und erhalten so diese Perzentile. Die so ermittelten Perzentile können Sie den Perzentilen yNormal einer Normalverteilung gegenüberstellen und so überprüfen, ob Ihre Daten selbt annähernd normalverteilt sind (mehr dazu in Abschn. 3.4). Zur Berechnung der Perzentile der Normalverteilung verwenden Sie die Excel-Funktion NORM.INV, an die Sie Ihre pi als erstes Argument übergeben und den Mittelwert, sowie die Standardabweichung Ihrer Daten als zweites bzw. drittes Argument. Eine Darstellung von y-Werte gegen die yNormal gibt Ihnen
|
||
|
||
2.2 Diagramme
|
||
|
||
39
|
||
|
||
a
|
||
|
||
b
|
||
|
||
100
|
||
|
||
1
|
||
|
||
Wahrscheinlichkeit
|
||
|
||
80
|
||
|
||
0,8
|
||
|
||
Index
|
||
|
||
60
|
||
|
||
0,6
|
||
|
||
40
|
||
|
||
0,4
|
||
|
||
20
|
||
|
||
0,2
|
||
|
||
0
|
||
|
||
0
|
||
|
||
20
|
||
|
||
30
|
||
|
||
40
|
||
|
||
50
|
||
|
||
20
|
||
|
||
30
|
||
|
||
40
|
||
|
||
50
|
||
|
||
c 50 45 40 35 30 25 20 20
|
||
|
||
y
|
||
|
||
30
|
||
|
||
40
|
||
|
||
y
|
||
|
||
z-score
|
||
|
||
d3
|
||
2
|
||
1
|
||
0 −1 −2 −3 50
|
||
|
||
y
|
||
|
||
30
|
||
|
||
40
|
||
|
||
50
|
||
|
||
y
|
||
|
||
y Normal
|
||
|
||
Abb. 2.5 Darstellung der kumulativen Verteilungsfunktion (a), der kumulativen Wahrscheinlichkeitsfunktion (b), eines Q-Q-Plots, bei dem die Quantile y der Daten denen einer Normalverteilung yNormal gegenübergestellt sind (c) und derselben Darstellung wie in (C), nur dass hier die Quantile der Standardnormalverteilung auf der Ordinate aufgetragen wurden (d)
|
||
|
||
einen Eindruck, wie stark Ihre Daten von einer Normalverteilung abweichen (vgl. Abb. 2.5c). Wenn sie dabei linear erscheinen, ist die Annahme einer Normalverteilung berechtigt. Diese Art der Darstellung ist übrigens eine Form des sogenannten Quantil-Quantil-Plots (auch QQ-Plots abgekürzt), bei dem jeweils die sortierten Daten gegen die Quantile der Standardnormalverteilung aufgetragen werden (vgl. Abb. 2.5d). Die Kurve schneidet die y-Achse (also bei z = 0) beim Mittelwert der Daten. Die Steigung ist in dieser Darstellung invers zur Standardabweichung bzw. beim Vertauschen der beiden Achsen gleich der Standardabweichung.
|
||
|
||
2.2.6 Violin-Plot
|
||
Violin-Plots kombinieren Merkmale von Histogrammen und von Box-Whisker-Plots. Man erhält somit einen Eindruck über die Verteilungsdichte der Daten (entlang der y-Richtung) und über bestimmte statistische Kennwerte. Ein Beispiel findet man in Abb. 2.6. Hier sind zwei Datengruppen dargestellt, die unterschiedliche Verteilungen aufweisen. Ähnlich wie
|
||
|
||
40
|
||
|
||
2 Darstellung von Daten
|
||
|
||
50
|
||
|
||
45
|
||
|
||
40
|
||
|
||
35 y
|
||
30
|
||
|
||
25
|
||
|
||
20
|
||
|
||
15
|
||
|
||
Gruppe 1
|
||
|
||
Gruppe 2
|
||
|
||
x
|
||
|
||
Abb. 2.6 Beispiel für einen Violin-Plot zweier verschiedener Datengruppen. Der Median (gestrichelte Linie), sowie das 25. bzw. 75. Perzentil (Linie unterhalb bzw. oberhalb der Medianlinie) sind die vom Box-Whisker-Plot bekannten Elemente. Die äußere Hülle einer jeden Violine wird jeweils durch die Datenpunktdichte bestimmt und entspricht einer Art geglättetem Histogramm entlang der y-Achse, das nach rechts gespiegelt wurde
|
||
|
||
bei einem Box-Whisker-Plot sind für jede Gruppe jeweils der Median (gestrichelte Linie) und das 25. bzw. 75. Perzentil (untere bzw. obere durchgezogene Linien um die Medianlinie) dargestellt, d. h., sie schließen, wie gewohnt, den Interquartilsbereich ein. Die Hülle der Violinen4 entspricht einer Art geglättetem Histogramm (wer es genauer wissen will, suche bitte nach Kernel density estimator) entlang der y-Achse, das nach rechts gespiegelt ist und gibt somit die Punktdichte der Daten wieder. In Abb. 2.6 kann man dadurch bspw. erkennen, dass die Daten der ersten Gruppe bimodal sind. Diese Aussage hätten Sie anhand eines Box-Whisker-Plot nicht treffen können.
|
||
Es gibt verschiedene Varianten, einen Violin-Plot darzustellen. Z. T. werden jeweils BoxWhisker-Plots mit in die Violinen-Fläche eingezeichnet. Bisweilen ebenso häufig werden die Datenpunkte, ähnlich wie bei einem Spaltenstreudiagramm, mit in die Violinen-Fläche eingezeichnet. In Excel können Sie mit Bordmitteln leider keine Violin-Plots zeichnen.
|
||
|
||
2.2.7 Fehlerbalken
|
||
Wurden Daten mehrfach gemessen (Replikate), so wird häufig, anstatt alle Replikate in einem Diagramm darzustellen, der Mittelwert mit einem entsprechenden Streumaß dargestellt. In wissenschaftlichen Publikationen wird das v. a. bei Balken- und Streudiagram-
|
||
4Violin-Plots werden so genannt, weil die Darstellungen z. T. denen von Violinen gleichen [5].
|
||
|
||
2.2 Diagramme
|
||
|
||
41
|
||
|
||
men gerne durch die zusätzliche Darstellung von sogenannten Fehlerbalken gemacht (vgl. Abb. 2.7).
|
||
Leider ist jedoch häufig nicht angegeben, wie diese Fehlerbalken berechnet wurden. Es gibt typischerweise drei Streumaße, die für die Darstellung als Fehlerbalken häufig verwendet werden, die Standardabweichung σ , der Standardfehler S E und das Konfidenzintervall C I . Auf alle drei möchte ich kurz eingehen und Ihnen zeigen, wann Sie welche Art von Fehlerbalken verwenden sollten. Außerdem werde ich Ihnen zeigen, wie Sie diese in Excel relativ leicht erzeugen können. Die Standardabweichung lernen wir in Abschn. 3.2.8 noch genauer kennen. In Excel lässt sie sich aus den Daten mithilfe der Funktion STABW.S oder STABW.N berechnen. STABW.N werden Sie in der Praxis selten brauchen, da sie davon ausgeht, dass Sie alle möglichen Werte kennen und somit auch den (wahren) Mittelwert kennen. Beim Würfeln mit einem Würfel ist das bspw. so. In der wissenschaftlichen Praxis ist das jedoch selten der Fall. Vielmehr stellen Ihre Daten nur eine Stichprobe der Grundgesamtheit dar. Mit zunehmender Anzahl Datenpunkte n nähert sich die aus den Daten berechnete Standardabweichung der wahren Standardabweichung der Grundgesamtheit. In diesem Fall macht es dann keinen nennenswerten Unterschied mehr, ob man STABW.S oder STABW.N nimmt. Dies steht im Gegensatz zum Standardfehler, der mit größer werdendem n immer kleiner wird. Dementsprechend werden auch daraus resultierende Fehlerbalken immer kleiner. Klingt zunächst mal verlockend, aber Vorsicht ist hier geboten. Sie vergleichen hier Äpfel mit Birnen, denn der Standardfehler ist kein Maß für die Streuung der Daten an sich, sondern ein Maß für die Streuung des aus den Daten berechneten Mittelwertes. Daher bezeichnet man es auch als Standardabweichung des Mittelwertes (engl. standard error of the mean oder nur standard error, S E). Er berechnet sich wie folgt:
|
||
|
||
SE
|
||
|
||
=
|
||
|
||
σ √
|
||
|
||
(2.9)
|
||
|
||
n
|
||
|
||
a
|
||
|
||
b
|
||
|
||
c
|
||
|
||
15
|
||
|
||
15 B
|
||
|
||
15 C
|
||
|
||
12
|
||
|
||
12
|
||
|
||
12
|
||
|
||
9
|
||
|
||
9
|
||
|
||
9
|
||
|
||
6
|
||
|
||
6
|
||
|
||
6
|
||
|
||
3
|
||
|
||
3
|
||
|
||
3
|
||
|
||
0 Gr. 1 Gr. 2
|
||
|
||
0 Gr. 1 Gr. 2
|
||
|
||
0 Gr. 1 Gr. 2
|
||
|
||
Abb. 2.7 Darstellung verschiedener Arten von Fehlerbalken am Beispiel eines Balkendiagramms. Die Fehlerbalken wurden (a) auf Basis der Standardabweichung σ , (b) auf Basis des Standardfehlers S E und (c) auf Basis des 95 %-Konfidenzintervalls C I erzeugt
|
||
|
||
42
|
||
|
||
2 Darstellung von Daten
|
||
|
||
Gl. 2.9 folgt aus dem Additionssatz für Mittelwerte und Varianzen (vgl. Abschn. 3.2.8). Wenn Sie also die Streuung Ihrer Daten zeigen wollen, dann sind Fehlerbalken basierend auf dem S E nicht die richtige Wahl. Wollen Sie hingegen mit Ihren Fehlerbalken ausdrücken, wie genau Sie den Mittelwert der zugehörigen Daten bestimmen können, dann können Sie den S E durchaus nehmen. Alternativ können Sie hierzu auch das Konfidenzintervall bzw. die Fehlerspanne x¯ für den Mittelwert heranziehen. Sie berechnet sich mithilfe folgender Gleichung:
|
||
|
||
x¯ = t(1 − α/2, d f ) √σ n
|
||
|
||
(2.10)
|
||
|
||
Hierbei ist t(1 − α/2, d f ) gleich dem zweiseitigen (1 − α/2)-Quantilwert der Studentt-Verteilung (vgl. hierzu Abschn. 3.2.6) mit d f Freiheitsgraden. Dieser Wert lässt sich mithilfe der Excel-Funktion T.INV(1-α/2,d f ) berechnen. Für gängige Werte von α (z. B. α = 0,05) ist der t-Wert deutlich größer als 1. Demnach ist auch x¯ größer als S E. Das Konfidenzintervall C I = [x¯ − x¯, x¯ + x¯] ist dasjenige, in dem der wahre Mittelwert der Gesamtpopulation mit einer Wahrscheinlichkeit von 1 − α/2 liegt. Basierend auf den
|
||
|
||
Konfidenzintervallen kann man bspw. die Mittelwerte zweier Datensätze miteinander ver-
|
||
|
||
gleichen. Überlappen bspw. die 95 %-Konfidenzintervalle der beiden Mittelwerte nicht, dann kann man mit einer Sicherheit von p < 0,05 sagen, dass die beiden Mittelwerte nicht gleich sind. Die Umkehrung, dass die Mittelwerte gleich sind, wenn die beiden Konfidenzintervalle
|
||
|
||
überlappen, gilt im Allgemeinen nicht. Es kann passieren, dass die Konfidenzintervalle der
|
||
|
||
beiden Mittelwerte überlappen, diese dennoch statistisch signifikant unterschiedlich sind [6].
|
||
|
||
Auf das Thema überlappende Konfidenzintervallen werden wir in Abschn. 3.4.1.3 nochmals
|
||
|
||
zurückkommen. Für den Standardfehler gibt es etwas Ähnliches, nur umgekehrt. Wenn die
|
||
|
||
Standardfehlerintervalle zweier Datensätze überlappen, dann sind die Mittelwerte statistisch nicht signifikant verschieden für α = 0,05. Hier gilt die Umkehrung im Allgemeinen
|
||
|
||
auch nicht. Das Gesagte über die Konfidenzintervalle sowie die Standardfehler gilt im Übri-
|
||
|
||
gen nur, wenn die beiden zugrunde liegenden Datensätze von vergleichbarer Größe sind.
|
||
|
||
Ob Fehlerbalken basierend auf der Standardabweichung überlappen oder nicht, sagt Ihnen
|
||
|
||
leider nichts über die Gleichheit bzw. Ungleichheit der zugehörigen Mittelwerte. Häufig sieht man in Publikationen ein oder mehrere Asteriske bspw. zwischen den Balken
|
||
|
||
in einem Balkendiagramm. Sie sollen auf einen statistisch signifikanten Unterschied zwi-
|
||
|
||
schen den zugrunde liegenden Mittelwerten hindeuten. Ein Beispiel zeigt Abb. 2.8. Hierin
|
||
|
||
sind jeweils die Mittelwerte der Gruppe 1 (die zwei linken Balken mit durchgezogener Linie) und die Mittelwerte der Gruppe 2 (die zwei rechten Balken mit gestrichelter Linie) dargestellt
|
||
|
||
mit der jeweiligen Standardabweichung als Fehlerbalken. Innerhalb einer Gruppe zeigen die
|
||
|
||
Asterikse jeweils an, wie statistisch signifikant verschieden die beiden Mittelwerte sind. Je
|
||
|
||
mehr Asterikse zwischen den Balken, desto signifikanter verschieden sind die Mittelwerte. Demnach sind die beiden Mittelwerte der Gruppe 2 signifikanter verschieden als die beiden
|
||
|
||
Mittelwerte der Gruppe 1. Das erkennt man auch daran, dass die Fehlerbalken im letzten
|
||
|
||
Fall deutlich näher zusammen sind und schon beinahe überlappen. Die Fehlerbalken in die-
|
||
|
||
2.2 Diagramme
|
||
Abb. 2.8 In wissenschaftlichen Publikationen trifft man häufig auf Balkendiagramme, bei denen zwischen Balkenpaaren die statistische Signifikanz mithilfe von Asterisken dargestellt wird. In diesem Diagramm ist der p-Wert für Differenz der beiden Mittelwerte der Gruppe eins p ≤ 0,01 und für die der Gruppe zwei p ≤ 0,001
|
||
|
||
25 20 15 10
|
||
5 0
|
||
Gr. 1
|
||
|
||
43 Gr. 2
|
||
|
||
sem Beispiel beruhen übrigens auf der Standardabweichung. Was aber bedeuten ein, zwei, drei oder z. T. sogar vier Asterikse? Sie hängen mit der Wahrscheinlichkeit p zusammen, dass die Mittelwerte (eigentlich) gleich sind und rein zufällig den gezeigten Unterschied aufweisen. Ein p-Wert von 0,05 bspw. entspricht einer fünfprozentigen Wahrscheinlichkeit, dass die Mittelwerte eigentlich gleich sind, wir aber nur durch Zufall eine den Werten entsprechende Differenz erhalten haben. Es gelten typischerweise die in Tab. 2.3 aufgeführten Zusammenhänge zwischen der Anzahl Asteriske und dem p-Wert.
|
||
Auf statistische Signifikanz werden wir noch detaillierter in Abschn. 3 eingehen. Hier wird Ihnen die Bedeutung des p-Wertes sicher noch klarer werden. Statistische Signifikanz im Zusammenhang mit Fehlerbalken ist in [7] ausführlich beschrieben. In den ergänzenden Informationen zu dieser [8] Publikation befindet sich eine Excel-Datei, anhand derer Sie verschiedene Szenarien mit den drei Fehlerbalkentypen durchgehen können. Dadurch werden Ihnen auch die oben aufgeführten Regeln zur statistischen Signifikanz beim Überlappen bzw. beim Nichtüberlappen der Fehlerbalken klarer. Unterschiedliche Szenarien inklusive verschiedener Regeln im Umgang mit Fehlerbalken sind auch in dieser [9] Publikation beschrieben. Um Missverständnisse zu vermeiden, sollte immer die Art der dargestellten
|
||
|
||
Tab. 2.3 Bedeutung der Asteriske in Diagrammen zur Indikation der statistischen Signifikanz mithilfe des p-Wertes (Erklärung siehe Text). ns bedeutet hierbei nicht signifikant
|
||
|
||
Asteriks p-Wert
|
||
|
||
ns
|
||
|
||
p > 0,05
|
||
|
||
*
|
||
|
||
p ≤ 0,05
|
||
|
||
**
|
||
|
||
p ≤ 0,01
|
||
|
||
*** p ≤ 0,001
|
||
|
||
**** p ≤ 0,0001
|
||
|
||
44
|
||
|
||
2 Darstellung von Daten
|
||
|
||
Fehlerbalken dokumentiert sein, was leider nicht immer in wissenschaftlichen Publikationen der Fall ist.
|
||
|
||
2.2 Übung Erzeugen Sie ein Balkendiagramm in Excel für die zwei Datensätze in Tab. 2.2. Fügen Sie dem Diagramm Fehlerbalken basierend auf den zugehörigen Standardfehlern hinzu. Fügen Sie außerdem drei Asterikse zwischen den beiden Balken ein, sodass Sie eine ähnliche Darstellung wie in Abb. 2.8 erhalten. Kleiner Tip: Verwenden Sie hierfür das Kombi-Diagramm in Excel.
|
||
|
||
2.2.8 Darstellung dreidimensionaler Daten
|
||
3D-Diagramme spielen in der explorativen Datenanalyse eine weit geringere Rolle als die zuvor erwähnten 2D-Diagramme. Das liegt vermutlich daran, dass Experimente in der wissenschaftlichen Praxis zumeist so gestaltet werden, dass jeweils nur eine Variable verändert wird und deren Einfluss auf die entsprechende Systemantwort untersucht wird. Häufig bedingen sich jedoch Variablen. So führt die Temperaturerhöhung einer Lösung zu einer Veränderung ihres pH-Wertes. Wenn Sie das nicht berücksichtigen, könnten Sie zu Fehlschlüssen am Ende Ihres Experimentes kommen. In solchen fällen bietet sich eine statistische Versuchsplanung an, bei der z. T. 3D-Darstellungen verwendet werden (vgl. Abschn. 7). Excel bietet lediglich 3D-Oberflächendiagramme zur Darstellung dreidimensionaler Daten an, was aber für viele Zwecke genügen sollte. Damit Sie Ihre Daten sinnvoll mit dem 3DOberflächendiagramm darstellen können, müssen Sie sie in der Form eines Gitters vorliegen haben, bei dem bspw. die eine Variable in horizontaler (x-) Richtung variiert und die andere in vertikaler (y-) Richtung. Zu jedem Paar von x, y-Werten gibt es einen Messwert z, der letztlich als Höhe im Oberflächendiagramm dargestellt ist. Details möchte ich mir an dieser Stelle ersparen, da ich in der Lösung zu Übung 2.3 noch weiter darauf eingehen werde, wie Sie 3D-Daten in Excel darstellen können.
|
||
2.3 Übung Stellen Sie die folgende Funktion in einem Oberflächendiagramm in Excel dar:
|
||
f (x, y) = exp(−2(x − 2)2 − 2(y − 1)2)
|
||
Definieren Sie hierzu zunächst ein Gitter der Funktionswerte für x = 0,5...4 in 0,5erSchritten und für x = 0,2...2 in 0,2er-Schritten. Denken Sie hierbei daran, die richtigen Zellbezüge zu setzen.
|
||
|
||
2.2.9 Publikationsreife Abbildungen in Excel
|
||
In dem Institut, an dem ich meine Doktorarbeit angefertigt habe, gingen an alle Doktoranden, die in der nächsten Zeit ihre Dissertation einreichen sollten, Tipps zum Anfertigen
|
||
|
||
2.2 Diagramme
|
||
|
||
45
|
||
|
||
dieser Arbeit per Rundmail raus. Einer der Punkte in dieser Mail war die Erstellung publikationsreifer Abbildungen. Die Info bezüglich publikationsreifer Abbildungen war, man solle bitte nicht Excel zum Erstellen dafür heranziehen, sondern mit einem anderen Programm die Daten visualisieren. An meinem Institut war es aber so, dass die meisten Doktoranden ihre Daten (zumindest die Rohdaten) in Excel hatten. D. h. am Ende gingen viele hin, arbeiteten sich teilweise monatelang in ein neues Programm ein, um ihre Daten hierin zu verarbeiten, ggf. neu zu analysieren und am Ende „publikationsreifer“ darzustellen. Ein Hauptkritikpunkt vieler (Unwissender) ist, dass man aus Excel heraus keine Vektorgrafikformatabbildungen erzeugen kann. Wie wir weiter unten sehen werden, stimmt das nicht so ganz, denn das kann man bereits mit Bordmitteln. Ich zeige Ihnen aber zunächst, wie Sie effektiv mit Diagrammen arbeiten können, indem Sie Diagrammvorlagen verwenden. Wenn Sie in Excel bspw. die (x, y)-Daten in einem Punktdiagramm darstellen, erhalten Sie standardmäßig ein Diagramm, das zumindest meinen Anforderungen nicht genügt. In aller Regel entferne ich die Gitternetzlinien, ändere die Achsenfarbe von grau auf schwarz, mache die Achsenlinien dicker, füge Teilstriche (gekreuzt) ein, vergrößere die Schrift und ändere die Schriftfarbe von dunkelgrau in schwarz. Sie sehen, dass sind eine ganze Menge Änderungen, die ich nicht jedes Mal wieder für neu erzeugte X Y -Punktdiagramme machen wollte. Um die gemachten Änderungen zu speichern, kann man sich in Excel eine Diagrammvorlage anlegen. Dazu erzeugen Sie sich einmalig ein Diagramm, das Ihren Ansprüchen genügt, klicken mit der rechten Maustaste auf das Diagramm und wählen im Kontextmenü Als Vorlage speichern... Ich empfehle Ihnen, den von Excel vorgeschlagenen Speicherort ...\Templates\Charts zu belassen. Bitte beachten Sie folgendes eigenartiges Verhalten in Excel. Zur Erzeugung der Vorlage sollten Sie nur die Zahlen markieren und keine Spaltenüberschriften mit markieren. Dann erzeugen und formatieren Sie Ihr Diagramm und speichern es wie gehabt. Wollen Sie die Vorlage anschließend auf einen neuen x y-Datensatz anwenden, dann fügen Sie bitte nur oberhalb der y-Daten eine Spaltenüberschrift ein und entfernen Sie ggf. eine vorhandene Spaltenüberschrift oberhalb der x-Daten. Dann markieren Sie die (x, y)-Daten inklusive der beiden Zeilen oberhalb der Daten und gehen auf Empfohlene Diagramme → Alle Diagramme und können dann unter Vorlagen Ihre zuvor erzeugte Vorlage auswählen und auf die Daten anwenden. Wenn Sie dennoch eine Spaltenüberschrift oberhalb der x-Werte eingefügt hätten, dann interpretiert Excel die x-Werte als eigene Datenserie, und diese würden dann entsprechend auch separat in dem Diagramm dargestellt. Wenn Ihre Vorlage auf einer x-Datenreihe und nur einer y-Datenreihe beruht, dann ist sie so nicht auf multiple Daten mit mehreren yDatenreihen übertragbar. Dafür müssten Sie auch einer zuvor definierten Vorlage bereits auf mehrere y-Datenreihen angewendet haben. Andersrum, wenn Sie Ihre Vorlage mit mehreren y-Datenreihen erzeugt haben, dann ist es auf Daten mit nur einer y-Datenreihe übertragbar. Natürlich sind Vorlagen nicht nur auf X Y -Diagramme beschränkt, ich wollte sie hier nur als Beispiel anführen, weil sie in der Praxis häufig verwendet werden. Angenommen, Ihr Diagramm hat nun das Aussehen, was Sie für angemessen halten. Dann können Sie das Diagramm als Vektorgrafik exportieren. Hierzu markieren Sie es und wählen unter
|
||
|
||
46
|
||
|
||
2 Darstellung von Daten
|
||
|
||
Datei → Drucken einen PDF-Drucker aus. In Microsoft Windows 10 ist der Microsoft Print to PDF Drucker standardmäßig installiert und ist dafür geeignet. Falls Sie ihn nicht in Ihrer Liste sehen, können Sie ihn aktivieren unter Windows-Features aktivieren oder deaktivieren. Zurück zu Excel. Im Druckdialog achten Sie bitte darauf, dass unter Einstellungen Markiertes Diagramm drucken eingestellt ist. Wenn Sie anschließend auf Drucken gehen, können Sie den Pfad zum Speichern der PDF-Datei angeben. Nachdem Sie Speichern geklickt haben, haben Sie ihr Diagramm als PDF-Datei vorliegen. Dies ist letztlich ein Vektorgrafikformat, d. h. Sie können es beliebig skalieren, ohne dass es an Auflösung verliert, d. h., Sie sollten keine Probleme mit verpixelten Abbildungen bekommen. Diagramme im Vektorgrafikformat haben außerdem den Vorteil, dass nachträglich einzelne Teile (bspw. die Farbe Ihrer Kurve ändern) mit geeigneter Software, wie Inkscape (open source) oder Adobe Illustrator (kommerziell), im Nachhinein noch bearbeitet werden können. Falls nötig, können Sie dann aus der Software heraus in andere Formate speichern. Leider funktioniert das nicht mit allen Diagrammtypen, bspw. nicht mit 3D-Diagrammen oder Pareto-Diagrammen, diese werden nur als Pixelbilder in das PDF eingebettet.
|
||
|
||
Literatur
|
||
1. Gelman, A., Wainer, H., Briggs, W.M., Friendly, M., Kwan, E., Wills, G.: Why tables are really much better than graphs [with comments and rejoinder]. Journal of Computational and Graphical Statistics 20(1), 3–40 (2011)
|
||
2. Tukey, J.W.: Some graphic and semigraphic displays. Statistical Papers in Honor of George W, Snedecor (1972)
|
||
3. Hyndman, R.J., Fan, Y.: Sample quantiles in statistical packages. The American Statistician 50(4), 361–365 (1996)
|
||
4. Krzywinski, M., Altman, N.: Visualizing samples with box plots. Nature Methods 11, 119 (2014) 5. Hintze, J.L., Nelson, R.D.: Violin plots: A box plot-density trace synergism. The American Sta-
|
||
tistician 52(2), 181–184 (1998) 6. Ryan, G.W., Leadbetter, S.D.: On the misuse of confidence intervals for two means In: Testing
|
||
For The Significance Of The Difference Between The Means. J. Mod. Appl. Stat. Methods 2(2), 473–478 (2002) 7. Motulsky, H.: Intuitive Biostatistics: A Nonmathematical Guide to Statistical Thinking. Oxford University Press (2017) 8. Krzywinski, M., Altman, N.: Error bars. Nature Methods 10, 921 (2013) 9. Cumming, G., Fidler, F., Vaux, D.L.: Error bars in experimental biology. J. Cell Biol. 177(1), 7–11 (2007)
|
||
|
||
Wahrscheinlichkeiten und
|
||
|
||
3
|
||
|
||
Wahrscheinlichkeitsverteilungen
|
||
|
||
3.1 Was ist Wahrscheinlichkeit
|
||
|
||
Bezogen auf ein Ereignis X entspricht die Wahrscheinlichkeit P(X ) dem Grad, mit dem
|
||
|
||
wir annehmen, dass dieses Ereignis eintreffen wird. Demnach ist eine Wahrscheinlichkeit
|
||
|
||
eine reelle Zahl zwischen 0 und 1, wobei P(X ) = 1 bedeutet, dass X sicher eintreffen wird. Umgekehrt kennzeichnet P(X¯ ) den Grad, mit dem wir denken, dass X nicht wahr ist. In der Statistik wird X¯ als das zu X komplementäre Ereignis bezeichnet. Wenn Sie weiter
|
||
|
||
darüber nachdenken, werden Sie zu dem Schluss kommen, dass die Wahrscheinlichkeit für
|
||
|
||
das Eintreffen von X plus die Wahrscheinlichkeit für das Nichteintreffen von X gleich 1 sein
|
||
|
||
muss, denn eines von beiden muss eintreffen. Bei diesen, sich ausschließenden Ereignissen
|
||
|
||
gilt die Additionsregel:
|
||
|
||
P(X ) + P(X¯ ) = 1
|
||
|
||
(3.1)
|
||
|
||
Das Ereignis X kann bspw. das Würfeln einer 1 beim „Mensch ärgere dich nicht“ sein. Dementsprechend entspräche X¯ dem Würfeln einer 2, 3, 4, 5 oder 6. Irgendeine Zahl zwi-
|
||
schen 1 und 6 wird gewürfelt werden, d. h., die Gesamtwahrscheinlichkeit ist 1:
|
||
|
||
P({1}) + P({2, 3, 4, 5, 6}) = 1
|
||
|
||
(3.2)
|
||
|
||
Bei Verwendung eines Würfels ist das Würfeln einer Zahl {1, 2, 3, 4, 5, 6} unabhängig vom Würfeln einer anderen Zahl. Dementsprechend kann die Gesamtwahrscheinlichkeit für das Würfeln irgendeiner Zahl auch wie folgt berechnet werden:
|
||
|
||
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020
|
||
|
||
47
|
||
|
||
M. Schneider, Datenanalyse für Naturwissenschaftler, Mediziner und Ingenieure,
|
||
|
||
https://doi.org/10.1007/978-3-662-61866-0_3
|
||
|
||
48
|
||
|
||
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
|
||
|
||
P({1}) + P({2}) + P({3})+
|
||
|
||
P({4}) + P({5}) + P({6}) = 1
|
||
|
||
(3.3)
|
||
|
||
6
|
||
P({i}) = 1
|
||
i =1
|
||
|
||
(3.4)
|
||
|
||
Die allgemeine Form von Gl. 3.4 bezeichnet man als Summenregel der Wahrscheinlichkeitsrechnung [3]. Sie wird in folgender (allgemeinen) Form dargestellt:
|
||
|
||
N
|
||
P(Xi) = 1
|
||
i =1
|
||
|
||
(3.5)
|
||
|
||
Wenn wir nun nach der Wahrscheinlichkeit P(Xi , X j ) für das Auftreten eines Ereignisses Xi und eines anderen Ereignisses X j fragen, so müssen ggf. gewisse Abhängigkeiten zwischen diesen Ereignissen beachtet werden.
|
||
|
||
P(Xi, X j) = P(Xi|X j) · P(X j)
|
||
|
||
(3.6)
|
||
|
||
Gl. 3.6 bezeichnet man in allgemeiner Form auch als Produktregel für Wahrscheinlichkeiten. P(Xi |X j ) ist hierbei die Wahrscheinlichkeit für das Auftreten von Xi unter der Voraussetzung, dass X j bereits eingetreten ist. Für den Spezialfall, dass die Ereignisse voneinander unabhängig sind, also Xi nicht davon abhängt, ob X j bereits eingetreten ist, gilt:
|
||
|
||
P(Xi|X j) = P(Xi)
|
||
|
||
(3.7)
|
||
|
||
Der ein oder andere sehr Mathematik-affine Mensch wird vielleicht an dieser Stelle etwas die mathematische Strenge vermissen. Ich habe mich aber bewusst gegen eine detaillierte Ableitung aller Begriffe (inklusive einer mathematischen Definition von Wahrscheinlichkeit) und Regeln entschieden, da sie meiner Meinung nach nicht nötig sind, um die nachfolgenden Abschnitte zu verstehen. Im Übrigen kann man in Gl. 3.6 Xi und X j problemlos vertauschen und erhält somit folgende Gleichung:
|
||
|
||
P(X j, Xi) = P(X j|Xi) · P(Xi)
|
||
|
||
(3.8)
|
||
|
||
Die Kombination von Gl. 3.6 und 3.8 führt letztlich auf den sogenannten Satz von Bayes1
|
||
|
||
(Bayes-Theorem):
|
||
|
||
P(Xi|X j) =
|
||
|
||
P(X j|Xi) · P(Xi) P(X j)
|
||
|
||
(3.9)
|
||
|
||
Hierbei habe ich von der Tatsache Gebrauch gemacht, dass P(Xi , X j ) gleich P(X j , Xi ) ist. Der Satz von Bayes2 hat eine große Bedeutung im Bereich der Datenanalyse, ebenso
|
||
|
||
1Thomas Bayes war ein englischer Mathematiker, der um 1701 in London geboren wurde. 2Bayes war ein englischer Mathematiker.
|
||
|
||
3.1 Was ist Wahrscheinlichkeit
|
||
|
||
49
|
||
|
||
seine einzelnen Bestandteile, auf die ich im Folgenden kurz eingehen möchte. P(X j |Xi ) bezeichnet man als Likelihood. Wie wir oben gelernt haben, handelt es sich hierbei einfach um eine bedingte Wahrscheinlichkeit. P(Xi ) wird Priorwahrscheinlichkeit genannt, und P(X j ) wird als Evidence bezeichnet. Sie spielt beim Modellvergleich eine entscheidende Rolle (siehe hierzu auch Abschn. 5.7.2.3). Machen wir an dieser Stelle mal ein anschauliches
|
||
Beispiel:
|
||
|
||
Beispiel 3.1 Angenommen, Sie haben zwei unterscheidbare Würfel und fragen nach der Wahrscheinlichkeit P(X |Y ), dass die Augensumme X = 8 durch Würfeln eines
|
||
|
||
Pasches Y entstand. Ein solches Würfelexperiment hat insgesamt 36 mögliche Zahlenpaare. Mathematisch spricht man bei {{1, 1}, {1, 2}, . . . , {6, 5}, {6, 6}} von der soge-
|
||
|
||
nannten Ergebnismenge dieses Würfelexperiments. Die Ergebnismenge ist die Zusam-
|
||
|
||
menfassung aller möglichen Zahlenpaare (mathematisch auch Elementarereignisse
|
||
|
||
genannt). Die Wahrscheinlichkeit, ein bestimmtes Zahlenpaar zu würfeln, ist also gleich 1/36. Um die bedingte Wahrscheinlichkeit P(X |Y ) zu berechnen, stellen wir
|
||
|
||
Gl. 3.8 um:
|
||
|
||
P(X |Y ) =
|
||
|
||
P(X, Y ) P(Y )
|
||
|
||
(3.10)
|
||
|
||
Fangen wir mit dem Nenner P(Y ) an und bedienen uns gleichzeitig der Tab. 3.1. Die Anzahl aller möglichen Pasche ist 6. Demnach ist die Wahrscheinlichkeit P(Y ), einen Pasch zu würfeln, gleich 6/36 = 1/6. Kommen wir nun zur Bestimmung der Wahrscheinlichkeit P(X , Y ) im Zähler von Gl. 3.10, also der Wahrscheinlichkeit, dass X
|
||
|
||
und Y (gleichzeitig) auftreten. Dazu bilden wir zunächst die Schnittmenge der Ereignisse X = {{2, 6}, {3, 5}, {4, 4}, {5, 3}, {6, 2}} und Y = {{1, 1}, {2, 2}, {3, 3}, {4, 4}, {5, 5}, {6, 6}}. Wie man sieht, besteht diese aus genau einem Ereignis, nämlich {4, 4}. D. h., die Wahrscheinlichkeit P(X , Y ) ist gleich 1/36. Nun können wir auch P(X |Y )
|
||
|
||
berechnen:
|
||
|
||
P(X |Y )
|
||
|
||
=
|
||
|
||
1/36 6/36
|
||
|
||
=
|
||
|
||
1 6
|
||
|
||
(3.11)
|
||
|
||
Das Würfeln eines Würfels ist ein klassisches Beispiel für ein Zufallsexperiment. Die Augenzahl ist hierbei eine sogenannte Zufallsvariable, sie unterliegt rein dem Zufall. Für das Würfeln mit zwei Würfeln gilt das Gleiche. Als Summe zweier Zufallsvariablen ist auch die Augensumme eine Zufallsvariable. Ich habe Tab. 3.1 bewusst so angeordnet, da man hierdurch auf einen Blick erkennen kann, dass bspw. die 7 die im Mittel am häufigsten geworfene Zahl bei zwei Würfeln ist. Dreht man diese Tabelle einmal auf den Kopf, so erkennt man den Verlauf der Häufigkeitsverteilung der Augensumme bei zwei Würfeln. Werden im genannten Beispiel die Häufigkeiten auf die Anzahl aller möglichen Würfelaugenpaare normiert, so
|
||
|
||
50
|
||
|
||
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
|
||
|
||
Tab. 3.1 Aufstellung aller möglichen Augenzahlenpaare und der entsprechenden Augensumme X . Mathematisch nennt man das die Ergebnismenge
|
||
|
||
X2
|
||
|
||
3
|
||
|
||
4
|
||
|
||
5
|
||
|
||
6
|
||
|
||
7
|
||
|
||
8
|
||
|
||
9
|
||
|
||
10 11 12
|
||
|
||
{1,1} {1,2} {1,3} {1,4} {1,5} {1,6} {2,6} {3,6} {4,6} {5,6} {6,6}
|
||
|
||
{2,1} {2,2} {2,3} {2,4} {2,5} {3,5} {4,5} {5,5} {6,5}
|
||
|
||
{3,1} {3,2} {3,3} {3,4} {4,4} {5,4} {6,4}
|
||
|
||
{4,1} {4,2} {4,3} {5,3} {6,3}
|
||
|
||
{5,1} {5,2} {6,2}
|
||
|
||
{6,1}
|
||
|
||
gelangt man von der Häufigkeitsverteilung zur Wahrscheinlichkeitsfunktion f (x). Über die in der Praxis wichtigen Wahrscheinlichkeitsfunktionen werden wir im folgenden Abschnitt noch im Detail sprechen.
|
||
3.2 Wichtige Wahrscheinlichkeitsverteilungen
|
||
Im vorangegangenen Abschnitt haben wir bereits den Begriff der Zufallsvariablen eingeführt. Ich möchte an dieser Stelle auf eine mathematische Definition verzichten, Ihnen aber anhand unseres altbekannten Würfelbeispiels 3.1 etwas genauer das Konzept der Zufallsvariablen näherbringen. Wie wir schon aus Tab. 3.1 sehen konnten, besteht die Ergebnismenge in diesem Beispiel aus 36 Elementarereignissen {{1, 1}, {1, 2}, . . . , {6, 5}, {6, 6}}. Wie wir auch schon bereits festgestellt hatten, ist die Augensumme X eine Zufallsvariable. Zunächst erscheint die Bezeichnung Zufallsvariable etwas irreführend, da es sich eigentlich um eine Funktion handelt, die einem Elementarereignis (bspw. {1, 2}) eine reelle Zahl zuordnet. D. h., die Elementarereignisse sind sozusagen die Funktionsvariablen von X . Hier z. B. X ({1, 2}) = 3. Andererseits ist die Zufallsvariable tatsächlich selbst auch eine Variable, nämlich dann, wenn man ihr mithilfe einer Wahrscheinlichkeitsfunktion eine Wahrscheinlichkeit zuordnet (vgl. z. B. Abb. 4.5d). Im Abschn. 4 werde ich Ihnen zeigen, wie man von der Wahrscheinlichkeitsfunktion für einen Würfel, zur Wahrscheinlichkeitsfunktion für zwei Würfel kommt. Die Wahrscheinlichkeitsfunktion nennt man übrigens auch Dichtefunktion bzw. Wahrscheinlichkeitsdichtefunktion. Neben dieser ist die sogenannte Verteilungsfunktion, oder auch kumulative Verteilungsfunktion genannt, sowohl von theoretischer als auch von praktischer Bedeutung. Von praktischer Bedeutung deshalb, weil man mit ihrer Hilfe bspw. Zufallszahlen erzeugen kann, die einer entsprechenden Dichtefunktion folgen (vgl. Abschn. 3.3). Einfach gesprochen entsteht die Verteilungsfunktion durch (kumulatives) Aufsummieren der Wahrscheinlichkeiten einer Dichtefunktion und entspricht somit einer Fläche unterhalb der Dichtefunktion (vgl. Abb. 3.1).
|
||
|
||
3.2 Wichtige Wahrscheinlichkeitsverteilungen
|
||
|
||
51
|
||
|
||
a
|
||
|
||
b
|
||
|
||
Wahrscheinlichkeitsdichte Wahrscheinlichkeit
|
||
|
||
Abb. 3.1 Die Verteilungsfunktion (b) entspricht der Menge aller Flächen die unterhalb der Wahrscheinlichkeitsdichtefunktion liegen (a)
|
||
|
||
Dem wachsamen Leser mag aufgefallen sein, dass dort, wo die Dichtefunktion ihr Maximum hat, die zugehörige Verteilungsfunktion einen Wendepunkt hat. Das kommt daher, weil die Verteilungsfunktion F(x) der integrierten Dichtefunktion f (x) entspricht:
|
||
|
||
x
|
||
F(x) = f (s)ds
|
||
−∞
|
||
|
||
(3.12)
|
||
|
||
F(x) entspricht der Wahrscheinlichkeit, dass die Zufallsvariable X zwischen −∞ bis
|
||
|
||
x zu finden ist. Für diskrete Wahrscheinlichkeitsverteilungen ist das Integral durch eine
|
||
|
||
Summe zu ersetzen:
|
||
|
||
x
|
||
F(x) = f (xk)
|
||
k=0
|
||
|
||
(3.13)
|
||
|
||
Will man nun die Wahrscheinlichkeit berechnen, dass X zwischen a und b liegt (mit
|
||
|
||
a < b), so kommt man relativ schnell zu Gl. 3.14:
|
||
|
||
P(a ≤ X ≤ b) = F(b) − F(a)
|
||
|
||
(3.14)
|
||
|
||
Bitte beachten Sie, dass im Gegensatz zu diskreten Zufallsvariablen, die Wahrscheinlichkeit für ein konkreten Wert X = x bei stetigen Zufallsvariablen gleich null ist.
|
||
|
||
3.1 Übung Wie groß ist die Wahrscheinlichkeit bei 10 Würfen mit einem Würfel, dass mindestens einmal die Zahl 6 erhalten wird?
|
||
|
||
52
|
||
|
||
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
|
||
|
||
3.2.1 Binomialverteilung
|
||
|
||
Mit der Binomialverteilung (auch Bernoulli-Verteilung genannt) beschäftigt man sich spätestens dann, wenn es um die Suche nach den Wahrscheinlichkeiten für zwei sich ausschließende Ereignisse geht. Sei nun p die Wahrscheinlichkeit für das Eintreten eines Ereignisses E, dann wissen wir aus Abschn. 3.1, dass bei sich gegenseitig ausschließenden Ereignissen die Wahrscheinlichkeit für das Eintreten von E gleich pE = 1 − p ist. Bei n-maligem Ausführen eines Zufallsexperimentes beschreibt die Binomialverteilung
|
||
|
||
f (x) = n px (1 − p)n−x x
|
||
|
||
(3.15)
|
||
|
||
die Wahrscheinlichkeit, dass x-mal das Ereignis E und entsprechend n − x-mal das Ereig-
|
||
|
||
nis E eintritt. Der Münzwurf ist ein klassisches Beispiel, bei dem die Binomialverteilung
|
||
|
||
Anwendung findet. Den Ausdruck
|
||
|
||
n x
|
||
|
||
kennen Sie vermutlich besser unter dem Namen
|
||
|
||
Binomialkoeffizient, den man häufig im Zusammenhang mit binomischen Formeln bzw.
|
||
|
||
dem Pascal’schen Dreieck kennenlernt. Ausgeschrieben bedeutet es nicht anderes als:
|
||
|
||
n x
|
||
|
||
=
|
||
|
||
n
|
||
|
||
·
|
||
|
||
(n
|
||
|
||
−
|
||
|
||
1) . . . (n − x + 2) x · (x − 1) . . . 2
|
||
|
||
· ·
|
||
|
||
(n 1
|
||
|
||
−
|
||
|
||
x
|
||
|
||
+
|
||
|
||
1)
|
||
|
||
(3.16)
|
||
|
||
und entspricht der Anzahl Möglichkeiten, bei n Ausführungen x-mal das Ereignis E und entsprechend n − x-mal das zu E komplementäre Ereignis E zu erhalten. Bei insgesamt n = 5 Münzwürfen wäre x = 3 mal Kopf ein Beispiel dafür. Dabei ist es egal, ob die drei Kopf direkt bei den ersten drei Würfen erhalten wurden und bei den letzten beiden Würfen dann eine Zahl, oder ob die drei Kopf erst bei den letzten drei Würfen zustande kamen. Der Ausgang „3 mal Kopf“ ist hier derselbe. p in Gl. 3.15 entspricht der Wahrscheinlichkeit für das Eintreten des Ereignisses bei einmaliger Ausführung des zugrunde liegenden Experimentes, 1− p entspricht dementsprechend der Wahrscheinlichkeit des Eintreffens des komplementären Ereignisses bei einmaliger Ausführung. n entspricht der Gesamtanzahl der Ausführungen des Experimentes und x der Gesamtanzahl der Experimente, in denen das Ereignis eingetreten ist. Abb. 3.2 verdeutlicht dies für P = 0,2 und verschiedene n-Werte.
|
||
Um zu verdeutlichen, dass die Binomialverteilung diskret ist, habe ich Datenpunkte statt reine Liniendiagramme gezeichnet. Die geraden Verbindungslinien zwischen den Punkten dienen lediglich der besseren Veranschaulichung des Verlaufs. Sie sehen, dass dieser mit zunehmender Anzahl Ausführungen n immer mehr einer Glockenkurve ähnelt. Tatsächlich nähert sich die Binomialverteilung für große n immer mehr der Poisson-Verteilung an. Da wir es bei der Bernoulli-Verteilung mit einer diskreten Wahrscheinlichkeitsdichtefunktion zu tun haben, ist auch die Verteilungsfunktion entsprechend diskret. Dementsprechend muss sie in Summenform hingeschrieben werden:
|
||
|
||
x
|
||
F(x) =
|
||
|
||
n pk (1 − p)n−k
|
||
|
||
k
|
||
|
||
k=0
|
||
|
||
(3.17)
|
||
|
||
Wahrscheinlichkeitsdichte
|
||
|
||
3.2 Wichtige Wahrscheinlichkeitsverteilungen
|
||
|
||
53
|
||
|
||
Abb. 3.2 Veranschaulichung
|
||
|
||
verschiedener Binomialverteilungen mit
|
||
|
||
0,3
|
||
|
||
p = 0,2 und n = 10 (schwarze
|
||
|
||
Linie), n = 25
|
||
|
||
(magentafarbene Linie) und
|
||
|
||
0,2
|
||
|
||
n = 100 (blaue Linie)
|
||
|
||
0,1
|
||
|
||
0 0 5 10 15 20 25 30 35 40
|
||
x
|
||
|
||
3.2 Übung: Berechnen Sie die Wahrscheinlichkeit aus Übung 3.1 mithilfe der Binomialverteilung. Verwenden Sie hierzu die Excel-Funktion BINOM.VERT.
|
||
|
||
3.2.2 Poissonverteilung
|
||
|
||
Die Poisson-Verteilung ist sozusagen der kleine Bruder der Binomialverteilung. Sie fin-
|
||
|
||
det dann Anwendung, wenn die Wahrscheinlichkeit p des Einzelereignisses sehr klein ist,
|
||
|
||
die Anzahl der Ausführungen jedoch groß. Tatsächlich können wir die Poisson-Verteilung
|
||
|
||
aus der Binomialverteilung ableiten, indem man im Grenzwert p gegen null und n gegen
|
||
|
||
unendlich laufen lässt. Ich schreibe Ihnen hier lediglich das Endergebnis dieser Herleitung
|
||
|
||
hin:
|
||
|
||
f
|
||
|
||
(x)
|
||
|
||
=
|
||
|
||
λx x!
|
||
|
||
exp(−x )
|
||
|
||
(3.18)
|
||
|
||
x ist hierbei die Anzahl der Ereignisse, und λ bezeichnet die mittlere (zu erwartende)
|
||
|
||
Ereignishäufigkeit und ist gleich:
|
||
|
||
λ = np
|
||
|
||
(3.19)
|
||
|
||
Abb. 3.3 zeigt ein paar Beispiele für Poisson-Verteilungen mit verschiedenen Werten für λ. Wie klein muss p und wie groß soll n denn nun sein, damit man anstatt mit der Binomialverteilung mit der Poisson-Verteilung rechnen darf? Hier gibt es leider keine pauschale Antwort. Die Binomialverteilung wird Ihnen auf jeden Fall eine richtige Antwort liefern. Die Poisson-Verteilung ist aber wesentlich handlicher zum Rechnen. Ein Beispiel, wo die Poisson-Verteilung eine Rolle spielt, ist bei der Detektion seltener Ereignisse bei einer sehr großen Anzahl an Versuchen. So z. B. bei der Detektion einzelner Photonen mittels Avalanche Photodioden (APD). APDs haben eine sehr hohe zeitliche Auflösung und sind in der Lage, einzelne Photonen zu detektieren, sie werden gerne bei der Detektion von Fluoreszenzphotonen verwendet. In ungefähr 10.000 Zeitintervallen tritt hierbei nur ungefähr ein
|
||
|
||
54
|
||
|
||
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
|
||
|
||
Abb. 3.3 Veranschaulichung verschiedener Poisson-Verteilungen mit λ = 0,5 (schwarze Linie), λ = 3 (magentafarbene Linie) und λ = 8 (blaue Linie)
|
||
|
||
Wahrscheinlichkeitsdichte
|
||
|
||
0,7
|
||
|
||
0,6
|
||
|
||
0,5
|
||
|
||
0,4
|
||
|
||
0,3
|
||
|
||
0,2
|
||
|
||
0,1
|
||
|
||
0
|
||
|
||
0
|
||
|
||
5
|
||
|
||
10
|
||
|
||
15
|
||
|
||
20
|
||
|
||
x
|
||
|
||
Photonenereignis auf. Ähnlich wie bei der Binomialverteilung kann ich die Verteilungsfunktion der Poisson-Verteilung nur als Summenform hinschreiben:
|
||
|
||
x λk F(x) = k=0 k! exp(−k)
|
||
|
||
(3.20)
|
||
|
||
Kommen wir im nächsten Abschnitt zu den wichtigsten stetigen Verteilungsfunktionen.
|
||
|
||
3.2.3 Gauß’sche Normalverteilung
|
||
Die Gauß’sche Normalverteilung (kurz Normalverteilung) ist sicherlich eine der in den Anwendungen am häufigsten verwendeten Verteilungsfunktionen. Im Gegensatz zur Binomialverteilung und Poisson-Verteilung ist sie eine stetige Verteilungsfunktion. Ihre Wichtigkeit in den Natur- und Ingenieurswissenschaften beruht hauptsächlich darauf, dass die meisten Messvariablen die Summe verschiedener zufälliger Einflüsse sind, wie bspw. das Rauschen des Messsystems oder die zufällige Natur des zu untersuchenden Systems selbst (bspw. Fluoreszenzemission). Diese zufälligen Einflüsse überlagern sich, wodurch sich die entsprechenden Wahrscheinlichkeitsverteilungen ineinanderfalten, was auch als Konvolution bezeichnet wird (was Konvolution ist, wird in Abschn. 4.3 erläutert). Dadurch nähert sich die Wahrscheinlichkeitsdichte der resultierenden Zufallsvariable immer mehr einer Gauß’schen Normalverteilung an, was mithilfe des zentralen Grenzwertsatzes (siehe unten) beschrieben wird. Die Gauß’sche Normalverteilung ist symmetrisch um einen Punkt μ, dem Mittelwert. Die Breite dieser Funktion ist durch die Maßzahl σ bestimmt, die man Standardabweichung nennt. Das sind zwei von mehreren möglichen Maßzahlen von Verteilungen, denen ich in diesem Buch ein eigenes Kapitel widme und daher an dieser Stelle nicht weiter darauf eingehen werde. Die Dichtefunktion f (x) schreibt sich in der folgenden Form:
|
||
|
||
3.2 Wichtige Wahrscheinlichkeitsverteilungen
|
||
|
||
55
|
||
|
||
f (x) = √ 1 exp − 1
|
||
|
||
2π σ
|
||
|
||
2
|
||
|
||
x−μ 2 σ
|
||
|
||
(3.21)
|
||
|
||
Anhand des quadrierten Exponenten in Gl. 3.21 erkennen Sie auch, warum die Normal-
|
||
|
||
verteilung symmetrisch um μ ist. Die Form wird häufig als Glockenkurve bezeichnet, weil
|
||
|
||
sie wie ein Längsschnitt durch eine Glocke aussieht (vgl. Abb. 3.4).
|
||
|
||
Wie in der Abbildung zu erkennen, wird die Verteilung breiter, je größer die Standardab-
|
||
|
||
weichung σ wird. Einige analytische Signale haben annähernd die Form einer Gauß’schen
|
||
|
||
Normalverteilung. Die Peaks in einem Chromatogramm bspw. haben in sehr guter Nähe-
|
||
|
||
rung die genannte Form. Bei solchen Signalen werden oft die sogenannten Halbwertsbreiten
|
||
|
||
(engl. full width at half maximum, kurz F W H M) als Maß für Breite der Verteilung ermittelt.
|
||
|
||
Über die Beziehung
|
||
|
||
√ F W H M = 2 2 ln 2σ 2
|
||
|
||
(3.22)
|
||
|
||
lässt sich dann relativ leicht die Standardabweichung berechnen. Die zugehörige Verteilungsfunktion muss ich Ihnen an dieser Stelle als nicht aufgelöstes Integral hinschreiben, es lässt sich nur noch numerisch lösen (siehe Abschn. 1.5):
|
||
|
||
F(x) = √ 1
|
||
|
||
x
|
||
exp
|
||
|
||
−1
|
||
|
||
s−μ 2
|
||
|
||
ds
|
||
|
||
2π σ
|
||
|
||
2σ
|
||
|
||
−∞
|
||
|
||
(3.23)
|
||
|
||
Man bezeichnet es auch als Gauß’sches Fehlerintegral. NORM.VERT ist die Funktion,
|
||
|
||
mit der Sie entweder die Wahrscheinlichkeitsdichtefunktion (Gl. 3.21) oder die Verteilungs-
|
||
|
||
funktion (Gl. 3.23) in Excel berechnen können. Übrigens wird der Exponent in Gl. 3.21 noch
|
||
|
||
eine wichtige Rolle spielen:
|
||
|
||
z
|
||
|
||
=
|
||
|
||
x
|
||
|
||
− σ
|
||
|
||
μ
|
||
|
||
(3.24)
|
||
|
||
Wahrscheinlichkeitsdichte
|
||
|
||
Abb. 3.4 Veranschaulichung
|
||
|
||
0,8
|
||
|
||
der Gauß’schen
|
||
|
||
Normalverteilung mit μ = 5
|
||
|
||
und σ = 0,5 (durchgezogene
|
||
|
||
0,6
|
||
|
||
Linie), σ = 1,0 (gestrichelte
|
||
|
||
Linie) und σ = 1,5
|
||
|
||
(gepunktete Linie)
|
||
|
||
0,4
|
||
|
||
0,2
|
||
|
||
0 0 1 2 3 4 5 6 7 8 9 10
|
||
x
|
||
|
||
56
|
||
|
||
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
|
||
|
||
Er wird z-score genannt und spielt eine wichtige Rolle bei der χ 2-Verteilung und beim Testen auf Verteilungen. Ist die Zufallsvariable x normalverteilt mit Mittelwert μ1 und Standardabweichung σ1, dann ist auch z normalverteilt, mit Mittelwert μ = 0 und Standardabweichung σ = 1. Diese Aussage können Sie an dieser Stelle vielleicht noch nicht selbst überprüfen, aber mit den Erkenntnissen aus Abschn. 3.2.8 sollte dies möglich sein. Mit Hilfe von Gl. 3.24 transformieren Sie also die Zufallsvariable x in eine neue (standardisierte) Zufallsvariable z mit den genannten Eigenschaften. Diese Transformation bezeichnet man daher als z-Transformation oder auch Standardisierung.
|
||
|
||
Zentraler Grenzwertsatz Der Gauß’schen Normalverteilung kommt eine besondere Bedeutung zu. Wenn Sie das Würfelexperiment von oben nochmals sukzessiv mit ansteigender Würfelanzahl wiederholen und jeweils die Verteilung der Summe der Würfelaugen aufschreiben würden, dann stellten Sie fest, dass sich die Verteilung der Würfelsummen mehr und mehr einer Gauß’schen Normalverteilung annähern. Das können Sie sich auch gerne mal simulieren. Dazu können Sie in Excel die Funktion ZUFALLSBEREICH(1;6) verwenden. Damit simulieren Sie den einmaligen Wurf eines Würfels mit 1 bis 6 Würfelaugen. Wenn Sie diese Funktion nun in sagen wir zehn benachbarte Zellen kopieren, sagen wir von B3 bis K3, diese zehn Zellen anschließend markieren und F5 (oder strg + G ) drücken, dann können Sie im auftretenden Gehe zu Dialog unter Verweis den Bereich B3:K10002 eingeben und OK klicken. Excel markiert dann den angegebenen Bereich. Wenn Sie nun in die Bearbeitungsleiste klicken (in dem ja ZUFALLSBEREICH(1;6) stehen sollte) und strg + drücken, dann kopiert Excel automatisch die Funktion in alle markierten Zellen. Somit haben Sie virtuell 10.000 mal je Spalte mit einem Würfel gewürfelt bzw. 1-mal mit zehn Würfeln je Zeile gewürfelt. Berechnen Sie bitte nun einmal die Summe über die Zeilen, sodass Sie 10.000 Werte für die Würfelaugensummen S10 der zehn Würfel erhalten. Wenn Sie daraus nun ein Histogramm erstellen (vgl. Abschn. 2.2.4), werden Sie erkennen, dass dieses sehr stark einer Gauß’schen Normalverteilung ähnelt. Mit zunehmender Anzahl n an Summanden Sn bzw. Würfeln verschiebt s√ich die Verteilung um den Faktor nμ nach rechts. Sie wird aber lediglich um den Faktor
|
||
n breiter, also relativ zum Mittelwert gesehen sogar schmaler. Der zentrale Grenzwertsatz besagt nun, dass die standardisierte Zufallsvariable
|
||
|
||
zn
|
||
|
||
=
|
||
|
||
Sn −√nμ σn
|
||
|
||
(3.25)
|
||
|
||
im Grenzfall n → ∞ einer Standardnormalverteilung folgt. Bitte behalten Sie dies im Hinterkopf, denn es erleichtert den Zugang zu Hypothesentests (vgl. Abschn. 3.4) ungemein. Der zentrale Grenzwertsatz ist auch von praktischer Bedeutung. Viele der in diesem Buch besprochenen statistischen Tests setzen normalverteilte Daten voraus. Haben Sie sich schon mal gefragt, ob das in der Praxis überhaupt der Fall sein kann? Häufig sind Messdaten selbst die Summe vieler Zufallsprozesse (bspw. Brown’sche Molekularbewegung, Detektorrauschen,
|
||
|
||
3.2 Wichtige Wahrscheinlichkeitsverteilungen
|
||
|
||
57
|
||
|
||
Hintergrundrauschen, systeminhärente Zufallsprozesse wie Fluoreszenzemission etc.), und demnach ist die Annahme von annähernd normalverteilten Daten häufig gerechtfertigt.
|
||
|
||
3.3 Übung: Erzeugen Sie, ähnlich wie bei unserem 10-Würfel-Beispiel von gerade, normalverteilte Zufallsdaten mithilfe der Funktion NORM.INV(ZUFALLSZAHL(),10,0,5). Der Mittelwert und die Standardabweichung betragen hier 10 bzw. 0,5. Generieren Sie zunächst 10.000 × 3 Zufallszahlen und berechnen Sie den Mittelwert zeilenweise, sodass Sie 10.000 Mittelwerte erhalten. Stellen Sie diese Mittelwerte in einem Histogramm dar. Dasselbe wiederholen Sie mit 10.000 × 10 Zufallszahlen und stellen auch die daraus erhaltenen Mittelwerte als Histogramm dar. Was fällt Ihnen auf, wenn Sie die beiden Histogramme vergleichen?
|
||
|
||
3.2.4 Logarithmische Normalverteilung
|
||
|
||
Wie wir gerade gesehen haben, erhält man eine normalverteilte Zufallsvariable immer dann, wenn sie die Summe vieler verschiedener Zufallsvariablen (Streueinflüsse) ist. Dies führte uns zur Gauß’schen Normalverteilung. Wenn eine Zufallsvariable z jedoch nicht die Summe, sondern das Produkt z = x1 · x2 · · · · xn vieler verschiedener Zufallsvariablen xi ist, dann führt das zur sogenannten logarithmischen Normalverteilung:
|
||
|
||
f (x) = √ 1 exp − 1 ln x − μ 2
|
||
|
||
2π σ
|
||
|
||
2σ
|
||
|
||
(3.26)
|
||
|
||
Hierbei gilt jedoch die Einschränkung, dass alle x positiv sein müssen. Trägt man f (x)
|
||
|
||
gegen x auf, so erhält man im Allgemeinen eine nicht symmetrische Verteilung, wie in Abb. 3.5 dargestellt. Trägt man f (x) jedoch gegen ln x bzw. auf einer logarithmisch skalier-
|
||
|
||
ten x-Achse auf, so erhält man wiederum eine Gauß’sche Normalverteilung.
|
||
|
||
Die kumulierte Verteilungsfunktion kann wiederum nur noch in Integralform aufgeschrie-
|
||
|
||
ben werden:
|
||
|
||
F(x) = √ 1
|
||
|
||
x
|
||
exp − 1
|
||
|
||
ln s − μ 2
|
||
|
||
ds
|
||
|
||
2π σ
|
||
|
||
2σ
|
||
|
||
0
|
||
|
||
(3.27)
|
||
|
||
Die logarithmische Normalverteilung spielt bei bestimmten Anwendungen eine große
|
||
|
||
Rolle, so z. B. bei der Verteilung der Partikelgröße von Mahlwerk oder der Verteilung der
|
||
|
||
EC50-Werte in der Pharmakologie (siehe auch Abschn. 3.4).
|
||
|
||
58
|
||
a 0,6
|
||
|
||
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
|
||
b 0,6
|
||
|
||
Wahrscheilichkeitsdichte Wahrscheilichkeitsdichte
|
||
|
||
0,4
|
||
|
||
0,4
|
||
|
||
0,2
|
||
|
||
0,2
|
||
|
||
0
|
||
|
||
0
|
||
|
||
0
|
||
|
||
5
|
||
|
||
10 15 20 10−2
|
||
|
||
10−1
|
||
|
||
100
|
||
|
||
101
|
||
|
||
x
|
||
|
||
x
|
||
|
||
Abb. 3.5 Veranschaulichung der logarithmischen Normalverteilung mit σ = 1 und μ = 0 (gestrichelte Linie) bzw. μ = 1 (durchgezogene Linie) mit linearer x-Achse (a) und logarithmischer x-Achse (b)
|
||
|
||
3.2.5 χ 2-Verteilung – und die Gammafunktion
|
||
|
||
Die χ2-Verteilung spielt eine wichtige Rolle bei verschiedenen statistischen Testverfahren, die weiter unten in diesem Kapitel beschrieben werden. Nehmen wir einmal an, Sie haben n Zufallsvariablen z1, . . . , zn von der Form wie in Gl. 3.24. Diese quadrieren Sie und summieren sie auf. Dadurch erhalten Sie wiederum eine Zufallsvariable, nennen wir sie X :
|
||
|
||
n
|
||
X = zi2
|
||
i =1
|
||
|
||
(3.28)
|
||
|
||
Die Dichtefunktion f (x) zu dieser Zufallsvariablen sieht etwas respekteinflößend aus:
|
||
|
||
n−2
|
||
|
||
x f (x) =
|
||
|
||
2
|
||
|
||
exp
|
||
|
||
−
|
||
|
||
x 2
|
||
|
||
2
|
||
|
||
n 2
|
||
|
||
Γ
|
||
|
||
n 2
|
||
|
||
fu¨r x ≥ 0
|
||
|
||
(3.29)
|
||
|
||
Hierbei ist n die Anzahl der Freiheitsgrade3. Γ ist die sogenannte Gammafunktion. Sie berechnet sich nach folgender Gleichung:
|
||
|
||
∞
|
||
Γ (α) = sα−1 exp (−s) ds
|
||
0
|
||
|
||
(3.30)
|
||
|
||
3Zu Freiheitsgraden finden Sie weiter unten mehr.
|
||
|
||
3.2 Wichtige Wahrscheinlichkeitsverteilungen
|
||
|
||
Wahrscheinlichkeitsdichte
|
||
|
||
Abb. 3.6 Veranschaulichung
|
||
|
||
0,5
|
||
|
||
der χ 2-Verteilung mit n = 2
|
||
|
||
(durchgezogene Linie), n = 4
|
||
|
||
(gestrichelte Linie) und n = 8
|
||
|
||
0,4
|
||
|
||
Freiheitsgraden (gepunktete
|
||
|
||
Linie)
|
||
|
||
0,3
|
||
|
||
0,2
|
||
|
||
0,1
|
||
|
||
0 0
|
||
|
||
59
|
||
|
||
5
|
||
|
||
10
|
||
|
||
15
|
||
|
||
20
|
||
|
||
x
|
||
|
||
Aber keine Panik, Sie müssen das Integral in Gl. 3.30 nicht von Hand ausrechnen. In Excel ist diese Funktion bereits als GAMMA() implementiert. Wie Sie vielleicht schon anhand von Gl. 3.29 erkennen können, ist die χ2-Verteilung, im Gegensatz zur Gauß’schen Normalverteilung im Allgemeinen nicht symmetrisch (vgl. Abb. 3.6). Setzen Sie bspw. n = 2 in Gl. 3.29 ein, so erhalten Sie eine exponentiell abfallende Wahrscheinlichkeitsdichtefunktion.
|
||
Sie wird es jedoch mit einer immer größer werdenden Anzahl Freiheitsgraden n und nähert sich dann der Gauß’schen Normalverteilung an. Die Verteilungsfunktion F(x) kann ebenso wenig in geschlossener Form angegeben werden wie die Dichtefunktion selbst:
|
||
|
||
F(x) =
|
||
|
||
exp
|
||
|
||
−
|
||
|
||
s 2
|
||
|
||
n
|
||
|
||
22
|
||
|
||
z n−2
|
||
|
||
s2
|
||
|
||
0
|
||
|
||
Γ
|
||
|
||
n 2
|
||
|
||
ds
|
||
|
||
(3.31)
|
||
|
||
Mit der Funktion CHIQU.VERT können Sie entweder die Wahrscheinlichkeitsdichtefunktion (Gl. 3.29) oder die kumulative Verteilungsfunktion (Gl. 3.31) in Excel berechnen.
|
||
|
||
3.2.6 Student-t-Verteilung
|
||
Die Student-t-Verteilung geht auf den Chemiker und Mathematiker William Sealy Gosset zurück, der seine Ergebnisse unter dem Pseudonym Student veröffentlichte [4] und daher der Verteilung ihren Namen gegeben hat. Sie hat eine besondere Bedeutung bei verschiedenen Arten von statistischen Tests, wie wir in Abschn. 3.4.1.2 noch sehen werden. An dieser Stelle legen wir den Grundstein für ein besseres Verständnis dieser Tests. Dazu nehmen wir an, U sei eine Zufallsvariable, die einer Gauß’schen Normalverteilung folge. V sei eine zweite Zufallsvariable, die einer χ 2-Verteilung mit n Freiheitsgraden folge. Dann folgt die Zufallsvariable
|
||
|
||
60
|
||
|
||
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
|
||
|
||
X = √VU/n der sogenannten Student-t-Verteilung. Sie genügt der Dichtefunktion
|
||
|
||
(3.32)
|
||
|
||
f (x)
|
||
|
||
=
|
||
|
||
Γ √nπ
|
||
|
||
n+1 2
|
||
Γ
|
||
|
||
n 2
|
||
|
||
x2
|
||
|
||
−
|
||
|
||
n+1 2
|
||
|
||
1+
|
||
|
||
n
|
||
|
||
(3.33)
|
||
|
||
Wie wir sehen werden, ist U bspw. die Differenz zweier Mittelwerte und V die (gepoolte) Standardabweichung der zugehörigen Messreihen. Grafisch dargestellt (vgl. Abb. 3.7) ergibt sich eine symmetrische Dichteverteilungsfunktion, die sich mit größer werdendem n immer mehr einer Standardnormalverteilung annähert.
|
||
Die Student-t-Verteilung mit nur einem Freiheitsgrad (vgl. Abb. 3.7 gestrichelte Kurve) ist übrigens auch unter dem Namen Cauchy-Verteilung oder Lorentz-Verteilung bekannt und spielt eine gewisse Rolle bei der Peak-Form verschiedener spektroskopischer Methoden. Die Verteilungsfunktion F(x) erhält man wieder durch Integration
|
||
|
||
F(x)
|
||
|
||
=
|
||
|
||
Γ √
|
||
n
|
||
|
||
π
|
||
|
||
n+1 2
|
||
Γ
|
||
|
||
n 2
|
||
|
||
x −∞
|
||
|
||
s2
|
||
|
||
−
|
||
|
||
n+1 2
|
||
|
||
1+
|
||
|
||
ds
|
||
|
||
n
|
||
|
||
(3.34)
|
||
|
||
T.VERT ist die Excel-Funktion, mit der Sie entweder die Wahrscheinlichkeitsdichtefunktion (Gl. 3.33) oder die Verteilungsfunktion (Gl. 3.34) berechnen können, abhängig davon, welchen dritten Parameter Sie an diese Funktion übergeben.
|
||
|
||
Abb. 3.7 Veranschaulichung der Student-t-Verteilung mit 1 Freiheitsgrad (gestrichelte Linie) bzw. 5 Freiheitsgraden (gepunktete Linie). Zum Vergleich ist die Standardnormalverteilung (durchgezogene Linie) auch im Diagramm dargestellt, der sich die Student-t-Verteilung mit größer werdenden Freiheitsgraden immer mehr annähert
|
||
|
||
Wahrscheinlichkeitsdichte
|
||
|
||
0,4 0,3 0,2 0,1
|
||
0 −6 −4 −2 0 2 4 6
|
||
x
|
||
|
||
3.2 Wichtige Wahrscheinlichkeitsverteilungen
|
||
|
||
61
|
||
|
||
3.2.7 F-Verteilung
|
||
|
||
Die F-Verteilung, auch Fisher-Verteilung genannt, ist nach dem englischen Mathematiker R.A. Fisher bekannt. Nehmen wir einmal an, U und V seien zwei unabhängige χ 2-verteilte
|
||
Zufallsvariablen mit m bzw. n-Freiheitsgraden. Dann ist die Zufallsvariable
|
||
|
||
U
|
||
|
||
X
|
||
|
||
=
|
||
|
||
m V
|
||
|
||
n
|
||
|
||
F-verteilt mit m und n Freiheitsgraden. Sie besitzt die Dichtefunktion
|
||
|
||
(3.35)
|
||
|
||
f (x) =
|
||
|
||
Γ
|
||
|
||
m+n 2
|
||
|
||
Γ
|
||
|
||
m 2
|
||
|
||
Γ
|
||
|
||
n 2
|
||
|
||
m−2
|
||
|
||
mn
|
||
|
||
x2
|
||
|
||
m
|
||
|
||
2
|
||
|
||
n
|
||
|
||
2
|
||
|
||
(m x
|
||
|
||
+
|
||
|
||
n)
|
||
|
||
m
|
||
|
||
+n 2
|
||
|
||
und die Verteilungsfunktion F(x)
|
||
|
||
(3.36)
|
||
|
||
F(x)
|
||
|
||
=
|
||
|
||
Γ
|
||
|
||
Γ
|
||
|
||
m 2
|
||
|
||
m+n 2
|
||
Γ
|
||
|
||
n 2
|
||
|
||
x
|
||
|
||
m−2
|
||
|
||
mn
|
||
|
||
s2
|
||
|
||
m 2n2
|
||
|
||
(ms
|
||
|
||
+
|
||
|
||
n
|
||
|
||
)
|
||
|
||
m+n 2
|
||
|
||
ds
|
||
|
||
0
|
||
|
||
(3.37)
|
||
|
||
Mit F.VERT können Sie entweder die Wahrscheinlichkeitsdichtefunktion (Gl. 3.36) oder die Verteilungsfunktion (Gl. 3.37) in Excel berechnen. Je nach der Anzahl Freiheitsgrade kann die Dichtefunktion stark unterschiedlich aussehen (vgl. Abb. 3.8).
|
||
Im Allgemeinen ist sie unsymmetrisch, wird jedoch symmetrischer, je größer m und n werden. Dabei konzentriert sie sich zunehmend um den x-Wert 1, eine Tatsache, die eine Rolle beim sogenannten F-Test spielt, mit dem bspw. überprüft wird, ob zwei Werte statistisch signifikant verschieden sind oder nicht. Hierbei ist Gl. 3.35 bspw. das Verhältnis
|
||
|
||
Wahrscheinlichkeitsdichte
|
||
|
||
Abb. 3.8 Veranschaulichung
|
||
|
||
2
|
||
|
||
der F-Verteilung mit
|
||
|
||
m = 100, n = 90
|
||
|
||
(strichpunktierte Linie),
|
||
|
||
1,5
|
||
|
||
m = 30, n = 25 (gestrichelte
|
||
|
||
Linie), m = 6, n = 10
|
||
|
||
(gepunktete Linie) und
|
||
|
||
1
|
||
|
||
m = 2, n = 10 Freiheitsgraden
|
||
|
||
(durchgezogene Linie)
|
||
|
||
0,5
|
||
|
||
0
|
||
|
||
0
|
||
|
||
1
|
||
|
||
2
|
||
|
||
3
|
||
|
||
4
|
||
|
||
x
|
||
|
||
62
|
||
|
||
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
|
||
|
||
zweier Varianzen, die mithilfe des F-Tests miteinander verglichen werden sollen. Der F-Test bildet auch die Grundlage für die Varianzanalyse (vgl. Abschn. 3.4.1.7).
|
||
|
||
3.2.8 Maßzahlen von Wahrscheinlichkeitsverteilungen
|
||
Für Wahrscheinlichkeitsfunktionen gibt es gewisse Maßzahlen, die in den Anwendungen sehr nützlich sind. Diese Maßzahlen nennt man Momente. Eines der bekanntesten Momente ist der Mittelwert. Interessant an den Momenten ist, dass sie sehr viel Information über eine Wahrscheinlichkeitsverteilung tragen können. Generell gilt: Wenn man alle Momente kennt, dann weiß man alles über die entsprechende Wahrscheinlichkeitsverteilung. Im Folgenden lernen wir die in der Praxis am häufigsten verwendeten Maßzahlen für Verteilungen kennen.
|
||
|
||
3.2.8.1 Momente von Verteilungen
|
||
|
||
Mittelwert
|
||
|
||
Der Mittelwert ist das mit Abstand bekannteste Moment. Für eine diskrete Verteilung f (x)
|
||
|
||
errechnet er sich wie folgt:
|
||
|
||
∞
|
||
μ = xi f (xi )
|
||
i =1
|
||
|
||
(3.38)
|
||
|
||
Im Falle einer stetigen Wahrscheinlichkeitsfunktion f (x), wird die Summe durch ein
|
||
|
||
Integral ersetzt:
|
||
∞
|
||
|
||
μ = x f (x)d x
|
||
|
||
(3.39)
|
||
|
||
−∞
|
||
|
||
Statt vom Mittelwert einer Verteilung spricht man auch häufig vom Mittelwert der zugehörigen Zufallsvariablen X . Gl. 3.38 bzw. 3.39 nennt man auch den Erwartungswert E(X ) dieser Zufallsvariablen. Bitte beachten Sie, dass der Mittelwert ein theoretisches Konstrukt ist. In der Praxis hat man es in aller Regel nur mit einer kleinen Auswahl aller möglichen Daten zu tun, also einer Stichprobe x1, . . . , xn. Für diese berechnet sich der Schätzwert des Mittelwerts, bezeichnen wir ihn mit x¯, entsprechend zu:
|
||
|
||
x¯
|
||
|
||
=
|
||
|
||
1 n
|
||
|
||
n i =1
|
||
|
||
xi
|
||
|
||
(3.40)
|
||
|
||
3.2 Wichtige Wahrscheinlichkeitsverteilungen
|
||
|
||
63
|
||
|
||
Beispiel 3.2 Wir berechnen den Mittelwert für die Poisson-Verteilung
|
||
|
||
E(X)
|
||
|
||
=
|
||
|
||
∞ xi =0
|
||
|
||
xi
|
||
|
||
λxi xi !
|
||
|
||
exp
|
||
|
||
(−λ)
|
||
|
||
∞
|
||
= λ exp (−λ)
|
||
|
||
λxi −1
|
||
|
||
xi =1 (xi−1)!
|
||
|
||
∞ λj
|
||
|
||
= λ exp (−λ)
|
||
j =1
|
||
|
||
j!
|
||
|
||
=λ
|
||
|
||
(3.41)
|
||
|
||
Der Audruck
|
||
|
||
∞
|
||
|
||
λj j!
|
||
|
||
in Gl. 3.41 entspricht der Taylorreihenentwicklung der Exponen-
|
||
|
||
j =1
|
||
|
||
tialfunktion mit dem Exponenten λ, d. h., exp (−λ) und exp (λ) kürzen sich weg und
|
||
|
||
λ bleibt übrig.
|
||
|
||
Ist die Zufallsvariable, nennen wir sie jetzt Y , selbst die Summe von anderen Zufallsvariablen X1, . . . , Xn, dann ist der Mittelwert μY der Variablen Y gleich:
|
||
|
||
μY = μa1 X1+···+an Xn = a1μX1 + · · · + an μXn
|
||
|
||
(3.42)
|
||
|
||
Das hängt damit zusammen, dass das Integral (vgl. Gl. 3.39) einer Summe gleich der Summe der einzelnen Integrale ist. Summation und Integration ist also vertauschbar. Gl. 3.42 nennt man auch den Additionssatz für Mittelwerte. Die Koeffizienten ai können auch durchaus negativ sein. Ich bin sicher, die meisten haben mit dem Additionssatz in der Praxis (möglicherweise unbewusst) bereits zu tun gehabt. Wenn Sie bspw. mit einem Photometer die Absorption eines Analyten messen, dann messen Sie nicht nur das reine Signal des Analyten selbst, sondern auch das Untergrundsignal, auch Blank genannt. Beide Signale sind im Prinzip Zufallsvariablen. Das gemessene Signal, ebenfalls eine Zufallsvariable, ist die Summe aus dem reinen Analytensignal und dem Blank. Da Sie an dem (mittleren) Analytensignal interessiert sind, ziehen Sie den Blank vom gemessenen Signal ab. Der Vollständigkeit halber erwähne ich hier noch den Multiplikationssatz für Mittelwerte, der aber streng nur für unabhängige Zufallsvariablen X1, . . . , Xn (siehe hierzu Abschn. 3.1) gilt:
|
||
|
||
μy = μa1 X1·····an Xn = a1μX1 · · · · · an μXn
|
||
|
||
(3.43)
|
||
|
||
Neben dem Mittelwert (bzw. Erwartungswert, Gl. 3.39) ist gerade für lognormalverteilte Daten das sogenannte geometrische Mittel interessant. Der normale Mittelwert wird relativ stark verzerrt durch die weiter außen liegenden Datenpunkte (vgl. Abb. 3.9), die ja wesentlich
|
||
|
||
64
|
||
|
||
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
|
||
|
||
Abb. 3.9 Zum Vergleich des
|
||
|
||
610
|
||
|
||
„klassischen“ Mittelwertes
|
||
|
||
(gestrichelte horizontale Linie)
|
||
|
||
gegenüber dem geometrischen
|
||
|
||
410
|
||
|
||
Mittel (durchgezogene
|
||
|
||
horizontale Linie) dargestellt
|
||
|
||
mit linear skalierter Ordinate
|
||
|
||
210
|
||
|
||
(links) und logarithmisch
|
||
|
||
skalierter Ordinate (rechts)
|
||
|
||
10
|
||
|
||
1000 100 10
|
||
|
||
häufiger bei einer logarithmischen Normalverteilung auftreten als bei einer Normalverteilung der Daten.
|
||
Das geometrische Mittel berechnet sich über folgende Gleichung:
|
||
|
||
μY
|
||
|
||
=
|
||
|
||
√ n x1
|
||
|
||
x2
|
||
|
||
.
|
||
|
||
.
|
||
|
||
.
|
||
|
||
xn−1 xn
|
||
|
||
(3.44)
|
||
|
||
Das führt dazu, dass der Mittelwert bei logarithmischer Skalierung der y-Achse offenbar die Datenwolke alles andere als in der Mitte trennt, sondern eher nach oben gezogen wird. Das geometrische Mittel hingegen trennt die Daten beinahe in der Mitte auf. Es befinden sich sieben Datenpunkte oberhalb der Linie, sechs Datenpunkte unterhalb der Linie und zwei Datenpunkte annähernd auf der Linie des geometrischen Mittels. Das geometrische Mittel ist immer kleiner oder gleich dem Mittelwert. Die xi in Gl. 3.44 sind die nichtlogarithmierten Werte. Alternativ können Sie zur Berechnung des geometrischen Mittels die Daten zunächst logarithmieren, anschließend den klassischen Mittelwert berechnen und dieses dann zurücktransformieren. Excel hat mit GEOMITTEL bereits eine Funktion, womit das geometrische Mittel gemäß Gl. 3.44 berechnet wird.
|
||
|
||
Varianz Neben dem Mittelwert wird oft die Varianz σ 2 für eine Verteilung bzw. für eine Zufallsva-
|
||
|
||
riable X berechnet, da sie ein Maß für die Streuung der Werte dieser Zufallsvariablen ist.
|
||
|
||
Zu ihrer Berechnung wird der Mittelwert μ benötigt. Dann erhalten wir für den diskreten
|
||
|
||
Fall:
|
||
∞
|
||
|
||
σ 2 = (xi − μ)2 f (xi )
|
||
|
||
(3.45)
|
||
|
||
i =1
|
||
|
||
Für den stetigen Fall berechnet sich σ zu:
|
||
|
||
∞
|
||
σ 2 = (x − μ)2 f (x)
|
||
−∞
|
||
|
||
(3.46)
|
||
|
||
Die Varianz und die aus ihr durch Wurzelziehen berechnete Standardabweichung σ werden in der Praxis häufig als Maß für die Streuung verwendet. Die Varianz wird noch im
|
||
|
||
3.2 Wichtige Wahrscheinlichkeitsverteilungen
|
||
|
||
65
|
||
|
||
Abschnitt zur Varianzanalyse (vgl. Abschn. 3.4.1.7) eine große Rolle spielen. In den Anwendungen kann man die wahre Varianz in aller Regel nicht berechnen (ebenso wenig den wahren Mittelwert), da man es mit einer Stichprobe zu tun hat und nicht mit der Grundgesamtheit. In dem Fall muss ein Schätzwert für die Varianz der Grundgesamtheit berechnet werden kann. Nehmen wir an, x1, . . . , xn sei unsere Stichprobe, dann kann man als Schätzwert s für die Varianz bspw. den Mittelwert der quadratischen Abweichungen vom Mittelwert nehmen:
|
||
|
||
s2
|
||
|
||
=
|
||
|
||
1 n
|
||
|
||
n
|
||
(xi
|
||
i =1
|
||
|
||
− μ)2
|
||
|
||
(3.47)
|
||
|
||
In Excel gibt es hierfür die Funktion VAR.P. Wenn der Mittelwert μ jedoch auch nur ein Schätzwert für den wahren Wert sein sollte, was in der Praxis der häufigste Fall sein sollte, dann ist die in Gl. 3.47 berechnete Varianz nicht die Richtige. In diesem Fall sollten Sie die folgende Gleichung nehmen:
|
||
|
||
s2
|
||
|
||
=
|
||
|
||
n
|
||
|
||
1 −1
|
||
|
||
n i =1
|
||
|
||
(xi
|
||
|
||
− x¯)2
|
||
|
||
(3.48)
|
||
|
||
Der Faktor 1/(n − 1) berücksichtigt hierbei, dass der Mittelwert x¯ (genauer gesagt der Schätzwert für den wahren Mittelwert) aus der Stichprobe berechnet wird. Wir werden den Faktor n − 1 an anderer Stelle als Freiheitsgrade bezeichnen. Diese Korrektur findet man häufig auch unter dem Namen Bessel-Korrektur. Gl. 3.48 steckt letztlich auch in der ExcelFunktion VAR.S. Ihnen ist vielleicht aufgefallen, dass ich an manchen Stellen griechische Buchstaben für bspw. den Mittelwert verwendet habe und an manchen Stellen lateinische Buchstaben. Es hat sich eingebürgert, theoretische Maße einer Verteilung mit griechischen Buchstaben und Maße, die aus Stichproben berechnet wurden, also Schätzwerte für die wahren Maße, mit lateinischen Buchstaben zu kennzeichnen. Ich werde mich nicht immer strikt daran halten, da einem irgendwann die Bezeichner ausgehen. Sie werden jedoch in aller Regel aus dem Kontext schließen können, ob Sie eine entsprechende Größe aus einer Stichprobe berechnet vor sich haben, oder aus einer zugrunde liegenden (theoretischen) Verteilung.
|
||
Ähnlich wie für Mittelwerte verschiedener Zufallsvariablen gibt es auch für die Varianzen einen Additionssatz. Nehmen wir wieder an, Y sei eine Zufallsvariable, die als Summe anderer Zufallsvariablen X1, . . . , Xn geschrieben werden kann. Dann gilt:
|
||
|
||
σY2
|
||
|
||
=
|
||
|
||
σ 2(a1 X1
|
||
|
||
+
|
||
|
||
···
|
||
|
||
+
|
||
|
||
an Xn)
|
||
|
||
=
|
||
|
||
a12
|
||
|
||
σ
|
||
|
||
2 X
|
||
|
||
1
|
||
|
||
+
|
||
|
||
. . . an2σX2n
|
||
|
||
(3.49)
|
||
|
||
Sie sehen, dass, wenn einer der Koeffizienten ai negativ sein sollte, dieser durch das
|
||
|
||
Quadrieren
|
||
|
||
positiv
|
||
|
||
wird.
|
||
|
||
Die
|
||
|
||
Varianz
|
||
|
||
von
|
||
|
||
σ 2(X1
|
||
|
||
−
|
||
|
||
X2)
|
||
|
||
ist
|
||
|
||
demnach
|
||
|
||
σ
|
||
|
||
2 X
|
||
|
||
1
|
||
|
||
+
|
||
|
||
σ
|
||
|
||
2 X
|
||
|
||
2
|
||
|
||
Ähnlich wie das geometrische Mittel gibt es auch die geometrische Standardabweichung. Diese berechnen Sie, indem Sie wiederum zunächst ihre Daten logarithmieren, daraus
|
||
|
||
66
|
||
|
||
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
|
||
|
||
die Standardabweichung berechnen und anschließend zurücktransformieren. Eine ExcelFunktion hierfür gibt es leider nicht.
|
||
|
||
3.4 Übung: Berechnen Sie die Varianz für die Wahrscheinlichkeitsdichte des Würfels.
|
||
|
||
Schiefe
|
||
|
||
Die Schiefe ist eine Art Maß für die Abweichung der Verteilung von einer symmetrischen
|
||
|
||
Verteilung. Als Maß für die Schiefe einer Verteilung wird, im diskreten Fall, oft die folgende
|
||
|
||
Größe herangezogen:
|
||
|
||
∞
|
||
|
||
(xi − μ)3 f (xi )
|
||
|
||
γ1 = i=1
|
||
|
||
σ3
|
||
|
||
(3.50)
|
||
|
||
oder für den stetigen Fall:
|
||
|
||
∞
|
||
(x − μ)3 f (x)
|
||
|
||
γ1 = −∞
|
||
|
||
σ3
|
||
|
||
(3.51)
|
||
|
||
Wenn die Verteilung f (x) symmetrisch ist, dann ist γ1 null. Falls γ1 < 0, so spricht man von einer linksschiefen Verteilung und von einer rechtsschiefen Verteilung, falls γ1 > 0 (vgl. Abb. 3.10). Für eine Stichprobe aus n-Werten berechnet sich die Schiefe gemäß Gl. 3.52.
|
||
|
||
g1
|
||
|
||
=
|
||
|
||
(n
|
||
|
||
n − 1)(n
|
||
|
||
− 2)
|
||
|
||
n i =1
|
||
|
||
xi − x¯ 3 s
|
||
|
||
(3.52)
|
||
|
||
Hierbei sind x¯ und s wiederum der Mittelwert bzw. die Standardabweichung der Stichprobe. Die Formel in Gl. 3.52 ist übrigens auch in der Excel-Funktion SCHIEFE implementiert.
|
||
|
||
Abb. 3.10 Zur rechtsschiefen(gepunktete Linie), linksschiefen- (gestrichelte Linie) und symmetrischen Verteilung (durchgezogene Linie)
|
||
|
||
γ1> 0 y
|
||
|
||
γ1= 0
|
||
|
||
γ1< 0
|
||
|
||
x
|
||
|
||
3.2 Wichtige Wahrscheinlichkeitsverteilungen
|
||
|
||
Abb. 3.11 Die Kurtosis der Normalverteilung (durchgezogene Linie) hat definitionsgemäß eine Kurtosis von null. Verteilungen mit positiver Kurtosis (gestrichelte Linie) sind an den Schultern breiter als die Normalverteilung, die mit negativer Kurtosis (gepunktete Linie) sind dagegen an den Schultern schmaler
|
||
|
||
γ2< 0 y
|
||
|
||
67 γ2= 0 γ2> 0
|
||
x
|
||
|
||
Wölbung (Kurtosis) Neben der Schiefe ist auch noch die Wölbung (Kurtosis) γ2 einer Verteilung interessant. Anhand dieser Maßzahl kann man ablesen, wie breit die Verteilung in der Nähe des Maximums ausgeprägt ist. Die Wölbung wird für den diskreten Fall wir folgt berechnet:
|
||
|
||
∞
|
||
(xi − μ)4 f (xi )
|
||
|
||
γ2 = i=1
|
||
|
||
σ4
|
||
|
||
−3
|
||
|
||
(3.53)
|
||
|
||
oder für den stetigen Fall:
|
||
|
||
∞
|
||
(x − μ)4 f (x)
|
||
|
||
γ2 = −∞
|
||
|
||
σ4
|
||
|
||
−3
|
||
|
||
(3.54)
|
||
|
||
Für die Standardnormalverteilung errechnet sich der Integralterm in Gl. 3.54 zu drei4. Diese werden zur Berechnung der Wölbung abgezogen, d. h., die Standardnormalverteilung dient hier als Referenzrahmen. Demnach haben normalverteilte Daten die Wölbung 0.Verteilungen, die ganz deutlich nach innen gewölbt sind, (ähnlich wie bei einer konkaven Linse) weisen ein γ2 > 0 auf. Verteilungen hingegen, die ganz deutlich nach außen gewölbt sind (ähnlich wie bei konvexen Linsen), weisen ein γ2 < 0 auf (vgl. Abb. 3.11).
|
||
|
||
4Für die Standardnormalverteilung ist ja μ = 0 und σ = 1. Das übrig bleibende Integral
|
||
|
||
∞
|
||
|
||
−∞
|
||
|
||
x4
|
||
|
||
√1 2π
|
||
|
||
exp
|
||
|
||
−
|
||
|
||
x2 2
|
||
|
||
ergibt dann die 3.
|
||
|
||
68
|
||
|
||
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
|
||
|
||
Die Kurtosis für eine Stichprobe mit n Datenpunkten kann mithilfe der nachfolgenden Gleichung berechnet werden:
|
||
|
||
n
|
||
|
||
g2
|
||
|
||
=
|
||
|
||
1
|
||
|
||
(xi
|
||
i =1
|
||
|
||
−
|
||
|
||
n
|
||
|
||
s4
|
||
|
||
x¯ )4
|
||
|
||
−3
|
||
|
||
(3.55)
|
||
|
||
Mit der Excel-Funktion KURT können Sie die Kurtosis berechnen, die eine etwas andere Formel als die in Gl. 3.55 implementiert hat:
|
||
|
||
n
|
||
|
||
g2
|
||
|
||
=
|
||
|
||
(n
|
||
|
||
−
|
||
|
||
(n + 1)n 1)(n − 2)(n
|
||
|
||
−
|
||
|
||
3)
|
||
|
||
(xi −
|
||
i =1
|
||
s4
|
||
|
||
x¯ )4
|
||
|
||
−
|
||
|
||
3 (n
|
||
|
||
(n − 1)2 − 2)(n −
|
||
|
||
3)
|
||
|
||
(3.56)
|
||
|
||
Die Kurtosis und die Schiefe werden wir später zur Überprüfung von Daten auf Normalverteilung verwenden (siehe Abschn. 3.4.1.5).
|
||
|
||
3.2.8.2 Lageparameter Neben den o. g. Momenten können bestimmte Zahlen von Verteilungen sehr interessant sein, auf die wir im Folgenden eingehen werden.
|
||
Quantile Quantile sind Lageparameter einer Verteilung. Ein p-Quantil ist eine Zahl Q p, unterhalb derer 100∗ p-% der Daten liegen. Rechts vom p-Quantil liegt der restliche Anteil der Daten, also 100∗(1 − p)-% (vgl. Abb. 3.12).
|
||
|
||
Wahrscheinlichkeitsdichte
|
||
|
||
Abb. 3.12 Quantile Q p sind
|
||
|
||
0,4
|
||
|
||
x-Werte, unterhalb derer
|
||
|
||
100∗ p-% der Daten liegen,
|
||
|
||
entsprechend sind 100∗(1 − p)-% der Daten
|
||
|
||
0,3
|
||
|
||
oberhalb von diesem Quantil.
|
||
|
||
Wie wir weiter unten noch
|
||
|
||
sehen werden, spielen Quantile
|
||
|
||
0,2
|
||
|
||
eine große Rolle bei
|
||
|
||
Hypothesentests (vgl.
|
||
|
||
Abschn. 3.4)
|
||
|
||
0,1
|
||
|
||
0
|
||
|
||
p=0,95
|
||
|
||
1−p=0,05
|
||
|
||
x
|
||
|
||
Qp
|
||
|
||
3.2 Wichtige Wahrscheinlichkeitsverteilungen
|
||
|
||
69
|
||
|
||
Zur Bestimmung von Q p anhand von experimentellen Daten werden diese zunächst
|
||
aufsteigend sortiert x1 ≤ x2 ≤ . . . xn. Anschließend wird das empirische p-Quantil bspw. mithilfe folgender Formel berechnet5:
|
||
|
||
Qp =
|
||
|
||
xnp +xnp+1 2
|
||
|
||
falls np eine ganze Zahl ist
|
||
|
||
x np
|
||
|
||
falls np keine ganze Zahl ist
|
||
|
||
(3.57)
|
||
|
||
Hierbei bedeutet das Aufrunden auf die nächste ganze Zahl. Mit der Excel-Funktion QUANTIL.INKL werden Sie ggf. einen etwas anderen Wert herausbekommen als mit Gl. 3.57. Das liegt daran, dass Excel versucht, durch lineare Interpolation ein noch genaueres Ergebnis für das Quantil zu berechnen, auch wenn der daraus resultierende Wert ggf. nicht Teil der ursprünglichen Datenmenge ist. Ein Sonderfall der Quantile sind die sogenannten Quartile. Sie teilen die Daten in vier Bereiche ein. Im unteren Quartil (1. Quartil) finden sich ca. 25 % der Daten, im Interquartilbereich, dem Abstand zwischen dem untersten und obersten Quartil, finden sich ca. 50 % der Daten und im oberen Quartil (3. Quartil) ca. 75 % der Daten. Das wohl bekannteste Quartil (2. Quartil), der sogenannte Median, teilt die Daten in der Mitte. Demnach finden sich ca. 50 % der Daten unterhalb des Medians und ca. 50 % oberhalb der Medians. Gemäß Gl. 3.57 liegt der Median genau in der Mitte, wenn n ungerade ist. Wenn n gerade ist, so errechnet sich der Median als Mittelwert des n/2-ten und des n/2 + 1-ten Datenpunktes. Hieraus ergibt sich die bekannte Formel für den Median:
|
||
|
||
x˜ =
|
||
|
||
xn/2
|
||
xn/2 +xn/2+1 2
|
||
|
||
fu¨r n gerade fu¨r n ungerade
|
||
|
||
(3.58)
|
||
|
||
Kleine und große Werte gehen nicht mit in die Berechnung des Medians ein. Das macht ihn auch, verglichen mit dem Mittelwert, robust gegenüber Ausreißern. Quartile können in Excel mithilfe der Funktionen QUARTILE.INKL oder QUARTILE.EXKL berechnet werden. Beide Funktionen können bei denselben Daten ggf. etwas andere Ergebnisse liefern, da sie verschiedene Algorithmen zur Berechnung der Quartile verwenden. Wie bereits erwähnt, gibt es mehrere Arten Quantile und somit auch Quartile zu berechnen. Als erstes Argument übergeben Sie den genannten Funktionen die Zellen, in denen die Daten stehen, und als zweites Argument die Zahl des Quartils, das berechnet werden soll. Bitte beachten Sie dabei, dass das 0. Quartil dem Minimum und das 4. Quartil dem Maximum der Daten entsprechen. Eine anschauliche Form der Darstellung von Quartilen ist der sogenannte Box-Whisker-Plot. Diesen besprechen wir noch etwas detaillierter in Abschn. 2.2.3. Wie wir weiter unten noch sehen werden, spielen Quantile bestimmter Wahrscheinlichkeitsdichten eine große Rolle bei Hypothesentests, daher möchte ich an dieser Stelle noch ein paar Worte darüber verlieren.
|
||
|
||
5Es gibt verschiedene Formeln zur Berechnung von Quantilen. Excel selbst hat zwei verschiedene Funktionen hierfür implementiert: QUANTIL.INKL und QUANTIL.EXKL. Eine gute Übersicht über die verschiedenen Methoden bietet bspw. Langford [5]
|
||
|
||
70
|
||
|
||
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
|
||
|
||
Für eine Wahrscheinlichkeitsdichtefunktion f (x) lässt sich das Q p Quantil aus folgender Integralgleichung berechnen:
|
||
Qp
|
||
|
||
p = f (x)d x
|
||
|
||
(3.59)
|
||
|
||
−∞
|
||
|
||
Das Integral müssen Sie unter Umständen numerisch lösen, aber glücklicherweise hat Excel für die gängigsten Wahrscheinlichkeitsdichtefunktionen f (x) bereits integrierte Funktionen, mit deren Hilfe Sie entweder Q p aus p bestimmen können, oder umgekehrt. So können Sie bspw. mit der Excel-Funktion T.INV den Wert Q p aus dem p-Wert berechnen, oder mithilfe eines gegebenen Q p-Wertes und der Excel-Funktion T.VERT den zugehörigen pWert berechnen. Natürlich gibt es noch andere Lageparameter, die aber meiner Meinung nach in der wissenschaftlichen Praxis etwas weniger häufig Anwendung finden und daher hier nicht behandelt werden.
|
||
|
||
3.3 Erzeugung von Zufallszahlen
|
||
In diesem Abschnitt besprechen wir die Möglichkeiten zur Erzeugung von Zufallszahlen, die einer gewissen Verteilung folgen. Zufallszahlen sind v. a. im Bereich der Simulationen höchst interessant. Im wissenschaftlichen Alltag können sie sehr nützlich sein, da man mit ihrer Hilfe bspw. Hypothesen testen kann. Echte Zufallsereignisse könnte man nur dann erzeugen, wenn zwischen den Zahlen keine funktionale Beziehung stünde. Das kann man mit einem Computer jedoch nicht erreichen. Stattdessen begegnet man in diesem Zusammenhang häufig dem Begriff der Pseudozufallszahlen. Das sind Zahlenfolgen, die zwar zunächst zufällig erscheinen, es aber nicht sind. Sie wiederholen sich naturgemäß nach einer (i. d. R. sehr großen) Periode wieder. Anhand eines einfachen Pseudozufallszahlengenerators möchte ich Ihnen kurz die Fallstricke bei deren Erzeugung etwas näher bringen.
|
||
Beispiel 3.3 Mithilfe der folgenden Rekursion, die nach Derrick Lehmer bekannt wurde6, erzeugen Sie Pseudozufallszahlen im Bereich von 0 bis 1.
|
||
|
||
xi+1 = (69069xi + 1) mod m
|
||
|
||
ri +1
|
||
|
||
= xi+1 m−1
|
||
|
||
(3.60) (3.61)
|
||
|
||
Hierbei sind xi Zufallszahlen im Bereich 0 . . . m − 1 und ri Zufallszahlen normiert auf den Bereich 0 . . . 1. Die sogenannte Periode m ist eine ganze Zahl, die in der Regel sehr groß gewählt wird (z. B. 232). Viele von Ihnen kennen noch das Teilen
|
||
mit Rest aus Schulzeiten, aber kennen evtl. nicht die Modulofunktion mod. Sie gibt
|
||
|
||
3.3 Erzeugung von Zufallszahlen
|
||
Abb. 3.13 Veranschaulichung von 100 Zufallszahlen, die mittels Gl. 3.60 und 3.61 in Excel erzeugt wurden
|
||
|
||
Zufallszahl r i
|
||
|
||
1 0,8 0,6 0,4 0,2
|
||
0 0
|
||
|
||
71
|
||
|
||
Zufallszahl #
|
||
|
||
100
|
||
|
||
den Rest beim Teilen zweier ganzer Zahlen zurück. So ist bspw. 11mod3 = 2, da 2 der Rest der Division von 11 durch 3 ist (11 = 3 · 3 + 2). Sie initialisieren den Zufallszahlengenerator mit x0, dem sogenannten seed. Für unsere Zwecke können Sie x0 = 0 setzen. Die Modulofunktion in Excel heißt Rest. Zufallszahlen können Sie nun dadurch erzeugen, dass Sie x0 und m vorgeben und dann bspw. x1 . . . x100 mithilfe der Gl. 3.60 und 3.61 berechnen. Abb. 3.13 zeigt diese Zahlenfolge grafisch.
|
||
An dieser Stelle möchte ich Sie noch auf einen weiteren Fallstrick bei der Erzeugung von Pseudozufallszahlen hinweisen. Wie Sie in Abb. 3.13 sehen können, erscheinen die ersten paar Zahlen gar nicht so zufällig, sondern als würden sie erst noch „einschwingen“ müssen. Das liegt daran, dass die Elemente der erzeugten Zufallszahlenfolge eben nicht ganz unabhängig voneinander sind. Das könnte man umgehen, indem man bspw. parallel zwei Sequenzen von Pseudozufallszahlen erzeugt und diese anschließend ineinandermischt.
|
||
Excel bringt bereits ein paar Möglichkeiten zur Erzeugung von Pseudozufallszahlen mit. Gleichverteilte Pseudozufallszahlen, wie oben, können bspw. mit der Funktion ZUFALLSZAHL() erzeugt werden. Gleichverteilte Zufallszahlen folgen, wie der Name bereits andeutet, einer Gleichverteilung, ähnlich wie die Augenzahlen beim einfachen Würfelexperiment. Mit Hilfe gleichverteilter Zufallszahlen und der entsprechenden Verteilungsfunktion lassen sich Zufallszahlen mit andersartiger Verteilung erzeugen. Wenn ich bspw. ein Zwei-Würfel-Experiment simulieren möchte, dann kann ich die Augensummen 2, ..., 12 mithilfe gleichverteilter Zufallszahlen erzeugen. Dafür brauche zusätzlich die Wahrscheinlichkeitsdichtefunktion des Zwei-Würfel-Beispiels. Abb. 3.14 zeigt das Prinzip für dieses Beispiel.
|
||
6Lehmer war ein amerikanischer Physiker und Mathematiker, der sich u. a. auf dem Gebiet der numerischen Zahlentheorie hervortat.
|
||
|
||
72
|
||
|
||
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
|
||
|
||
Abb. 3.14 Erzeugung von Zufallszahlen, für das Zwei-Würfel-Beispiel mithilfe der zugehörigen kumulativen Verteilungsfunktion (Stufenfunktion) und im Bereich [0,1] gleichverteilter Zufallszahlen ri
|
||
|
||
Wahrscheinlichkeit
|
||
|
||
1
|
||
|
||
0,8
|
||
|
||
0,6
|
||
|
||
r i
|
||
|
||
0,4
|
||
|
||
0,2
|
||
|
||
0 2 3 4 5 6 7 8 9 10 11 12 Würfelaugensumme
|
||
|
||
Eine im Intervall [0,1] gleichverteilte Zufallszahl ri , repräsentiert einen Wahrscheinlichkeitswert. Zu diesem Wert wird mithilfe der Verteilungsfunktion des Zwei-WürfelExperiments ein entsprechender Wert auf der x-Achse (hier der Augensumme) erzeugt. Die Höhe der Stufen in der Verteilungsfunktion ist hierbei proportional der Wahrscheinlichkeit, mit der die entsprechende Zahl (auf der x-Achse) erzeugt wird. Demnach wird die Zahl 7 am häufigsten gewürfelt, eine Beobachtung, die wir bereits festgestellt hatten. Die generelle Vorgehensweise zur Erzeugung von Zufallszahlen mit einer Wahrscheinlichkeitsdichte f (x) mithilfe der entsprechenden Verteilungsfunktion F(x) ist wie folgt:
|
||
1. Generiere gleichverteilte Zufallszahlen ri zwischen null und eins. 2. Finde die entsprechenden Wahrscheinlichkeiten auf der y-Achse der Verteilungsfunktion
|
||
F (x ). 3. Schlage das Lot über die Verteilungsfunktion auf die x-Achse. 4. Die sich daraus ergebenden Zufallszahlen folgen der gewünschten Wahrscheinlichkeits-
|
||
dichte f (x).
|
||
Man nennt dieses Verfahren auch das Inversionsverfahren, denn eigentlich wird bei dieser Prozedur nichts anderes gemacht, als aus einem y-Wert (hier der Wahrscheinlichkeit durch Generation einer gleichverteilten Pseudozufallszahl) der zugehörige x-Wert berechnet7. Genau das macht bspw. auch die Excel-Funktion NORM.INV(ZUFALLSZAHL(); MITTELWERT;STABW), sie nimmt eine gleichverteilte Zufallszahl her und setzt diese in die Umkehrfunktion der Normalverteilung mit gegebenem Mittelwert und Standardabweichung ein. Somit wird eine normalverteilte Zufallszahl in der jeweiligen Zelle erhalten. Ich möchte an dieser Stelle nicht verschweigen, dass Excel Unter Datenanalyse
|
||
7Wenn Sie bspw. nach inverser Funktion im Netz suchen, werden Sie den Zusammenhang schnell erkennen.
|
||
|
||
3.4 Hypothesentests
|
||
|
||
73
|
||
|
||
→ Zufallszahlengenerierung ein eigenes Tool zur Zufallszahlengenerierung hat. Hierbei kann man Zufallszahlen von bis zu sieben verschiedenen (gängigen) Verteilungen generieren. Die Verteilungsfunktion F(x) muss nicht in funktionaler Form vorliegen, sondern kann auch empirisch ermittelt worden sein.
|
||
|
||
3.5 Übung: Berechnen Sie in Excel 1000 exponentiell verteilte Zufallszahlen. Die Wahrscheinlichkeitsdichte der Exponentialfunktion f (x) = λ exp(−λx) bzw. deren Verteilungsfunktion f (x) = 1 − exp(−λx) lässt sich in Excel mit der Funktion EXPON.VERT berechnen. Verwenden Sie für λ den Wert 0,5.
|
||
|
||
3.4 Hypothesentests
|
||
In diesem Abschnitt lernen Sie, wie man mithilfe bestimmter statistischer Verfahren Hypothesen überprüft. Hypothesen können hierbei bspw. Aussagen sein wie „Die Daten folgen einer Normalverteilung.“ oder „Die Konzentration an N O2 (Stickstoffdioxid) in Luft überschreitet den Grenzwert von X μg pro m3.“ oder „Das Medikament A wirkt signifikant besser als Medikament B.“ oder „Der Wert x ist ein Ausreißer.“ Letztlich wollen Sie mithilfe von Hypothesentests zu einer Entscheidung kommen, ob eine entsprechende Hypothese angenommen oder abgelehnt werden soll. Hierbei unterscheidet man die Nullhypothese und die Alternativhypothese. Als Nullhypothese nehmen Sie in der Regel genau das Gegenteil an, von dem, was Sie experimentell beweisen möchten. Wenn Sie also bspw. beweisen möchten, dass die Mittelwerte zweier unabhängiger Messreihen verschieden sind, dann nehmen Sie als Nullhypothese an, sie seien gleich und testen unter der Annahme dieser Hypothese und den Werkzeugen, die ich im Folgenden vorstelle, ob sich ein Widerspruch ergibt oder nicht. Falls ja, dann war die Nullhypothese falsch und die Alternativhypothese ist anzunehmen. Die Nullhypothese ist demnach eigentlich nur Mittel zum Zweck (die Alternativhypothese zu überprüfen). Sie wird letztlich aufgestellt, um verworfen zu werden. Eine nicht-verworfene Nullhypothese kann nicht angenommen werden. Man unterscheidet parametrische- von nicht-parametrischen Hypothesentests. Erstere beinhalten Methoden wie den t-Test oder die Varianzanalyse. Nicht-parametrische Tests, die man auch verteilungsfreie Tests nennt8, beinhalten bspw. den Mann-Whitney-Test, den Kruskal-Wallis-Test oder den Friedman-Test, die auf der Auswertung von Rangplätzen der Daten beruhen. Sie werden beide Arten von Tests in diesem Abschnitt kennenlernen. Wir beginnen mit den parametrischen Tests zuerst.
|
||
|
||
8Verteilungsfrei nennt man diese Tests deshalb, weil sie keine Grundannahme über die zugrunde liegende Verteilung der Daten machen.
|
||
|
||
74
|
||
|
||
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
|
||
|
||
3.4.1 Parametrische Tests – ANOVA & Co.
|
||
|
||
Parametrische Hypothesentests wie der t-Test oder die Varianzanalyse setzen voraus, dass die Daten annähernd einer Normalverteilung folgen, die mithilfe der beiden Parameter Mittelwert und Varianz vollständig definiert ist. Im Folgenden werden wir uns etwas näher mit Methoden dieser Klasse beschäftigen. Beginnen wir mit einem Beispiel aus der wissenschaftlichen Praxis.
|
||
|
||
Beispiel 3.4 Nehmen wir an, Sie bearbeiteten ein Laborprojekt, bei dem Sie den internen Sauerstoffgehalt cO2 einer Zellart untersuchen. Aufgrund einer Theorie haben Sie Grund zur Annahme, dass dieser signifikant niedriger sei als der Umgebungssauerstoffgehalt, den Sie bei μ = 21 % halten. Um das statistisch zu untermauern, führen Sie eine Versuchsreihe durch, bei der Sie die interne Sauerstoffkonzentration mit fünf Replikaten messen. Das Ergebnis dieser Messreihe zeigt Tab. 3.2.
|
||
Sie überprüfen daraufhin, ob der von Ihnen bestimmte Mittelwert c¯O2 = 19,26 signifikant von μ nach unten hin abweicht und stellen folgende Hypothesen auf:
|
||
|
||
• H0: c¯O2 = μ gleichbedeutend mit c¯O2 − μ = 0 gegen • H1: c¯O2 < μ gleichbedeutend mit c¯O2 − μ < 0
|
||
|
||
Grafisch kann man das auch wie in Abb. 3.15 visualisieren√. Der Mittelwert Ihrer Daten hat die in blau dargestellte Verteilung mit Varianz Vc¯O2 / 5. Mit der Nullhypothese nehmen Sie zunächst an, sowohl der experimentell bestimmte Mittelwert c¯O2 als auch der Mittelwert μ entstammen eigentlich derselben Verteilung (Abb. 3.15a). Nun wollen Sie bestimmen, wie groß die Wahrscheinlichkeit P(X ≤ c¯O2) ist, einen Wert kleiner oder gleich dem Mittelwert Ihrer Daten unter der gegebenen Verteilung zu erhalten9.
|
||
Diese errechnet sich mithilfe des Integrals
|
||
|
||
c¯O2
|
||
P(X ≤ μ) = p(x)d x
|
||
−∞
|
||
|
||
(3.62)
|
||
|
||
und entspricht der dunkelgrauen Fläche in Abb. 3.15a. Sie macht im vorliegenden Beispiel um die 2 % der Gesamtfläche aus. Dieser Wert entspricht dem sogenannten p-Wert, wie wir weiter unten noch sehen werden. Ist 2 % nun bereits ausreichend, um zu sagen, dass Ihr Mittelwert signifikant kleiner ist als der Literaturwert? Nun, ab wann der Unterschied signifikant ist, müssen Sie vorab festlegen. Dazu definieren Sie ein sogenanntes Signifikanzniveau α, was in der Praxis häufig auf 5 % festgesetzt wird. Das entspricht der Summe der dunkelgrauen und hellgrauen Fläche in Abb. 3.15a. α = 5 % bzw. α = 0,05 entspricht einer Irrtumswahrscheinlichkeit, mit der Sie die
|
||
|
||
3.4 Hypothesentests
|
||
|
||
75
|
||
|
||
a
|
||
|
||
b
|
||
|
||
Abb.3.15 Unter der Annahme normalverteilter Daten und unter der Annahme, die Nullhypothese sei
|
||
wahr, beantwortet der Einstichproben-t-Test für (a) u. a. die Frage wie wahrscheinlich das Auftreten
|
||
eines Wertes, kleiner oder gleich c¯O2 sei. Zu einem äquivalenten Ergebnis kommen Sie, wenn man die Verteilung ins Zentrum von c¯O2 legt und nach der Wahrscheinlichkeit für das Auftreten eines Wertes größer oder gleich μ unter der gezeichneten Verteilung fragt (b). Falls diese Wahrscheinlichkeit (dunkelgraue Fläche) kleiner ist als das Signifikanzniveau α (hellgraue Fläche), dann sind c¯O2 und µ signifikant unterschiedlich
|
||
|
||
Nullhypothese in 1 von 20 Fällen irrtümlicherweise verwerfen würden, obwohl sie an sich richtig ist (Fehler 1. Art). Umgekehrt könnte es passieren, dass Sie die Nullhypothese nicht verwerfen, obwohl sie an sich falsch ist (Fehler 2. Art, oft mit β bezeichnet). Die Wahl von α sollte demnach u. a. davon abhängen, wie fatal die Folgen für diese Fehler sein könnten. Angenommen, Sie hätten α vorab auf α = 0,05 festgesetzt, dann würde Ihr Hypothesentest im vorliegenden Beispiel einen signifikanten Unterschied zwischen Ihrem Mittelwert und dem Literaturwert ergeben. Nun können Sie einwenden, dass μ doch ein fester Wert sei und keine Streuung hat und somit die Abb. 3.15a nicht korrekt sei. Dann machen wir es eben wie in Abb. 3.15b und zentrieren die Verteilung um c¯O2 herum. Ausgehend hiervon beantwortet der Einstichproben-t-Test nun, unter den genannten Annahmen, wie wahrscheinlich das Auftreten eines Wertes größer oder gleich μ sei unter der linken Verteilung in Abb. 3.15b. Beide Ansätze führen zu demselben Ergebnis.
|
||
|
||
Dies war ein einführendes Beispiel, um Ihnen die Grundidee von Hypothesentests näherzubringen. In der Praxis rechnet man meist mit einer (normierten) Prüfgröße
|
||
|
||
T = |c¯O2 − μ| = 3,1 Vc¯O2 /5
|
||
|
||
(3.63)
|
||
|
||
9Bitte beachten Sie, dass die Wahrscheinlichkeit einen bestimmten Wert unter einer gegebenen Wahrscheinlichkeitsdichte zu erhalten, immer Null ist. Daher müssen Sie immer einen Bereich wie bspw. [−∞, c¯O2] angeben.
|
||
|
||
76
|
||
|
||
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
|
||
|
||
Tab. 3.2 Beispieldaten zur Messung der internen Sauerstoffkonzentration in Zellen
|
||
|
||
Messung 1 2 3
|
||
|
||
cO2 in % 18,8 18,1 18,47
|
||
|
||
4 5 c¯ O 2 Vc¯O2
|
||
|
||
19,7 21,2 19,26
|
||
1,54
|
||
|
||
indem man zunächst den Mittelwert c¯O2 vom Wert μ abzieht und das Ergebnis durch die Varianz des Mittelwertes teilt. Durch diese Art der Normierung erhält man eine der Student-tVerteilung folgende Zufallsvariable T , die gegenüber tabellierten Werten der 1−α-Quantile der Student-t-Verteilung verglichen werden kann. Das vereinfacht die Sache deutlich, denn Sie müssen das Integral in Gl. 3.62 nicht mehr selbst berechnen. Der tabellierte t-Wert (bzw. das t-Quantil) für d f = 4 (= 5 − 1) Freiheitsgrade für α = 0,05 ist gleich t = 2,132. Da T > t, erhalten wir letztlich das Ergebnis, dass der mittlere interne Sauerstoffgehalt signifikant kleiner ist als der der Umgebung. Der Wert t wird auch oft kritischer Wert genannt, weil er die Schwelle darstellt, ab der die Nullhypothese verworfen wird. Den t-Wert können Sie in Excel mithilfe der Funktion T.INV(1-α;d f ) berechnen. Aus dem T -Wert können Sie den sogenannten p-Wert berechnen. Dieser Wert entspricht der Wahrscheinlichkeit, dass Ihr Mittelwert c¯O2, unter der Annahme, die Nullhypothese sei wahr, rein zufällig die in Gl. 3.63 gezeigte Differenz hat. Das klingt vielleicht jetzt noch nicht familiär, aber wir werden uns weiter unten noch mehr mit p-Werten beschäftigen, dort wird es vermutlich etwas klarer. Falls Sie den p-Wert aus dem T -Wert berechnen wollen, können Sie dies mit der Funktion T.VERT.RE(T ;d f ) tun.
|
||
Zusammenfassend hier noch einmal der Ablauf eines einfachen Hypothesentests:
|
||
1. Sie stellen eine Nullhypothese H0 und eine Alternativhypothese H1 auf. 2. Sie legen ein Signifikanzniveau α fest, auf dem getestet werden soll (dazu gleich mehr). 3. Sie berechnen eine Prüfgröße aus den experimentellen Daten. Diese Prüfgröße richtet
|
||
sich nach Wahl der Testverteilung. 4. Sie berechnen den sogenannten p-Wert aus der Prüfgröße. 5. Sie vergleichen den errechneten p-Wert mit einem zuvor festgelegten Signifikanzniveau
|
||
α. Ist p < α, so wird die Nullhypothese verworfen und entsprechend die Alternativhy-
|
||
|
||
3.4 Hypothesentests
|
||
|
||
77
|
||
|
||
Tab. 3.3 ED50-Werte einer antibakteriell wirkenden Substanz B. Die Messreihe wurde 10-fach wiederholt
|
||
|
||
Messung 1
|
||
|
||
2
|
||
|
||
3
|
||
|
||
4
|
||
|
||
5
|
||
|
||
6
|
||
|
||
7
|
||
|
||
8
|
||
|
||
9
|
||
|
||
10
|
||
|
||
E D50B 3,63 4,16 3,27 3,01 4,43 2,20 3,31 3,76 2,93 3,53
|
||
|
||
pothese akzeptiert. Falls p ≥ α, dann verwerfen Sie die Nullhypothese nicht. Häufig sagt man im Fall von p < α, die Differenz der beiden Mittelwerte sei statistisch signifikant10.
|
||
Die Prüfgröße T in Gl. 3.63 folgte im vorliegenden Beispiel einer Student-t-Verteilung (vgl. auch Abschn. 3.2.6). Dies kann aber auch eine andere Prüfgröße sein, wie wir weiter unten noch sehen werden. Bitte beachten Sie, dass ein Verwerfen der Nullhypothese nicht bedeutet, dass sie auch wahr ist. Dies war lediglich Ihre zuvor gemachte Annahme, unter der Sie den Hypothesentest durchgeführt haben. Die Nullhypothese kann deshalb nicht angenommen werden, sondern lediglich nicht verworfen werden.
|
||
Ich möchte Sie anhand von Gl. 3.63 auf ein wichtiges Verhalten von Hypothesentests hinweisen. Wenn die Anzahl Datenpunkte immer größer wird (in der Gleichung waren es 5), dann wird der Nenner in Gl. 3.63 immer kleiner, der T -Wert entsprechend größer und der pWert auch immer kleiner. Damit wird ein für die Praxis nur marginaler Unterschied zwischen c¯O2 und μ irgendwann statistisch signifikant, d. h., Sie können sich statistische Signifikanz dadurch „erkaufen“, dass Sie die Stichprobenanzahl erhöhen. Wie Sie vermuten können, ist das keine gute wissenschaftliche Praxis. Es gilt nämlich immer noch ein Relevanzkriterium, d. h., die eben erwähnte Differenz muss auch für die Praxis relevant sein. Relevanzkriterien können bspw. von Experten festgelegt worden sein (vgl. hierzu auch Abschn. 3.4.1.3). Man spricht hier auch häufig von praktischer Signifikanz. Ein statistisch signifikantes Ergebnis muss noch lange nicht praktisch signifikant sein.
|
||
3.6 Übung: Angenommen, eine Pharmafirma hat eine Wirksubstanz A modifiziert, um eine bessere Wirksamkeit zu erzielen. Nennen wir dieses Derivat B. Dazu wurden Dosisempfindlichkeitstests durchgeführt, an deren Ende der sogenannten E D50-Wert (mittlere effektive Dosis) ermittelt wird. Ein niedrigerer E D50-Wert der Substanz B würde vereinfacht gesprochen eine höhere Wirksamkeit bedeuten. Die Messreihe mit zehn Replikaten ist in Tab. 3.3 aufgeführt.
|
||
Nehmen wir einmal an, Substanz B wurde entwickelt, um eine andere Substanz A in einem Medikament zu ersetzen. Die Voraussetzung für das Ersetzen der zuletzt genannten Substanz kann aber nur dann erfolgen, wenn sie genau dieselbe Wirkung hat wie Substanz A. Die Fragestellung lautet nun, ob die Substanz B tatsächlich die gleiche Wirksamkeit aufweist wie Substanz A, deren E D50A-Wert mit E D50A = 3,14 μg/kg bekannt sei?
|
||
10Diesen Begriff verwende ich in diesem Buch gelegentlich, möchte Ihnen aber nicht verschweigen, dass er nicht unumstritten ist (siehe bspw. [6]).
|
||
|
||
78
|
||
|
||
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
|
||
|
||
3.4.1.1 Zu einseitig? Dann zweiseitig In Beispiel 3.4 waren wir aufgrund von Vorüberlegungen daran interessiert, ob die interne Sauerstoffkonzentration signifikant kleiner als die der Umgebung ist. Zur Überprüfung haben wir den experimentell berechneten T -Wert (vgl. Gl. 3.63) gegenüber dem linksseitigen tQuantil der Student-t-Verteilung verglichen. Hierbei handelt es sich demnach um einen einseitigen t-Test, da nur an einem Rand der Student-t-Verteilung getestet wurde. Wenn Sie in Beispiel 3.4 nun daran interessiert gewesen wären, ob es überhaupt einen signifikanten Unterschied zwischen der Sauerstoffkonzentration der Umgebung und der internen Konzentration gibt (egal ob nach unten oder oben), ohne eine entsprechende Ahnung in welche Richtung, dann hätten Sie einen zweiseitigen t-Test durchführen müssen. Hierzu verwenden Sie in Excel die Funktion T.INV.2 S(α;d f ), die der alten Excel-Funktion TINV(α;d f ) entspricht, oder Sie verwenden T.INV(1-α/2;d f ), was zum selben Ergebnis führt. Ob eine Hypothese einseitig- oder zweiseitig getestet wird, hängt demnach von der jeweiligen Fragestellung ab. Beim einseitigen Test wollen Sie bspw. wissen, ob eine von Ihnen gemessene Bisphenol-A-Konzentration den Grenzwert von 4 μg/kg Körpergewicht überschreitet. Hierbei interessiert Sie also nur (einseitig) eine obere Grenze. Wenn Sie jedoch bspw. fragen, ob ein von Ihnen gemessener Wert signifikant von einem vorgegebenen Wert abweicht (egal ob nach oben oder nach unten), dann bedarf es eines zweiseitigen Hypothesentests. Testen sie zweiseitig mit einem Signifikanzniveau α, dann „verteilen“ Sie dieses sozusagen gleichmäßig auf beide Enden der Testverteilung auf (vgl. Abb. 3.16), wohingegen bei einseitigen Tests entweder am linken oder am rechten Rand der Verteilung getestet wird. Beim einseitigen Hypothesentest stecken Sie eine Art Vorwissen bereits in den Test mit hinein und können gezielter mit einem gegebenen Signifikanzniveau in eine Richtung testen. Falls Sie bei einem Problem nicht genau wissen sollten, ob Sie den T -Wert gegenüber dem der einseitigen oder zweiseitigen Student-t-Verteilung testen sollen, dann nehmen Sie im Zweifelsfall Letzteres (vgl. hierzu z. B. [7]).
|
||
|
||
α/2
|
||
|
||
α/2
|
||
|
||
α
|
||
|
||
α
|
||
|
||
Abb.3.16 Beim zweiseitigen Hypothesentest wird bei einem gegebenen Signifikanzniveau α jeweils mit α/2 an beiden Enden der Verteilung der Nullhypothese getestet (links), wohingegen beim einseitigen Test an einem der beiden Enden mit α getestet wird (Mitte und rechts)
|
||
|
||
3.4 Hypothesentests
|
||
|
||
79
|
||
|
||
3.4.1.2 Vergleich zweier Mittelwerte – der Differenzentest Im Grunde genommen wollten wir im Beispiel 3.4 wissen, ob der aus den Daten errechnete Mittelwert, bezeichnen wir ihn jetzt mit μ1, vom Vergleichswert (im Beispiel war das die Sauerstoffkonzentration der Umgebung) μ2 abweicht. Die Nullhypothese besagt, die Differenz der beiden Werte sei null und die beobachtete Differenz käme rein zufällig zustande, während die Alternativhypothese besagt, die Differenz sei ungleich null und käme nicht nur rein zufällig zustande. Daher findet man in der Literatur oft den Namen Differenztest. Im genannten Beispiel war μ2 von vornherein bekannt und lediglich μ1 stammte aus einer Messreihe. Deshalb nennt man diese Art t-Test auch Einstichproben-t-Test. Bisher haben wir uns noch keine Gedanken dazu gemacht, dass ja auch der Wert μ2 selbst der Mittelwert einer Messreihe sein könnte, was in der Praxis relativ häufig vorkommt. Somit würden Sie also die Mittelwerte zweier Messreihen miteinander vergleichen, die beide jeweils ihre statistischen Unsicherheiten haben. Wenn μ1 und μ2 abhängig voneinander sind, dann verwendet man den sogenannten abhängigen t-Test (engl. paired t-test). Dieser wird v. a. bei medizinischen „Vorher-Nachher-Studien“ angewendet, bei denen bspw. die Wirkung eines Medikaments gegenüber einem Placebo untersucht wird. Den Probanden wird dabei zunächst das Placebo verabreicht und dessen Einfluss auf einen Körperfunktionsparameter (wie bestimmte Marker im Blut) bestimmt. Denselben Probanden wird anschließend das zu untersuchende Medikament verabreicht und dessen Einfluss auf den Körperfunktionsparameter bestimmt. Für jeden Probanden wird die Änderung D = dMedikament − dPlacebo im Wert des Körperfunktionsparameters berechnet. Im Mittel ergibt sich (über alle Probanden) eine Änderung D¯ mit einer Standardabweichung von sD¯ . Bei der statistischen Auswertung wird nun die Nullhypothese μD = 0 gegenüber der Alternativhypothese μD = 0 getestet. Die Berechnung erfolgt dabei genau wie beim Einstichproben-t-Test gemäß nachfolgender Gleichung:
|
||
|
||
T = |D¯ − μD| sD¯
|
||
= |D¯ − 0| sD¯
|
||
= |D¯ | sD¯
|
||
|
||
(3.64)
|
||
|
||
Dieser T -Wert wird wiederum mit einem tabellierten t-Wert verglichen, anhand dessen man entscheiden kann, ob die Differenz statistisch signifikant unterschiedlich ist oder nicht. Der abhängige t-Test wird auch häufig als Paardifferenztest bezeichnet. Wenn es sich bei den beiden Gruppen nicht um dieselben Individuen handelt, würden sich also jeweils verschiedene Individuen in der Placebo- und der Medikamentengruppen befinden, so wäre die biologische Variabilität (Variabilität zwischen den Probanden) vermutlich deutlich größer als beim Paardifferenztest. Beim Vergleich der Mittelwerte zweier unabhängiger Gruppen
|
||
|
||
80
|
||
|
||
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
|
||
|
||
(Stichproben) verwendet man einen Zweistichproben-t-Test. Beim Zweistichproben-t-Test stellt sich die Frage, ob die Daten der beiden Stichproben derselben Verteilung angehören (bspw. beide gehören der linken Verteilung in Abb. 3.17 an) oder ob beide Datensätze verschiedenen Verteilungen entstammen (durchgezogene bzw. blau gestrichelte Verteilung in Abb. 3.17).
|
||
Im Folgenden gehen wir davon aus, dass die zu den Mittelwerten gehörigen Daten normalverteilt sind und die Mittelwerte nur Schätzwerte für die wahren Mittelwerte sind. Wenn man solche Mittelwerte miteinander vergleichen will, muss man außerdem unterscheiden, wie es sich mit den jeweiligen Varianzen (bzw. deren Schätzwerte) verhält. Sind diese vergleichbar, so werden die Mittelwerte mithilfe der Prüfgröße T gemäß Gl. 3.65 berechnet.
|
||
|
||
T=
|
||
|
||
|μ1 − μ2|
|
||
|
||
N1 N2(N1 + N2 − 2)
|
||
|
||
(N1 − 1)s12 + (N2 − 1)s22
|
||
|
||
N1 + N2
|
||
|
||
(3.65)
|
||
|
||
Der Ausdruck N1 + N2 − 2 in Gl. 3.65 entspricht übrigens der Anzahl Freiheitsgrade. Jeweils ein Freiheitsgrad wurde zur Berechnung des Mittelwertes μ1 bzw. μ2 „verbraucht“, daher wird im genannten Ausdruck auch 2 von N1 + N2 subtrahiert. Sind die Varianzen nicht vergleichbar, so wird die Prüfgröße gemäß dem t-Test nach Welch berechnet:
|
||
|
||
T = |μ1 − μ2|
|
||
|
||
s12 N1
|
||
|
||
+
|
||
|
||
s22 N2
|
||
|
||
(3.66)
|
||
|
||
Hierbei sind N1 und N2 die Anzahl der Datenpunkte des ersten bzw. des zweiten Datensatzes. Gl. 3.66 sieht zwar etwas einfacher aus als Gl. 3.65, dafür muss aber die Anzahl Freiheitsgrade d f zur Bestimmung des kritischen Wertes bzw. des p-Wertes mithilfe der folgenden Gleichung berechnet werden:
|
||
|
||
Abb. 3.17 Beim Zweistichproben-t-Test wird überprüft, ob die Daten der einen Stichprobe derselben Verteilung angehören wie die Daten der anderen Stichprobe (gestrichelte Kurve) oder ob beide Stichproben jeweils zu einer eigenen Verteilung gehören (magentafarbene und blaue gestrichelte Kurve)
|
||
|
||
µ1
|
||
|
||
µ2
|
||
|
||
3.4 Hypothesentests
|
||
|
||
81
|
||
|
||
df =
|
||
|
||
s12/N1 + s22/N2 2
|
||
|
||
s12/N1 2 N1−1
|
||
|
||
+
|
||
|
||
s22/N2 2 N2 −1
|
||
|
||
(3.67)
|
||
|
||
In beiden Fällen wird aus dem T -Wert mithilfe der Funktion T.VERT der zugehörige p-Wert berechnet, der wiederum mit dem zuvor festgelegten Signifikanzniveau α verglichen wird. Ist p < α, dann unterscheiden sich die Mittelwerte der beiden Datensätze statistisch signifikant voneinander. In einem Video zeige ich Ihnen im Detail, wie Sie einen Zweistichproben-t-Test in Excel durchführen. Rufen Sie dieses Video durch Scannen des QR-Codes (unten) auf.
|
||
|
||
Die Gleichheit der Varianzen wird typischerweise mittels F-Test überprüft. Hierbei macht man wiederum einen Hypothesentest, bei dem die Nullhypothese besagt, die Varianzen seien gleich, und die Alternativhypothese besagt, die Varianzen seien nicht gleich. Die Prüfgröße f = s12/s22 (mit s12 > s22) folgt hierbei einer F-Verteilung (statt einer Student-t-Verteilung), d. h., man muss entsprechend die Quantile der F-Verteilung heranziehen, um den kritischen Wert zu berechnen, ab dem die Nullhypothese verworfen wird. Ich muss zugeben, ich habe so meine Probleme mit dieser Art, die Gleichheit der Varianzen zu zeigen, da das Nichtverwerfen der Nullhypothese ja nicht bedeutet, dass sie auch stimmt. Sie ist lediglich unser Ausgangspunkt, damit wir den Hypothesentest überhaupt aufstellen können und wird nur aufgestellt, um verworfen zu werden. Im vorliegenden Fall bedeutet das aber für mich, dass man durch das Nichtverwerfen der Nullhypothese nicht zeigen kann, dass die Varianzen gleich sind. Ein vergleichbares Problem tritt bspw. auf, wenn Pharmazeuten versuchen, die gleiche Wirksamkeit von zwei Medikamenten anhand von gemessenen Parametern (wie der maximalen Konzentration im Blut) nachzuweisen. Da hier die Gleichheit der beiden Medikamente gezeigt werden soll, muss man auf einen Äquivalenztest statt eines Differenztests zurückgreifen. Ersteren werde ich in folgendem Abschnitt näher erläutern.
|
||
3.7 Übung: Nehmen wir mal an, die Pharmafirma aus Übung 3.6 wolle die ED50-Werte zweier Substanz X und Y miteinander vergleichen. Die zugehörigen Messdaten sind in Tab. 3.4 aufgeführt.
|
||
Überprüfen Sie zunächst die Varianzen mithilfe der Excel-Funktion F.TEST und führen Sie anschließend den passenden t-Test durch.
|
||
|
||
82
|
||
|
||
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
|
||
|
||
Tab. 3.4 Zum Vergleich der ED50-Werte zweier antibakteriell wirkenden Substanzen X und Y . Die Messreihe wurde 10-fach wiederholt
|
||
|
||
Messung
|
||
|
||
1
|
||
|
||
2
|
||
|
||
3
|
||
|
||
4
|
||
|
||
5
|
||
|
||
6
|
||
|
||
7
|
||
|
||
8
|
||
|
||
9
|
||
|
||
10
|
||
|
||
E D50X E D50Y
|
||
|
||
3,63 4,16 3,27 3,01 4,43 2,20 3,31 3,76 2,93 3,53 2,92 2,81 3,25 3,90 2,16 3,17 2,85 3,62 3,54 3,17
|
||
|
||
3.4.1.3 Vergleich zweier Mittelwerte – der Äquivalenztest Beim Äquivalenztest soll die Äquivalenz zweier Mittelwerte gezeigt werden. An dieser Stelle sollte man sich allerdings fragen, was denn Äquivalenz bedeutet. Gleichheit würde bedeuten, dass die Mittelwerte bis auf die letzte Nachkommastelle identisch sind, was bei endlich vielen Probemessungen natürlich eine gegen null gehende Wahrscheinlichkeit hat. Äquivalenz bedeutet, dass sich die Differenz μ1 − μ2 oder das Verhältnis μ1/μ2 der beiden zu vergleichenden Mittelwerte in einem bestimmten Intervall bewegt [θL , θU ]. Dieses Äquivalenzintervall muss zuvor von Spezialisten festgelegt worden sein und wird nicht von Statistikern gesetzt. Im Zusammenhang mit Dosis-Wirkungs-Kurven kommen im Pharmabereich entsprechende Vorgaben bspw. von der US Pharmacopeia (USP) [8] oder der European Pharmacopeia [9]. Die Äquivalenz überprüft man dann anhand folgender Hypothesen [10]:
|
||
• H0: μ1 − μ2 ≤ θL oder μ1 − μ2 ≥ θU • H1: θL < μ1 − μ2 < θU
|
||
Die zu beweisende Alternativhypothese H1 besagt, dass sich die Differenz der beiden Mittelwerte im Äquivalenzintervall befindet. Ähnlich verhält es sich, wenn man statt der Differenz, das Verhältnis der beiden Mittelwerte heranzieht. Beim sogenannten two one-sided test (TOST) zerlegt man das Problem und führt jeweils zwei Hypothesentests durch:
|
||
• H01: μ1 − μ2 ≤ θL • H11: μ1 − μ2 > θL
|
||
und
|
||
• H02: μ1 − μ2 ≥ θU • H12: μ1 − μ2 < θU
|
||
Wenn Sie nun in beiden Fällen zeigen können, dass die Nullhypothese verworfen werden kann, dann haben Sie die Äquivalenz von μ1 und μ2 gezeigt und H1 gezeigt. Dazu führen wir für beide Hypothesen einen einseitigen t-Test durch:
|
||
|
||
3.4 Hypothesentests
|
||
|
||
83
|
||
|
||
T1
|
||
|
||
=
|
||
|
||
(μ1
|
||
|
||
−√μ2) − θL s 2/n
|
||
|
||
und
|
||
|
||
T2
|
||
|
||
=
|
||
|
||
θU
|
||
|
||
− √(μ1 − μ2) s 2/n
|
||
|
||
(3.68) (3.69)
|
||
|
||
Durch Gl. 3.68 testen Sie am linken Ende des Äquivalenzintervalls mit einem rechtsseitigen t-Test, ob die Differenz μ1 − μ2 statistisch signifikant größer ist als θL oder nicht. Mit Gl. 3.69 testen S√ie mit einem linksseitigen t-Test, ob die Differenz signifikant kleiner ist als θU . Der Faktor 2 in Gl. 3.68 und 3.69 folgt aus der Annahme, dass die Varianzen der beiden Datenreihen gleich sind (was man ggf. noch zeigen müsste). Außerdem wurde hier angenommen, dass der Stichprobenumfang gleich war. Die beiden so errechneten T -Werte werden jeweils gegenüber einem einseitigen kritischen t1−α-Wert mit Signifikanzniveau α verglichen. Hier gilt wiederum, dass, wenn T1, T2 ≥ t1−α, die beiden Nullhypothesen verworfen werden, und die Äquivalenz der beiden Werte ist bewiesen. Wenn auch nur eine der beiden Nullhypothesen nicht verworfen werden kann, dann kann man dies nicht behaupten. Anschaulich ist das in Abb. 3.18 dargestellt.
|
||
|
||
a
|
||
|
||
H01
|
||
|
||
H11 bzw. H12
|
||
|
||
H02
|
||
|
||
θL
|
||
|
||
μ1-μ2
|
||
|
||
0
|
||
|
||
θU
|
||
|
||
b
|
||
H01
|
||
|
||
H11 bzw. H12
|
||
|
||
H02
|
||
|
||
θL
|
||
|
||
μ1-μ2 θU
|
||
|
||
Abb. 3.18 Prinzip des Äquivalenztests mittels two one-sided test (TOST) und Konfidenzintervallansatzes. (a) Da die Differenz der Mittelwerte μ1 − μ2 statistisch signifikant verschieden sowohl vom unteren θL als auch vom oberen Wert θU des Äquivalenzintervalls ist, kann man auf die Äquivalenz der beiden Mittelwerte schließen. Zu demselben Ergebnis kommt man, wenn man erkennt,
|
||
dass das Konfidenzintervall ( ) der Differenz vollständig innerhalb des Äquivalenzintervalls liegt.
|
||
Im Fall von (b) kann nicht auf die Äquivalenz der beiden Mittelwerte geschlossen werden, da die
|
||
Nullhypothese (H02, blaue Kurve rechts) am rechten Rand des Äquivalenzintervalls nicht verworfen werden kann. Auf dasselbe Ergebnis kommt man, wenn man erkennt, dass das Konfidenzintervall
|
||
der Differenz beider Mittelwerte ( ) rechts das Äquivalenzintervall durchbricht
|
||
|
||
84
|
||
|
||
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
|
||
|
||
Im ersten Fall (Abb. 3.18a) ist die Differenz μ1 − μ2 der beiden Mittelwerte statistisch signifikant größer als der Wert θL , da der zugehörige p-Wert kleiner als das Signifikanzniveau ist (grau unterlegte Fläche der Verteilung der Nullhypothese H01). Das bedeutet, die Nullhypothese H01 kann verworfen und die Alternativhypothese H11 entsprechend akzeptiert werden. Am oberen Ende ergibt sich ein ähnliches Bild. Hierbei wird linksseitig die Nullhypothese überprüft, ob die Differenz statistisch signifikant kleiner ist als θU . Da auch hier wiederum der p-Wert deutlich kleiner ausfällt als das vorgegebene Signifikanzniveau (grau unterlegte Fläche der Verteilung der Nullhypothese H02), muss auch diese Nullhypothese verworfen werden, und die Alternativhypothese H12 kann akzeptiert werden. Damit ist die Äquivalenz der beiden Mittelwerte gezeigt. Hier habe ich auch nochmals das Konfidenzintervall der Differenz oberhalb der Verteilung der Alternativhypothese eingezeichnet. Sie sehen, dass μ1 und μ2 dann äquivalent sind, wenn das Konfidenzintervall komplett innerhalb des Äquivalenzintervalls liegt. Der Äquivalenzintervallansatz ist eine gern genutzte Alternative zum Testen auf Äquivalenz, da dieser sehr anschaulich ist gegenüber dem TOST-Ansatz. Beide liefern jedoch dieselbe Aussage, was Sie in Abb. 3.18 schön sehen können. Hätte die Differenz bspw. im vorliegenden Fall eine noch größere Streuung, dann würden die Verteilungen der Nullhypothesen H01 und H02 breiter, ebenso wie die Konfidenzintervalle. Das könnte dann dazu führen, dass die graue Fläche von H01 nach rechts rückt und somit die Nullhypothese nicht mehr verworfen werden könnte. Entsprechend würde das linke Ende des Konfidenzintervalls um denselben Betrag nach links rücken und unterhalb von θL zu liegen kommen. Wenn das passiert, kann nicht mehr behauptet werden, dass die beiden Mittelwerte äquivalent sind. In Abb. 3.18b ist ein solcher Fall einmal gezeigt, nur mit dem Unterschied, dass nun der rechte äußere Teil des Äquivalenzintervalls durch das rechte Ende des Konfidenzintervalls der Differenz durchbrochen wird. D. h., Sie können die Äquivalenz auch zeigen, indem Sie ein Konfidenzintervall (genauer gesagt ein 1 − 2α Konfidenzintervall) für die Differenz μ1 − μ2 berechnen und überprüfen, ob dessen beide Enden innerhalb des Äquivalenzintervalls liegen. Sie müssen also zur Berechnung der beiden Enden des Konfidenzintervalls jeweils die einseitigen t-Werte mit α = 0,05 heranziehen und nicht die zweiseitigen t-Werte, wo die 0,05 nochmals zu gleichen Teilen (1 − α/2) auf die beiden Enden der Verteilung aufgeteilt werden (siehe hierzu auch Abschn. 3.4.1.1). Bei einem Äquivalenztest mit Signifikanzniveau α = 0,05 muss man demnach ein 90 % Konfidenzintervall berechnen. Dies für eine Differenz zu berechnen, ist relativ leicht, denn es gilt hier der Additionssatz für Varianzen:
|
||
|
||
V ar (X − Y ) = V ar (X ) + V ar (Y )
|
||
|
||
(3.70)
|
||
|
||
Damit ergibt sich das Konfidenzintervall zu:
|
||
|
||
⎡ ⎣(μ1 − μ2) − t1−α
|
||
|
||
s12 n
|
||
|
||
+
|
||
|
||
s22 n
|
||
|
||
,
|
||
|
||
(μ1
|
||
|
||
− μ2) + t1−α
|
||
|
||
⎤ s12 + s22 ⎦ nn
|
||
|
||
(3.71)
|
||
|
||
3.4 Hypothesentests
|
||
|
||
85
|
||
|
||
Hierbei habe ich lediglich die Annahme gemacht, dass der Stichprobenumfang der beiden Datenreihen gleich ist, die Varianzen s12 und s22 können verschieden sein. Nehmen Sie statt der Differenz das Verhältnis der Mittelwerte, dann können Sie bspw. das sogenannte Fieller-
|
||
|
||
Theorem [11] zur Berechnung des Konfidenzintervalls heranziehen:
|
||
|
||
⎡
|
||
|
||
⎢⎢⎢⎢⎣
|
||
|
||
μ1 μ2
|
||
|
||
+
|
||
|
||
t1−α μ2
|
||
|
||
μ1 μ2
|
||
|
||
−
|
||
|
||
t1−α μ2
|
||
|
||
1−
|
||
|
||
t12−α S Eμ2 2 μ22
|
||
|
||
S Eμ2 1
|
||
|
||
+
|
||
|
||
μ1 μ2
|
||
|
||
S
|
||
|
||
E
|
||
|
||
2 μ2
|
||
|
||
1
|
||
|
||
−
|
||
|
||
t12−α S Eμ2 2 μ22
|
||
|
||
,
|
||
|
||
⎤
|
||
|
||
1
|
||
|
||
− 1
|
||
|
||
t12−α S Eμ2 2 μ22
|
||
|
||
S Eμ2 1
|
||
|
||
−
|
||
|
||
t12−α S Eμ2 2 μ22
|
||
|
||
+
|
||
|
||
μ1 μ2
|
||
|
||
S Eμ2 2
|
||
|
||
⎥⎥⎥⎥⎦
|
||
|
||
(3.72)
|
||
|
||
S Eμ1 = s12/n bzw. S Eμ2 = s22/n entsprechen hierbei dem Standardfehler des jeweiligen Mittelwertes (vgl. z. B. Abschn. 2.2.7). Auch wenn der hier gezeigte Konfidenzintervallansatz (v. a. bei der Verwendung des Verhältnisses) rechnerisch etwas komplizierter erscheint, ist er visuell wesentlich intuitiver (vgl. Abb. 3.18) als der TOST-Ansatz. Nichtsdestotrotz werden Sie bei beiden auf dasselbe Endergebnis kommen, wenn Sie beim TOSTAnsatz mit Signifikanzniveau α testen und beim Konfidenzintervallansatz ein (1 − 2α) Konfidenzintervall berechnen (vgl. [7, 12]).
|
||
|
||
3.4.1.4 Fehlerarten bei Hypothesentests Ich hatte oben bereits kurz erwähnt, dass das Signifikanzniveau α der Wahrscheinlichkeit entspricht, mit der die Nullhypothese im Mittel abgelehnt würde, obwohl sie an sich richtig wäre. Ich hatte dies mit Fehler 1. Art bezeichnet. Nun könnte man geneigt sein zu sagen, dass man einfach α noch viel kleiner wählt, bspw. α = 0,001. Das können Sie tun, aber Ihnen muss dann auch bewusst sein, dass eine Reduzierung von α mit einer Erhöhung des Fehlers 2. Art einhergeht, also dem Fehler, der begangen wird, wenn eine an sich falsche Nullhypothese nicht verworfen wird. Die Wahrscheinlichkeit dafür bezeichnet man oft mit β. Mit einem kleineren α würden Sie, um beim Beispiel 3.4 zu bleiben, größere Differenzen zwischen der internen und der äußeren Sauerstoffkonzentration als statistisch nicht signifikant ansehen, als mit einem größeren α. Wenn Sie den Hypothesentest aus diesem Beispiel mal mit α = 0,001 durchrechnen, sollten Sie feststellen, dass die Nullhypothese in diesem Fall nicht verworfen werden kann. Dafür müssten S√ie entweder weniger streuende Daten (Vc¯O2 wird kleiner) und/oder mehr Datenpunkte ( N wird größer) haben. Wenn die Nullhypothese an sich schon falsch gewesen sein sollte, dann erhöhen Sie dadurch logischerweise den Fehler 2. Art, da man sich bildlich gesprochen nun nicht mehr auf der Verteilung der Nullhypothese befindet, sondern auf derjenigen der Alternativhypothese (vgl. Abb. 3.19).
|
||
|
||
86
|
||
|
||
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
|
||
|
||
β
|
||
|
||
α
|
||
|
||
µ1 T µ2
|
||
Abb. 3.19 Zur Veranschaulichung des Fehlers 1. Art (α) und 2. Art (β). Angenommen, die Nullhypothese (durchgezogene Linie) sei an sich wahr, dann wird sie mit einer Wahrscheinlichkeit von α fälschlicherweise verworfen. Dies nennt man einen Fehler 1. Art. Angenommen, die Alternativhypothese (gestrichelte Linie) sei an sich wahr, dann wird die Nullhypothese mit einer Wahrscheinlichkeit von β fälschlicherweise nicht verworfen
|
||
β ergibt sich dann durch Aufsummieren der Wahrscheinlichkeiten dieser Verteilung von 0 bis zum Wert T und wird größer mit kleiner werdendem α (vgl. Abb. 3.19). Auch hier wieder der Hinweis, dass die Wahl von α (und somit implizit von β) jeweils von den möglichen Folgen abhängt, die ein Fehler 1. Art und 2. Art mit sich bringt. Wollen Sie β verringern, ohne dabei α zu erhöhen, dann müssen Sie, bei einer gegebenen Varianz der Daten, die Anzahl Datenpunkte erhöhen. Die Fähigkeit eines Tests, die Nullhypothese abzulehnen, wenn die Alternativhypothese an sich wahr ist, bezeichnet man auch als die Macht oder die Trennschärfe eines Tests (engl. statistical power). Sie berechnet sich zu 1 − β und entspricht somit der Wahrscheinlichkeit, einen Fehler 2. Art zu vermeiden. In Tab. 3.5 habe ich einmal die verschiedenen Ausgänge von statistischen Tests den tatsächlich vorherrschenden Begebenheiten gegenübergestellt. Die verschiedenen Zeilen entsprechen jeweils den unterschiedlichen Ausgängen des Hypothesentests und die jeweiligen Spalten für die wahre Situation.
|
||
Die Betrachtung möglicher Fehlerquellen bei statistischen Tests spielt v. a. im medizinischen Bereich eine große Rolle. Hier haben sich z. T. andere Begriffe etabliert, die ich in Tab. 3.5 in Klammern geschrieben habe. Anhand der englischen Ausdrücke sehen Sie bereits, dass sich positives immer auf die Alternativhypothese beziehen und negatives auf die Nullhypothese. Hieran merkt man wiederum, dass die Nullhypothese im Grunde genommen nur aufgestellt wird, um verworfen zu werden (das ist dann ein positives Ergebnis). Diese Begriffe werden uns an anderer Stelle in diesem Buch noch einmal begegnen.
|
||
|
||
3.4 Hypothesentests
|
||
|
||
87
|
||
|
||
Tab. 3.5 Betrachtung möglicher Fehler bei Hypothesentests
|
||
|
||
Testergebnis: H0 ist wahr
|
||
|
||
Wahre Situation
|
||
|
||
H0 ist an sich wahr
|
||
|
||
H1 ist an sich wahr
|
||
|
||
Kein Fehler mit Wahrscheinlichkeit 1 − α (Spezifität, true negatives)
|
||
|
||
Fehler 2. Art mit Wahrscheinlichkeit β (false negative)
|
||
|
||
Testergebnis: H1 ist wahr
|
||
|
||
Fehler 1. Art mit Wahrscheinlichkeit α (false positive)
|
||
|
||
Kein Fehler mit Wahrscheinlichkeit 1 − β (Sensitivität, true positives)
|
||
|
||
3.4.1.5 Test auf Verteilungen In den zuvor genannten Abschnitten haben wir die Verteilung der Daten als bekannt vorausgesetzt. An dieser Stelle zeige ich Ihnen, wie Sie vorgehen müssen, um diese Annahme zu verifizieren. Um solche Tests durchführen zu können, müssen Sie bereits eine Hypothese über die empirische Verteilungsfunktion F˜ (x) der Daten haben und diese dann gegenüber ihrem theoretischen Pendant F(x) testen. Die hier vorgestellten Tests gehen dabei jeweils etwas unterschiedlich vor.
|
||
|
||
χ 2-Test Beim χ 2-Test werden die Daten x1, . . . , xn vorab in m Klassen eingeteilt, d. h. es werden Intervalle I1, . . . , Im vorgegeben, in die die Daten jeweils einsortiert werden. Die Intervalle werden typischerweise so erzeugt, dass mindestens 5 Werte in jedem dieser Intervalle
|
||
vorhanden sind. Zu jedem Intervall Ik wird nun die entsprechende (theoretische) Wahrscheinlichkeit aus der Verteilungsfunktion F(Ik) ermittelt und mit der Anzahl Daten n multipliziert, wodurch die theoretische Häufigkeit fk berechnet wird. Wenn Sie die theoretischen Häufigkeiten im selben Diagramm darstellen, wie die experimentellen Häufigkeiten (vgl.
|
||
Abb. 3.20), dann können Sie bereits optisch sehen, ob diese stark voneinander abweichen. Als Maß für diese Abweichung wird beim χ 2-Test folgende Teststatistik verwendet:
|
||
|
||
χ 2 = m (hk − fk )2
|
||
|
||
k=1
|
||
|
||
fk
|
||
|
||
(3.73)
|
||
|
||
Diese Teststatistik folgt, wie der Buchstabe bereits andeuten soll, einer χ 2-Verteilung (vgl. Abschn. 3.2.5). Sie berechnen also zunächst die Teststatistik in Gl. 3.73 und berechnen einen zugehörigen p-Wert mithilfe der Excel-Funktion CHIQU.VERT mit m − 1 − n p Freiheitsgraden. Hierbei sind n p die Anzahl Parameter der theoretischen Verteilung, m wiederum unsere Anzahl Klassen. Bei einer Normalverteilung ist n p = 2, da wir den Mittelwert und die Standardabweichung als Parameter haben. Den p-Wert vergleichen Sie gegenüber einem zuvor festgelegten Signifikanzniveau α. Falls p < α, dann verwerfen Sie die Nullhypothese, dass Ihre Daten der Verteilungsfunktion F(x) folgen, ansonsten nicht. Damit
|
||
|
||
88
|
||
Abb. 3.20 Prinzip des χ 2-Tests auf Verteilungen
|
||
|
||
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
|
||
|
||
Häufigkeit
|
||
|
||
18
|
||
|
||
16
|
||
|
||
14
|
||
|
||
12
|
||
|
||
10
|
||
|
||
f
|
||
|
||
k
|
||
|
||
8
|
||
|
||
h k
|
||
|
||
6
|
||
|
||
4
|
||
|
||
2
|
||
|
||
0 4 6 8 10 12 14 16 18
|
||
|
||
der χ 2-Test brauchbar funktioniert, braucht jede Klasse mindestens 5 Einträge [13]. Falls das nicht der Fall ist, verringern Sie die Anzahl Klassen, indem Sie bspw. Nachbarklassen vereinigen. Wenn n an sich schon sehr klein ist und dadurch die vorgenannte Daumenregel nicht einzuhalten ist, dann sollten Sie vorsichtig mit dem Ergebnis des χ 2-Tests umgehen. Sie können den χ2-Test sowohl zum Testen für diskrete als auch für stetige Verteilungen verwenden.
|
||
Kolmogoroff-Smirnov-Test Während man beim χ 2-Test jeweils mit der Differenz aus der empirischen und der theoretischen Dichtefunktion rechnet, wird beim Kolmogoroff-Smirnov-Test mit der Differenz aus der theoretischen und empirischen Verteilungsfunktion gerechnet (vgl. Abb. 3.21).
|
||
|
||
Abb. 3.21 Prinzip des Kolmogorov-Smirnov-Test. Die bei diesem Test angewandte Teststatistik d entspricht dem maximalen Abstand zwischen der empirischen- (durchgezogene Linie) und theoretischen Verteilungsfunktion (gestrichelte Linie))
|
||
|
||
F(x)
|
||
|
||
1
|
||
|
||
0,8
|
||
|
||
d
|
||
|
||
0,6
|
||
|
||
0,4
|
||
|
||
0,2
|
||
|
||
0 −2,5 −2 −1,5 −1 −0,5 0 0,5 1 1,5 2
|
||
x
|
||
|