DissLiteratur/storage/G8GB9AF2/.zotero-ft-cache

Ralf Dörner Wolfgang Broll Paul Grimm Bernhard Jung Hrsg.
Virtual und Augmented Reality (VR/AR)
Grundlagen und Methoden der Virtuellen und Augmentierten Realität
2. Auflage

Virtual und Augmented Reality (VR/AR)

Ralf Dörner · Wolfgang Broll · Paul Grimm · Bernhard Jung
(Hrsg.)
Virtual und Augmented Reality (VR/AR)
Grundlagen und Methoden der Virtuellen und Augmentierten Realität
2., Erweiterte und aktualisierte Auflage

Hrsg. Ralf Dörner Fachbereich Design, Informatik, Medien Hochschule RheinMain Wiesbaden, Deutschland
Paul Grimm Fachbereich Angewandte Informatik Hochschule Fulda Fulda, Deutschland

Wolfgang Broll Fakultät für Mathematik und Naturwissenschaften Technische Universität Ilmenau Ilmenau, Deutschland
Bernhard Jung Fakultät für Mathematik und Informatik TU Bergakademie Freiberg Freiberg, Deutschland

Ergänzendes Material zu diesem Buch finden Sie auf http://extras.springer.com.

ISBN 978-3-662-58860-4

ISBN 978-3-662-58861-1  (eBook)

https://doi.org/10.1007/978-3-662-58861-1

Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.

Springer Vieweg © Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2013, 2019 Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung des Verlags. Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von allgemein beschreibenden Bezeichnungen, Marken, Unternehmensnamen etc. in diesem Werk bedeutet nicht, dass diese frei durch jedermann benutzt werden dürfen. Die Berechtigung zur Benutzung unterliegt, auch ohne gesonderten Hinweis hierzu, den Regeln des Markenrechts. Die Rechte des jeweiligen Zeicheninhabers sind zu beachten. Der Verlag, die Autoren und die Herausgeber gehen davon aus, dass die Angaben und Informationen in diesem Werk zum Zeitpunkt der Veröffentlichung vollständig und korrekt sind. Weder der Verlag, noch die Autoren oder die Herausgeber übernehmen, ausdrücklich oder implizit, Gewähr für den Inhalt des Werkes, etwaige Fehler oder Äußerungen. Der Verlag bleibt im Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutionsadressen neutral.

Springer Vieweg ist ein Imprint der eingetragenen Gesellschaft Springer-Verlag GmbH, DE und ist ein Teil von Springer Nature. Die Anschrift der Gesellschaft ist: Heidelberger Platz 3, 14197 Berlin, Germany

Geleitwort

Virtual Reality ist eine Zukunftstechnologie, die zunehmend an Bedeutung in einer Vielzahl von Anwendungsgebieten in Forschung und Industrie gewinnt. Durch die rasante Entwicklung von Displayhardware, neuen Interaktionsgeräten und Trackingsystemen werden heute Virtual Reality Anwendungen entwickelt, die vor wenigen Jahren ausschließlich in großen Forschungslaboren realisierbar gewesen wären. Diese Technologierichtung wird in besonderem Maße durch deutsche Forschungs- und Entwicklungseinrichtungen geprägt. Aus diesem Grund besteht ein Bedarf an einem deutschsprachigen Lehrbuch zur Ausbildung der nächsten Generation von Virtual Reality Spezialisten.
Das vorliegende Buch Virtual Reality und Augmented Reality (VR/AR) – Grundlagen und Methoden der Virtuellen und Augmentierten Realität entstand aus einer Initiative von international führenden Experten der Fachgruppe Virtuelle Realität und Augmented Reality der Gesellschaft für Informatik (GI). Die Fachgruppe unterstützt neben der Etablierung von neuen Forschungsrichtungen auch die Förderung des Nachwuchses, indem sie sich mit fachdidaktischen Fragestellungen beschäftigt. Umfragen innerhalb der Fachgruppe haben nicht nur den Inhalt dieses Buches beeinflusst, auch viele der Autoren sind aktiv in der Fachgruppe engagiert.
Neben technischen Themen geht das Buch auch auf Aspekte der Wahrnehmung, der Mensch – Computer Interaktion und auf mathematische Grundlagen ein. Es schließt eine Lücke im deutschsprachigen Raum, indem es den aktuellen Stand der Forschung durch Grundlagen und anwendungsorientierte Beispiele fachdidaktisch aufbereitet.
Ich bin davon überzeugt, dass dieses Buch bei einer breiten Leserschaft großes Interesse wecken wird. Der Inhalt des Buches ist von hoher technischer Qualität und wird einen wichtigen Beitrag zur zukünftigen Entwicklung dieser Disziplin leisten.

September 2013

Prof. Dr. Oliver Staadt Universität Rostock
Sprecher der GI-Fachgruppe Virtuelle Realität und Augmented Reality

V

Vorwort zur Zweitauflage
Fortschritte in Wissenschaft und Technik werden heutzutage erwartet und sind eigentlich nicht überraschend. Zur Zeit des Erscheinens der Erstauflage dieses Buches im Jahr 2013 war eine VR-Brille noch mit Displays der Größe 640 × 800 Pixel ausgestattet und erlaubte ein Blickfeld von 110°. Es ist nicht verwunderlich, dass fünf Jahre später sich bereits Displays mit 1830 × 1440 Pixel und einem Blickfeld von 210° in VR-Brillen finden. Derartige Fortschritte sind allein schon Grund genug für uns, dieses Lehrbuch zu aktualisieren und eine neue Auflage zu veröffentlichen. Und das obwohl man gerade bei einem Lehrbuch, das Grundlagen vermitteln und das Fundament für die Beschäftigung mit aktueller Forschungsliteratur zu fortgeschrittenen Themen legen möchte, erwarten kann, dass Inhalte nicht allzu schnell veralten. So hat sich etwa an der Definition des Begriffes „Virtuelle Realität“ oder an der Art und Weise, wie Menschen Stereobilder wahrnehmen auch seit der Erstauflage nichts geändert. Vor diesem Hintergrund waren wir dann doch überrascht, wie viele Aktualisierungen vorzunehmen sind und es ist uns noch einmal bewusst geworden, welch ein dynamisches Feld Virtuelle und Augmentierte Realität (VR/AR) doch ist.
Ein Grund für diese hohe Dynamik ist sicherlich die Verfügbarkeit von leistungsfähiger VR/AR-Hardware zu relativ geringen Kosten. Weiterhin ist zu beobachten, dass nicht zuletzt durch die allgegenwärtige Digitalisierung VR/AR einen immer höheren Bekanntheitsgrad in der Bevölkerung hat. Dazu trägt u. a. bei, dass VR-Brillen beim Kauf eines Smartphones zum Teil sogar als kostenlose Mitgift enthalten waren, Spielekonsolen wie die Playstation VR seit 2016 auf dem Markt sind oder einfache VR-Brillen aus Pappe verschenkt werden. Der Branchenverband Bitkom e. V. hat 2017 in einer repräsentativen Umfrage unter 1000 Bundesbürgern herausgefunden, dass fast jeder fünfte Deutsche ab 14 Jahren schon eine VR-Brille benutzt und Virtuelle Welten erlebt hat. Dies führt auch dazu, dass in der Breite das Interesse an VR/AR steigt und immer mehr Anwendungsideen in Hochschulen, Unternehmen und Organisationen entwickelt werden. In der Zweitauflage spiegelt sich dies wider, indem die Fallbeispiele in Kap. 9 nicht nur aktualisiert, sondern auch neue Fallbeispiele aufgenommen wurden. Eine aufgrund der steigenden Relevanz von VR/AR für die Gesellschaft längst überfällige Beschäftigung mit ethischen, sozialen und rechtlichen Auswirkungen von VR/AR findet sich in Kap. 6.
VII

VIII

Vorwort zur Zweitauflage

Eine besonders stürmische Entwicklung hat das Gebiet der AR seit der Erstauflage dieses Buches durchlaufen. In der Tat sind moderne Smartphones und Tablet-Computer, obwohl sie von ihren Nutzern meist primär nicht für AR erworben wurden, heute mit ihren Kameras, Sensoren und ihrer Rechenperformanz als Grundlage für AR-Systeme sehr gut brauchbar. Einflussreiche Firmen wie Google oder Apple stellen mit ARCore bzw. ARKit spezifische Pakete für die Entwicklung von AR-Apps zur Verfügung. Entsprechend stehen heute tausende neuer AR-Apps zur Verfügung, die auf Millionen potenzieller Nutzer warten – Nutzer, die bereits jetzt schon über die notwendige Hardware verfügen. Dieser Entwicklung tragen wir durch eine Umstrukturierung im Buch Rechnung, indem wir nicht wie in der Erstauflage das Thema AR in einem gesonderten Kapitel behandeln, sondern in allen Kapiteln neben VR auch AR thematisiert wird.
Die dynamische Entwicklung, neue wissenschaftliche Erkenntnisse, das hohe Interesse an VR/AR und der stark wachsende Erfahrungsschatz durch den Einsatz von VR/ AR in der Praxis haben nicht nur eine Aktualisierung der Erstauflage erfordert, sondern auch eine Erweiterung. So werden etwa Themen wie Cybersickness oder Audio in VR/ AR umfangreicher im Buch behandelt. Die Frage, wie VR-Systeme oder AR-Systeme erstellt werden, wird immer wichtiger. Deswegen gibt es in der Zweitauflage mit dem neuen Kap. 10 eine Erweiterung, die sich mit dem Authoring von VR/AR-Anwendungen und insbesondere den dabei eingesetzten Software-Werkzeugen befasst.
Dieses Vorwort ist eine gute Gelegenheit, nochmals allen an diesem Buchprojekt Beteiligten herzlich zu danken. Dazu zählen neben den Autoren und Beteiligten des Springer-Verlages auch alle Leserinnen und Leser der Erstauflage, speziell unsere Studierende sowie Mitglieder der Fachgruppe VR/AR der Gesellschaft für Informatik, die uns wertvolles Feedback gegeben haben, das in diese Zweitauflage eingeflossen ist. So sind wir u. a. dem Wunsch nachgekommen, die im Buch enthaltenen Abbildungen elektronisch für eine nicht-kommerzielle Nutzung z. B. in Vorlesungsfolien oder in studentischen Arbeiten zur Verfügung zu stellen. Ein entsprechendes Paket, das auch Code-Beispiele aus Kap. 10 enthält, steht zum kostenlosen Download unter www.vr-ar-buch.de zur Verfügung.
So, liebe Leserin, lieber Leser, wir wünschen Ihnen nun viel Freude mit der faszinierenden Welt von Virtual und Augmented Reality.

Wiesbaden Ilmenau Fulda Freiberg im August 2019

Ralf Dörner Wolfgang Broll
Paul Grimm Bernhard Jung

Inhaltsverzeichnis
1 Einführung in Virtual und Augmented Reality. . . . . . . . . . . . . . . . . . . . . . .  1 Ralf Dörner, Wolfgang Broll, Bernhard Jung, Paul Grimm und Martin Göbel 1.1 Worum geht es bei VR/AR?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  2 1.1.1 Die perfekte Virtuelle Realität. . . . . . . . . . . . . . . . . . . . . . . . . .  2 1.1.2 Die Simulation der Welt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  6 1.1.3 Suspension of Disbelief. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  8 1.1.4 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  9 1.2 Was ist VR?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  12 1.2.1 Technologieorientierte Charakterisierungen der VR. . . . . . . . .  13 1.2.2 VR als innovative Form der Mensch-Maschine Interaktion. . . . . . . . . . . . . . . . . . . . . . . . . .  15 1.2.3 Mentale Aspekte der VR-Erfahrung. . . . . . . . . . . . . . . . . . . . . .  18 1.3 Was ist AR?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  20 1.4 Historische Entwicklung von VR und AR. . . . . . . . . . . . . . . . . . . . . . . .  26 1.5 VR-Systeme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  29 1.6 AR-Systeme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  32 1.7 Nutzung des Buches. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  34 1.7.1 Aufbau des Buches. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  34 1.7.2 Benutzungsanleitung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  35 1.7.3 Zielgruppen des Buches. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  36 1.8 Zusammenfassung und Fragen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 Literaturempfehlungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  40 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  41
IX

X

Inhaltsverzeichnis

2 Wahrnehmungsaspekte von VR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  43 Ralf Dörner und Frank Steinicke 2.1 Menschliche Informationsverarbeitung. . . . . . . . . . . . . . . . . . . . . . . . . .  44 2.2 Visuelle Wahrnehmung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  46 2.2.1 Stereosehen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  46 2.2.2 Raumwahrnehmung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  49 2.3 Multisensorische Wahrnehmung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  53 2.3.1 Auditive Wahrnehmung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  53 2.3.2 Haptische Wahrnehmung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  54 2.3.3 Propriozeption und Kinästhesie. . . . . . . . . . . . . . . . . . . . . . . . .  55 2.3.4 Bewegungswahrnehmung . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  55 2.3.5 Präsenz und Immersion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  56 2.4 Phänomene, Probleme, Lösungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  57 2.4.1 Abweichende Betrachtungsparameter. . . . . . . . . . . . . . . . . . . .  57 2.4.2 Doppelbilder. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  59 2.4.3 Frame Cancellation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  61 2.4.4 Vergence-Focus-Konflikt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  62 2.4.5 Diskrepanzen in der Raumwahrnehmung . . . . . . . . . . . . . . . . .  63 2.4.6 Diskrepanzen in der Bewegungswahrnehmung. . . . . . . . . . . . .  66 2.4.7 Cybersickness. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  67 2.4.8 Problem der vertikalen Parallaxe. . . . . . . . . . . . . . . . . . . . . . . .  70 2.5 Nutzung von Wahrnehmungsaspekten. . . . . . . . . . . . . . . . . . . . . . . . . . .  71 2.5.1 Salienz. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  72 2.5.2 Nutzerführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  74 2.6 Zusammenfassung und Fragen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 Literaturempfehlungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  76 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  76
3 Virtuelle Welten. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  79 Bernhard Jung und Arnd Vitzthum 3.1 Einführung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  80 3.2 Szenengraphen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  83 3.3 3D-Objekte. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  86 3.3.1 Oberflächenmodelle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  86 3.3.2 Festkörpermodelle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  89 3.3.3 Erscheinungsbild. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  90 3.3.4 Optimierungstechniken für 3D-Objekte. . . . . . . . . . . . . . . . . . .  95 3.4 Animation und Objektverhalten. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  97 3.4.1 Keyframe-Animation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  97 3.4.2 Physikbasierte Animation starrer Körper. . . . . . . . . . . . . . . . . .  98 3.4.3 Objektverhalten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  100 3.4.4 Verhalten und Animation in Szenengraphen. . . . . . . . . . . . . . .  101

Inhaltsverzeichnis

XI

3.5 Beleuchtung, Sound und Hintergründe. . . . . . . . . . . . . . . . . . . . . . . . . .  101 3.5.1 Beleuchtung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  102 3.5.2 Sound. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  103 3.5.3 Hintergründe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  104
3.6 Spezialsysteme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  105 3.6.1 Virtuelle Menschen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  105 3.6.2 Partikelsysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  107 3.6.3 Gelände . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  109 3.6.4 Vegetation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  111
3.7 Zusammenfassung und Fragen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 Literaturempfehlungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  114 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  114
4 VR/AR-Eingabegeräte und Tracking. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  117 Paul Grimm, Wolfgang Broll, Rigo Herold und Johannes Hummel 4.1 Grundlagen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  118 4.2 Trackingverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  124 4.2.1 Akustisches Tracking. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  125 4.2.2 Magnetfeldbasiertes Tracking . . . . . . . . . . . . . . . . . . . . . . . . . .  125 4.2.3 Inertial-Tracker. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 4.2.4 Laser-Tracking. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  127 4.2.5 Positions-Tracking im Außenbereich. . . . . . . . . . . . . . . . . . . . .  128 4.3 Kamerabasiertes Tracking. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  130 4.3.1 Markenbasierte Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  131 4.3.2 Tracking mit Schwarzweißmarken. . . . . . . . . . . . . . . . . . . . . . .  135 4.3.3 Merkmalsbasierte Tracking-Verfahren. . . . . . . . . . . . . . . . . . . .  140 4.3.4 Visual SLAM-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  143 4.3.5 Hybride Tracking-Techniken. . . . . . . . . . . . . . . . . . . . . . . . . . .  144 4.4 Finger-Tracking. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  145 4.5 Eye-Tracking. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  149 4.5.1 Bewegungsabläufe des Auges . . . . . . . . . . . . . . . . . . . . . . . . . .  149 4.5.2 Verfahren. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  149 4.5.3 Funktionsweise eines Eye-Trackers. . . . . . . . . . . . . . . . . . . . . .  152 4.5.4 Kalibrierung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  152 4.5.5 Eye-Tracking in Head-Mounted Displays. . . . . . . . . . . . . . . . .  155 4.5.6 Remote-Eye-Tracker . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  156 4.6 Weitere Eingabegeräte. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  156 4.6.1 3D-Mouse. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  156 4.6.2 Mechanische Eingabegeräte. . . . . . . . . . . . . . . . . . . . . . . . . . . .  157 4.6.3 Bewegungsplattformen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  158 4.7 Zusammenfassung und Fragen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 Literaturempfehlungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  160 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  160

XII

Inhaltsverzeichnis

5 VR/AR-Ausgabegeräte. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  163 Paul Grimm, Wolfgang Broll, Rigo Herold, Dirk Reiners und Carolina Cruz-Neira 5.1 Grundlagen visueller Ausgabe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  165 5.2 Head-Mounted-Displays (HMDs). . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  170 5.2.1 VR-Brillen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  170 5.2.2 AR-Brillen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  173 5.2.3 Allgemeine Kenngrößen und Eigenschaften von HMDs. . . . . .  179 5.2.4 Spezielle HMDs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  186 5.3 Stationäre VR-Systeme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  188 5.3.1 Einseitige Displays. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  189 5.3.2 Mehrseitige Displays. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  191 5.3.3 Gekachelte Displays. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  194 5.3.4 Verfahren zur Stereoausgabe. . . . . . . . . . . . . . . . . . . . . . . . . . .  201 5.4 Akustische Ausgabegeräte. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  211 5.5 Haptische Ausgabegeräte. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  212 5.6 Zusammenfassung und Fragen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 Literaturempfehlungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  216 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  216
6 Interaktionen in Virtuellen Welten. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  219 Ralf Dörner, Christian Geiger, Leif Oppermann, Volker Paelke und Steffi Beckhaus 6.1 Grundlagen aus der Mensch-Computer-Interaktion . . . . . . . . . . . . . . . .  220 6.2 Systemsteuerung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  222 6.3 Selektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  224 6.3.1 Zeigen in Virtuellen Welten. . . . . . . . . . . . . . . . . . . . . . . . . . . .  225 6.3.2 Interaktionsgestaltung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  227 6.3.3 Beispiele für Selektionstechniken. . . . . . . . . . . . . . . . . . . . . . .  229 6.4 Manipulation von Objekten. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  231 6.5 Navigation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  234 6.5.1 Steuerungstechniken zur Bewegungskontrolle . . . . . . . . . . . . .  236 6.5.2 Walking – Technik zur natürlichen Bewegungskontrolle . . . . .  238 6.5.3 Leaning-Interfaces zur Bewegungskontrolle. . . . . . . . . . . . . . .  240 6.5.4 Teleportation als Technik der Bewegungskontrolle. . . . . . . . . .  242 6.5.5 Routenplan- und zielbasierte Bewegungstechniken. . . . . . . . . .  242 6.5.6 Entwurfskriterien für Navigationstechniken . . . . . . . . . . . . . . .  243 6.6 Prozesse für Design und Realisierung von Interaktion. . . . . . . . . . . . . .  244 6.6.1 Besonderheiten von VR/AR-Benutzungsschnittstellen. . . . . . .  244 6.6.2 Nutzerorientierte Entwicklung von VR/AR-Interaktionen . . . .  246 6.7 Nutzertests. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  249

Inhaltsverzeichnis

XIII

6.8 Ethische, soziale und rechtliche Aspekte von VR/AR. . . . . . . . . . . . . . .  255 6.9 Zusammenfassung und Fragen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261 Literaturempfehlungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  263 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  264
7 Echtzeitaspekte von VR-Systemen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  267 Mathias Buhr, Thies Pfeiffer, Dirk Reiners, Carolina Cruz-Neira und Bernhard Jung 7.1 Latenz in VR-Systemen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  268 7.1.1 Welche Anforderungen an Latenz gibt es?. . . . . . . . . . . . . . . . .  269 7.1.2 Wo entstehen eigentlich Latenzen?. . . . . . . . . . . . . . . . . . . . . .  271 7.1.3 Ist die Latenz in einem VR-System konstant?. . . . . . . . . . . . . .  272 7.1.4 Welche Ansätze zur Latenzbestimmung gibt es?. . . . . . . . . . . .  273 7.1.5 Zusammenfassung Latenz. . . . . . . . . . . . . . . . . . . . . . . . . . . . .  278 7.2 Effiziente Kollisionserkennung in Virtuellen Welten. . . . . . . . . . . . . . . .  279 7.2.1 Hüllkörper . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  280 7.2.2 Techniken zur Strukturbildung. . . . . . . . . . . . . . . . . . . . . . . . . .  286 7.2.3 Kollisionserkennung für große Umgebungen . . . . . . . . . . . . . .  291 7.2.4 Zusammenfassung und weitergehende Techniken. . . . . . . . . . .  295 7.3 Echtzeit-Rendering Virtueller Welten . . . . . . . . . . . . . . . . . . . . . . . . . . .  296 7.3.1 Algorithmische Strategien. . . . . . . . . . . . . . . . . . . . . . . . . . . . .  297 7.3.2 Hardwarebezogene Strategien. . . . . . . . . . . . . . . . . . . . . . . . . .  304 7.3.3 Softwaresysteme für die Darstellung Virtueller Welten. . . . . . .  309 7.4 Zusammenfassung und Fragen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311 Literaturempfehlungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  312 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  312
8 Augmentierte Realität. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  315 Wolfgang Broll 8.1 Einführung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  315 8.1.1 Übersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  316 8.1.2 Grundlegende Ausprägungen von AR. . . . . . . . . . . . . . . . . . . .  320 8.2 Registrierung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  325 8.2.1 Geometrische Registrierung. . . . . . . . . . . . . . . . . . . . . . . . . . . .  325 8.2.2 Photometrische Registrierung . . . . . . . . . . . . . . . . . . . . . . . . . .  329 8.3 Visuelle Ausgabe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  332 8.4 Spezielle AR-Techniken. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  337 8.4.1 Head-Up-Inhalte. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  337 8.4.2 Verdeckungen und Phantomobjekte. . . . . . . . . . . . . . . . . . . . . .  337 8.4.3 Überblenden von Marken. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  339 8.4.4 Virtuelle Löcher. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  339 8.4.5 Röntgenblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  340

XIV

Inhaltsverzeichnis

8.5 Spezielle AR-Interaktionstechniken. . . . . . . . . . . . . . . . . . . . . . . . . . . . .  343 8.5.1 Interaktion durch Navigation. . . . . . . . . . . . . . . . . . . . . . . . . . .  343 8.5.2 Selektion durch Blickrichtung. . . . . . . . . . . . . . . . . . . . . . . . . .  343 8.5.3 Tangible User Interfaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  344
8.6 Applikationen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  345 8.7 Diminished und Mediated Reality. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  347
8.7.1 Diminished Reality . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  347 8.7.2 Mediated Reality . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  351 8.8 Zusammenfassung und Fragen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353 Literaturempfehlungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  355 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  355
9 Fallbeispiele für VR/AR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  357 Ralf Dörner, Torsten W. Kuhlen, Geert Matthys, Manfred Bogen, Stefan Rilling, Andreas Gerndt, Janki Dodiya, Katharina Hertkorn, Thomas Hulin, Johannes Hummel, Mikel Sagardia, Robin Wolff, Andreas-Christoph Bernstein, Sebastian Utzig, Tom Kühnert, Guido Brunnett, Lisa Blum, Christoffer Menk, Christian Bade, Werner Schreiber, Thomas Alexander, Michael Kleiber, Leif Oppermann, Gerd Bruder, Frank Steinicke, Raphael Zender und Christian Geiger 9.1 Einführung und Übersicht. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  357 9.2 Die aixCAVE an der RWTH Aachen University. . . . . . . . . . . . . . . . . . .  359 9.3 Virtuelle Realität in der Öl- und Gasindustrie. . . . . . . . . . . . . . . . . . . . .  362 9.4 Virtuelle Satellitenreparatur im Orbit . . . . . . . . . . . . . . . . . . . . . . . . . . .  365 9.5 Virtual Prototyping von Schuhen und Stiefeln . . . . . . . . . . . . . . . . . . . .  367 9.6 Augmentierte Realität unter Wasser. . . . . . . . . . . . . . . . . . . . . . . . . . . . .  371 9.7 Einsatz von Spatial Augmented Reality in der Automobilindustrie . . . .  373 9.8 Einsatz von Augmented Reality in der Fertigungsplanung. . . . . . . . . . .  376 9.9 Benutzerzentrierte Gestaltung eines AR-basierten Systems zur Telemaintenance. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378 9.10 Auto-AR – Visualisierung von 3D-Gebäudedaten vor Ort . . . . . . . . . . .  380 9.11 Effekte von Rendering-Parametern auf die Wahrnehmung von Größen und Distanzen . . . . . . . . . . . . . . . . . . . . . . .  382 9.12 Festplattentausch in der Ausbildung zum Fachinformatiker. . . . . . . . . .  385 9.13 Klettern in Virtueller Realität. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  388 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  391

Inhaltsverzeichnis

XV

10 Authoring von VR/AR-Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  393 Wolfgang Broll, Florian Weidner, Tobias Schwandt, Kai Weber und Ralf Dörner 10.1 Unterstützung von Autoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  394 10.2 Grundlagen und Konzepte von Software zur Unterstützung von Autoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  395 10.2.1 Unity. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  398 10.2.2 Unreal Engine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  401 10.2.3 AR-Frameworks: ARCore und ARKit. . . . . . . . . . . . . . . . . . . .  405 10.3 Beispiele für die Erstellung von VR/AR-Anwendungen. . . . . . . . . . . . .  408 10.3.1 Making Of: Immersive VR-Präsentation von CAD-Daten in der Oculus Rift mit Unity . . . . . . . . . . . . . . . . .  408 10.3.2 Making Of: Realisierung von Interaktion in VR mit der HTC Vive auf Basis der Unreal Engine . . . . . . . . .  411 10.3.3 Making Of: Eine Anwendung für Microsoft’s Hololens. . . . . .  413 10.3.4 Making Of: Basics für die Erstellung einer nativen ARCore Applikation für Android . . . . . . . . . . . . . . . . .  418 10.4 Zusammenfassung und Fragen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 421 Literaturempfehlungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  422 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  422
11 Mathematische Grundlagen von VR/AR . . . . . . . . . . . . . . . . . . . . . . . . . . . .  425 Ralf Dörner 11.1 Vektorräume. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  425 11.2 Geometrie und Vektorräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  427 11.3 Der affine Raum. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  428 11.4 Der euklidische Raum. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  429 11.5 Analytische Geometrie im ℝ3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  431 11.6 Matrizen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  432 11.7 Affine Abbildungen und Wechsel von Koordinatensystemen. . . . . . . . .  433 11.8 Bestimmung von Transformationsmatrizen. . . . . . . . . . . . . . . . . . . . . . .  435
Über die Autoren. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  437
Stichwortverzeichnis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  445

Einführung in Virtual und Augmented Reality

1

Ralf Dörner, Wolfgang Broll, Bernhard Jung, Paul Grimm und Martin Göbel

Zusammenfassung Was ist Virtuelle Realität (VR)? Was versteht man unter Augmentierter Realität (AR)? Wozu dienen VR/AR? Welche Grundkonzepte gibt es? Wie sind VR/AR – Systeme aufgebaut? Wie hat sich VR/AR geschichtlich entwickelt? Diesen Fragen geht das erste Kapitel nach und vermittelt so eine Einführung in das vorliegende Lehrbuch. Das Kapitel ist grundlegend für das gesamte Buch. Auf ihm bauen alle Folgekapitel auf, während alle weiteren Kapitel nicht direkt voneinander abhängen und deswegen in einer Auswahl und Reihenfolge durchgearbeitet werden können, die den individuellen Interessen und Bedürfnissen der Leser Rechnung trägt. Entsprechende Hinweise, wie dieses Buch effizient von verschiedenen Zielgruppen (Studierende, Lehrende, Anwender, Technologieaffine) genutzt werden kann, finden sich am Ende des Kapitels ebenso wie eine Zusammenfassung, Fragen zur Überprüfung des Gelernten, Empfehlungen für weiterführende Literatur sowie die im Kapitel verwendeten Referenzen.
1.1	Worum geht es bei VR/AR?
Betrachten wir uns als erstes die Idealvorstellung einer Virtuellen Realität (VR): Wie sieht die perfekte VR eigentlich aus? In diesem Extremfall werden die zugrunde liegenden Ideen einer VR besonders deutlich. Danach befassen wir uns damit, warum man

R. Dörner (*)  Hochschule RheinMain, Fachbereich Design, Informatik, Medien, Unter den Eichen 5, 65195 Wiesbaden, Deutschland E-Mail: ralf.doerner@hs-rm.de

© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2019

1

R. Dörner et al. (Hrsg.), Virtual und Augmented Reality (VR/AR),

https://doi.org/10.1007/978-3-662-58861-1_1

2

R. Dörner et al.

einerseits eine perfekte VR heute nicht erreichen kann (und z. B. aus ethischen Gründen auch nicht erreichen will) und zeigen andererseits wie man trotzdem eine Virtuelle Umgebung für Menschen schaffen kann. Wir führen dabei den Begriff der Augmentierten Realität (AR) ein. Schließlich motivieren wir, wozu VR und AR heute dienen können und warum man sich intensiv mit diesen Themen beschäftigt.

1.1.1	Die perfekte Virtuelle Realität
Menschen nehmen die Welt mittels Sinneseindrücken wahr. Wird beispielsweise Licht von einem realen Objekt, z. B. einem Tiger, reflektiert und gelangt es in das Auge eines Menschen, so werden fotochemische Prozesse in speziellen, in der Netzhaut angesiedelten Sinneszellen ausgelöst. Das Licht wirkt als Reiz für diese Sinneszellen. Die Lichtreize führen zu Nervenimpulsen, die über komplex miteinander verbundene Nervenzellen verändert und zum Gehirn geleitet werden. Man hat bereits verschiedene Gebiete des Gehirns identifizieren können, die zur visuellen Wahrnehmung beitragen. Das wahrgenommene Bild entsteht also nicht in den Augen, sondern eher in Gehirnregionen hauptsächlich im Hinterkopf. Bei den Prozessen im Gehirn können mehrere Stufen unterschieden werden. Zunächst erfolgt eine schnelle Parallelverarbeitung der visuellen Sinneseindrücke, bei der z. B. die gelben und schwarzen Flächen wie auch das Muster auf dem Fell des Tigers identifiziert werden. Darauf aufbauend folgt eine langsamere sequenzielle Aufarbeitung, z. B. das Zusammensetzen der farbigen Flächen zu Teilobjekten (wie z. B. Pranke oder Zähne des Tigers) unter Nutzung des Gedächtnisses: Hat der Mensch schon einmal einen Tiger gesehen, kann dies zu einem Wiedererkennen führen. Den ganzen Apparat, von den Sinneszellen angefangen, über die Sehnerven bis hin zu den Sehzentren im Gehirn nennen wir das visuelle System des Menschen. Der Mensch sieht in unserem Beispiel also dank seines visuellen Systems den Tiger und kann daraus Schlussfolgerungen über die Realität ziehen, z. B. dass eine reale Raubkatze vor ihm steht und es an der Zeit wäre, mit dem Weglaufen zu beginnen.
Der Zusammenhang zwischen der Realität und dem, was Menschen dank ihres visuellen Systems über sie wahrnehmen, ist alles andere als einfach. Dieselbe Realität kann bei verschiedenen Menschen unterschiedliche Wahrnehmungen hervorrufen. Eine Wand, die Licht mit einer Wellenlänge von 630 nm reflektiert, löst bei vielen Menschen die Farbwahrnehmung „rot“ aus – einige Menschen haben aber eine andere Wahrnehmung. Weil sie in der Minderheit sind, nennt man diese Menschen farbfehlsichtig – immerhin ca. 9 % der Männer und 1 % aller Frauen nehmen Farben anders wahr als die restlichen Menschen. Farbe, ein Begriff mit dem Menschen die visuelle Wahrnehmung beschreiben, ist also kein Begriff, der die Realität objektiv beschreibt. Die Farbe ist keine physikalische Eigenschaft der realen Wand, sondern steht für eine subjektive Empfindung, die von der Wand mittelbar durch reflektiertes Licht in Menschen ausgelöst wird.

1  Einführung in Virtual und Augmented Reality

3

Auch bei einem einzelnen Individuum besteht kein einfacher Zusammenhang zwischen Realität und visueller Wahrnehmung der Realität. Betrachtet man Abb. 1.1, so erkennt man auf einem Gitter angeordnete schwarze Quadrate. An den Kreuzstellen des Gitters nimmt man abwechselnd auftretende, teilweise flackernde dunkle und helle Punkte wahr. Dies entspricht aber nicht den Eigenschaften der Gitterpunkte in der Realität: Alle Gitterpunkte sind identisch und reflektieren das Licht immer gleich (sollte dieser Text mit einem e-Book-Reader gelesen werden, so sei versichert, dass hier nicht getrickst wird). In der Wahrnehmungspsychologie sind eine Reihe derartiger Phänomene beschrieben worden, die zeigen, wie das visuelle System im komplexen Prozess der Perzeption von den Sinneszellen stammende Reaktionen auf externe Reize zusammenfasst, verstärkt, herausfiltert oder neu kombiniert. Dieselben Reize können beim gleichen Individuum zu unterschiedlichen Zeitpunkten zu verschiedenen Wahrnehmungen führen, zum Beispiel je nachdem ob das Individuum sich gerade auf etwas konzentriert oder nicht – oder ob das Individuum gerade ein Glas Wodka getrunken hat oder nicht. Eine bemerkenswerte Eigenschaft des visuellen Systems ist es auch, seine Arbeitsweise über die Zeit zu ändern, sich zu adaptieren. Der Psychologe George M. Stratton machte dies durch ein eindrucksvolles Selbstexperiment Ende des 19. Jahrhunderts deutlich. Stratton trug mehrere Tage eine Umkehrbrille, welche die Welt für ihn wortwörtlich auf den Kopf stellte. Anfangs bereitete ihm dies große Schwierigkeiten, schon allein beim Essen den Mund mit der Gabel zu treffen, war für ihn eine Herausforderung. Mit der Zeit adaptierte sich aber sein visuelles System an die neuartigen Reize aus der Realität und er

Abb. 1.1   Ein Hermann-Gitter. Obwohl in der Realität alle Gitterkreuzstellen Licht immer im gleichen Umfang reflektieren, nimmt ein Mensch manchmal dort dunkle Flecken wahr. Die dunklen Flecken verschwinden, sobald man versucht, sie direkt anzuschauen

4

R. Dörner et al.

konnte wieder normal in seiner Umwelt agieren, sie bei Konzentration sogar wieder aufrecht sehen. Als er die Umkehrbrille absetzte, war er wiederum mit Problemen konfrontiert: Er verwendete beispielsweise die falsche Hand, wenn er nach etwas greifen wollte. Zum Glück für Herrn Stratton ist eine Adaption der Wahrnehmung nicht einmalig und er musste nicht für den Rest seines Lebens eine Umkehrbrille tragen, für ihn hat sich nach einem Tag wieder alles normalisiert.
Es gibt also keinen festen, eindeutigen und objektivierbaren Zusammenhang zwischen der Realität mit der von ihr auf einen Menschen wirkenden Lichtreize einerseits und der visuellen Wahrnehmung des Menschen über diese Realität anderseits. Das verschafft Spielraum, die visuelle Wahrnehmung des Menschen über die Realität zu manipulieren. Ein einfacher Weg besteht darin, einen Reiz, der von einem realen Objekt ausgeht, durch einen ähnlichen, künstlichen Reiz zu ersetzen. Kommt das visuelle System des Menschen durch diesen künstlichen Reiz angeregt zu einer ähnlichen Wahrnehmung wie dies auch durch ein reales Objekt geschehen wäre, dann kann der Mensch aufgrund dieser Wahrnehmung sogar dem Trugschluss unterliegen, dieses Objekt wäre tatsächlich in der Realität vorhanden. Bilder sind ein typisches Beispiel für diese Vorgehensweise. Wenn man in einem Menschen die visuelle Wahrnehmung „Tiger“ hervorrufen möchte, dann muss man nicht eine echte Großkatze bemühen. Man kann dem Menschen eine Fotografie eines Tigers zeigen. Natürlich ist diese Fotografie eines Tigers, ein Blatt Papier bedruckt mit auf eine bestimmte Art Licht reflektierenden Pigmenten, ein grundlegend anderes Objekt als ein Tiger aus Fleisch und Blut. Beide haben aber etwas gemeinsam: Sie reflektieren Licht auf ähnliche Weise, reizen das visuelle System auf ähnliche Weise und rufen ähnliche visuelle Wahrnehmungen im Menschen hervor.
In der Regel wird sich ein Mensch nicht so einfach täuschen lassen und einen realen Tiger von dem Foto eines Tigers unterscheiden können. Nehmen wir daher an, dass wir die Lichtreize, die von einem realen Tiger ausgehen, perfekt in das visuelle System eines Menschen einbringen könnten, z. B. indem wir über eine ins Gehirn eingepflanzte „Steckdose“ die Nervenerregungen von außen einspielen. Gehen wir in unserem Gedanken einen Schritt weiter und beschränken uns nicht allein auf die visuelle Wahrnehmung. Zwar ist die visuelle Wahrnehmung für einen Menschen die wichtigste Informationsquelle über seine Umwelt, mehr als 130 Mio. Sinneszellen (ca. 70 % aller Sinneszellen des Menschen), mehr als vier Milliarden Neuronen, d. h. mehr als ca. 40 % der Großhirnrinde, ist mit dem Sehen befasst, „der Mensch ist ein Augentier“ wie es Leonardo da Vinci formulierte. Jedoch basiert die menschliche Wahrnehmung der Realität auch noch auf anderen Sinneseindrücken. So gibt es neben den Zapfen in der Netzhaut, die auf Licht regieren, auch spezielle Sinneszellen wie die Merkel-Zellen, welche auf Druck ansprechen oder die Vater-Pacini-Körperchen, die durch Beschleunigungen gereizt werden. Nehmen wir daher weiter an, dass wir die Reaktion all dieser anderen Sinneszellen auch über die gedachte „Steckdose“ direkt ins Gehirn einspielen könnten. Neben dem Sehen (der visuellen Wahrnehmung) würden wir also auch noch
• das Hören (die auditive Wahrnehmung), • das Riechen (die olfaktorische Wahrnehmung),

1  Einführung in Virtual und Augmented Reality

5

• das Schmecken (die gustatorische Wahrnehmung), • das Erfühlen (die haptische Wahrnehmung), • und als Teil des Erfühlens auch das Tasten (die taktile Wahrnehmung), • den Gleichgewichtssinn (die vestibuläre Wahrnehmung), • die Körperempfindung (die Propriozeption), • das Temperaturgefühl (die Thermozeption), • sowie die Schmerzempfindung (die Nozizeption)
manipulieren. Wären wir dann in der Lage, die von einem Tiger ausgehenden Reize durch einen Computer so errechnen zu lassen und in das Gehirn eines Menschen einzuspielen, dass dieser davon überzeugt wäre, einen realen Tiger vor sich zu haben? Könnten wir einen Menschen damit in eine scheinbare Wirklichkeit, eine Virtuelle Realität versetzen, die der Mensch von der echten Realität nicht mehr unterscheiden könnte, die eine perfekte Illusion einer Realität wäre?
Dies sind faszinierende Fragen, mit denen sich z. B. die Wachowski-Geschwister in ihrem Film „Die Matrix“ und dessen Fortsetzungen anschaulich auseinandergesetzt haben. Auch andere Filme wie „Vanilla Sky“ und Science-Fiction-Romane etwa von Stanislaw Lem thematisieren diese Fragestellung. Sie berührt auch philosophische Fragen, wie sie Platon vor über 2400 Jahren mit seinem Höhlengleichnis aufgeworfen hat. Platon fragte sich, wie Menschen reagieren, die seit ihrer Kindheit in einer Höhle gefangen und mit dem Kopf so fixiert wurden, dass sie in ihrem Rücken befindliche Gegenstände nie direkt sehen, sondern nur deren Schatten wahrnehmen, der auf die für sie sichtbare Höhlenwand geworfen wird. Nach Platon’s Ideenlehre erkennen wir die Realität – das wahre Seiende – nicht direkt, sondern sind nur in der Lage indirekt „Schatten“, Abbilder der Realität in unserer „Höhle“, unserer durch den Bereich sinnlicher Erfahrungen eingeschränkten Welt, wahrzunehmen. Ähnliche Ideen finden sich aber auch z. B. in der indischen Mythologie, in der Maya, die Göttin der Illusion, die Menschen dazu bringt, die Realität nicht direkt zu erkennen, sondern nur eine durch uns selbst und unsere Wahrnehmung erzeugte Projektion der Welt.
Der französische Philosoph René Descartes geht einen Schritt weiter und sagt, dass unsere Wahrnehmung der Realität kein unvollkommenes Abbild, sondern eine komplette Täuschung sein könnte und alles Wissen über die Realität anzuzweifeln ist. Er führt die Figur des Genius malignus ein, des bösen Geistes, der Menschen eine Realität vortäuscht, die gar nicht existiert. Sie lesen also gerade gar kein Buch, sondern ein böser Geist macht Sie glauben, Sie hätten Augen und könnten damit ein Buch lesen, das aber in Wirklichkeit gar nicht existiert. Der Geist ist sogar so böse, dass es sich ausgerechnet um ein Lehrbuch über Virtuelle Realität handelt.
Die philosophische Richtung des Skeptizismus bezweifelt, dass es so etwas wie eine Realität, so etwas wie grundlegende Wahrheiten überhaupt gäbe. Mit dem „Brain in a Vat“ („Gehirn im Bottich“)-Experiment, einem Gedankenexperiment ähnlich unseren

6

R. Dörner et al.

Überlegungen, in dem man davon ausgeht, dass ein Gehirn aus einem Menschen herausgelöst in einem Bottich mit Nährlösung schwimmend von einem Computer mit Impulsen versorgt wird, die eine scheinbare Realität vorgaukeln, begründen die Anhänger des Skeptizismus ihre Haltung. Sie beantworten unsere Frage, ob das Bewusstsein in diesem Gehirn die vorgetäuschte Realität von seiner echten Realität, nämlich das körperlose Schwimmen in einem Bottich, unterscheiden kann, mit einem klaren „Nein“. Daher, so das Argument, können wir uns nie sicher sein, ob wir uns gerade nicht doch in einer Virtuellen Realität befinden – so wie die meisten Menschen im Spielfilm „Die Matrix“ niemals mitbekommen, wie ihre tatsächliche Realität überhaupt aussieht.

1.1.2	Die Simulation der Welt
Um eine perfekte Virtuelle Realität zumindest in Ansätzen zu verwirklichen, müssen Reize erzeugt werden, die einen Menschen die Virtuelle Realität wahrnehmen lassen. In den ersten Flugsimulatoren wurde dazu eine Videokamera auf einem Gestänge befestigt und über eine reale Modelllandschaft ähnlich einer Spielzeugeisenbahn bewegt. Die von der Kamera aufgenommenen Bilder wurden den Piloten im Flugsimulator angezeigt, der so ein Bild einer Virtuellen Realität wahrnehmen konnte, wenn er aus dem Cockpit geblickt hat. Ein modernerer Ansatz wäre, die Bilder bzw. die Lichtreize für die Virtuelle Realität mit Hilfe von Computergraphik zu generieren.
Die Erzeugung der Reize ist aber nur eine Aufgabe auf dem Weg zur perfekten Virtuellen Realität. Der Mensch möchte die Welt nicht nur betrachten und fühlen, sondern auch in der Welt handeln. Nimmt ein Mensch in der Virtuellen Realität beispielsweise einen Fußball wahr, dann möchte er vielleicht auch gegen den Ball treten können und dem Ball danach hinterher laufen. Dies erfordert, dass die Virtuelle Welt simuliert wird, die Aktionen des Menschen der Simulation bekannt sind und diese Aktionen so die Simulation beeinflussen können. Die Ergebnisse der Simulation haben wiederum Auswirkungen auf die Erzeugung der Reize – bewegt sich der Mensch in der Virtuellen Realität, muss auch die Reizerzeugung die neue Position berücksichtigen. Die Aufgabe der Simulation kann ein Computersystem übernehmen, das dazu über ein Simulationsmodell der Welt verfügen muss. Das Simulationsmodell der Welt legt das Verhalten der Virtuellen Realität fest. Dabei sind sowohl Reaktionen der Welt bezüglich der Aktionen des Menschen zu simulieren, aber auch Änderungen in der Virtuellen Welt, die von Aktionen des Menschen unabhängig sind. So könnte etwa ein von Menschen nicht beeinflussbarer Tag-Nacht-Zyklus in der Virtuellen Welt durch Simulation nachgeahmt werden.
Man kann anstreben, das Simulationsmodell der Welt so aufzubauen, dass das Verhalten der Virtuellen Welt möglichst exakt dem der Realität entspricht. Tritt der Mensch

1  Einführung in Virtual und Augmented Reality

7

gegen einen virtuellen Fußball, dann würde die Weltsimulation den Ball gemäß den bekannten physikalischen Gesetzen bewegen – der Ball hätte eine virtuelle Masse, einen virtuellen Reibungswiderstand und würde auf abschüssigem virtuellem Gelände weiter rollen, bis er eine Ruheposition erreicht hat. In der Virtuellen Realität ist man aber nicht an die Gesetze der Realität gebunden. Ein Tritt gegen den virtuellen Fußball könnte beispielsweise auch bewirken, dass der Ball sich auf Schlangenlinien bewegt – oder sich in einen Truthahn verwandelt. So kann man fantastische Virtuelle Welten aufbauen, Virtuelle Welten, die in einer gedachten Zukunft spielen, oder Virtuelle Welten, welche vergangene Zeiten nachbilden.
Das Computersystem, das die Erkennung der Aktionen des Menschen, die Simulation der Virtuellen Welt und die Reizerzeugung für den Menschen als Aufgabe hat, kann ein hochkomplexes System werden. Die Simulation eines einzigen virtuellen Menschen – darunter fällt die Generierung von realitätsnahen Bildern von Haut und Kleidung, die Sprachsynthese, die Simulation menschlichen Verhaltens, von Emotionen, von Ironie, von Zielstrebigkeit – ist heute eine große Herausforderung. Die Herausforderung wird noch vergrößert durch die Anforderung, dass dieses Computersystem in Echtzeit arbeiten, d. h. mit dem Menschen Schritt halten muss. Dies impliziert, dass Berechnungen nicht beliebige Zeit beanspruchen dürfen, sondern strikte Zeitvorgaben einhalten müssen. So muss eine Vielzahl von Bildern für die Virtuelle Realität pro Sekunde erzeugt werden, damit der menschliche Betrachter Bewegungen in der Virtuellen Welt als kontinuierlich und natürlich wahrnimmt. Die benötigte Anzahl an Bildern pro Sekunde ist abhängig vom Betrachter und seiner aktuellen Situation – typischerweise werden 60 Bilder pro Sekunde für die Erfüllung der Forderung nach Echtzeit benötigt (hat der Betrachter eine größere Menge Alkohol im Blut, können aber auch schon 4 Bilder pro Sekunde genügen). Dies bedeutet, dass die Bilderzeugung durch das Computersystem unter Umständen nicht mehr als 16 ms in Anspruch nehmen darf. Bei der Erzeugung von haptischen Reizen sind die Echtzeitbedingungen noch schärfer: in der Regel 1000 mal pro Sekunde müssen diese an den Menschen in der Virtuellen Realität gegeben werden.

Ein VR-System nennen wir ein Computersystem, das aus geeigneter Hardware und Software besteht, um die Vorstellung einer Virtuellen Realität zu erzeugen. Den mit dem VR-System dargestellten Inhalt bezeichnen wir als Virtuelle Welt. Die Virtuelle Welt umfasst z. B. Modelle von Objekten, deren Verhaltensbeschreibung für das Simulationsmodell und deren Anordnung im Raum. Wird eine Virtuelle Welt mit einem VR-System dargestellt, sprechen wir von einer Virtuellen Umgebung für einen oder mehrere Nutzer.

8

R. Dörner et al.

1.1.3	Suspension of Disbelief
Die Matrix im gleichnamigen Spielfilm und das Holodeck in der Fernsehserie Star Trek versetzen beide einen Menschen in eine Virtuelle Realität. Dabei gibt es einen entscheidenden Unterschied: In der Matrix wissen die Menschen nicht, dass sie sich überhaupt in einer Virtuellen Realität befinden. Das Holodeck auf dem Raumschiff Enterprise betreten die Menschen bewusst, sie gehen durch eine Tür in die scheinbare Wirklichkeit und wissen, dass es sich um eine Simulation handelt, sie sich in Wirklichkeit dennoch in einer großen Halle befinden. Trotzdem scheinen die Personen das Holodeck als sehr real zu empfinden. Stört es denn nicht, wenn man weiß, dass man sich in einer Virtuellen Realität befindet? Kann dann die Illusion einer Virtuellen Realität überhaupt zustande kommen?
Betrachten wir folgendes Experiment: Wir setzen einer Person einen Helm auf, in dem zwei kleine Monitore, für jedes Auge einer, angebracht sind. Die Person kann die Umwelt nicht mehr visuell wahrnehmen, sondern nur die Bilder in den Monitoren, die von außen eingespielt werden. In dem Helm ist ein Sensor eingebaut, der ermitteln kann, wie die Person gerade den Kopf hält und wo sie sich befindet. Diese Information wird genutzt, um die erzeugten Bilder der aktuellen Kopfhaltung anzupassen: Schaut die Person nach oben, werden ihr Bilder vom Himmel gezeigt, neigt die Person den Kopf nach unten, dann sieht sie den Boden, geht die Person einen Schritt nach vorn, dann werden ihr Bilder von diesem neuen Standpunkt gezeigt. Wir erzeugen mit dem Computer Bilder vom Dach eines virtuellen Wolkenkratzers und wollen den Eindruck vermitteln, dass die Person in schwindelnder Höhe an der Gebäudekante eines riesigen Gebäudes steht. Beobachtet man Personen in dieser Situation, so sieht man häufig, dass diese sich sehr langsam und vorsichtig nach vorn bewegen. Je näher sie an die Gebäudekante treten, desto schneller werden Puls und Atmung, Hände werden feucht. Typische Angstreaktionen, die bei einer Gefahr wie einem Abgrund in der Realität hervorgerufen werden. Dabei ist den Personen jederzeit bewusst, dass das Gebäude nur virtuell ist, dass sich in der Realität überhaupt kein Abgrund befindet, dass sie sicher in einem Zimmer stehen. Dennoch erliegen sie der Illusion einer Virtuellen Realität und reagieren auf sie wie auf die reale Welt.
Menschen haben die Eigenschaft in bestimmten Situationen den augenscheinlichen Widerspruch einer virtuellen oder fiktiven Welt zur Realität auszublenden und dies auch zu wollen. Der Philosoph Samuel T. Coleridge prägte dafür den englischen Ausdruck „willing suspension of disbelief“ (dt. willentliches Ausblenden des Unglaubens). Zum Zwecke der Unterhaltung sind Menschen etwa bereit, die Figur Dagobert Duck und seine Virtuelle Welt Entenhausen als existent anzunehmen, auch wenn man weiß, dass diese Figur nur aus gezeichneten Strichen besteht und aus der Realität bekannt ist, dass ältere Erpel nicht in Geld baden. In synchronisierten Filmen blendet man aus, dass James Bond als englischer Agent offensichtlich nicht ständig perfekt deutsch spricht. Dabei ist diese „Suspension of Disbelief“ nicht einfach zu beschreiben und teilweise auch selektiv.

1  Einführung in Virtual und Augmented Reality

9

Der Cartoonist Gary Larson schildert die Empörung seiner Leser darüber, dass in einem seiner Cartoons ein Eisbär von Pinguinen umgeben ist. Die Leser kritisieren, dass dies unmöglich sei, da Eisbären am Nordpol, Pinguine aber am Südpol leben – stören sich aber nicht im Geringsten daran, dass die Pinguine in dem Cartoon miteinander sprechen und der Eisbär sich als Pinguin verkleidet hat.
Für die Erzeugung einer Virtuellen Realität bedeutet diese menschliche Eigenschaft des Ausblendens von Unglauben, dass man nicht zu drastischen Maßnahmen, etwa Löcher in die Schädeldecke bohren und das Gehirn direkt manipulieren, greifen muss, um Menschen in eine Virtuelle Realität zu versetzen, in der sie sich präsent fühlen. So kann man Virtuelle Realitäten in verschiedenen Ausbaustufen erzeugen, die perfekte Virtuelle Realität wie wir sie eingangs thematisiert haben, ist die extreme Ausbaustufe. Tatsächlich lassen sich auch schon heute mit relativ geringem Aufwand glaubhafte Virtuelle Umgebungen realisieren.

1.1.4	Motivation
Wozu das Ganze? Warum sollte man überhaupt eine Virtuelle Realität aufbauen und Menschen in diese versetzten wollen? Was macht es für einen Sinn, sich mit Virtuellen Realitäten zu beschäftigen? Auf diese Fragen gibt es vielfältige Antworten. Einige davon wollen wir im Folgenden betrachten.
Wenn die Weltsimulation von einem Computer durchgeführt wird, dann bildet die Virtuelle Realität die Schnittstelle zwischen Computersystem und Mensch. Daher realisiert jede Virtuelle Realität eine Mensch-Maschine-Schnittstelle. Diese kann sich dadurch auszeichnen, besonders natürlich und intuitiv zu sein. So ist beispielsweise statt Maus und Tastatur die Nutzung eines Lenkrads und von Fußpedalen für ein Autorennspiel ein Schritt hin zu einer Virtuellen Realität, welche die Bedienung des virtuellen Autos und dessen Navigation durch die Virtuelle Welt natürlicher werden lässt. Eine perfekte Virtuelle Realität kann man dann als perfekte Benutzungsschnittstelle für Software begreifen: Die Nutzer können einfach so handeln, wie sie es in der Welt gewohnt sind, sie blenden komplett aus, dass sie überhaupt mit einem Computerprogramm interagieren. Insofern kann die Beschäftigung mit Virtueller Realität als methodischer Ansatz verstanden werden, neue Formen von Mensch-Computer Interaktion dadurch zu finden, dass man auf eine Vision einer perfekten Virtuellen Realität hinarbeitet. Auch wenn diese Vision vielleicht nie erreicht wird (oder man dies gar nicht möchte, weil eine umfängliche Manipulation von Menschen ethisch zumindest fragwürdig ist), können auf dem Weg dahin wertvolle neue Ideen aufkommen und innovative Benutzungsschnittstellen konzipiert werden, die Menschen den Umgang mit Computersystemen erleichtern.
Erleichtern kann man Menschen auch das Aufnehmen und Verstehen von Daten, indem man die Daten mit einer Virtuellen Realität veranschaulicht. Zum Beispiel haben Architekten durch jahrelanges Studium und durch Erfahrung die Fähigkeit erworben, durch Betrachten von 2D-Bauplänen sich ein Gebäude vor ihrem geistigen Auge

10

R. Dörner et al.

vorzustellen – viele Bauherren verfügen über diese Fähigkeit nicht. Virtuelle Realität kann die Daten in den Bauplänen auch für Bauherren so visualisieren, dass diese einen sehr guten Eindruck von dem Gebäude erhalten und Entscheidungen hinsichtlich Realisierungsalternativen fundierter treffen können. Komplexe Ergebnisse von Computersimulationen, z. B. die Berechnung wie Luft an einem neu geplanten Fahrzeug entlang strömen würde, lässt sich direkt an einem virtuellen Fahrzeug visualisieren. Ingenieure und Designer können in der Virtuellen Welt zusammenarbeiten, um ästhetisch ansprechende Karosserieformen zu entwickeln, die Luftverwirbelungen vermeiden und den Luftwiderstand des Fahrzeugs senken. Auch gänzlich abstrakte Daten können in einer Virtuellen Realität dargestellt werden. So kann man einen Analysten in eine Virtuelle Welt von Finanzdaten versetzen.
Virtuelle Realitäten bieten Forschern Werkzeuge, mehr über die menschliche Wahrnehmung heraus zu finden. So kann man Experimente in einer Virtuellen Realität durchführen, die helfen, Aufschluss darüber zu erlangen, wie Menschen sich in einem dreidimensionalen Raum orientieren. Neben einem Erkenntnisgewinn in der Wissenschaft können Virtuelle Realitäten auch einen ganz praktischen Nutzen mit handfesten finanziellen Vorteilen bieten wie Fallbeispiele zeigen, z. B. über die Nutzung von VR in der Öl- und Gasindustrie (vgl. Abschn. 9.3).
Kaum ein Auto wird heute mehr gebaut ohne Nutzung von Methoden aus der Virtuellen Realität. So können beispielsweise Entwürfe realitätsnäher visualisiert und Prototypen kostengünstiger erstellt werden, als dies im traditionellen Modellbau der Fall ist. Wie die Roboter in Fertigungsstraßen von Automobilen auf ein neues Automodell eingestellt werden, kann vor Produktionsbeginn in einer Virtuellen Welt simuliert und den beteiligten Personen in einer Virtuellen Realität dargestellt werden. Die Analyse der Planung und die Beseitigung von Planungsfehlern in einer virtuellen Anlage oder in einer virtuellen Fabrik ist deutlich einfacher und verursacht weniger Kosten als dies in der realen Welt vorzunehmen.
Piloten werden für ihre Schulung in einem Flugsimulator in eine Virtuelle Realität versetzt. Dadurch, dass kein reales Flugzeug verwendet wird, spart die Fluggesellschaft Geld ein. Aber das Training in der Virtuellen Realität hat nicht nur finanzielle Vorteile. Es wird weniger CO2 als durch das Verbrennen von Kerosin bei einem realen Flugzeug freigesetzt, was der Umwelt zugutekommt. Im Vergleich zu einem realen Flugzeug können darüber hinaus auch Extremsituationen gefahrlos mit den Piloten geprobt werden. Neben Flugsimulatoren sind auch Simulatoren von Schiffen, Straßenbahnen, Zügen und LKW gebräuchlich. Die Deutsche Flugsicherung betreibt einen virtuellen Flughafen, in dem Fluglotsen trainieren können. Ein weiteres Beispiel ist das Training von Personal für komplexe Anlagen, wie z. B. die Bedienung des Leitstands eines Kohlekraftwerks oder die Wartung von Flugzeugen. Virtuelle Realität erlaubt das Training schon vor der Fertigstellung des realen Objektes, sodass gut ausgebildetes Personal bereits zum Zeitpunkt der Inbetriebnahme zur Verfügung steht. Neben der Ausbildung im zivilen Bereich hat Virtuelle Realität auch ein Anwendungspotenzial im Bereich des Militärs. So werden beispielsweise Besatzungen von Kampfjets oder Panzern in Virtuellen Umgebungen trainiert.

1  Einführung in Virtual und Augmented Reality

11

Die Deutsche Bahn bietet interessierten Personen an, gegen Bezahlung in einem ICE-Simulator durch ein virtuelles Deutschland zu fahren. Dies ist ein Beispiel, wie Virtuelle Realität zu Unterhaltungszwecken in Simulationsspielen genutzt wird. Andere Spielgenres profitieren auch vom Einsatz einer Virtuellen Realität, so können Spieler in Adventure Games Abenteuer in fantastischen Welten erleben. Ganz realitätsnah können Touristen historische Städte wie z. B. das alte Rom erfahren, indem sie es in einer Virtuellen Realität besichtigen können. Museen können Geschichte in Virtuellen Realitäten sinnlich erfahrbar machen. Künstler nutzen Virtuelle Realität für Installationen. Virtuelle Realität weckt Interesse und kann als Blickfang dienen – entsprechend bietet sie Potenziale für den Bereich Marketing etwa auf Messeständen.
In der Medizin ergeben sich Einsatzmöglichkeiten im Trainingsbereich. Ärzte können Operationen in einer Virtuellen Realität gefahrlos für die Patienten üben und planen. Pflegepersonal kann den Umgang mit Patienten trainieren. Virtuelle Realität kann sogar der Behandlung dienen. Wie bereits beschrieben, kann man Personen an einem virtuellen Abgrund positionieren. Damit kann man Personen mit Höhenangst mit für sie kritischen Situationen konfrontieren und so ihre Phobie behandeln. In einer Virtuellen Realität können die Ängste auslösenden Faktoren gefahrlos, kontrolliert und dosiert in der Behandlung von Phobien eingesetzt werden.
Der Bereich der Einsatzmöglichkeiten von Virtueller Realität kann deutlich erweitert werden, indem man versucht, den Menschen von der Realität nicht komplett abzuschotten und in eine alternative Virtuelle Welt zu versetzen. Man kann stattdessen anstreben, Teile einer Virtuellen Welt in die Realität zu integrieren. Betrachten wir noch einmal das bereits geschilderte Beispiel, bei dem wir eine Person an einen virtuellen Abgrund gestellt haben. Wäre es für die Wirkung nicht effektiver, der Person keinen Helm aufzusetzen und sie stattdessen auf eine große Glasplatte zu stellen? Auf diese Glasplatte würden von unten ein Bild aus der Virtuellen Welt projiziert werden anstatt dies in die kleinen Monitore im Helm einzuspielen. Schaut die Person nach unten, kann sie nicht nur die virtuelle Gebäudekante sehen, sondern auch die eigenen realen Füße. Die Person nimmt also die Realität nach wie vor wahr, aber auch zusätzlich an einigen Stellen passend in die Realität integrierte Teile aus einer Virtuellen Welt. Die Idee, Bilder aus der Realität in Echtzeit durch genau passende virtuelle Teilbilder zu erweitern, eröffnet ein ganzes Feld neuer Anwendungsmöglichkeiten von VR-Technologien. Ein anderes Beispiel ist die Verwendung eines speziellen Fernglases, das ähnlich den bekannten Münzferngläsern an Aussichtspunkten fest installiert wird. Beim Blick durch das Fernglas sieht der Nutzer aber nicht nur die Realität, sondern es werden zum gerade betrachteten Bereich der Realität passend auch Teile einer Virtuellen Realität eingeblendet. Schaut der Betrachter also beispielsweise auf den verfallenen Turm einer alten Burgruine, so kann das Fernglas genau an dieser Stelle einen virtuellen Turm einblenden, so wie er vor mehreren Jahrhunderten ausgesehen haben mag. Man spricht in diesem Fall nicht mehr von einer Virtuellen Realität (VR), sondern von einer erweiterten, einer Augmentierten Realität (AR). Die virtuellen und realen Anteile an einem Bild können unterschiedlich sein, es gibt einen fließenden Übergang. Von einer AR spricht

12

R. Dörner et al.

man, wenn die realen Anteile überwiegen. Als übergreifender Begriff ist Mixed Reality (MR) gebräuchlich. In Abschn. 1.2 betrachten wir VR genauer, während AR Thema von Abschn. 1.3 ist.
Es gibt also vielfältige Gründe und Motivationen, sich mit VR und darüber hinaus auch mit AR zu beschäftigen und entsprechende Virtuelle und Augmentierte Welten zu realisieren. Will man dies tatsächlich tun, sieht man sich mit ebenso vielfältigen Fragen konfrontiert. Was muss man beachten, wenn man Personen in eine Virtuelle Welt versetzen will? Wodurch wird diese glaubhaft? Was ist für das Erreichen von Suspension of Disbelief förderlich – und was kann diese zerstören? Welchen Aufwand muss man in einem bestimmten Einsatzgebiet dafür treiben? Wie wird das Vermitteln unterschiedlicher Reize aus einer VR technisch realisiert? Welche Geräte gibt es, die einer Person das Eintauchen in die Virtuelle Realität erleichtern? Wie ist ein Computersystem aufgebaut, das die entsprechenden Reize erzeugt, z. B. Bilder aus einer realitätsnahen VR generiert? Welche Systemarchitektur hat ein VR-System? Welche Schnittstellen gibt es, welche Normen und Standards? Wie baut man Simulationsmodelle für die Weltsimulation einer VR auf? Wie erhält die Simulation Informationen über die Aktionen der Personen? Wie können sich Personen in einer Virtuellen Welt bewegen? Welche Algorithmen werden in VR genutzt? Welche Laufzeit haben diese? Wie kann das VR-System Echtzeitanforderungen erfüllen? Bei der Betrachtung von AR im Vergleich zu VR treten auch zusätzliche Fragestellungen auf: Mit welcher Technologie blendet man Teile einer Virtuellen Welt in die Realität ein? In welchem Verhältnis stehen virtuelle und reale Objekte? Können sie sich gegenseitig verdecken? Wie wird ein virtuelles Objekt mit einer realen Lichtquelle beleuchtet? Wie wirft ein virtuelles Objekt einen Schatten auf ein reales Objekt? Wie kann man ein virtuelles Objekt auf ein reales Objekt stellen?
In der Wissenschaft, aber auch in der praktischen Realisierung haben sich bereits viele Personen mit derartigen Fragen auseinandergesetzt und zum Finden von Antworten beigesteuert. In diesem Lehrbuch werden grundlegende wissenschaftliche Erkenntnisse im Bereich VR und AR vermittelt und deren praktischer Einsatz anhand von Fallbeispielen illustriert. Das im Buch vermittelte Wissen ist ein solides Fundament für alle, die VR und AR praktisch einsetzen möchten, aber auch für diejenigen, die selbst durch Forschung und Entwicklung auf dem Gebiet einen Beitrag hin zur Vision einer perfekten Virtuellen Realität leisten möchten.

1.2	Was ist VR?
Wie aus den einführenden Erläuterungen hervorgeht, kann man sich dem Gebiet der VR auf sehr unterschiedliche Weise annähern. Am visionären Ende des Spektrums, z. B. in Science-Fiction Filmen der Populärkultur, wird „perfekte VR“ als umfassende Simulation dargestellt, welche für den Menschen nicht mehr von der echten Realität unterscheidbar ist. Am praktischen Ende des Spektrums ist VR seit längerem als Werkzeug für die Produktentwicklung in vielen Industriebranchen fest etabliert. Im Folgenden soll

1  Einführung in Virtual und Augmented Reality

13

es nun um eine genauere Charakterisierung der Inhalte von VR als Technologie- und Wissenschaftsgebiet gehen.
VR ist ein relativ junges Wissenschaftsgebiet, dessen Weiterentwicklung u. a. stark von rasanten Fortschritten bei der zugrunde liegenden Hardware getrieben wird. Angesichts dessen mag es nicht zu sehr überraschen, dass das Wissenschaftsgebiet der VR bisher noch keine einheitliche Definition von „Virtueller Realität“ hervorgebracht hat. Nichtsdestotrotz besteht recht weitgehende Übereinkunft zu den wesentlichen bzw. wünschenswerten Merkmalen von VR. Die folgenden Charakterisierungen der VR nehmen unterschiedliche Blickwinkel ein, um VR-Systeme von traditionellen MenschComputer-Schnittstellen zu differenzieren: die Schwerpunktsetzung auf technologische Aspekte, die Herausstellung der VR als neue Form der Mensch-Computer-Interaktion, sowie die Betonung der mentalen Erfahrung von VR.

1.2.1	Technologieorientierte Charakterisierungen der VR

„The ultimate display would, of course, be a room within which the computer can control the existence of matter. A chair displayed in such a room would be good enough to sit in. Handcuffs displayed in such a room would be confining, and a bullet displayed in such a room would be fatal. With appropriate programming such a display could literally be the Wonderland into which Alice walked.“ (Sutherland 1965)

Ein unverkennbares Merkmal in vielen bildlichen Darstellungen von VR-Systemen liegt in den besonderen Ein- und Ausgabegeräten wie am Kopf des Nutzers z. B. in Form von Helmen angebrachte Displays (engl. Head-Mounted Displays), spezielle Stereobrillen oder Datenhandschuhe. Dementsprechend besteht eine Möglichkeit zur Charakterisierung der VR in der Herausstellung von deren technologischen Aspekten. Eine gewisse Gefahr bei technologiezentrierten Ansätzen besteht allerdings darin, dass sich die Definitionen der VR zu sehr auf konkrete Ein- und Ausgabegeräte (z. B. „verkabelte Datenanzüge“) beziehen, welche durch technologischen Fortschritt rasch überholt werden. „Zukunftssichere“ Definitionen der VR sollten auch mit visionären Vorstellungen wie Sutherland’s Ultimate Display oder dem Holodeck aus Star Trek kompatibel sein. Folgende technologieorientierte Charakterisierungen aus den frühen Jahren der VR treffen auch noch auf heutige VR-Systeme zu:

„Virtual Reality (VR) refers to the use of three-dimensional displays and interaction devices to explore real-time computer-generated environments.“ (Steve Bryson, Call for Participation 1993 IEEE Symposium on Research Frontiers in Virtual Reality)

14

R. Dörner et al.

„Virtual Reality refers to immersive, interactive, multi-sensory, viewer-centered, three-dimensional computer-generated environments and the combination of technologies required to build these environments.“ (Carolina Cruz-Neira, SIGGRAPH ’93 Course Notes „Virtual Reality Overview“)

Diese Charakterisierungen der VR lassen sich vielleicht am besten in Abgrenzung zur „traditionellen“ Computergraphik verstehen, als dem Wissenschaftsgebiet, aus welchem die VR hervorgegangen ist. So baut VR auf 3D-Inhalten der Computergraphik auf, fokussiert aber insbesondere auf Echtzeit-Computergraphik. Passend zu den 3D-Inhalten kommen dreidimensionale Displays zu deren Darstellung zum Einsatz. Bei visuellen VR-Displays wird dies z. B. durch den Einsatz stereoskopischer Verfahren erreicht. Die Präsentation der 3D-Inhalte erfolgt oft multisensorisch, indem neben dem Sehsinn auch weitere Sinne wie Hörsinn oder Tastsinn angesprochen werden. Mit 3D-Interaktionsgeräten sind Eingabegeräte gemeint, deren Position und Orientierung im 3D-Raum verfolgt werden kann (engl. Tracking). Während mit einer klassischen Maus bei Desktop-Systemen nur die 2D-Position des Cursors verfolgt wird, werden in VR-Systemen z. B. oft Systeme für 3D-Tracking zur Realisierung natürlichen Zeigens verwendet. Durch das Tracking von Körperbewegungen kann z. B. das Greifen virtueller Objekte simuliert werden. Interaktivität bezieht sich u. a. darauf, dass der Nutzer sensorische Rückmeldung auf seine Eingaben erhält, z. B. indem Handbewegungen direkt auf ein virtuelles Handmodell abgebildet werden. Das Tracking der Nutzerposition und der Nutzerorientierung (z. B. in Form des Verfolgens des Kopfes durch sogenanntes Head-Tracking) ist Grundlage für ein weiteres Kennzeichen von VR-Systemen: die blickpunktabhängige Bildgenerierung. Bewegt sich der VR-Nutzer, so wird die 3D-Umgebung automatisch aus dessen neuer Perspektive dargestellt. Steve Bryson hat diese grundlegende Bedeutung dieser Eigenschaft prägnant auf den Punkt gebracht: „If I turn my head and nothing happens, it ain’t VR!“
Immersion wird in der Literatur oft als zentrales Merkmal zur Unterscheidung von VR und anderen Mensch-Maschine-Schnittstellen herausgestellt. Leider wird der Begriff der Immersion in der Literatur auch in uneinheitlichem Sinne benutzt. Wir werden Immersion in einem technischen Sinne verwenden. Danach wird durch Immersion gefordert, dass die Sinneseindrücke des VR-Teilnehmers möglichst umfassend durch ein oder mehrere Ausgabegeräte angesprochen werden. Nach Slater und Wilbur (1997) gründet Immersion auf vier technischen Eigenschaften von Ausgabegeräten: a) die Sinneseindrücke des Menschen sollen möglichst ausschließlich durch den Computer generiert werden, d. h. der Nutzer soll weitestgehend von der realen Umgebung isoliert werden; b) möglichst viele Sinne sollen angesprochen werden; c) die Ausgabegeräte sollen den Nutzer vollständig umgeben, anstatt nur ein enges Sichtfeld zu bieten; d) zudem sollen die Ausgabegeräte eine „lebendige“ Darstellung bieten, z. B. durch hohe Auflösung und Qualität der Farbdarstellung. Immersion ist somit ein graduelles Merkmal, das von verschiedenen Displays in unterschiedlichem Maße umgesetzt wird. So stellen z. B.

1  Einführung in Virtual und Augmented Reality

15

Head-Mounted Displays (HMD) immersive Displays dar, da die visuellen Eindrücke des Betrachters praktisch ausschließlich computergeneriert sind. Ein HMD mit großem Sichtfeld ist immersiver als ein HMD mit kleinerem Sichtfeld. Projektionen mit mehreren Seiten wie CAVEs (vgl. Abschn. 9.2) sind immersiver als Projektionen mit einer Seite.
Vollständige Immersion ist eine Zielvorstellung, die durch heutige VR-Displays mehr oder minder umgesetzt wird. Mit der Bezeichnung immersive VR sind z. B. VR-Systeme auf Grundlage von HMDs und CAVEs gemeint. Bei Desktop-Systemen, die z. B. stereoskopische Darstellung und Head-Tracking umsetzen, spricht man manchmal auch von nicht-immersiver VR.
Neben der hier gewählten Begriffsverwendung von Immersion als technische Eigenschaft von VR-Displays wird bei manchen Autoren auch eine mentale Qualität beim Erleben von VR mit dem Begriff Immersion verbunden, z. B. (Witmer und Singer 1998). Zur Unterscheidung der beiden Verwendungen spricht man auch von physikalischer Immersion und mentaler Immersion (Sherman und Craig 2003) sowie manchmal auch von physiologischer bzw. psychologischer Immersion (Sadowsky und Stanney 2002).
Tab. 1.1 fasst die Unterscheidungsmerkmale von VR zu konventioneller Computergraphik zusammen.

1.2.2	VR als innovative Form der Mensch-Maschine Interaktion

„The promise of immersive virtual environments is one of a three-dimensional environment in which a user can directly perceive and interact with three-dimensional virtual objects. The underlying belief motivating most virtual reality (VR) research is that this will lead to more natural and effective human-computer interfaces.“ (Mine et al. 1997)

Tab. 1.1  Merkmale von VR im Vergleich zu konventioneller Computergraphik

3D-Computergraphik

Virtuelle Realität

Rein visuelle Präsentation

Multimodale (d. h. mehrere Sinnesmodalitäten ansprechende also z. B. gleichzeitig visuelle, akustische und haptische) Präsentation

Präsentation nicht notwendigerweise zeitkritisch

Echtzeitdarstellung

Betrachterunabhängige Präsentation (exozentrische Perspektive)

Betrachterabhängige Präsentation (egozentrische Perspektive)

Statische Szene oder vorberechnete Animation Echtzeitinteraktion und -simulation

2D-Interaktion (Maus, Tastatur)

3D-Interaktion (Körperbewegung, Hand-, Kopf- u. Körpergestik) + Spracheingabe

Nicht-immersive Präsentation

Immersive Präsentation

16

R. Dörner et al.

Eine andere Möglichkeit zur Charakterisierung der VR besteht in der Betonung des Ziels der Erschaffung von Mensch-Maschine-Schnittstellen, die im Vergleich zu traditionellen Benutzungsschnittstellen ein besonders natürliches oder intuitives Interagieren mit der dreidimensional simulierten Umgebung ermöglichen (vgl. Abb. 1.2).
Graphische Benutzungsschnittstellen (engl. Graphical User Interfaces, GUIs), z. B. WIMP (Windows, Icons, Menus, Pointing)-Schnittstellen, stellen ein Paradigma der Mensch-Maschine Interaktion dar, das über mehrere Jahrzehnte dominant gewesen ist. Pointing bezieht sich dabei auf ein Zeigegerät, zumeist eine Computermaus. Das WIMP-Paradigma, das ursprünglich im Hinblick auf Aufgaben der Dokumentenverarbeitung entwickelt wurde, erweist sich aber bei Manipulation von 3D-Inhalten als eher ineffizient. Soll z. B. ein Objekt im 3D-Raum neu positioniert werden, so könnte dies in VR auf natürliche Weise durch Greifen und Verschieben des Objekts erfolgen. Bei 2D-GUIs muss diese Aufgabe dagegen gewöhnlich in mehrere Teilaufgaben zerlegt werden, z. B. Verschieben in der xy-Ebene, danach Verschieben in z-Richtung. Neben dem zusätzlichen motorischen Aufwand (z. B. zwei 2D-Mausbewegungen statt einer Handbewegung im 3D-Raum) entsteht dabei auch zusätzlicher kognitiver Aufwand bei der Selektion der nächsten Teilhandlung (wie sagt man dem Interface, dass die folgenden Mausbewegungen als Verschiebung in z-Richtung interpretiert werden sollen?). Als Voraussetzung für die erfolgreiche Durchführung der Aufgabe muss der Nutzer außerdem zuerst lernen, wie die 3D-Aufgabe überhaupt in eine Folge von 2D-Teilaufgaben zerlegt werden kann (Lernaufwand).
Virtuelle und Augmentierte Realität sind neben weiteren innovativen Formen der Mensch-Maschine Interaktion Beispiele für sogenannte Post-WIMP-Interfaces. Post-WIMP-Interfaces beruhen auf Einsatz von Interaktionstechniken, die stark auf Vorwissen des menschlichen Nutzers aus seiner Alltagswelt bei der Interaktion mit physischen Objekten bauen. So weiß ein Mensch z. B. aus seiner alltäglichen Erfahrung, wie er seinen Körper zur Manipulation von Objekten einsetzen kann und hat Erwartungen, wie sich diese Objekte als Konsequenz dieser Interaktion typischerweise verhalten werden. Durch Ausnutzung dieses Vorwissens werden Lernaufwand und weiterer mentaler

Abb. 1.2   Beispiel für natürliche Interaktion: ein virtueller Schalter wird wie ein gewöhnlicher Schalter mit der Hand bedient

1  Einführung in Virtual und Augmented Reality

17

Aufwand bei natürlichen Interaktionstechniken im Vergleich zu WIMP-Techniken stark reduziert.
Das folgende Zitat von Robert Stone erläutert im Kontext von VR-Systemen die Zielvorstellung intuitiver Benutzungsschnittstellen:

„An intuitive interface between man and machine is one which requires little training … and proffers a working style most like that used by the human being to interact with environments and objects in his day-to-day life. In other words, the human interacts with elements of his task by looking, holding, manipulating, speaking, listening, and moving, using as many of his natural skills as are appropriate, or can reasonably be expected to be applied to a task.“ (Stone 1993)

VR besitzt auch im Vergleich zu anderen innovativen Formen der Mensch-Maschine Interaktion ein besonderes großes Potenzial zur konsequenten Realisierung intuitiver Mensch-Maschine-Schnittstellen im Sinne von Robert Stone. Allerdings ist in den meisten bisherigen VR-Systemen die Zielvorstellung vollkommen natürlicher Interaktionsformen noch nicht umgesetzt. Trotzdem gestalten die meisten existierenden VR-Systeme auf Grundlage der VR-typischen 3D-Ein- und Ausgabegeräte die Interaktion schon natürlicher als dies bei konventionellen 2D-Schnittstellen der Fall ist.

„The primary defining characteristic of VR is inclusion; being surrounded by an environment. VR places the participant inside information.“ (Bricken 1990)

Metaphern stellen einen weiteren wichtigen Aspekt bei der Gestaltung von MenschMaschine-Schnittstellen dar. Sie werden verwendet, um dem Nutzer Aspekte des Computersystems durch Analogien mit Konzepten der Alltagswelt näher zu bringen. In WIMP-Schnittstellen wird z. B. die Metapher des Desktops verwendet: Dokumente liegen in Ordnern und können zwischen diesen (oder in den Papierkorb) verschoben werden. Teile eines Dokuments können mittels Ausschneiden und Einkleben in ein anderes Dokument übertragen werden. Die Virtuelle Realität stellt selbst eine Metapher dar, die auf der Analogie zur Realität als solche aufbaut. Mit der VR-Metapher wird dem Nutzer also vermittelt, dass sich die Objekte der simulierten Welt realistisch verhalten und dass natürliche Interaktionsformen unterstützt werden. Ein weiteres Kennzeichen der VR-Metapher ist, dass der Nutzer sich mitten in der simulierten Welt befindet und diese „von innen“ erfährt, anstatt wie bei konventionellen PCs die simulierte Welt „von außen“ durch ein Fenster zu betrachten. Nach der VR-Metapher – umsetzbar durch perfekt immersive Systeme – wird der Nutzer von der physikalischen Realität abgeschirmt, sodass alle Sinneseindrücke computergeneriert sind. Abb. 1.3 kontrastiert die Interaktionsmodelle konventioneller PCs/Arbeitsplatzrechner und VR: Bei der Interaktion

18

R. Dörner et al.

Abb. 1.3   Interaktionsmodelle bei PCs/Arbeitsplatzrechnern und VR. Nach der VR-Metapher befindet sich der Nutzer innerhalb der Computer-simulierten Welt und ist vollständig von der realen Außenwelt isoliert. Nach Rekimoto und Nagao (1995)
mit PCs nimmt der Nutzer sowohl die reale Welt wie auch die Computer-generierten Umgebung wahr. In perfekt immersiver VR erfährt der Nutzer die simulierte Welt dagegen „von innen“; von der realen Außenwelt ist er vollständig abgeschnitten.
1.2.3	Mentale Aspekte der VR-Erfahrung
„Im Zentrum der VR steht eine Erfahrung – die Erfahrung in einer Virtuellen Welt oder an einem fremden Ort zu sein.“ (Rheingold 1992)
In perfekter VR würden sämtliche Sinneseindrücke des Nutzers durch den Computer erzeugt, in gleicher Quantität und Qualität wie es Menschen aus der realen Welt gewohnt sind. Handlungen des Menschen in VR hätten die gleichen Effekte und virtuelle Objekte würden genauso auf den Menschen einwirken wie in der realen Welt. Heutige VR-Systeme sind zwar noch keineswegs perfekt, trotzdem zielt die Entwicklung der VR-Technologie unter Einsatz erheblicher Hard- und Software-Ressourcen auf die Erschaffung immer realistischer erfahrbarer Simulationen. Wenn nun aber die computergenerierte von der physikalischen Realität auf Sinnesebene nicht mehr (oder kaum noch) unterscheidbar ist, welche Auswirkungen hat dies auf höhere Prozesse der menschlichen Wahrnehmung? Nimmt der Nutzer die Pixel der visuellen Displays als Bilder wahr oder hat er das Gefühl, an einem Ort zu sein? Welche weiteren Eigenschaften charakterisieren die mentale Erfahrung der VR? Wie kann man diese Eigenschaften messen oder anderweitig quantifizieren? Welche Hinweise ergeben sich daraus für die Gestaltung Virtueller Welten und den Aufbau von VR-Systemen?
In der VR-Forschung spielten diese und ähnliche Fragen zur mentalen Erfahrung von VR von Anfang an eine wichtige Rolle. Dass diese Fragen immer noch Gegenstand der Forschung sind, verdeutlicht einerseits ihre Relevanz für das Forschungsgebiet der VR, andererseits aber auch, dass sich noch keine allgemein akzeptierten Antworten durchgesetzt haben. Leider werden die relevanten Begriffe in der Literatur zum Teil in

1  Einführung in Virtual und Augmented Reality

19

unterschiedlicher Bedeutung verwendet, insbesondere wird der Begriff „Immersion“, der in diesem Buch mit Blick auf die technischen Aspekte einer VR definiert wurde, in einigen Texten auch für die Beschreibung mentaler Erfahrungen verwendet, wofür in diesem Buch hingegen mit „Präsenz“ ein eigener Begriff eingeführt wird. Es ist daher notwendig, bei der Lektüre verschiedener Texte zum Thema VR genau darauf zu achten, wie Kernbegriffe wie z. B. Immersion definiert werden. Die folgende Darstellung der wichtigsten Konzepte zur Analyse der mentalen Erfahrung von VR folgt im Wesentlichen der Terminologie von Slater (2003, 2009).
Präsenz stellt das zentrale Konzept zur Beschreibung der mentalen Aspekte der VR-Erfahrung dar. Es bezieht sich in einem weiten Sinne auf das Gefühl, sich innerhalb der Virtuellen Umgebung zu befinden, die von einem immersiven VR-System dargestellt wird („being there“). Das Konzept der Präsenz wurde ursprünglich im Kontext der Telerobotik entwickelt. Dabei ging es darum, bei der Fernsteuerung von Robotern dem Operator einen möglichst realistischen Ein-druck der Umgebung des Roboters zu ermöglichen, wozu insbesondere immersive VR-Technologien wie HMDs und Datenhandschuhe zum Einsatz kamen. Anfang der 1990er Jahre wurde das Konzept der Präsenz auf die VR übertragen (Held und Durlach 1992; Sheridan 1992). Hinweise auf (das Gefühl der) Präsenz bestehen z. B. dann, wenn VR-Nutzer so auf die Virtuelle Umgebung reagieren, als ob es sich um eine reale Umgebung handeln würde. Das allgemeine Gefühl der Präsenz setzt sich aus drei verschiedenen Teilaspekten zusammen.
Erstens, die Ortsillusion (engl. Place Illusion) bezieht sich auf das Gefühl, sich an dem vom VR-System dargestellten Ort zu befinden (Slater 2009). Die Ortsillusion wird z. B. durch immersive Displays unterstützt (Slater 2003). Sie beruht insbesondere auch auf der Fähigkeit des immersiven VR-Systems zur Betrachter-abhängigen Darstellung der Szene. Dreht der Nutzer z. B. den Kopf um 90 Grad nach links, dann sollte auch die Virtuelle Umgebung immer noch zu sehen sein, nur eben aus einer anderen Perspektive. Ist dies nicht der Fall, wie z. B. bei Einseiten-Projektionen, kann ein Präsenzbruch (engl. Break in Presence) entstehen.
Zweitens, die Plausibilitätsillusion (engl. Plausibility Illusion) entsteht, wenn die Ereignisse der simulierten Umgebung so wahrgenommen werden, als ob sie wirklich geschehen (Slater 2009). Während die Ortsillusion wesentlich durch die Art und Weise der Präsentation hervorgerufen wird, beruht die Plausibilitätsillusion stark auf den Inhalten der simulierten Welt. Die Plausibilitätsillusion bezieht sich insbesondere auf Ereignisse, die den Nutzer betreffen, aber von diesem nicht initiiert wurden, z. B. ein plötzlich auf den Nutzer zufliegendes Projektil oder ein virtueller Mensch, der den Nutzer anspricht. Wichtiger als sensorischer Realismus für das Entstehen der Plausibilitätsillusion scheint die Glaubwürdigkeit der Virtuellen Umgebung zu sein. Zum Beispiel würde ein visuell perfekt dargestellter virtueller Mensch, der aber nur in einfachen Phrasen kommuniziert, zu einem Bruch der Plausibilitätsillusion führen.
Drittens, die Involviertheit (engl. Involvement) bezieht sich auf den Grad der Aufmerksamkeit bzw. des Interesses des Nutzers an der simulierten Welt (Witmer und Singer 1998). Involviertheit wird wie die Plausibilitätsillusion hauptsächlich durch die

20

R. Dörner et al.

Inhalte der Virtuellen Umgebung hervorgerufen. Zum Beispiel könnte ein Nutzer in einem immersiven VR-System stark empfinden, Teil der simulierten Welt zu sein (überzeugende Ortsillusion) und sich trotzdem dabei eher langweilen (niedrige Involviertheit).
Zur Überprüfung, ob und zu welchem Grad bei Nutzern das Gefühl der Präsenz entsteht, sind experimentelle Untersuchungen mit Testpersonen notwendig. Verschiedene Nutzer können einen unterschiedlichen Grad an Präsenz in ein und derselben VR-Anwendung erfahren. Eine Möglichkeit zur Erfassung von Präsenz ist der Einsatz spezieller Fragebögen, z. B. (Witmer und Singer 1998). Des Weiteren kann das Verhalten der Experimentteilnehmer beobachtet werden, u. a. Bewegungen (z. B. duckt sich ein Nutzer weg, wenn ein Objekt in schneller Geschwindigkeit auf ihn zugeflogen kommt?) und emotionaler Ausdruck wie Erschrecken. Andere Studien beruhen auf der Messung physiologischer Parameter wie Herzfrequenz oder Hautwiderstand, welche z. B. oft als Anzeichen von Stress gedeutet werden. In (Slater 2010) wird als weitere Möglichkeit zur Quantifizierung von Präsenz ein „VR in VR“-Szenario vorgeschlagen, bei welchem der Nutzer in der simulierten Welt ein VR-System konfigurieren kann, das einen möglichst hohen Grad an Präsenz erzeugt.
Das Gefühl der Präsenz ist nicht auf die VR beschränkt, sondern kann auch, vielleicht nicht gleichermaßen intensiv, in anderen Kontexten wie Büchern, Kino oder Spielhallenautomaten entstehen. Eine weiterführende Diskussion hierzu findet sich z. B. in (Sherman und Craig 2003).

1.3	Was ist AR?
In der Literatur existiert eine Vielzahl unterschiedlicher, teils widersprüchlicher Definitionen von AR. Wenngleich AR grundsätzlich bereits durch Ivan Sutherland in den späten 60er Jahren erstmals realisiert wurde (Sutherland 1968), so hat sich in der Wissenschaft doch weitestgehend die Definition nach Azuma aus dem Jahre 1997 etabliert (Azuma 1997).

„Augmented Reality (AR) is a variation of Virtual Environments (VE), or Virtual Reality as it is more commonly called. VE technologies completely immerse a user inside a synthetic environment. While immersed, the user cannot see the real world around him. In contrast, AR allows the user to see the real world, with virtual objects superimposed upon or composited with the real world. Therefore, AR supplements reality, rather than completely replacing it.“ (Azuma 1997)

Nach Azuma (1997) verfügt ein AR-System (vgl. auch Abschn. 1.6) über folgende drei charakteristischen Merkmale. 1) Es kombiniert Realität und Virtualität. 2) Es ist interaktiv in Echtzeit. 3) Die virtuellen Inhalte sind im 3D registriert.

1  Einführung in Virtual und Augmented Reality

21

Während der zweite Aspekt so auch bei VR anzutreffen ist, unterscheiden sich die anderen beiden Aspekte deutlich von VR. Die Kombination von Realität und Virtualität erfolgt in der Regel durch die Überlagerung der Realität um (künstliche) virtuelle Inhalte. Dies bedeutet, dass ein Betrachter (der AR-Nutzer) gleichzeitig seine reale Umgebung und die darin liegenden virtuellen Objekte als ein Ganzes wahrnimmt. Mit den virtuellen Inhalten kann in Echtzeit interagiert werden. Darüber hinaus sind die virtuellen Inhalte in 3D (d. h. geometrisch) registriert. Dies bedeutet nichts anderes, als dass in einer AR-Umgebung ein virtuelles Objekt scheinbar einen festen Platz in Realität hat und diesen, sofern es nicht durch eine Benutzerinteraktion verändert wird oder sich z. B. in Form einer Animation selbst verändert, auch beibehält. Mit anderen Worten: Es verhält sich aus Nutzersicht genauso, wie ein reales Objekt, was sich an diesem Ort befinden würde. Durch die Überlagerung und Registrierung in Echtzeit ändert sich dies auch nicht, wenn der Benutzer seine Perspektive verändert und somit einen anderen Teil der Umgebung wahrnimmt.
Im populärwissenschaftlichen Umfeld findet man unter dem Begriff AR häufig Beispiele, welche sich auf den ersten der von Azuma beschriebenen Merkmale beschränken (d. h. die Erweiterung der Realität um virtuelle Inhalte), während Interaktivität, Echtzeitfähigkeit und insbesondere die 3D-Registrierung häufig unbeachtet bleiben.
Wir verwenden hier als deutschen Begriff Augmentierte Realität für das englische Augmented Reality, auch wenn man in deutschsprachigen Texten häufig den Begriff „Erweiterte Realität“ findet. Hintergrund ist, dass auch im deutschsprachigen Raum durchgängig die Abkürzung AR (und nicht etwa „ER“) benutzt wird. Etwas allgemeiner kann man AR wie folgt definieren:

Augmentierte Realität (AR) ist eine (unmittelbare und interaktive) um virtuelle Inhalte (für beliebige Sinne) angereicherte Wahrnehmung der realen Umgebung in Echtzeit, welche sich in ihrer Ausprägung und Anmutung soweit wie möglich an der Realität orientiert, sodass im Extremfall (so dies gewünscht ist) eine Unterscheidung zwischen realen und virtuellen (Sinnes-) Eindrücken nicht mehr möglich ist.

Implizit enthält auch diese Definition die Aspekte von Interaktivität und Echtzeitfähigkeit, betrachtet AR jedoch von der Wahrnehmungsseite. Während AR sich heutzutage (wie auch in weiten Teilen dieses Buches) zumeist auf die Erweiterung der visuellen Wahrnehmung beschränkt, kann sie sich allerdings genau wie VR auf jede andere Form der sensorischen Wahrnehmung, also auf die auditive, olfaktorische, gustatorische, haptische (inklusive taktile), vestibuläre, propriozeptive, thermozeptive und nozizeptive Wahrnehmung erstrecken. Im Gegensatz zu VR wird hierbei nicht versucht, den Sinneseindruck komplett virtuell zu ersetzen, sondern reale und virtuelle Sinneseindrücke werden jeweils überlagert.

22

R. Dörner et al.

Reality-Virtuality-Kontinuum (nach Milgram): Mixed Reality (MR) ist ein Kontinuum, welches sich zwischen der Realität und der Virtualität (virtuellen Realität) erstreckt, wobei der Anteil der Realität kontinuierlich abnimmt, während sich der der Virtualität entsprechend erhöht. Soweit der Anteil der Virtualität hier überwiegt, ohne dass die Umgebung dabei ausschließlich virtuell ist (Virtuelle Realität), so spricht man von Augmentierter Virtualität (engl. Augmented Virtuality). Ist hingegen der Anteil der Realität größer, so handelt es sich um AR.
Neben AR findet man auch häufig den Begriff Mixed Reality (MR, auf Deutsch auch mitunter als „Gemischte Realität“ bezeichnet), welcher bedeutet, dass reale und virtuelle Inhalte miteinander vermischt werden. Wenngleich MR und AR häufig synonym verwendet werden, stellt MR im Gegensatz zu AR ein Kontinuum dar. Allgemein anerkannt ist hier die von Paul Milgram et al. (1995) eingeführte MR-Taxonomie des Reality-Virtuality-Kontinuums (siehe Abb. 1.4).
„The general spirit and intent of Augmented Reality (AR) is to add virtual objects to the real world. […] The general spirit of what is proposed like typical AR includes adding virtual objects but also includes the desire to take away, alter or more generally to visually mediate real objects using a body worn apparatus where both the real and virtual objects are placed on an equal footing.“ (Man 1994)
VR ersetzt die Wahrnehmung der realen Umgebung des Nutzers durch die einer Virtuellen Welt. AR reichert die Wahrnehmung der realen Umgebung durch virtuelle Inhalte (vgl. Abb. 1.5) an. Bei Mediated Reality wird die Wahrnehmung der realen Umgebung augmentiert, angereichert, bewusst reduziert oder auf andere Art und Weise in Echtzeit verändert (Man 2001). Wird die Wahrnehmung der Realität bewusst reduziert, d. h. reale Inhalte der Umgebung in Echtzeit bewusst aus der Wahrnehmung des Nutzers entfernt, so spricht man von Diminished Reality (DR).
Leider werden wie schon bei „Immersion“ und „Präsenz“ wesentliche Begriffe in verschiedenen Texten nicht mit der gleichen Bedeutung verwendet bzw. unterschiedlich definiert. Manche Autoren meinen mit „AR“ nur ein reines Overlay von virtuellen Objekten, ohne dass es eine Interaktion zwischen realen und virtuellen Objekten geben kann. Ist eine Interaktion möglich, sprechen diese Autoren von „MR“ (was in diesem Buch unter den Begriff „AR“ fällt). Statt „MR“ ist in der Literatur als Oberbegriff für VR und AR auch der Begriff „ER“ (für „Extended Reality“) oder „XR“ (wobei das X ein Platzhalter/eine Verallgemeinerung von „V“ und „A“ ist) zu finden. „XR“ wird aber auch als Abkürzung für „Cross-Reality“ verwendet, was allgemeiner eine digitalisierte Welt beschreibt und die Nutzung von Wearable Computing (d. h. mobile, tragbare Computer wie z. B. Smart Watches) oder maschinellem Lernen umfasst. Manche Firmen nutzen die Begriffe auch als Trademark, so nutzt Sony den Begriff „XR“ um neuartige Technologien (sog. „emerging

1  Einführung in Virtual und Augmented Reality

23

Abb. 1.4   Reality-Virtuality-Kontinuum. Nach Milgram et al. (1995)
technologies“) in Produkten hervorzuheben. Ähnlich verwendet Microsoft den Begriff „MR“ für eine bestimmte Klasse von Brillendisplays, die zusammen mit spezieller Software eine Plattform für AR-Anwendungen bietet. Ein sorgfältiges Prüfen, wie die Begriffe von einzelnen Autoren oder Organisationen definiert sind, ist also immer notwendig. Wir bleiben im Folgenden bei den grau unterlegten Definitionen von VR, AR und MR.
Vergleicht man AR mit VR (siehe Tab. 1.2), so erkennt man, dass viele grundlegende Merkmale übereinstimmen. Beide verwenden eine multimodale Präsentation, in beiden finden Interaktion und Simulation in Echtzeit statt, beide visualisieren virtuelle 3D-Objekte, in beiden findet man egozentrische Perspektive, d. h. die Darstellung erfolgt (zumindest konzeptionell) perspektivisch korrekt für den jeweiligen Betrachter

24

R. Dörner et al.

Abb. 1.5   AR im Vergleich zu VR. Im Gegensatz zu VR interagiert der Nutzer bei AR sowohl mit den virtuellen Inhalten als auch mit der realen Umgebung. Darüber hinaus kann eine Interaktion zwischen der realen Umgebung und den virtuellen Inhalten stattfinden. Virtuelle Inhalte und reale Umgebung sind nicht strikt voneinander getrennt, sondern können sich überlappen, überlagern und durchdringen

Tab. 1.2  Merkmale von AR im Vergleich zu VR

VR Multimodale Präsentation Echtzeitinteraktion und -simulation Echtzeitdarstellung Virtuelle 3D-Objekte Alle Inhalte rein virtuell
Immersion Betrachterabhängige Präsentation (egozentrische Perspektive) Implizite (eingeschränkt) und explizite Navigation Ortsgebunden Innen Virtuelle Beleuchtung
Beliebige Skalierung der Nutzerperspektive

AR Multimodale Präsentation Echtzeitinteraktion und -simulation Echtzeitdarstellung Virtuelle 3D-Objekte Kombination von Realität und virtuellen Inhalten Geometrische (3D-) Registrierung Betrachterabhängige Präsentation (egozentrische Perspektive) Implizite (unbeschränkte) Navigation
Ortsgebunden oder mobil Innen und außen Gegenseitige Beeinflussung realer und virtueller Beleuchtung Nutzer immer unskaliert (virtuelle Modelle eingeschränkt skalierbar)

(wenngleich dies sowohl bei konkreten VR- als auch bei AR-Systemen nicht immer der Fall ist). Es existieren jedoch auch zahlreiche Unterschiede: Der augenscheinlichste Unterschied ist, dass bei VR alle Inhalte rein virtuell sind, während bei AR die virtuellen Inhalte in die Realität eingebettet sind. Entsprechend gibt es bei AR auch

1  Einführung in Virtual und Augmented Reality

25

keine vollständige Immersion vergleichbar mit VR. Zur Anwendung in AR müsste der Immersionsbegriff deutlich erweitert werden. Bei AR steht vielmehr die korrekte Überlagerung oder Verschmelzung von Realität und Virtualität im Vordergrund. Diese wird durch die Registrierung erreicht. Auch im Hinblick auf die Navigation unterscheiden sich VR und AR. Während in VR eine implizite Navigation (der Nutzer bewegt sich in der Virtuellen Welt analog zur Bewegung in der Realität) aufgrund der grundsätzlichen Beschränkung der Abmessungen eines Raumes, eines Tracking-Bereichs, der Kabellänge eines HMD oder den Abmessung einer CAVE begrenzt ist, ist diese in AR häufig unbeschränkt. Dafür ermöglicht VR zusätzlich die explizite Navigation, bei welcher der Nutzer seinen Blickpunkt durch Verändern der Kameraposition mithilfe spezieller Interaktionstechniken verändert. Dadurch kann der Nutzer beispielsweise durch eine Virtuelle Welt fliegen, was in AR naturgemäß erst einmal nicht möglich ist. VR findet primär in geschlossenen Räumen statt und es handelt sich in der Regel um stationäre (ortsgebundene) Systeme. Wenngleich es viele AR-Anwendungen für die Nutzung in Räumen gibt, so ist AR grundsätzlich nicht darauf beschränkt. Viele AR-Applikationen werden mobil und im Freien eingesetzt. Auch die Beleuchtung und die Skalierung der virtuellen Inhalte unterscheidet sich grundsätzlich. Während bei VR naturgemäß nur die virtuelle Beleuchtung von Bedeutung ist, gibt es bei AR grundsätzlich eine gegenseitige Beeinflussung der realen und virtuellen Beleuchtungssituation, wenngleich diese von vielen Anwendungen bisher nur rudimentär oder gar nicht berücksichtigt wird. In VR können Inhalte beliebig skaliert sein. Ein Nutzer kann sich also sowohl zwischen Molekülen oder Mikroben bewegen als auch die komplette Milchstraße in seinen Händen halten. Bei AR hingegen stellt die reale Umgebung immer die Referenz dar, sodass die virtuellen Objekte in der Regel im Maßstab 1:1 vorliegen müssen. Selbstverständlich kann ich auch bei AR die Milchstraße so einblenden, dass ich diese scheinbar in den Händen halten kann. Allerdings ist die Empfindung für den Nutzer eine grundsätzlich verschiedene. Während der Nutzer in VR den Eindruck hat, er selbst wäre entsprechend auf Mikrobengröße geschrumpft oder auf Galaxiengröße gewachsen, entsteht bei AR der Eindruck, ein Modell der Milchstraße zu halten, da die eigene Größe im Verhältnis zur realen Umgebung unverändert geblieben ist.
Was ist besser: VR oder AR? Diese Frage lässt sich nicht beantworten, denn VR und AR zielen auf unterschiedliche Anwendungsszenarien ab. Es wird fast nie den Fall geben, dass man bei der Realisierung die Wahl zwischen VR und AR hat. Vielmehr gibt das Anwendungsszenario in der Regel fest vor, welche Form einzusetzen ist. Dies heißt andererseits jedoch nicht, dass VR und AR sich nicht ergänzen könnten – ganz im Gegenteil! So kann man beispielsweise in einer rein Virtuellen Umgebung (VR) Auszubildenden die Details einer komplexen Maschine erläutern, Problem- und Gefahrensituationen durchspielen und Optionen austesten, die in der Realität (zumindest vor Ort) so nicht existieren. Mit Hilfe von AR kann dann das Erlernte an der realen Maschine mit virtueller Unterstützung ausprobiert und weiter verfestigt werden, per virtuellem Röntgenblick kann in ein Bauteil geschaut werden, etc. Grundsätzlich kennt VR im Gegensatz zu AR keine Grenzen: weder inhaltlich noch physikalisch (in einer VR kann

26

R. Dörner et al.

man sich seine Physik selber definieren!). Auf der anderen Seite ist die kontinuierliche Nutzungsdauer – zumindest aktuell – auf einen eher kleinen Zeitraum (eher Minuten als Stunden) beschränkt. Da man für VR immer die reale Welt verlassen muss, wird sich dies auch nicht grundsätzlich ändern (außer wir leben eines Tages doch in der Matrix). AR hingegen hat das Potenzial immer und überall (24/7) eingesetzt zu werden, wenngleich dieses Potenzial aufgrund von Defiziten in Software und Hardware nicht voll ausgeschöpft werden kann.

1.4	Historische Entwicklung von VR und AR
Die Geschichte der VR begann in den 60er Jahren. Einen wesentlichen Anteil daran hatte der Amerikaner Ivan Sutherland. Im Rahmen seiner Forschungen zu immersiven Technologien schrieb Sutherland (1965) „The Ultimate Display“ (Sutherland 1965) und machte so den ersten Schritt, den Rechner mit dem Design, der Konstruktion, der Navigation und dem Erleben Virtueller Welten zu verbinden, lange bevor der Personal Computer (PC) erfunden wurde (1970). Sein Head-Mounted Display System bestehend aus einem Datenhelm sowie einem mechanischen und alternativ ultraschallbasierten Tracking-System (siehe Abb. 1.6a) ermöglichte es dem Betrachter, eine simulierte, wenn auch einfache 3D-Umgebung perspektivisch korrekt zu betrachten. Das System (in der Literatur häufig fälschlicherweise als „Sword of Damocles“ bezeichnet, obwohl dies lediglich Name des mechanischen Tracking-Komponente hiervon war) kann aufgrund seiner SeeThrough-Eigenschaft gleichzeitig als erstes AR-System angesehen werden (Sutherland 1968).
Das sogenannte VIEW-Projekt (Virtual Environment Interface Workstations) des NASA Ames Research Centers Mitte der achtziger Jahre hatte zum Ziel, eine multi-sensorische Workstation für die Simulation virtueller Weltraumstationen zu entwickeln.
Etwa 1987 berichtete Thomas Zimmermann über den „DataGlove“. Er und Jaron Lanier gründeten gemeinsam die Firma VPL. Lanier war der erste Wissenschaftler, der den Begriff „Virtual Reality“ gebrauchte. VPL verkaufte ihren „DataGlove“, einen Datenhandschuh, der an der Handoberseite mit Glasfasern bestückt war, um Fingerdaten zu erfassen. Ebenso entwickelte VPL den Datenhelm „EyePhone“, eine Fortführung des Head-Mounted Displays von Sutherland aus den 60er Jahren. Die LX-Version des EyePhone bot eine Auflösung von 442 × 238 Pixeln, die HRX-Version von 720 × 480 Pixeln.
Die Erfindung zweier elektromagnetischer Tracker der Firma Polhemus 3Space im Jahr 1989 war ein weiterer Meilenstein. Sie ermöglichte es erstmalig, ein Ziel vom Rechner aus in einer bestimmten Entfernung zu steuern oder zu bestimmen.
Zur gleichen Zeit entstand der „BOOM“ (Binocular Omni-Orientation Monitor) von Fake Spaces Labs, ein 3D-Sichtgerät mit zwei monochromen Kathodenstrahlröhren, das NTSC-Signale empfing, die von einer Silicon Graphics Workstation VGX380 (8 RISC-Prozessoren, 33 MHz je Prozessor, 1280 × 1024 Pixel am Graphikausgang) erzeugt wurden. Diese Workstation erlaubte es, 800.000 kleine, transformierte, an der

1  Einführung in Virtual und Augmented Reality

27

Abb. 1.6   Pionierarbeiten im Bereich VR/AR. a Sutherlands Datenbrille mit 6-DOF-Ultraschall-Tracking, Abbildung mit freundlicher Genehmigung © Ivan Sutherland, All Rights Reserved. b Nachbau des MARS-Systems von 1997 (Bell et al. 2001), nach [Bell, B., Feiner, S., and Hoellerer, T. Information at a glance. IEEE Computer Graphics & Applications, 22(4), July/August 2002, 6−9]. Abbildung mit freundlicher Genehmigung © Steve Feiner, All Rights Reserved
Grenze des Zeichenbereichs gekappte und schattierte Dreiecke pro Sekunde zu generieren. Eine der ersten Anwendungen, die diese Eigenschaft nutzen konnte, war der „Virtual Windtunnel“ im Bereich der Luft- und Raumfahrt von Steve Bryson im Jahre 1991.
Etwa um 1988 kamen dann verschiedene hochwertige Workstations für Graphik auf den Markt. Zu nennen wären in diesem Rahmen z. B. Ardent, Stellar, Silicon Graphics oder HP, von denen sich die SGI Reality Engine von Silicon Graphics um 1995 weltweit durchsetzte. Ebenso wurden kommerzielle VR-Softwaresysteme auf den Markt gebracht. Namentlich sind dies „RB2 – Reality built for two“ von VPL, „dVS“ von dem englischen Unternehmen Division und „WorldToolKit“ von Sense8 (1990–1995).
Der Begriff „Augmented Reality“ wurde Anfang der 90er Jahre geprägt durch ein Pilotprojekt bei Boeing, welches in das Gesichtsfeld eingeblendete Informationen einsetzte, um Arbeitern das Verlegen von Flugzeugkabeln zu erleichtern (Caudell und Mizell 1992).
Im Jahr 1993 wurde vom Massachusetts Institute of Technology (MIT) die SensAble Technologies Inc. gegründet, eine Firma, die haptische Geräte entwickelt und kommerziell vertreibt. Das „PHANTom“ konnte man mit der Hand berühren und dabei eine Kraftrückkopplung erfahren – eine große Innovation zu dieser Zeit.

28

R. Dörner et al.

Anfang der 90er Jahre wurden richtungsweisende Forschungen im Bereich der Virtuellen Realität unternommen. Diese ermöglichten erstmalig projektionsbasierte Darstellungen. Dazu gehören als wesentliche Vertreter die „Powerwall“, die aus einer Stereoleinwand bestand, die „CAVE“ (CAVE Automatic Virtual Environment), die über vier Leinwände verfügte (im Jahr 1992 entwickelt an der University of Illinois), die „Responsive Workbench“, die eine Leinwand horizontal analog zu einer Tischoberfläche anordnete (im Jahr 1993 entwickelt von der GMD) sowie „iCONE“, das halbrunde Leinwände verwendete.
Mit „MARS“ (s. Abb. 1.6b) wurde 1997 an der Columbia University das erste mobile AR-System vorgestellt (Feiner et al. 1997). Durch die Veröffentlichung von ARToolkit 1998 (Kato und Billinghurst 1999) wurde Computer-Vision-basiertes Tracking für AR verfügbar und löste eine große Welle an Forschungsarbeiten auf der ganzen Welt aus.
Nach der Entwicklung elektromagnetischer Tracking-Systeme kamen die Ultraschall-Tracking-Systeme auf den Markt, die letztendlich ca. im Jahre 2000 abgelöst wurden von Tracking-Systemen auf Basis von Infrarot. Ebenso lösten PC-Cluster die SGI Reality Engine II ab, womit der Preis für den Anwender etwa auf ein Fünftel reduziert werden konnte. Umfangreichere Forschungen wurden dadurch möglich gemacht.
In Deutschland beschäftigten sich in den letzten zwei Jahrzehnten mehrere Firmen mit dem Thema VR. So wurde 1998 beispielsweise die VRCOM gegründet, ein Jahr später die RTT und im Jahre 2001 die IC:IDO, alles Produzenten von VR-Software.
In der ganzen Welt findet ein regelmäßiger Informationsaustausch zum Thema VR statt. In den USA gab es seit 1991 VRAIS Symposien, in Europa seit 1993 EuroGraphics VE Workshops. In Japan gab es die ICAT Workshops ebenfalls seit Anfang der 90er Jahre. 1999 wurde dann in der Nachfolge der VRAIS die IEEE VR Konferenz etabliert, die jährlich etwa 500 Teilnehmer aus aller Welt anzieht. In Deutschland gibt es seit 2003 eine Fachgruppe der Gesellschaft für Informatik (GI), die VR und AR protegiert und jährlich einen Workshop mit 80–100 Teilnehmern abhält.
Während die Nutzung von VR und AR über viele Jahrzehnte nicht zuletzt aufgrund der teils astronomischen Preise für die erforderliche Hardware Forschungseinrichtungen und einigen großen Industriefirmen vorbehalten war, änderte sich dies schlagartig mit der Vorstellung der ersten high-end low-cost-Datenbrille Oculus Rift im Jahre 2013. Seit der Auslieferung der Konsumentenversion 2016 und dem Markeintritt zahlreicher vergleichbarer Displays (HTC Vive, Playstation VR, Microsofts „Mixed Reality“ Displays, etc.) erlebt VR einen bis dato unvorstellbaren Boom. Ansätze für AR-Brillen konnten diesen Erfolg bislang noch nicht erreichen. So scheiterte Google mit seiner Brille Google Glass, Microsofts Hololens gilt zwar als technisches Meisterwerk, ist jedoch noch weit von einem Konsumentenprodukt entfernt. Bewegung kam allerdings zuletzt 2017 in den Bereich von AR-Applikationen mit der Vorstellung von mehreren großen Software-Plattformen für mobiles AR. So präsentierten Apple mit ARKit und Google mit ARCore zwei moderne Frameworks, welche die kommerzielle Entwicklung von AR-Applikationen stark beeinflusst.

1  Einführung in Virtual und Augmented Reality

29

1.5	VR-Systeme
Ausgehend von einem interagierenden Nutzer muss ein VR-System die geforderten Aufgaben als Mensch-Maschine-Schnittstelle abdecken. Wenn wir die bisherigen Anforderungen an ein VR-System zusammenfassen, so erhalten wir folgende Situation: Wir benötigen ein Computersystem, welches die Aktionen von Nutzern erkennt, unter dieser Beeinflussung die Welt simuliert und über eine entsprechende Reizerzeugung die Nutzer eine Virtuelle Welt wahrnehmen lässt. Technisch kann eine Unterteilung im Hinblick auf Eingabegeräte und Ausgabegeräte sowie der Weltsimulation erfolgen. So einfach, wie sich die Aufgaben eines VR-Systems in diese drei Teile zerlegen lassen, so komplex kann jedes Teilsystem für sich werden: Welche Sensoren können die Aktionen eines Nutzers erkennen? Welche Abdeckung und Auflösung haben diese Sensoren in Bezug auf Raum und Zeit? Welchen Aktionsradius erlauben diese Sensoren dem Nutzer? Schränken die Sensoren den Nutzer ein? Wie können Sensordaten an die Simulation der Welt weitergegeben werden? Wie kann das Wissen über die Welt der Simulation zur Verfügung gestellt werden? Wie können für alle Wahrnehmungskanäle des Nutzers in geeigneter Weise Reize erzeugt werden? Welche Qualität haben diese Reize? In welchem Aktionsradius kann der Nutzer diese Reize sinnvoll wahrnehmen? Wie kann sichergestellt werden, dass die Reaktionszeit des Gesamtsystems mit der Reaktionszeit des Nutzers Schritt hält?
Anhand einer vertiefenden Betrachtung des bereits geschilderten Beispiels, bei dem wir eine Person an einen virtuellen Abgrund gestellt haben, soll die Bedeutung der einzelnen Teilsysteme eines VR-Systems aufgezeigt werden. In jedem Fall muss die Position sowie die Blickrichtung von den Eingabegeräten erkannt werden, um für den Nutzer die richtige Perspektive auf die Virtuelle Umgebung berechnen zu können. In der ersten Variante des Experiments wurde davon ausgegangen, dass in dem verwendeten Helm ein Sensor eingebaut ist, der diese Positions- und Orientierungsdaten zur Verfügung stellt. Wie sieht ein solcher Sensor aus? Wird nur die Orientierung des Kopfes erkannt oder auch die Blickrichtung der Augen? Welche Wegstrecken lässt ein solcher Sensor zu? Werden Ortsänderungen des Kopfes detektiert, sodass ein Vorbeugen in der Virtuellen Umgebung möglich ist? Gelingt ein Zugehen auf den virtuellen Abgrund, indem man ein oder zwei Schritte macht? Kann sogar auf dem gesamten Dach des virtuellen Wolkenkratzers gelaufen werden? Wird außer dem Helm auch der Körper eines Nutzers durch das System erkannt, sodass beispielsweise zur Unterstützung der Eigenwahrnehmung auch der eigene Körper in der Virtuellen Umgebung mit dargestellt werden kann? Würde diese Körpererkennung nur die Gliedmaßen grob erkennen oder auch einzelne Fingerbewegungen, sodass beispielsweise das Drücken eines Aufzugsknopfes möglich wäre, um das Dach des virtuellen Wolkenkratzers per Aufzug verlassen zu können?
Früher war es üblich, viele der hier geforderten Sensoren „anzuziehen“; Beispiele hierfür sind der Helm, der ein mechanisches Gestänge zur Lagebestimmung betrieben hat oder ein Datenhandschuh, mittels dessen die Bewegung der Finger erkannt wurde. Verbunden waren die Eingabegeräte meist per Kabel. Außer mechanischen Eingabegeräten

30

R. Dörner et al.

zum Tracking von Positionen und Orientierungen wurden im Lauf der Zeit auch elektromagnetische oder auf Ultraschall basierte Geräte entwickelt. Üblicherweise bestehen solche System aus Sender(n) und Empfänger(n), sodass der Nutzer immer etwas in der Hand bzw. an sich tragen muss. Der Trend geht zu optischen Verfahren auf der Grundlage von einer oder mehreren Kameras, wobei hier noch unterschieden werden muss, ob sogenannte Marken zum Einsatz kommen oder ob markenlose Systeme verwendet werden. Marken sind besonders gut und sicher zu detektierende reale Objekte, die in das vom Tracking überwachte Volumen eingebracht werden. Da die Marken dem Tracking-System in der Form bekannt sind (z. B. bestehend aus mehreren gut reflektierenden Kugeln mit definierten Abständen), können sie genutzt werden, um die kameragestützte Erkennung zu ermöglichen bzw. zu stabilisieren, beispielsweise im Hinblick auf Beleuchtungssituation oder Verdeckungen. Markenlose Systeme verwenden oftmals zusätzlich zu Kameras im sichtbaren Bereich sogenannte Tiefenkameras, mit deren Hilfe die Unterscheidung des zu erkennenden Objekts vom Hintergrund einfacher möglich ist. Durch den Einsatz mehrerer Kameras kann zum einen die Genauigkeit verbessert werden und zum anderen können Situationen vermieden werden, bei denen das Tracking aufgrund einer einzigen verdeckten Kamera fehlschlägt.
Oft werden unterschiedliche Eingabegeräte gleichzeitig genutzt, um die möglichst gute Erkennung der Nutzeraktionen zu gewährleisten. Ein Beispiel hierfür ist eine genaue Positionserkennung mit großem Aktionsradius gekoppelt mit einer Handerkennung sowie Spracheingabe. Hierbei müssen die Sensordaten in geeigneter Form so zusammengefasst werden (Sensorfusion), dass sie zum einen insgesamt plausible und sich nicht widersprechende Daten liefern und zum anderen durch die Kombination von Sensordaten unterschiedlichen Typs auch dann verlässliche Daten liefern, wenn einzelne Sensoren z. B. aufgrund von Verdeckungen nicht genutzt werden können.
Beim Aufbau eines VR-Systems sollte man immer die jeweilige Aufgabe im Blick haben und für diese analysieren, welche Eingabegeräte notwendig sind. Nicht immer ist es hilfreich, jegliche Sensorik in einen Aufbau mit aufzunehmen, wenn dadurch der Nutzer eingeschränkt wird und die aufgenommenen Daten gar nicht sinnvoll eingesetzt werden können. In unserem Beispiel wäre es möglich, die Druckverteilung der Fußsohle zu messen, um zu erkennen, ob sich der Nutzer nach vorne oder nach hinten lehnt. Dies könnte anhand von drucksensitiven Matten erfolgen, was dazu führen würde, dass der Nutzer ausschließlich auf der Matte stehen darf und somit sein Standpunkt fixiert wäre. Im Hinblick auf die eigentliche Zielsetzung, bei der sich der Nutzer frei bewegen können sollte, wäre das kontraproduktiv.
Als Gegenstück zu den Eingabegeräten können die Ausgabegeräte angesehen werden. Diese dienen dazu, dem Nutzer über eine entsprechende Reizerzeugung die Virtuelle Welt darzustellen. Diese Umwandlung des Modells der Virtuellen Welt im Computer zu Sinnesreizen für den Nutzer kann als Rendering bezeichnet werden. Entsprechend den unterschiedlichen Wahrnehmungskanälen, derer sich ein Nutzer in der realen Welt bedient, ist es sinnvoll, möglichst viele davon auch in der Virtuellen Realität anzusprechen. Im Hinblick auf unser Experiment ist die visuelle Ausgabe natürlich wichtig.

1  Einführung in Virtual und Augmented Reality

31

Soll der Nutzer sich nach Belieben umschauen können, wie es beispielsweise mit dem Helm möglich wäre? Reicht es, wenn er nur nach unten schauen kann, wie in der zweiten Variante des Experiments, bei der das Bild auf den Fußboden projiziert wird? Ist es für den Anwendungsfall wichtig, dass sich der Nutzer umdrehen kann? Auch stellt sich die Frage, in welchem Aktionsbereich der Nutzer die Möglichkeit erhalten soll, die Virtuelle Umgebung wahrzunehmen. In welcher visuellen Qualität soll die Virtuelle Welt dargestellt werden (ist es beispielsweise wichtig, die fahrenden Autos oder Fußgänger vom Wolkenkratzer aus zu erkennen)? Über visuelle Reize hinaus können noch andere Wahrnehmungskanäle des Nutzers adressiert werden. Sollen die Geräusche des Straßenverkehrs lauter vernehmbar sein, wenn man näher an die Gebäudekante des Wolkenkratzers herantritt? Soll der Nutzer Wind wahrnehmen können und soll sich dieser ebenfalls an der Gebäudekante ändern? Wie bereits aufgezeigt, so unterscheiden sich auch die zeitlichen Anforderungen an die Reizberechnung für die einzelnen Wahrnehmungskanäle. Für das visuelle System müssen 30 bis 120 neue Bilder in jeder Sekunde berechnet werden. Demgegenüber reicht es, die Stärke des Windes aus dem Beispiel in der Sekunde ein bis zweimal zu bestimmen. Wie auch schon bei den Eingabegeräten muss genau analysiert werden, was für den jeweiligen Anwendungsfall wichtig ist, statt alles technologisch Mögliche umzusetzen.
Die Aufgabe der Weltsimulation übernimmt ein Computersystem, das dafür über ein entsprechend passendes Modell der Welt verfügen muss. Je nach Anwendungsfall bieten sich hierfür Simulationsmodelle (z. B. für die Nachbildung von Strömungsverhalten) oder auch Modelle auf der Grundlage der Künstlichen Intelligenz (KI) an. Das Modell der Welt legt das Verhalten der Virtuellen Realität fest. Die Daten der Eingabegeräte beeinflussen die Weltsimulation. Neben der Frage, in welcher Granularität die Welt modelliert wird bzw. werden kann, auf die in Abschn. 1.1.2 eingegangen wurde, stellen sich technisch orientierte Fragen: Welche zeitlichen Verzögerungen treten von der Erkennung durch ein Eingabegerät bis hin zum Rendering in allen Wahrnehmungskanälen auf? Um diese Zeit zu verringern, kann es hilfreich oder gar notwendig sein, auf bereits vorberechnete Simulationsdaten zurückzugreifen, statt alles in Echtzeit zu berechnen. Für unser Experiment können so die Bewegungen des Straßenverkehrs genauso vorberechnet sein wie die Strömungssimulation für die Winde zwischen den Wolkenkratzern. Gegebenenfalls müssen sogar starke Vereinfachungen vorgenommen werden, um die Verzögerungen in einem erträglichen Maß zu halten. Auch kann es notwendig sein, die Berechnung der Weltsimulation und vor allem das Rendering auf mehrere Computer zu verteilen, um zum einen die Ausgabegeräte ansteuern und zum anderen die Zeitvorgaben erfüllen zu können. Arbeitet die Weltsimulation autark oder ist sie auf weitere Daten angewiesen (z. B. aktuelle Flugdaten für einen Simulator für Fluglotsen oder Daten von VR-Systemen, die eine Kollaboration im virtuellen Raum ermöglichen)? Solche Daten können über Netzwerkverbindungen der Weltsimulation zur Verfügung gestellt werden.
Der Gesamtüberblick über ein VR-System ist in Abb. 1.7 gezeigt: In Orange sind die Sensoren gezeichnet, die als Grundlage für Eingabegeräte dienen können, in Grün sind

32

R. Dörner et al.

Abb. 1.7   Überblick über die Teilsysteme eines VR-Systems
die Ausgabegeräte gekennzeichnet, welche die einzelnen Wahrnehmungskanäle adressieren, in Blau die übrigen Teilsysteme des VR-Systems.
1.6	AR-Systeme
Analog zu dem bereits eingeführten Begriff VR-System definieren wir den Begriff AR-System.
Ein AR-System nennen wir ein Computersystem, das aus geeigneter Hardware und Software besteht, um die Wahrnehmung der realen Welt möglichst nahtlos und für den Nutzer möglichst ununterscheidbar um virtuelle Inhalte anzureichern.
Auch wenn AR-Systeme anders aussehen, so ist der grundsätzliche Aufbau aus Teilsystemen denen von VR-Systemen durchaus sehr ähnlich. Betrachten wir die Anforderungen an ein AR-System: Auch hier benötigen wir zunächst einmal ein Computersystem, welches in Abhängigkeit von Nutzeraktionen eine Simulation durchführt. Allerdings betrifft diese Simulation nur einen Teil der Welt. Man wäre hier

1  Einführung in Virtual und Augmented Reality

33

geneigt, die Simulation eines AR-Systems auf den virtuellen Teil der vom Nutzer wahrgenommenen Welt zu beschränken. Dies ist jedoch für AR keinesfalls ausreichend. Da reale und virtuelle Inhalte eng miteinander verzahnt sind, also eine Wechselwirkung zwischen beiden vorliegt, müssen auch die Teile der realen Welt, welche durch virtuelle Inhalte beeinflusst werden bzw. umgekehrt die virtuellen Inhalte beeinflussen, mit simuliert werden. Die Reizerzeugung erfolgt bei AR dermaßen, dass sich reale und virtuelle Inhalte ergänzen (abgesehen vom Fall der oben beschriebenen Mediated Reality, wo reale Inhalte durchaus auch verändert oder gar entfernt werden können). Viele Aspekte in Bezug auf Sensoren und Reize treffen in ähnlicher Form auch für ein AR-System zu. Allerdings sind AR-Systeme im Gegensatz zu VR-Systemen in der Regel in den meisten Fällen nicht an einen Ort gebunden. Dies bedeutet, dass hierbei Faktoren wie der Aktionsradius entfallen, dafür jedoch Fragen nach der Nutzbarkeit in bestimmten Umgebungen hinzukommen. Kann ich mein AR-System auch in Gebäuden verwenden oder nur im Freien? Funktioniert es auch noch in der U-Bahn? Was ist, wenn ich mich in einem Raum mit glatten weißen Wänden befinde? Funktioniert das Display auch bei Sonnenlicht? Stellt ein AR-System also höhere oder niedrigere Anforderungen an die Technik als ein VR-System? Diese Fragen sind nicht pauschal zu beantworten, doch ist bei einem nicht-stationären System der Umfang der Hardware natürlicherweise begrenzt, wodurch AR-Systeme im Durchschnitt weniger Geräte (Sensoren, Ausgabegeräte, Computer, etc.) einsetzen als VR-Systeme. Dennoch sind die Basisanforderungen verhältnismäßig hoch. Hatten wir im oben gewählten Beispiel im VR-System verschiedenste Ausprägungen mit mehr oder weniger komplexer Sensorik, so muss ein AR-System immer eine perspektivisch korrekte Überlagerung von realer und virtueller Welt garantieren. Andererseits werden viele Komponenten von VR-Systemen nicht benötigt. Durch die Wahrnehmung der Realität ist eine Eigenwahrnehmung jederzeit gewährleistet. Auch eine Navigation in der Virtuellen Welt ist nicht erforderlich, da der Nutzer seine Perspektive dadurch verändert, dass er sich in seiner natürlichen Umgebung, der Realität, bewegt. Während bei VR-Systemen die Sensorik, die Weltsimulation und die Reizerzeugung häufig auf eine Vielzahl von Computersystemen verteilt wird, um die erforderliche Leistungsfähigkeit des Gesamtsystems sicherzustellen, so beschränken sich die meisten AR-Systeme auf ein einzelnes Computersystem. Dies kann ein Mobilgerät wie ein Smartphone oder Tablet sein, oder ist teilweise komplett in eine AR-Datenbrille integriert (wie zum Beispiel bei der Microsoft Hololens). Es gibt jedoch auch Ansätze bei denen optisches Tracking oder Rendering zur Verbesserung der Qualität auf externe Systeme ausgelagert wird.
Der Gesamtüberblick über ein AR-System ist in Abb. 1.8 gezeigt: Analog zu Abb. 1.7 sind die Sensoren zur Eingabe in Orange gehalten, Ausgabegeräte in Grün und die übrigen Teilsysteme des AR-Systems in Blau.

34

R. Dörner et al.

Abb. 1.8   Überblick über die Teilsysteme eines AR-Systems (vgl. auch Abb. 1.7)
1.7	Nutzung des Buches
Im Folgenden finden sich Hinweise, wie das vorliegende Buch aufgebaut ist sowie Vorschläge, wie das Buch von unterschiedlichen Zielgruppen für unterschiedliche Intentionen genutzt werden kann. Dabei werden auch Empfehlungen für den Einsatz in Lehrveranstaltungen gegeben.
1.7.1	Aufbau des Buches
Im Anschluss an diese Einleitung werden im nächsten Kapitel (Kap. 2) die Grundlagen der räumlichen Wahrnehmung beschrieben. Ausgehend vom visuellen System des Menschen wird die Theorie der „Depth Cues“ vorgestellt, welche die grundlegende Theorie für die Raumwahrnehmung beschreibt. Es werden die physiologischen Aspekte der Stereoskopie ebenso betrachtet wie unterstützende Empfehlungen zur Verstärkung der

1  Einführung in Virtual und Augmented Reality

35

Raumwahrnehmung. Neben der visuellen Wahrnehmung wird auf die Bedeutung weiterer Wahrnehmungskanäle eingegangen. Das Kapitel über Virtuelle Welten (Kap. 3) beschreibt typische Konzepte, die zu deren Aufbau genutzt werden. Ausgehend von grundlegenden graphikorientierten Konzepten wie dem Szenengraph werden Konzepte für alle Komponenten eines VR-Systems vorgestellt: Beispiele hierfür sind Animationskonzepte, Verhaltensbeschreibungen und Ereignismodelle. In den Kapiteln über VR-Eingabegeräte (Kap. 4) und VR-Ausgabegeräte (Kap. 5) werden Möglichkeiten der Sensorik und von Displays beschrieben. Nach der Einführung zugrunde liegender Eigenschaften werden Wege zur Erkennung von Nutzeraktionen ebenso aufgezeigt wie Realisierungsalternativen zum Rendering in alle Wahrnehmungskanälen des Nutzers. Ausgehend von Einzeltechnologien werden auch typische Aufbauten mit VR-Hardware vorgestellt. Konzepte und Techniken für Interaktionen in Virtuellen Welten werden in Kap. 6 vorgestellt. Es werden grundlegende Techniken wie Navigation und Selektion ebenso beschrieben wie die iterative Vorgehensweise zur Erstellung von Benutzungsschnittstellen unter Verwendung von Nutzertests. In Kap. 7 werden Anforderungen an die Echtzeitfähigkeit von VR-System beschrieben und Lösungsansätze vorgestellt. Aufbauend auf Grundlagen wie die Bedeutung der Latenz und effizienten Repräsentationen großer Szenen werden Verfahren für typische Fragestellungen wie Synchronisation und Kollisionserkennung besprochen. Kap. 8 ist dem Thema Augmentierte Realität gewidmet. Schwerpunkte neben speziellen Ein-/Ausgabegeräten sind dabei die geometrische und optische Registrierung sowie die Betrachtung der Fragestellung, wie Authentizität bzw. Glaubhaftigkeit erhöht werden können. Kap. 9 umfasst eine Reihe von kleinen Fallbeispielen, die Einblicke in die Praxis von VR/AR bieten und die vielfältigen Facetten des Themas beleuchten. Die Praxis nicht hinsichtlich Anwendungen, sondern hinsichtlich verwendeter Software und Werkzeuge ist Gegenstand von Kap. 10. Kap. 11 schließlich enthält eine Einführung in grundlegende Mathematik, die für VR und AR relevant ist.

1.7.2	Benutzungsanleitung
Jedes weitere Kapitel dieses Buches setzt allein die Lektüre von Kap. 1 voraus. Um also beispielsweise Kap. 6 durchzuarbeiten, ist es nicht notwendig, die Kap. 2 bis Kap. 5 zu lesen, sondern nur das erste Kapitel. Damit kann das Buch modular und selektiv genutzt werden – es muss nicht in der präsentierten Reihenfolge von vorne nach hinten lückenlos durchgearbeitet werden. Alle notwendigen Vorkenntnisse wurden bereits in diesem Kap. 1 angesprochen. Obwohl die einzelnen Kapitel des vorliegenden Buches in der Komplexität des behandelten Stoffes und damit in ihrem Umfang teilweise deutlich voneinander abweichen, so sind doch alle Kapitel nach einem ähnlichen Grundmuster aufgebaut. Dies ermöglicht dem Leser, sich innerhalb der einzelnen Kapitel schnell zu Recht zu finden und sie auf ähnliche Art und Weise zu bearbeiten.
Kapitel beginnen grundsätzlich mit einer Kurzfassung, welche die wichtigsten Inhalte in sehr knapper Form zusammenfasst. Dies ermöglicht Lesern, die bereits über Vorkenntnisse

36

R. Dörner et al.

auf einzelnen Gebieten verfügen oder nur an bestimmten Themen interessiert sind, also das Buch nicht sequenziell durcharbeiten möchten, das schnelle Erkennen und die gezielte Auswahl der für sie relevanten Kapitel. Anschließend werden die wichtigsten Themenblöcke jeweils in den weiteren Unterkapiteln behandelt. Die einzelnen Kapitel werden mit einem Fragenkatalog zu den behandelten Themen und einer Liste mit Empfehlungen zu vertiefender oder ergänzender Literatur abgeschlossen.

1.7.3	Zielgruppen des Buches
Bei dem vorliegenden Buch handelt es sich primär um ein Lehrbuch, d. h. es soll Lehrenden und Studierenden eine umfassende und strukturierte Aufbereitung des Themas VR/ AR bieten. Dabei werden wesentliche grundlegende Aspekte von VR und AR behandelt. Vorkenntnisse auf diesem Gebiet sind daher nicht erforderlich, mathematische Grundlagen und Grundkenntnisse im Bereich der Computergraphik sind nützlich. Kap. 11 enthält eine Zusammenstellung der wichtigsten mathematischen Grundlagen für VR. Literaturhinweise zur Erarbeitung von Grundlagen der Computergraphik finden sich in Abschn. 1.7. Die umfassende und vertiefte Behandlung aller im Bereich VR/AR relevanten Themen würde den Umfang eines einzelnen Buches bei weitem sprengen – das Buch kann hier als Einführung und Vorbereitung für die Beschäftigung mit Spezialliteratur dienen.
Das Buch ist modular aufgebaut – jedes Kapitel setzt ja nur die Lektüre von Kap. 1 voraus. Damit können Lernende und Lehrende die Reihenfolge der Bearbeitung des Lehrstoffes den Erfordernissen ihrer Lehrveranstaltung anpassen. Auch können einzelne Kapitel selektiert, andere Kapitel (außer Kap. 1) problemlos weggelassen werden, ohne dass die Verständlichkeit leidet. Jedes Kapitel ist für sich abgeschlossen.
Die Erstellung Virtueller Welten und die Interaktion mit diesen stellt auch eine der Grundlagen moderner 3D-Computerspiele dar. Wenngleich das vorliegende Buch diese Themen behandelt und es hier durchaus eine Vielzahl von Parallelen und Überschneidungen mit der Realisierung von Computerspielen gibt, so richtet sich das Buch jedoch nicht primär an die Entwickler von Computerspielen, da insbesondere alle spielespezifischen Aspekte hier unberücksichtigt bleiben.
Lehrende im Bereich VR/AR Aufgrund seines Aufbaus kann das Buch unmittelbar als Grundlage für Vorlesungen und Seminare im Bereich VR/AR eingesetzt werden. Durch den modularen Aufbau des Buches ist es einfach möglich, die Reihenfolge der unterschiedlichen Themen zu variieren und damit den individuellen Anforderungen der jeweiligen Unterrichtseinheit anzupassen. Die einzelnen Kapitel schließen mit einer Sammlung an Verständnis- und Transferfragen ab, welche unmittelbar als Grundlage für entsprechende Prüfungen bzw. die Vorbereitung auf diese verwendet werden können.
Nachfolgend sollen exemplarisch einige typische Zusammenstellungen für einzelne Lehrveranstaltungen aufgezeigt werden. Dies kann und soll jedoch nur der Verdeut-

1  Einführung in Virtual und Augmented Reality

37

lichung dienen und ersetzt keinesfalls die individuelle Auswahl auf Basis des jeweiligen Curriculums und Umfangs.

Einführung in VR/AR (2V + 2Ü)  Kap. 1
Abschn. 2.1, 2.2, 2.3, 2.4 Abschn. 3.1–3.3, optional 3.5 Abschn. 4.1, 4.2, 4.3, 4.6 Abschn. 5.1, 5.2, 5.3, 5.4 Abschn. 6.1, 6.2, 6.3, 6.4, 6.5 Abschn. 7.1, 7.2, 7.3 Abschn. 8.1, 8.3, 8.4

3D User Interfaces (2V + 1Ü)  Kap. 1
Abschn. 2.1, 2.2, 2.3, 2.4, 2.5.2 Abschn. 4.1, 4.2, 4.3, 4.6 Kap. 6: alle Unterkapitel Abschn. 7.1 Abschn. 8.5

Anwendungen der Virtuellen Realität (2V + 1Ü)  Kap. 1
Abschn. 2.4, 2.5 Kap. 3: alle Unterkapitel Abschn. 5.1, 5.2, 5.3 Kap. 6: alle Unterkapitel Abschn. 7.2 Abschn. 8.6 Kap. 9 (VR-Beispiele) Abschn. 10.1, 10.2/10.3

Graphisch-Interaktive Systeme (2V + 2Ü)  Kap. 1
Kap. 2: alle Unterkapitel Kap. 4: alle Unterkapitel Kap. 5: 5.1 Kap. 6: alle Unterkapitel Kap. 9: alle Unterkapitel Kap. 10: alle Unterkapitel

38
Augmented Reality (2V + 1Ü)  Kap. 1
Kap. 3 Abschn. 4.1–4.4 Abschn. 5.1, 5.2.2 Kap. 6 Kap. 8 Kap. 9 (AR-Beispiele) Kap. 10

R. Dörner et al.

Studierende Studierenden bietet das Buch eine universelle Begleit- und Nachschlagelektüre zu entsprechenden Lehrveranstaltungen. Es ermöglicht darüber hinaus das Selbststudium der Materie. Das Buch ist für Studierende aus Studiengängen geeignet, welche unter Umständen selbst VR/AR Systeme entwickeln oder erweitern, Applikationen dafür realisieren oder auch nur VR/AR-Anwendungen nutzen möchten. Während der erste Aspekt insbesondere Studierende der Studiengänge Informatik, Medieninformatik, Computervisualistik und Medientechnologie anspricht, erstrecken sich die weiteren Aspekte über eine Vielzahl natur- und ingenieurwissenschaftlicher Studiengänge bis hin zu geistesund sozialwissenschaftlichen Studiengängen.
Anwender oder solche, die es werden wollen Potenzielle Anwender neuer Technologien wie VR und AR haben häufig nur eine sehr vage Vorstellung von deren Möglichkeiten und Beschränkungen sowie dem für die Nutzung erforderlichen Ressourceneinsatz. Dies führt einerseits dazu, dass solche Technologien häufig gar nicht oder zu spät genutzt werden, andererseits, dass viele Einführungen am Ende scheitern. Eines der Hauptprobleme dabei ist, dass häufig umfangreich in Hardware investiert wird, bevor klar ist, ob und wie diese hinterher genutzt werden soll. Wer sind die Nutzer? Wer profitiert davon? Wie werden die Nutzer geschult? Wie wird die Infrastruktur gewartet und weiterentwickelt? Welche Applikationen sollen erstellt oder benutzt werden? Wie wird das in den Produktionsprozess integriert oder dieser angepasst? Das vorliegende Buch soll potenziellen Anwendern von VR und AR helfen, diese Dinge im Voraus besser einschätzen zu können und damit Fehlplanungen zu verhindern oder zumindest zu reduzieren. Sowohl für Anwender aus dem Bereich der Forschung als auch der Industrie ermöglicht das Buch, sich detailliert mit dem Thema auseinanderzusetzen und somit abzuschätzen, ob und in welchem Umfang ein Einsatz von VR und AR sinnvoll erscheint und welche Ressourcen dafür benötigt werden.
Technologieaffine Letztlich gibt das Buch den aktuellen Status Quo im Bereich VR/AR wieder und ermöglicht so dem technologisch Interessierten einen Einblick in diese faszinierende Welt.

1  Einführung in Virtual und Augmented Reality

39

Dabei werden sowohl neuartige, zur Zeit noch primär in der Forschung oder in der forschungsnahen Prototypen- und Anwendungsentwicklung eingesetzte Techniken und Technologien vorgestellt, als auch solche, welche heute, beispielsweise in der Automobilindustrie, bereits fester Bestandteil der Produktionskette sind.

1.8	Zusammenfassung und Fragen
VR ist heute nicht einheitlich definiert. Man kann sich dem Begriff aus technologiezentrierter Sicht nähern und darunter Computersysteme verstehen, die immersive und interaktive Umgebungen durch entsprechende Hardware wie Stereodisplays aufbauen. Man kann VR aber auch als Methodologie beschreiben, Nutzern die Erfahrung der Inklusion in einer scheinbaren Wirklichkeit zu vermitteln. Ziel ist es nicht unbedingt, eine perfekte Virtuelle Realität zu erreichen, in der Virtualität und Realität nicht mehr unterschieden werden können. Eigenheiten der menschlichen Wahrnehmung wie die Suspension of Disbelief können ausgenutzt werden, um erfolgreich Virtuelle Umgebungen für Menschen zu schaffen und diesen das Gefühl der Präsenz in einer VR zu vermitteln. Dies kann unterschiedlichen Zwecken dienen: der Forschung (z. B. der menschlichen Wahrnehmung), der Ausbildung, der Unterhaltung, der Unterstützung von Kommunikation, der Visualisierung von Simulationsergebnissen oder wirtschaftlichen Zielen (z. B. dem Prototyping zur Effizienzerhöhung oder Kosteneinsparung). Mit VR verfolgt man prinzipiell den Zweck, eine innovative Schnittstelle zwischen Mensch und Computer aufzubauen. Die Idee, Nutzer in der Realität präsent zu lassen, diese aber um Teile aus einer Virtuellen Welt zu erweitern, führt zur Augmentierten Realität. Für die Realisierung entsprechender Virtueller oder Augmentierter Umgebungen bedarf es zum einen einer Virtuellen Welt, also den in der Umgebung zu zeigenden Inhalt (z. B. Beschreibung der Geometrie, des Aussehens, des Verhaltens der darin vorkommenden virtuellen Objekte), zum anderen eines VR/AR-Systems, also eines Computersystems, das als wesentliche Komponenten die Ermittlung von Information über den Nutzer und dessen Interaktionen (z. B. durch Tracking), die Erzeugung von Reizen für den Nutzer (z. B. Bilder und Töne) sowie die Simulation der Virtuellen Welt umfasst. VR/AR ist trotz ihres über 50-jährigem Bestehens noch eine junge Wissenschaft, bei deren Entwicklung man vier Generationen unterscheiden kann, die sich durch die verwendete Hardware charakterisieren lassen (HMD und Datenhandschuh, Stereoprojektion und optisches Tracking, hochauflösende Displays und Low-Cost Tracking ohne Verwendung von künstlichen Marken, Consumer-HMD inkl. Tracking und Controllern und AR auf Smartphones und Tablets).
Überprüfen Sie Ihr Verständnis des Kapitels anhand der folgenden Fragen:
• Wie würde Ihre Definition der Begriffe „Virtuelle Realität“, „Virtuelle Welt“, „Virtuelle Umgebung“, „Augmentierte Realität“, „Mixed Reality“, „Immersion“, „Präsenz“, „Simulation“, „Tracking“, „Nutzer“, „Mensch-Maschine Interaktion“ und „Suspension of Disbelief“ lauten?

40

R. Dörner et al.

• Im Text wurde als Beispiel ein Szenario beschrieben, bei dem ein Nutzer auf einer Glasplatte steht, die als Projektionsscheibe genutzt wird. Dadurch vermittelte man dem Nutzer den Eindruck, auf einem virtuellen Hochhaus zu stehen, wobei der Nutzer seine realen Füße sehen konnte. Handelt es sich bei diesem Szenario um eine VR oder eine AR?
• Nehmen Sie an, Sie möchten eine Jogging-App realisieren, bei der man gegen andere Läufer (oder auch sich selbst am Vortag) läuft. Würden Sie dies mit VR oder mit AR umsetzen? Wovon hängt dies u. U. ab? Wie würde Ihre Umgebung aussehen? Welche Hardware würden Sie dafür einsetzen?
• Wozu kann man VR und AR nutzen? Welche Anwendungsbeispiele kennen Sie oder können Sie sich vorstellen? Warum beschäftigen Sie sich mit VR/AR?

Literaturempfehlungen1
Angel E, Shreiner D (2015) Interactive computer graphics: a top-down approach with WebGL. Pearson Education, Harlow – Lehrbuch, das Grundlagen der Computergraphik abdeckt, z. B. die Erzeugung von Bildern mit dem Computern bespricht. Außerdem wird praxisnah in OpenGL bzw. WebGL, eine Programmierbibliothek für Computergraphik, eingeführt und dabei die Möglichkeiten der Nutzung von Graphikprozessoren (GPUs) in Form sogenannter Shader thematisiert.

1Wissenschaftliche Originalliteratur findet sich in Fachzeitschriften und Konferenzbänden, die z. B. in digitalen Bibliotheken (z. B. dl.acm.org, ieeexplore.org, link.springer.com) oder über Suchmaschinen (z. B. scholar.google.com) recherchiert und zugegriffen werden kann. Im Bereich der VR findet jährlich die IEEE VR Konferenz (ieeevr.org) statt. Auf europäischer Ebene gibt es das Eurographics Symposium on Virtual Environments (EGVE) sowie die VR Konferenz der euroVR, die z. T. gemeinsam als Joint Virtual Reality Conference (JVRC) durchgeführt werden. National gibt es einen jährlichen Workshop der GI-Fachgruppe VR/AR. Mit Fokus auf AR wird jährlich die ISMAR, das IEEE Symposium for Mixed and Augmented Reality, durchgeführt. Außerdem gibt es noch spezielle Veranstaltungen, die etwa die Aspekte von Benutzungsschnittstellen von VR und AR thematisieren, wie z. B. die ACM VRST Konferenz oder die 3DUI, das IEEE Symposium for 3D User Interfaces. Oder als weiteres Beispiel Veranstaltungen, die sich mit speziellen Anwendungen von VR beschäftigen, z. B. im industriellen Bereich (z. B. VRCAI – ACM International Conference on Virtual Reality Continuum and Its Applications in Industry auf internationaler Ebene oder der Workshop Augmented & Virtual Reality in der Produktentstehung auf nationaler Ebene). Auch einige wissenschaftliche Journale haben VR und AR im Fokus, z. B. Presence – Teleoperators and Virtual Environments von MIT Press, Virtual Reality vom Springer Verlag oder das Journal of Virtual Reality and Broadcasting (jVRb) als Open Access E-Journal.
Neben Konferenzbänden und Fachzeitschriften, die sich originär mit VR und AR beschäftigen, ist auch Literatur zu empfehlen, die sich mit wesentlichen Teilaspekten von VR und AR auseinandersetzt wie z. B. Graphische Datenverarbeitung (z. B. ACM SIGGRAPH und die ACM Transactions on Graphics), Bildverarbeitung und Computer Vision (z. B. IEEE ICCV) oder Mensch-Maschine-Interaktion (z. B. ACM SIGCHI).

1  Einführung in Virtual und Augmented Reality

41

Rabin S (2009) Introduction to game development. Second edition. Charles River Media, Boston – ein Standardwerk zum Thema Computerspiele. Aufgrund vielfältiger Berührungspunkte von VR und Computerspielen ist auch die Literatur aus dem Bereich Computer Games relevant.
Rheingold H (1992) Virtuelle Welten – Reisen im Cyberspace. Rowohlt Verlag, Reinbek – Der Kulturwissenschaftler Howard Rheingold dokumentiert mit diesem „Reisebericht“ die Entstehungszeit des Technologiegebiets der VR um das Jahr 1990. Er berichtet u. a. über Treffen mit VR-Pionieren wie Jaron Lanier, das Entstehen einer kommerziellen VR-Industrie, damals vermutete Verheißungen der VR als „Wirklichkeitsmaschine“ sowie deren Rezeption im öffentlichen Diskurs („Ist VR elektronisches LSD?“). Das Buch gibt zudem einen umfassenden Einblick in frühe Entwicklungen der VR in verschiedenen Ländern wie USA, England, Frankreich und Japan.

Literatur
Azuma R (1997) A Survey of augmented reality. In: Presence: Teleoperators and Virtual Environments. 6, Nr. 4, 1997, 355–385.
Bell, B., Feiner, S., and Hoellerer, T. (2001). Information at a glance. IEEE Computer Graphics & Applications, 22(4), July/August 2002, 6−9.
Bricken W (1990) Virtual reality: directions of growth. Notes SIGGRAPH ’90 Panel (HITL Technical Report R-90-1), U Washington, Seattle.
Caudell T P and Mizell D W (1992) Augmented reality: an application of heads-up display technology to manual manufacturing processes, Proc 25th Hawaii International Conference on System Sciences, vol 2, 659–669.
Feiner S, MacIntyre B, Höllerer T (1997) A Touring Machine: Prototyping 3D Mobile Augmented Reality Systems for Exploring the Urban Environment, Digest of Papers. First International Symposium on Wearable Computers, 74–81.
Held RH, Durlach NI (1992) Telepresence. Presence: Teleoperators and Virtual Environments, 1(1):109–112.
Kato H, Billinghurst M (1999) Marker tracking and hmd calibration for a video-based augmented reality conferencing system. In 2nd IEEE and ACM International Workshop on Augmented Reality (IWAR), 85–94, IEEE.
Man S (2001), „Mediated Reality“, in Linux Journal, Article No 5, Issue 59, 1999, March 2001. Man S (1994), „Mediated Reality“, TR #260, M.I.T. Medial Lab Perceptual Computing Section,
Cambridge, Massachusetts. Milgram P, Takemura H, Utsumi A, Kishino F (1995) Augmented reality: a class of displays on the
reality-virtuality continuum. Proc SPIE 2351, 282–292. Mine MR, Brooks Jr. FP, Sequin CH (1997) Moving objects in space: exploiting proprioception in
virtual-environment interaction. Proc SIGGRAPH 2007, 19–26. Rekimoto J, Nagao K (1995) The world through the computer: computer augmented interaction
with real world environments. Proc UIST ’95, 29–36. Rheingold H (1992) Virtuelle Welten – Reisen im Cyberspace. Rowohlt Verlag, Berlin. Sadowski W, Stanney KM (2002) Presence in virtual environments. In: Stanney KM (ed) Hand-
book of virtual environments: design, implementation, and applications, Lawrance Erlbaum Assoc., Mahwah. Sheridan TB (1992) Musings on telepresence and virtual presence. Presence: Teleoperators and Virtual Environments, 1(1):120–125.

42

R. Dörner et al.

Slater M, Wilbur S (1997) A framework for immersive virtual environments (FIVE): speculations on the role of presence in virtual environments. Presence: Teleoperators and Virtual Environments, 6(6):603–616.
Slater M (2003) A note on presence terminology. Presence Connect 3:3. Slater M (2009) Place illusion and plausibility can lead to realistic behaviour in immersive virtual
environments. Phil. Trans. of the Royal Society B, 364(1535): 3549–3557. Slater M, Spanlang B, Corominas D (2010) Simulating virtual environments within virtual
environments as the basis for a psychophysics of presence. ACM Trans. Graph. 29(4), No. 92. Sherman W, Craig A (2003) Understanding virtual reality. Morgan Kaufmann, San Mateo. Stone RJ (1993) In: Earnshaw RA, Gigante MA, Jones H (eds) Virtual Reality Systems, Academic
Press, London. Sutherland IE (1965) The ultimate display. Proc IFIP Congress, 506–508. Sutherland I (1968). A head mounted three dimensional display. In Proc. Fall Joint Computer Con-
ference, pages 757–764. Witmer BG, Singer MJ (1998) Measuring presence in virtual environments: a presence question-
naire. Presence – Teleoperators and Virtual Environments, 7(3):225–240.

Wahrnehmungsaspekte von VR

2

Ralf Dörner und Frank Steinicke

Zusammenfassung Ein wesentliches Potential von VR als Mensch-Maschine-Schnittstelle liegt in der Möglichkeit, dem Nutzer die Illusion der Anwesenheit in der dargestellten Virtuellen Welt zu suggerieren. Ob und wie gut dies gelingt, ist nicht nur ein technisches Problem, sondern beruht auch auf Prozessen der menschlichen Wahrnehmung zur Interpretation der dargebotenen Sinnesreize. Zum besseren Verständnis der damit verbundenen Fragestellungen werden in diesem Kapitel grundlegende Kenntnisse aus dem Bereich der menschlichen Informationsverarbeitung behandelt. Von besonderem Interesse in einer Virtuellen Umgebung sind die Raumwahrnehmung und die Wahrnehmung von Bewegung, auf die spezifisch eingegangen wird. Basierend auf diesen Grundlagen werden VR-typische Phänomene und Probleme diskutiert, wie z. B. das Sehen von Doppelbildern oder Cybersickness. Dabei kann jeweils das Wissen um menschliche Wahrnehmungsprozesse sowohl zur Erklärung dieser Phänomene wie auch zur Ableitung von Lösungsstrategien genutzt werden. Schließlich wird in diesem Kapitel gezeigt, wie sich verschiedene Limitierungen der menschlichen Wahrnehmung ausnutzen lassen, um die Qualität und die Nutzererfahrung während einer VR-Session zu verbessern.

R. Dörner (*)  Hochschule RheinMain, Fachbereich Design, Informatik, Medien, Unter den Eichen 5, 65195 Wiesbaden, Deutschland E-Mail: ralf.doerner@hs-rm.de

© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2019

43

R. Dörner et al. (Hrsg.), Virtual und Augmented Reality (VR/AR),

https://doi.org/10.1007/978-3-662-58861-1_2

44

R. Dörner und F. Steinicke

2.1	Menschliche Informationsverarbeitung
Die Art und Weise wie Menschen Informationen wahrnehmen und verarbeiten ist essentiell für die Gestaltung von Virtuellen Welten sowie die Interaktion innerhalb solcher. Schlussendlich wird jede Virtuelle Welt vom Menschen konsumiert. Aus diesem Grund ist es sinnvoll, sich mit den grundlegenden Funktionen der menschlichen Informationsverarbeitung auseinanderzusetzen, um die verschiedenen Auswirkungen und Phänomene der VR besser verstehen und eventuelle Limitierungen ausnutzen zu können.
Der Mensch nimmt seine Umgebung über verschiedene Sinne wahr. Im Kontext heutiger VR-Technologien sind die dabei wichtigsten Sinne
• der visuelle, • der akustische und • der haptische Sinn.
Bei den meisten der heutigen VR-Systeme werden die anderen Sinne wie der olfaktorische (Riechen) oder der gustatorische Sinn (Schmecken) nicht virtuell stimuliert. Somit werden nahezu sämtliche in der Virtuellen Welt dargestellten Informationen durch die Augen, Ohren oder über die Haut wahrgenommen. Auf den ersten Blick unterscheidet sich somit die Wahrnehmung in einer Virtuellen Welt nicht von der Wahrnehmung in einer typischen Desktop-Umgebung und den damit verbundenen Sinnen und Sinneseindrücken. Die Virtuellen Welten auf dem Bildschirm bzw. aus den Lautsprechern wirken als visuelle bzw. akustische Stimuli; über Maus und Tastatur werden haptische Eindrücke vermittelt. Ein wichtiges Kriterium einer virtuellen Erfahrung ist die Möglichkeit, die Virtuelle Welt auf immersive Art und Weise zu erkunden. Im Gegensatz zu Desktop-basierten Umgebungen geschieht dies in der VR nicht nur durch Maus und Tastatur, sondern durch 3D-Eingabegeräte oder durch Bewegungen des Nutzers im realen Raum, die auf entsprechende Bewegungen in der Virtuellen Welt abgebildet werden. Neben diesen Eingaben in das VR-System gibt es weitere Formen der Eingabe, wie beispielsweise Sprache, Gesten und andere menschliche Ausdrucksformen (Preim und Dachselt 2015).
Um die komplexen Vorgänge bei der Informationsverarbeitung beim Menschen besser verstehen zu können, ist es hilfreich, sich den Menschen als informationsverarbeitendes System vorzustellen (siehe Abb. 2.1). Bei dieser Metapher aus dem Bereich der Informatik werden alle physischen Eigenschaften des Menschen der Hardware, alle psychischen Eigenschaften der Software zugeordnet. Die informatische Informationsverarbeitungskette startet mit einer Eingabe, welche im Rechner verarbeitet wird und schließlich als Ausgabe auf den Ausgabemedien dargestellt wird. Bei der menschlichen Informationsverarbeitung werden Reize der äußeren Welt somit analog zunächst als Eingabe an das perzeptuelle System übergeben und dort wahrgenommen (Card et al. 1986). Diesem perzeptuellen Prozessor stehen Speicher (z. B. visuelle Speicher) und Prozessor (z. B. zur Vorfilterung) ähnlich wie der Eingabe beim Computer zur Verfügung. Die Verarbeitung der resultierenden wahrgenommenen Reize findet dann im kognitiven Prozessor statt.

2  Wahrnehmungsaspekte von VR

45

Abb. 2.1   Modell der Menschlichen Informationsverarbeitung. (Nach Card et al. 1986)
Hier kann auf weitere Speicher, also das Arbeits- sowie Langzeitgedächtnis zugegriffen werden, um die Reize zu interpretieren und entsprechendes Handeln zu planen. Die tatsächliche Handlung findet dann im motorischen Prozessor statt, der entsprechende Bewegungen einleitet.
Diese teilweise starken Vereinfachungen in Modellen zur Informationsverarbeitung beim Menschen approximieren lediglich die tatsächlich deutlich komplexeren Vorgänge, erlauben es aber, Vorhersagen über die menschliche Informationsverarbeitung zu treffen. Beispielsweise konnten Card et al. (1986) somit benötigte Zeiten für eine ganze Reihe von Interaktionsaufgaben beim Menschen vorhersagen. Durch dieses Modell wird unter anderem klar, warum Aufgaben, die ein mehrfaches Durchlaufen des kognitiven Prozessors verlangen (z. B. Vergleiche etc.), mehr Zeit benötigen als solche Aufgaben, bei denen der kognitive Prozessor lediglich einmal durchlaufen wird (z. B. einfaches Reagieren auf Stimulus).
An dieser Stelle sei noch auf eine ganze Reihe weiterer Modelle wie GOMS oder Keystroke-level Model (KLM) verwiesen, die im Bereich der Mensch-Computer-Interaktion eingesetzt werden (Dahm 2006). Im Folgenden wollen wir einen genaueren Einblick in die einzelnen Komponenten der menschlichen Informationsverarbeitung geben.

46

R. Dörner und F. Steinicke

2.2	Visuelle Wahrnehmung
Das visuelle System ist der Teil des Nervensystems, der für die Verarbeitung von visuellen Informationen verantwortlich ist. Der Aufbau des menschlichen Auges ermöglicht es, dass Licht über die Linse auf die innen liegende Netzhaut (Retina) projiziert werden kann. Dort gibt es etwa 120 Mio. Sehzellen. Diese unterteilen sich in die Stäbchen, die nur die Helligkeit wahrnehmen, und die ca. 7 Mio. Zapfen, welche für das Farbsehen verantwortlich sind. Die Zapfen wiederum lassen sich in drei Typen unterteilen, die jeweils auf blaue, grüne und rote Farbtöne reagieren. Der optische Apparat des Auges erzeugt auf der Netzhaut ein auf dem Kopf stehendes und seitenverkehrtes Bild. Damit das wahrgenommene Bild scharf auf der Netzhaut ankommt, muss die Linse durch Muskeln abhängig von der Entfernung eines betrachteten Objekts richtig eingestellt werden. Dieser Vorgang wird Akkommodation genannt. Die Fovea ist die Stelle auf der Netzhaut mit der höchsten Abbildungsschärfe und der größten Dichte von Sehzellen. Das Auge hat zwar einen Öffnungswinkel von ungefähr 150° (60° innen, 90° außen, 60° oben und 75° unten), allerdings werden lediglich 2° bis 3° des Sichtfeldes auf die Fovea projiziert. Das Auflösungsvermögen beträgt unter idealen Bedingungen etwa 0,5 bis 1 Winkelminuten. Dies bedeutet, dass ein 1 mm großer Punkt aus ca. 3–6 m Entfernung wahrnehmbar sein kann. Das Auge verharrt nur während einer Verweildauer von etwa 250 ms bis 1 s auf einem solchen Fixationspunkt, bevor rasche, ruckartige Augenbewegungen (sogenannte Sakkaden) eintreten. Sie dienen der Ergänzung der peripheren Wahrnehmung, in der die Auflösung lediglich ca. ein Vierzigstel der fovealen Auflösung entspricht, und ermöglichen uns somit die Illusion, ein vollständig hochaufgelöstes Bild wahrzunehmen.
Die visuelle Wahrnehmung ermöglicht es uns insbesondere, Objekte zu identifizieren. Dazu wird das projizierte Bild der Szene bereits in der Netzhaut analysiert (z. B. Helligkeit, Kontraste, Farbe und Bewegung) und bearbeitet (z. B. Helligkeitsausgleich und Kontrastverstärkung). Bei der Weiterleitung über den Sehnerv bleiben die räumlichen Lagebeziehungen der Rezeptoren in den Lagebeziehungen der Nervenbahnen und Synapsen erhalten. Diese Lagebeziehung ist im visuellen Cortex als neuronale Karte nachweisbar und unterstützt zum Beispiel das Identifizieren und Unterscheiden von Objekten (Marr 1982). Das Erkennen von einzelnen Elementen und ihrer Bedeutung erfolgt wahrscheinlich durch Vergleich mit bereits gespeicherten Erfahrungen (Szenen verknüpft mit Körpergefühl, Emotionen, Geruch, Geräuschen und vielem anderen mehr).

2.2.1	Stereosehen
Als Beispiel für die Funktionsweise menschlicher Wahrnehmung und wie sie durch ein VR-System manipuliert werden kann, um eine Präsenz in der Virtuellen Welt zu erzeugen, betrachten wir ein für VR wichtiges Phänomen: die Stereopsis, auch Stereosehen genannt. Menschen verfügen über zwei Augen, nehmen aber keine zwei separaten Bilder von der Realität wahr. Zudem gelingt es dem visuellen Wahrnehmungssystem des

2  Wahrnehmungsaspekte von VR

47

Menschen, aus den auf die zweidimensionale Netzhaut der Augen auftreffenden Lichtreizen einen dreidimensionalen Eindruck von der Umwelt zu erhalten.
Betrachten wir Punkt A in der Abb. 2.2a. Wenn wir davon ausgehen, dass A fixiert wurde, dann wurden die Augen so eingestellt, dass Licht von Punkt A sowohl in die Fovea des linken Auges fällt (und in Punkt AL auf der Netzhaut auftrifft) als auch in Fovea des rechten Auges (dort in Punkt AR). Einstellen bedeutet, dass die Augenmuskeln entsprechend bewegt werden. Je näher der sich zwischen beiden Augen befindliche Punkt A am Betrachter ist, desto stärker müssen die Augen nach innen zur Nase hin gedreht werden, um A zu fixieren. Man nennt diese Bewegung der beiden Augen Konvergenz. Da das visuelle System die Information hat, wie groß die Konvergenz ist, kann der Winkel α im Dreieck A, AL und AR eingeschätzt werden, denn je größer die Konvergenz, desto größer ist α. Mit der Kenntnis von α und des Abstandes k beider Augen, der für eine Person konstant ist, kann auf die Entfernung d des Punktes A vom Betrachter geschlossen werden. Durch einfache Trigonometrie lässt sich folgende Beziehung zwischen d und α herstellen: d = k / (2 · tan α). Mit dieser Triangulierung von A, die erst durch zwei Augen möglich wird, kann das visuelle System also die Entfernung von A wahrnehmen.
Die Punkte AL und AR nennt man korrespondierende Punkte der Netzhaut, sie würden bei einer gedachten Überlagerung der beiden Augen an derselben Stelle liegen. Das visuelle System ist in der Lage diese Korrespondenz zu ermitteln. Alle Punkte in der Realität, die auf korrespondierende Punkte auf der Netzhaut abgebildet werden, bilden den Horopter. Er hat die Form einer um den Kopf gekrümmten Fläche, die den Fixationspunkt enthält. Betrachten wir nun Punkt B in Abb. 2.2, der nicht auf dem Horopter liegt. Im linken Auge trifft Licht von B immer noch an Punkt AL auf, im rechten Auge dagegen an Punkt

Abb. 2.2   a Stereopsis b Manipulation der Stereopsis mit einem Stereodisplay

48

R. Dörner und F. Steinicke

BR. Die Punkte AL und BR sind keine korrespondieren Punkte, die Abweichung von BR zum zu AL korrespondierenden Punkt AR nennt man die von B erzeugte Disparität. Disparitäten werden häufig als Winkel angegeben, in unserem Beispiel in Abb. 2.2 wäre dies
der Winkel β. Je größer β ist, desto mehr ist der Punkt B vom Horopter entfernt. Die von
B erzeugte Disparität bietet also einen Anhaltspunkt, um die Entfernungen von Punkten
wie B wahrzunehmen, die im Gegensatz zu A nicht fixiert werden und deren Entfernung
nicht allein basierend auf der Konvergenz der Augen direkt bestimmt werden kann.

Zwei kleine Experimente zu Konvergenz und Disparität: 1. Halten Sie einen Stift in ca. 1 m Abstand vor das Gesicht einer Person. Bitten
Sie die Person die Spitze des Stifts zu fixieren und fixiert zu lassen. Bewegen Sie nun den Stift auf die Nase der Person zu, so können Sie gut die Konvergenz beobachten: die Augen werden nach innen zur Nase hin ausgerichtet. 2. Setzen Sie sich vor ein rechteckiges Objekt (z. B. einen Monitor), schließen Sie das rechte Auge und halten Sie die Zeigefinger so, dass der linke Zeigefinger auf den linken Rand des Objekts zeigt und der rechte Zeigefinger auf den rechten Rand. Öffnen Sie nun das rechte Auge und schließen das linke. Das Objekt macht relativ zu den Fingern scheinbar einen Sprung – rechtes und linkes Auge nehmen also ein leicht unterschiedliches Bild wahr, es gibt Disparitäten.

Durch Disparitäten ist es ebenso möglich, Hinweise für die Entfernung von Punkten zu erhalten, die vom Betrachter aus vor dem Horopter liegen. Punkt C in Abb. 2.2 ist ein solcher Punkt und während Licht von C im linken Auge ebenfalls in Punkt AL eintrifft, geschieht dies im rechten Auge an Punkt CR. Die Disparität besteht nun also zwischen AR (dem zu AL korrespondierenden Punkt) und CR. Der Punkt CR liegt rechts von AR, während BR links von AR liegt. Man sagt, dass B eine ungekreuzte Disparität und C eine gekreuzte Disparität erzeugt. Ob ein Punkt hinter oder vor dem Horopter liegt, kann also durch die Tatsache unterschieden werden, dass im ersten Fall ungekreuzte Disparitäten und im zweiten Fall gekreuzte Disparitäten erzeugt werden.
Wird die Disparität zu groß, liegt also der die Disparität erzeugende Punkt zu weit vom Horopter entfernt, dann ist das visuelle System nicht mehr in der Lage, die Bildeindrücke beider Augen zu einem Bildeindruck zu fusionieren. Als Folge davon sieht man nicht mehr einen Punkt, sondern zwei Punkte. Alle Punkte in der Welt, die Disparitäten erzeugen, die klein genug sind, damit noch eine Fusion der Bildinformationen vom linken und rechten Auge möglich ist, bilden den Panumbereich. Der Panumbereich hat um den fixierten Punkt herum die kleinste Ausdehnung.
In der Virtuellen Welt kann man Stereopsis manipulieren, mit dem Ziel einen dreidimensionalen Eindruck zu bewirken, obwohl man nur eine zweidimensionale Displayfläche verwendet. In Abb. 2.2b ist dargestellt, dass die Displayfläche von einem

2  Wahrnehmungsaspekte von VR

49

Betrachter angeschaut wird. Anschauen bedeutet, dass der Betrachter einen Punkt A
auf der Displayfläche mit den Augen fixiert. Wir stellen nun auf der Displayfläche zwei
Punkte PL und PR dar. Dabei sorgen wir durch in Kap. 4 genauer beschriebene technische Vorkehrungen dafür, dass Licht von PL nur ins linke Auge und Licht von PR nur in das rechte Auge trifft. Den Abstand von PL und PR auf der Displayfläche bezeichnet man als Parallaxe. Auf diese Situation kann das visuelle System auf zwei Arten reagieren.
Erstens, es werden zwei verschiedene Punkte erkannt. In der Realität passiert es ständig,
dass von Punkten in der Welt Licht nur in eines der Augen fällt. Das visuelle System ist
auch in der Lage, derartige Punkte in Relation zu Punkten anzuordnen, von denen Licht
in beide Augen fällt (daVinci-Stereopsis). Zweitens, das visuelle System erklärt sich die
Lichtreize an den Punkten PL und PR dadurch, dass das Licht von einem einzigen Punkt P* ausgeht, der vor der Displayfläche liegt. P* ist die Fusion von PL und PR. Welcher der beiden Fälle tatsächlich eintritt, hängt von einer Vielzahl von Faktoren ab, z. B. wie
weit der scheinbare Punkt P* von der Displayfläche entfernt liegt. Fusioniert das visuelle
System die beiden Eindrücke PL und PR, dann ist es gelungen, einen Punkt außerhalb der Displayfläche erscheinen zu lassen. Indem man die Reihenfolge der Punkte für das
linke und rechte Auge auf der Displayfläche vertauscht, kann man auch Punkte hinter der
Displayfläche erzeugen. Dies ist in Abb. 2.2 an Punkt QL und QR gezeigt, hier könnten die beiden auf dem Display angezeigten Punkte zu einem Punkt Q* hinter dem Display
fusioniert werden. Man spricht bei der Anzeige von PL und PR von einer negativen Parallaxe, bei QL und QR von einer positiven Parallaxe.
In der VR kann man also unter Ausnutzung der Eigenheiten der menschlichen Wahr-
nehmung ein Stereodisplay realisieren, das nicht nur einen zweidimensionalen, sondern
auch einen plastischen dreidimensionalen Bildeindruck erzeugt, indem durch geeignete
Wahl der Parallaxe Objekte vor oder hinter dem Bildschirm erscheinen. Dies ist zu unter-
scheiden von echten dreidimensionalen Displays (volumetrischen Display s), bei denen
z. B. eine Displayfläche im Raum bewegt wird.

2.2.2	Raumwahrnehmung
Nicht nur Disparität en werden vom visuellen System genutzt, um Räumlichkeit und die Anordnung von Objekten im Raum wahrzunehmen. Dafür spricht u. a. die Tatsache, dass es Personen gibt, die Information aus Disparitäten nicht auswerten können („Stereoblindheit“), dennoch aber eine dreidimensionale Vorstellung von der Welt entwickeln. Es gibt keine genauen Zahlen, aber man schätzt, dass etwa 20 % der Bevölkerung stereoblind sind. Mit einem Test kann man Stereoblindheit analog zu einem Test auf Farbfehlsichtigkeit ermitteln. Gerade für Personen, die im Bereich VR aktiv sind, empfiehlt sich die Durchführung eines derartigen Tests. Vielen Menschen ist nicht bewusst, dass sie stereoblind sind.
Man kennt heute eine ganze Reihe von Anhaltspunkten, genannt Tiefenhinweise (engl. Depth Cues), die für die Raumwahrnehmung vom Gehirn heran gezogen werden.

50

R. Dörner und F. Steinicke

Disparität ist ein Beispiel für einen Tiefenhinweis. Verdeckung ist ein weiteres Beispiel: Verdeckt ein Auto einen Baum, dann kann das visuelle System daraus die Information ableiten, dass das Auto sich näher am Betrachter befindet als der Baum. Für diesen Hinweis bedarf es nicht des Zusammenspiels beider Augen, man nennt Verdeckung daher einen monokularen Tiefenhinweis. Da man selbst aus 2D-Bildern noch Tiefenhinweise durch Verdeckung erhalten kann, spricht man auch von einem piktorialen Tiefenhinweis. Disparität dagegen ist ein binokularer Tiefenhinweis. Bei Tiefenhinweisen kann man noch unterscheiden, ob sie helfen, die räumliche Position eines Objektes absolut einzuschätzen oder nur relativ zu einem anderen Objekt. Konvergenz beispielsweise erlaubt eine absolute Ortsbestimmung, Verdeckung nur eine Bestimmung relativ zum verdeckten Objekt.
Die Aussagekraft und Zuverlässigkeit der verschiedenen Tiefenhinweise hängt insbesondere auch von der Entfernung des Betrachters zum jeweiligen Objekt ab. Während Verdeckung im ganzen sichtbaren Bereich zuverlässige Hinweise liefert, ist dies für Disparität nicht der Fall. Je weiter ein Punkt vom Betrachter entfernt ist, desto geringer ist die Disparität, die er erzeugt. Ein Punkt im Abstand von 2 m bis 3 m erzeugt eine sehr geringe Disparität, ab 10 m Abstand ist die Disparität de facto nicht mehr wahrnehmbar. Für VR bedeutet dies, dass man bei Virtuellen Welten, bei denen sich bedeutsame Objekte in Armreichweite befinden, den Aufwand für den Einsatz von Stereodisplays betreiben sollte. In diesem Bereich ist Disparität wesentlich. Für Virtuelle Welten hingegen, bei denen Objekte mehr als 3 m vom Betrachter entfernt sind, trägt der Einsatz eines Stereodisplays nicht viel zur Raumwahrnehmung bei und kann überflüssig sein.
Tab. 2.1 zählt bekannte Tiefenhinweise auf, macht Angaben zum Wirkungsbereich und Informationsgehalt (Hinweise zur relativen Anordnung oder zur absoluten Entfernungsbestimmung) sowie zur Kategorie (monokular, binokular oder dynamisch, wobei unter letzterem Tiefenhinweise verstanden werden, die der Betrachter durch Bewegung erhält). Die in der Liste genannten Tiefenhinweise sind alle visueller Natur, dazu kann das Gehirn aber auch Hinweise durch andere Sinne erhalten, z. B. durch Berührung oder durch Änderung der Tonhöhe des Geräusches eines sich bewegenden Objektes. Da es für eine gute Wahrnehmung einer Virtuellen Welt wichtig ist, soviele Tiefenhinweise wie möglich in VR zu geben, gehen wir die Liste im Folgenden durch. Verdeckung, Disparität und Konvergenz wurden bereits behandelt. Ähnlich der Konvergenz, bei der die Muskelanspannung für das Ausrichten der Augen berücksichtigt wird, zieht das Gehirn auch die für die Akkommodation, die Einstellung der Brechkraft der Augenlinse, notwendige Muskelanspannung als Tiefenhinweis heran: Um Objekte nahe am Betrachter scharf abzubilden, muss die Augenlinse mit mehr Muskelkraft zusammen gedrückt werden als dies bei entfernten Objekten der Fall ist. Fixiert ein Mensch ein Objekt in einer bestimmten Entfernung, so erscheinen weitere Objekte nur in der Umgebung dieses Objekts scharf (z. B. im Entfernungsbereich 75 cm bis 1,5 m, falls das fixierte Objekt 1 m vom Betrachter entfernt ist). Objekte, die zu weit entfernt oder zu nah am Betrachter sind, erscheinen verschwommen (engl. Blur). Aus dem Image Blur kann daher auch ein Rückschluss auf die Entfernung von Objekten gezogen

2  Wahrnehmungsaspekte von VR

51

Tab. 2.1  Liste von Tiefenhinweisen (mit Wirkungsbereich und Klassifizierung)

Tiefenhinweis Verdeckung Disparität Konvergenz Akkomodation Image Blur Linearperspektive Texturgradient Relative Größe Bekannte Größe Höhe im Gesichtsfeld Atmosphärische Perspektive Shape from Shading Schattenwurf Bewegungsparallaxe Accretion

Wirkungsbereich Kompletter Bereich Bis 10 m Bis 2 m Bis 2 m Kompletter Bereich Kompletter Bereich Kompletter Bereich Kompletter Bereich Kompletter Bereich Über 30 m Über 30 m Kompletter Bereich Kompletter Bereich Über 20 m Kompletter Bereich

Klassifizierung Monokular Binokular Binokular Monokular Monokular Monokular Monokular Monokular Monokular Monokular Monokular Monokular Monokular Dynamisch Dynamisch

Positionsbestimmung Relativ Relativ Absolut Absolut Relativ Absolut Relativ Absolut Absolut Relativ Relativ Relativ Relativ Relativ Relativ

werden. Unter Linearperspektive versteht man einen Tiefenhinweis, der auf der perspektivischen Verzerrung beruht: Weiter entfernte Objekte erscheinen kleiner, in der Realität parallel verlaufende Linien scheinen in einem Fluchtpunkt zusammen zu laufen (siehe z. B. die Straße in Abb. 2.3a).
Auch bei Texturen werden die Texturelemente mit größerem Abstand kleiner, der Texturgradient kann als Tiefenhinweis dienen. Bei gleichartigen Objekten, wie z. B. den drei Quadraten in Abb. 2.3a, die aber im Bild unterschiedlich groß sind, geht das visuelle System davon aus, dass die Größenunterschiede durch unterschiedliche Entfernungen zu erklären sind (und nicht dadurch, dass die Objekte selbst unterschiedlich groß sind: Vermutung der Größenkonstanz). Man nennt diesen Tiefenhinweis relative Größe. Aber auch die bekannte Größe trägt zur Entfernungseinschätzung bei: Wir erhalten einen guten Eindruck von der Größe und der Ausrichtung des Dreiecks in Abb. 2.3a, weil ein Mensch daneben steht – und damit ein Objekt, von dem wir die Größe und die übliche Orientierung im Raum kennen. Die Höhe im Gesichtsfeld ist ein Tiefenhinweis: In Abb. 2.3a ist das Quadrat C höher im Bild angeordnet als Quadrat A und damit näher an der Horizontlinie, dies spricht auch dafür, dass Quadrat C weiter entfernt ist. Damit verbunden ist auch die Blickrichtung: Muss man geradeaus schauen oder den Kopf heben, wird das Objekt als weiter entfernt vermutet (Ooi et al. 2001). Sehr weit entfernte Objekte erscheinen nicht so kontrastreich und haben eine leicht bläuliche Färbung (vgl. Abb. 2.3b), weil mehr Luft und darin enthaltene Partikel zwischen Betrachter und Objekt liegen (atmosphärische Perspektive). Die Beleuchtung von Objekten gibt Hinweise auf

52

R. Dörner und F. Steinicke

Abb. 2.3   Beispiele für Tiefenhinweise
deren Anordnung im Raum. Zum einen wirken schattierte Objekte räumlicher (Shape from Shading, vgl. linke Pyramide mit Shading, rechte Pyramide ohne in Abb. 2.3c), zum anderen gibt der Schattenwurf Hinweise auf die räumliche Anordnung von Objekten (vgl. Schatten der Kugeln in Abb. 2.3d). Besonders effektiv ist, wenn Schatten von oben auf eine Grundfläche geworfen wird, da das visuelle System eine Lichtquelle von oben (Sonne) gewohnt ist. Wenn das Objekt in Bewegung ist, so ist der Schatten dieses Objekts für die Tiefenwahrnehmung besonders hilfreich. Schließlich beruhen Tiefenhinweise auf Bewegung: Bewegung von Objekten oder Bewegung des Betrachters selbst. Dazu gehört die Bewegungsparallaxe: Die Lichtreize von nahen Objekten bewegen sich schneller über die Netzhaut als die von entfernteren. Fahren wir mit dem Auto durch eine Allee, ziehen die nahen Bäume schnell an uns vorbei, während Berge im Hintergrund sich nur langsam bewegen. Durch Bewegung werden Gegenstände plötzlich verdeckt oder treten hinter den sie verdeckenden Gegenständen wieder hervor. Auch dieser Wechsel, genannt Accretion, gibt Hinweise auf die räumliche Anordnung der Objekte.
Tiefenhinweise sind nicht unabhängig voneinander zu betrachten. So hängen beispielsweise Akkomodation und Konvergenz voneinander ab (Howard 2002). Außerdem

2  Wahrnehmungsaspekte von VR

53

sind Tiefenhinweise unterschiedlich stark. Während Akkomodation zum Beispiel ein schwacher Tiefenhinweis ist, gilt Verdeckung als starker Tiefenhinweis. Alle Tiefenhinweise werden für die Raumwahrnehmung in Form einer gewichteten Summe berücksichtigt. Wie viel Gewicht einem Tiefenhinweis beigemessen wird, ist flexibel und hängt von der Entfernung des einzuschätzenden Objekts ab. Eine Theorie (Wanger et al. 1992), geht davon aus, dass die Gewichte auch von der aktuellen Aufgabe abhängen, mit denen der Betrachter befasst ist. Lautet die Aufgabe, die räumliche Anordnung von entfernten Objekten einzuschätzen, dann haben Bewegungsparallaxe, Linearperspektive, Texturgradient und Schatten ein hohes Gewicht. Besteht die Aufgabe dagegen darin, ein Objekt zu greifen, dann sind Disparität, Konvergenz und Akkommodation wichtig. Demnach wird aus den Tiefenhinweisen im Gehirn nicht ein einziges Modell der 3D-Welt gebildet, das dann für unterschiedliche Aufgaben heran gezogen wird, sondern es werden aufgabenabhängig Modelle gebildet. Wenn in einer VR daher nicht alle Tiefenhinweise erzeugt werden können, dann sollte je nach Aufgabe, die der Betrachter zu erfüllen hat, eine Priorisierung vorgenommen werden.

2.3	Multisensorische Wahrnehmung
Auch wenn der visuelle Sinn die sicherlich wichtigste Informationsquelle bei der Wahrnehmung von Virtuellen Welten ist, spielen auch der auditive sowie der haptische Sinn eine immer wichtiger werdende Rolle (Malaka et al.2009). Insofern sollen auch diese beiden Sinne im Rahmen dieses Kapitels genauer betrachtet werden. Weitere Sinne wie das Riechen und Schmecken spielen eher eine Exotenrolle und werden derzeit im Wesentlichen nur in Forschungslaboren als Prototypen eingesetzt. An dieser Stelle sei darauf hingewiesen, dass die Wahrnehmungen über die einzelnen Sinnesorgane keineswegs als getrennt zu verarbeitende Ereignisse zu betrachten sind, sondern vielmehr eine Integration der unterschiedlichen Eindrücke entsteht. Für weitergehende Literatur sei hier auf (Ernst 2008) verwiesen.

2.3.1	Auditive Wahrnehmung
Die Ohren ermöglichen es dem Menschen, Luftbewegungen wahrzunehmen. Solche Luftund Druckschwankungen erzeugen mechanische Wellen, die auf das Ohr treffen, welches sich aus Außen-, Mittel-, und Innenohr zusammensetzt. Die Ohrmuschel (Außenohr) fängt Schallwellen auf und leitet diese an das Mittelohr weiter. Im Mittelohr werden Schallwellen in Vibrationen des Trommelfells umgewandelt. Die Schwingungen des Trommelfells werden über die Gehörknöchelchen (Ambos, Hammer und Steigbügel) an die Schnecke übertragen. Die Sinneszellen in der Schnecke wandeln die mechanische Energie dann in elektrische Signale um. Schließlich werden diese elektrischen Nervenimpulse über den Hörnerv an das Gehirn weitergeleitet. Die unterschiedlichen Frequenzen lassen

54

R. Dörner und F. Steinicke

sich durch Haarzellen im Innenohr wahrnehmen. Die von dem Menschen wahrnehmbaren Wellen haben Längen von ca. 0,02–20 m, welche hörbaren Frequenzen im Bereich von ca. 18 bis 0,016 kHz entsprechen (Malaka et al. 2009). Im Gegensatz zum visuellen Sinn ist die räumliche Auflösung viel geringer. Die Kopfbezogene Übertragungsfunktion (engl. Head-Related Transfer Function, HRTF) oder Außenohrübertragungsfunktion beschreibt die komplexen Filterwirkungen von Kopf, Außenohr und Rumpf. Die Auswertung und der Vergleich zwischen den Amplituden ist neben den Laufzeitdifferenzen zwischen den Ohren wesentliche Grundlage unseres akustischen Ortungssystems. Die absolute Unterscheidbarkeit von Intensität und Frequenz hat jedoch deutliche Grenzen, so dass zwei Geräuschquellen lediglich dann unterschieden werden, wenn sie mehrere Grad auseinander liegen. Die zeitliche Auflösung ist jedoch deutlich besser und akustische Reize können bereits bei 2 bis 3 ms zeitlicher Diskrepanz unterschieden werden. Das Prinzip der Lokalisation von Geräuschquellen an unterschiedlichen Empfängerpositionen wird auch bei akustischen Tracking-Systemen genutzt (vgl. Kap. 4).

2.3.2	Haptische Wahrnehmung
Haptik oder haptische Wahrnehmung beschreibt die sensorische und/oder motorische Aktivität, die das Erfühlen von Objekteigenschaften, wie beispielweise Größe, Konturen, Oberflächentextur und Gewicht, durch Integration der in der Haut, in den Muskeln, Gelenken und Sehnen empfundenen Sinneseindrücke (Hayward et al.2004). Die Sinne, die zur haptischen Wahrnehmung beitragen, gliedern sich in die
• taktile Wahrnehmung (Bestandteil der Oberflächensensibilität), • kinästhetische Wahrnehmung / Propriozeption (Tiefensensibilität) sowie • Temperatur- und Schmerzwahrnehmung.
Diese Sinne ermöglichen also die Wahrnehmung von Berührungen, Wärme und Schmerz. Solche Wahrnehmungsphänomene basieren auf Rezeptoren in der Haut. Je mehr solcher Rezeptoren verfügbar sind, umso empfindlicher ist die jeweilige Region (z. B. Hand, Lippen oder Zunge). Die wichtigsten Rezeptoren sind die Mechanorezeptoren (z. B. Druck, Berührung oder Vibration), die Thermorezeptoren (Wärme, Kälte) sowie die Nozizeptoren (z. B. Schmerz oder Jucken). Die Mechanorezeptoren beispielsweise wandeln mechanische Kräfte in Nervenerregung um, die als elektrischer Impuls in den sensorischen Cortex weitergeleitet und dort verarbeitet werden. Dadurch lassen sich dann Formen (Rundheit, Scharfkantigkeit), Oberflächen (Glätte und Rauheit) sowie unterschiedliche Profile (Höhenunterschiede) wahrnehmen.
Haptische Ausgabegeräte stimulieren die entsprechenden Rezeptoren beispielsweise durch Vibration (vgl. Kap. 5).

2  Wahrnehmungsaspekte von VR

55

Ein kleines Experiment zur räumlichen Auflösung der haptischen Wahrnehmung: Nehmen Sie einen Zirkel oder zwei spitze Stifte und testen Sie bei sich oder jemand anderem, wo in Ihren oberen Extremitäten Sie am besten zwischen zwei Berührungspunkten unterscheiden können und wo am wenigsten.
2.3.3	Propriozeption und Kinästhesie
Im Gegensatz zur Oberflächensensibilität beschreibt die Tiefensensibilität die Wahrnehmung von Reizen, die aus dem Körperinneren kommen. Die Tiefensensibilität wird im Wesentlichen durch die Propriozeption und Kinästhesie ermöglicht. Beide Begriffe werden oft synonym verwendet; allerdings werden wir mit dem Begriff Propriozeption alle Empfindungen, die mit der Körperposition – sowohl in Ruhestellung als auch in Bewegung – zusammenhängen bezeichnen, während Kinästhesie nur solche Empfindungen beschreibt, die entstehen, wenn aktive Muskelkontraktionen beteiligt sind. Propriozeption gibt uns also Informationen über die Position des Körpers im Raum und die Stellung der Gelenke und des Kopfes (Lagesinn) sowie Informationen über den Spannungszustand von Muskeln und Sehnen (Kraftsinn). Propriozeption versetzt uns in die Lage, jederzeit zu wissen, in welcher Position sich jeder Teil unseres Körpers befindet, und die entsprechenden Anpassungen zu treffen. Die Kinästhesie (dt. Bewegungssinn) ermöglicht uns eine Bewegungsempfindung im Allgemeinen und insbesondere das Erkennen der Bewegungsrichtung.
Diese beiden Sinne sind essentiell, wenn man bedenkt, dass die Interaktion in der Virtuellen Welt zu großen Teilen durch aktive Bewegungen der Gliedmaßen durchgeführt wird. Zur Stimulation dieser Sinne stehen in der VR verschiedene Geräte zur Verfügung, wie beispielsweise haptische Steuerknüppel, vollständige Exoskelette oder Bewegungsplattformen (vgl. Kap. 4 und 5).
2.3.4	Bewegungswahrnehmung
Bewegung ist ein fundamentaler Prozess in der realen sowie in computer-generierten Umgebungen. Wir Menschen bewegen uns durch die reale Welt z. B. durch einfaches Gehen, Rennen oder Fahren mit dem Auto oder Fahrrad. Neben den tatsächlichen vom Nutzer durchgeführten Eigenbewegungen gibt es in den meisten Virtuellen Welten eine Vielzahl von Bewegungen anderer Objekte. Vom rein physikalischen Standpunkt betrachtet, ist Bewegung definiert als eine Ortsveränderung über die Zeit. Bewegung eines Reizes führt bei der visuellen Wahrnehmung zu einer Verschiebung des entsprechenden Netzhautbildes. Je weiter der Reiz entfernt ist, desto kleiner ist – bei gleicher Geschwindigkeit – die retinale Verschiebung. Dem menschlichen Körper stehen zur visuellen Wahrnehmung von Bewegung elementare Bewegungsdetektoren zu Verfügung,

56

R. Dörner und F. Steinicke

die lokale Bewegungen in eine bestimmte Richtung mit einer bestimmten Geschwindigkeit erkennen. Komplexere, globale Bewegungen setzen sich aus lokalen Bewegungsreizen zusammen. Wir nehmen trotzdem zumeist die physikalische und nicht etwa die retinale Geschwindigkeit war. Diese Fähigkeit wird (analog zur Größenkonstanz, siehe Abschn. 2.4.5) als Geschwindigkeitskonstanz bezeichnet.
Ein weiterer wesentlicher Sinn bei der Bewegungswahrnehmung ist der vestibuläre Sinn. Haarzellen im Innenohr ermitteln Flüssigkeitsbewegungen in den Bogengängen. Dies ermöglicht es dann, lineare Beschleunigungen sowie Drehbeschleunigungen wahrzunehmen. Zur Stimulation des vestibulären Sinnes werden Bewegungssimulator en (Plattformen) in einigen VR-Systemen eingesetzt. Es ist jedoch auch möglich, nur durch visuelle Stimuli die Illusion einer Eigenbewegung hervorzurufen. Diese Illusion wird Vektion genannt und entsteht beispielsweise in einem stehenden Zug bei der Betrachtung eines neben einem anfahrenden Zuges. Diese Illusion liegt vor allem in der Wahrnehmung des optischen Flusses (engl. Optical Flow) begründet. Der optische Fluss kann als Vektorfeld modelliert werden, d. h. jedem Punkt P auf einem Bild wird ein Vektor zugeordnet – wobei das Bild nicht isoliert steht, sondern Teil einer Abfolge von Bildern ist, in denen man zu P korrespondierende Bildpunkte finden kann. Die Richtung dieses Vektors gibt die Bewegungsrichtung des Bildpunktes P in der Bildsequenz an. Die Geschwindigkeit der Bewegung kann man anhand der Länge des Vektors ermitteln. In diesem Sinne ist der optische Fluss eine Projektion der 3D-Geschwindigkeitsvektoren von sichtbaren Objekten auf die Bildebene. Wenn wir Menschen uns bewegen, erhalten wir dementsprechend eine ganze Reihe von verschiedenen Bewegungshinweisen, die allesamt integriert werden, um eine finale Bewegungswahrnehmung daraus abzuleiten (Ernst 2008).

2.3.5	Präsenz und Immersion
Wie zu Beginn dieses Kapitels beschrieben, liegt ein wesentliches Potential von VR in der Möglichkeit im Nutzer die Illusion der Anwesenheit in einer Virtuellen Welt zu erzeugen. Die Nutzer sollen beispielsweise das Gefühl vollständigen Eintauchens in die Virtuelle Welt erhalten. Der Begriff Präsenz (vgl. Kap. 1) bezeichnet das damit verbundene subjektive Gefühl, dass man sich selbst in der Virtuellen Umgebung befindet und dass diese Umgebung sozusagen real für den Betrachter wird. Reize aus der realen Umgebung werden dabei ausgeblendet. Auf der anderen Seite beschreibt Immersion den Grad des Eintauchens bedingt durch objektive, quantifizierbare Stimuli, d. h. multimodale Stimulationen der menschlichen Wahrnehmung. Verschiedene Untersuchungen haben gezeigt, dass Präsenz insbesondere dann eintritt, wenn ein hoher Grad an Immersion erfüllt wird. Präsenz wird erreicht, wenn der Nutzer sich in der VR verortet fühlt und sich wie in der realen Welt verhält. Diverse Untersuchungen haben gezeigt, dass verschiedene Parameter der Virtuellen Welt das Potential haben, die Präsenz von Testpersonen zu erhöhen, wie beispielsweise ein großer Sichtbereich, aktiviertes Head-Tracking und reales Gehen

2  Wahrnehmungsaspekte von VR

57

(Hendrix und Barfield 1996). Zur Messung des subjektiven Gefühls der Präsenz gibt es eine Reihe von Fragebögen (Witmer und Singer 1998; Slater et al. 1994). Es ist allerdings auch möglich, den Grad der Präsenz anhand von physiologischen Daten oder dem Verhalten des Menschen zu bestimmen. So wird ein Nutzer mit hohem Grad von Präsenz in einer in der VR auftretenden scheinbaren Gefahrensituation entsprechend körperlich reagieren, z. B. mit erhöhter Hautleitfähigkeit oder Herzschlagrate (Slater et al. 1994).

2.4	Phänomene, Probleme, Lösungen
Beim Einsatz von VR kann man überraschende Phänomene beobachten. Von einer Sekunde auf die nächste gelingt die Darstellung einer Virtuellen Welt in einem Stereodisplay nicht mehr, der Betrachter sieht die Welt nicht mehr plastisch, sondern er sieht alles doppelt. Nutzer einer VR fangen an, sich über Kopfschmerzen zu beklagen oder müssen sich sogar übergeben. Obwohl man das Raumangebot eines neuen Autos zunächst in einer VR in Augenschein genommen hat und der Innenraum dort sehr großzügig wirkte, wird der Platz im realen Auto dann als enttäuschend eng wahrgenommen, auch wenn das virtuelle Auto und das reale Auto von den Proportionen her identisch sind. Mit Wissen über die menschliche Wahrnehmung kann man versuchen, diese Phänomene zu erklären und auch Lösungsstrategien entwickeln, wie man daraus resultierende Probleme umgehen oder zumindest abmildern kann. Mit heutiger VR sind wir nicht in der Lage, die Realität 1:1 abzubilden; es gibt immer Abweichungen. So sind die für Stereopsis notwendigen zwei Bilder für das rechte und linke Auge vielleicht in einem Abstand der beiden virtuellen Kameras erzeugt worden, die nicht dem tatsächlichen Augenabstand des Betrachters entspricht. Ist das schlimm? Zur Einschätzung des Problemgehalts dieser Abweichungen tragen Kenntnisse über die menschliche Wahrnehmung bei. Die folgenden acht Unterabschnitte thematisieren VR-typische Phänomene und Problemstellungen. In jedem Unterabschnitt sind auch die heute bekannten Erklärungsversuche dargestellt sowie Lösungsansätze, die sich daraus ableiten lassen.

2.4.1	Abweichende Betrachtungsparameter
Angenommen wir bilden in einer Virtuellen Welt den Eiffelturm und seine Umgebung nach. Mit einer virtuellen Kamera erzeugen wir ein Bild und zeigen es einem menschlichen Betrachter. Lichtreize von diesem Bild werden in dessen Augen auf der Netzhaut abgebildet und erzeugen einen Bildeindruck. Idealerweise wird durch das Bild des virtuellen Eiffelturms derselbe Bildeindruck erzeugt, den der Betrachter hätte, wenn er vor dem realen Eiffelturm stehen würde. Allerdings treten meist Abweichungen auf, die durch Abweichungen in den Betrachtungsparametern zu erklären sind. Die virtuelle Kamera erzeugt die Bilder auf einer planaren Bildebene, der Mensch auf einer gekrümmten Netzhaut. Der Öffnungswinkel der virtuellen

58

R. Dörner und F. Steinicke

Kamera kann vom Sichtbereich (engl. Field of View) des Betrachters abweichen. Der menschliche Betrachter schaut nicht notwendigerweise von derselben Stelle auf das Bild, an der die virtuelle Kamera stand – er ist näher oder weiter entfernt, er schaut nicht senkrecht auf das Bild, sondern von der Seite. Als Resultat treten Vergrößerungen bzw. Verkleinerungen sowie Verzerrungen von Bildeindrücken auf. Dadurch wird die Entfernungseinschätzung beeinflusst oder auch die Wahrnehmung der Neigung von Objekten (Kuhl et al. 2005).
Allerdings werden die Verzerrungen, die dadurch entstehen, dass das Bild der Virtuellen Welt aus einer anderen Perspektive betrachtet wird, als erstaunlich wenig störend wahrgenommen. Man spricht von der Robustheit der linearen Perspektive in der menschlichen Wahrnehmung (Kubovy 1986). Dieses Phänomen kann man auch in einem Kino beobachten – wenn der Zuschauer in der ersten Reihe ganz außen sitzt hat er mit hoher Wahrscheinlichkeit eine ganz andere Perspektive als die Kamera, die den Film aufgenommen hat. In der Tat gibt es, wenn überhaupt, nur einen einzigen Platz im ganzen Kino, an dem die Perspektive der Filmkamera erhalten bleibt. Obwohl der Film dadurch von fast allen Zuschauern verzerrt gesehen wird, macht es ihnen wenig aus. Eine Erklärung für dieses Phänomen ist, dass das visuelle System des Betrachters den verzerrten Bildeindruck aktiv korrigiert und diese Korrektur u. a. auf der Abweichung der Blickrichtung von der Normale des betrachteten Punktes auf der Bildebene basiert (Vishwanath et al. 2005). Umgekehrt könnte diese aktive Korrektur dafür verantwortlich sein, dass Bilder mit einem großen Öffnungswinkel der virtuellen Kamera aufgenommen („Weitwinkelperspektive“) selbst dann verzerrt wirken können, wenn sie vom korrekten Standpunkt aus betrachtet werden.
Obwohl abweichende Betrachtungsparameter als nicht sonderlich störend empfunden werden, ist es sinnvoll, eine Minimierung der Abweichung anzustreben. Dies gilt speziell bei Anwendungen, bei denen die korrekte Einschätzung von Entfernungen oder Orientierung von Objekten im Raum hohe Bedeutung hat. Es ist besonders relevant, wenn die Virtuelle Welt nicht nur passiv betrachtet wird, sondern aktive Handlungen (Greifen von Objekten, Bewegung) vorgenommen werden – und die Virtuelle Welt und der eigene Körper nicht aus unterschiedlichen Betrachtungspositionen gleichzeitig wahrgenommen werden sollten. Ein in der VR häufig verfolgter Ansatz zur Minimierung besteht in der Ermittlung der aktuellen Betrachtungsparameter (z. B. durch Head-Tracking, vgl. Kap. 5) wie Position und Blickrichtung. Sind diese bekannt, können sie auf die virtuelle Kamera übertragen werden. Ein anderer Ansatz besteht darin, große Brennweiten in der virtuellen Kamera zu simulieren, also beinahe eine Parallelprojektion zu realisieren. Dies verringert die Verzerrungen, die durch eine abweichende Betrachterposition auftreten (Hagen und Elliot 1976).
Bei Stereodisplay s kann zusätzlich eine Abweichung dadurch auftreten, dass die beiden virtuellen Kameras, die das Bild für das linke und das rechte Auge erzeugen, einen Abstand (genannt Virtual Eye Separation) haben, der vom Pupillenabstand des Betrachters abweicht. Im Mittel beträgt der Pupillenabstand 64 mm, die individuelle Spannbreite ist aber groß und liegt ungefähr im Intervall von 45 mm bis 75 mm. Dass

2  Wahrnehmungsaspekte von VR

59

Abb. 2.4   Geometrische Auswirkung der Änderung der Virtual Eye Separation (Zeichnung ist nicht maßstäblich). Die geometrischen Auswirkungen haben auch einen Einfluss auf die Wahrnehmung (Bruder et al. 2012a)
kleine Änderungen im Pupillenabstand größere Änderungen in der Tiefenwahrnehmung nach sich ziehen können, zeigt Abb. 2.4 an einem Beispiel. Hier wird bei einem Abstand der beiden Augpunkte von 64 mm das auf der Projektionsfläche abgebildete Objekt 9 m hinter der Projektionsfläche lokalisiert. Verringert man den Abstand der Augpunkte um 4 mm, so folgt aus dem Strahlensatz, dass das virtuelle Objekt um 3,6 m nach vorne wandert. Doch wie bei Abweichungen in der Betrachtungsposition, werden Abweichungen im Abstand der Augpunkte durch Adaption so kompensiert, dass sie für den Betrachter nicht störend wirken. Tatsächlich kann der Abstand der virtuellen Kameras mehrmals in einer Sekunde geändert werden, ohne dass dies der Betrachter realisiert. In der VR ist es also nicht unbedingt nötig, zunächst den Abstand der beiden Augen des Betrachters zu vermessen und dann den Abstand der beiden virtuellen Kameras entsprechend anzupassen. Allerdings können Nebenwirkungen wie Übelkeit (vgl. Abschn. 2.4.7) auftreten auch wenn dem Nutzer die Abweichung im Augenabstand nicht bewusst auffällt.
2.4.2	Doppelbilder
Ist der Betrachter eines Stereodisplays nicht in der Lage, die dem linken und rechten Auge gezeigten beiden unterschiedlichen Bilder zu fusionieren, tritt Diplopie (engl. Diplopia) auf: Der Betrachter sieht beide Bilder getrennt, er nimmt Doppelbilder. wahr Dies ist ein schwerwiegendes Problem in einer VR, da dies als überaus störend empfunden wird und sich negativ auf das Gefühl der Präsenz in einer VR auswirkt. Diplopie ist daher unbedingt zu vermeiden.

60

R. Dörner und F. Steinicke

Der Grund für Diplopie wurde schon in Abschn. 2.2.1 erläutert: Der zu fusionierende Punkt liegt außerhalb des Panumbereichs. Da die Akkomodation immer auf die Displayebene erfolgt, tendiert das visuelle System dazu, auch den Panumbereich in die Nähe der Displayfläche des Stereodisplays zu verschieben (vgl. Vergence-Focus-Konflikt, Abschnitt 2.4.4). Man kann also durch ein Stereodisplay nicht beliebig weit vor oder hinter der Displayfläche Objekte erscheinen lassen. Will man also eine Virtuelle Welt mit Hilfe eines Stereodisplays darstellen, steht nur ein begrenzter Bereich zur Verfügung, in dem die virtuellen Objekte vor oder hinter dem Display angeordnet werden können (Parallaxbudget) ohne dass Diplopie auftritt. Williams und Parrish (1990) geben als Schranken für den nutzbaren Stereobereich −25 % bis +60 % des Abstands vom Betrachter zur Displayfläche an (bei einem HMD ist hier die virtuelle Entfernung des Displays anzusetzen). Dabei hat der Panumbereich seine dünnste Stelle im Bereich des fixierten Punktes. Im ungünstigsten Fall hat er nur eine Breite von 1/10 Grad Sehwinkel. In 6° Abstand davon nimmt der Panumbereich an Breite zu, er beträgt dann etwa 1/3 Grad Sehwinkel. Befindet sich ein Display im typischen Monitorabstand und hat 30 Pixel pro cm, dann können Punkte nur in einem Tiefenbereich von 3 Pixel angeordnet werden, bevor Diplopie auftritt (Ware 2000). Verschärft wird die Situation dadurch, dass man nicht den gesamten Panumbereich ausschöpfen sollte, da nur in einem Teilbereich die Fusion ohne Anstrengung auch über längere Zeiträume hinweg gelingt. Diesen Teilbereich nennt man Percival’s Zone of Comfort und er umfasst etwa ein Drittel des Panumbereichs (Hoffmann et al. 2008).
Eine Strategie, um Diplopie zu umgehen, besteht in der Vergrößerung des Panumbereichs. Dessen Größe hängt u. a. ab von der Größe und dem Detailreichtum der betrachteten Objekte sowie von der Schnelligkeit bewegter Objekte. Dadurch, dass man die zu fusionierenden Bilder etwas verschwommen darstellt, um den Detailreichtum zu reduzieren, kann man den Panumbereich vergrößern. Eine andere Strategie besteht darin, virtuelle Objekte näher an die Displayfläche und damit in den Panumbereich zu holen. Mit der Virtual Eye Separation haben wir eine Technik dazu bereits kennen gelernt: Verringert man den Abstand der virtuellen Kameras, können hinter der Displayfläche liegende Objekte weiter an die Displayfläche heran gebracht werden. Da die menschliche Wahrnehmung robust gegen diese Manipulation ist, ist die Änderung der Virtual Eye Separation zur Vermeidung von Diplopie dienlich. Ware et al. (1998) schlagen folgende Formel vor: Virtual Eye Separation v = 2,5 + 5 cm · (a/b)2, wobei a die Entfernung des dem Betrachter nähesten Punktes der Szene ist und b die des am weitesten entfernten Punktes. Eine weitere Technik, um die Virtuelle Welt in den Panumbereich zu bringen, ist die zyklopische Skalierung (Ware et al. 1998). Dabei wird die ganze Szene um einen Punkt zwischen den beiden virtuellen Kameras skaliert (vgl. Abb. 2.5). Zyklopische Skalierung kann mit der Manipulation der Virtual Eye Separation kombiniert werden, wobei die Skalierung zuerst durchgeführt werden sollte. Eine derartige Skalierung ist nicht nur sinnvoll, um eine räumlich zu ausgedehnte Virtuelle Welt in den Panumbereich zu bringen, sondern auch im umgekehrten Fall: eine Virtuelle Welt, die den begrenzten Bereich um das Stereodisplay nicht ausnutzt, kann durch Auseinanderziehen räumlich plastischer

2  Wahrnehmungsaspekte von VR

61

Abb. 2.5   Zyklopische Skalierung
dargestellt werden. In der VR ist es sinnvoll, sich über das verfügbare Parallaxbudget und dessen Nutzung klar zu werden. Bei einem Stereodisplay kann die darstellbare Parallaxe nicht beliebig klein gewählt werden, sondern ist durch die Breite eines Pixels nach unten beschränkt.
2.4.3	Frame Cancellation
Die zur Präsentation von Virtuellen Welten eingesetzten Displays weisen gewöhnlich eine Reihe von Unvollkommenheiten auf, z. B. können sie nicht die Helligkeiten darstellen wie sie in der Realität etwa bei Sonnenlicht angetroffen werden. Auch ist die Oberfläche des Displays in der Regel als solche erkennbar und kann störend wirken. Displayflächen können auch einen störenden Rand haben. Lässt man mit einem Stereodisplay ein Objekt vor der Displayfläche erscheinen, nähert sich dieses Objekt dem Rand des Displays und berührt ihn schließlich, dann kann man folgendes Phänomen beobachten: Die Illusion, dass das Objekt sich vor dem Display befindet, geht schlagartig verloren. Das Objekt schnellt auf die Ebene des Displays zurück, gegebenenfalls kann man auch Diplopie beobachten. Dieses Phänomen wird als Frame Cancellation, Paradoxical Window oder Stereoscopic Window Violation (Mendiburu 2009) bezeichnet.
Erklärt werden kann dieses Phänomen dadurch, dass bei dem Objekt widersprüchliche Tiefenhinweise auftreten. Den Disparitäten zufolge befindet sich das Objekt vor dem Display. Der Displayrand scheint aber das Objekt zu verdecken, was dafür spricht, dass es sich hinter dem Display befindet. Verdeckung ist ein stärkerer Tiefenhinweis als Disparität, weswegen das Objekt dann hinter dem Display wahrgenommen wird. Andere Erklärungsversuche weisen noch auf die Tatsache hin, dass das Objekt nur noch von einem Auge gesehen werden kann, wenn es sich am Rand befindet.

62

R. Dörner und F. Steinicke

Objekte mit negativer Parallaxe vom Rand fernzuhalten oder schnell am Rand zu bewegen, so dass sie entweder komplett zu sehen oder komplett nicht mehr auf dem Bild zu sehen sind, sind simple Strategien, um Frame Cancellation zu vermeiden. Eine weitere Strategie besteht darin, Objekte am Displayrand abzudunkeln und den Rand selber schwarz einzufärben, so dass der Kontrast zwischen Rand und Objekt klein wird. Schließlich kann man schwarze virtuelle Streifen in der Tiefe des Objekts in der Szene einfügen und damit den Displayrand scheinbar nach vorne holen. Die virtuellen Streifen verdecken dabei das virtuelle Objekt, wenn es sich dem Displayrand nähert.

2.4.4	Vergence-Focus-Konflikt
Im Gegensatz zur Realität können einige Tiefenhinweise in VR komplett fehlen, z. B. weil die Performanz des VR Systems nicht ausreicht, Schatten in Echtzeit zu berechnen. Tiefenhinweise können auch falsch sein, z. B. weil man schwerlich den exakten Punkt ermitteln kann, auf den der Betrachter fixiert und deswegen den Image Blur nicht korrekt darstellt. Während in der Realität die Tiefenhinweise konsistent sind, können sie sich in VR widersprechen wie das Beispiel mit der Frame Cancellation zeigt. Widersprüchliche Tiefenhinweise haben nicht nur Konsequenzen wie die Fehleinschätzung der räumlichen Anordnung von Objekten im Raum oder den Verlust von Präsenz, da die Virtuelle Welt unnatürlich erscheint. Als weitere negative Konsequenzen können Augenstress, Erschöpfung oder Kopfschmerzen auftreten. Ein Beispiel hierfür ist der Vergence-Focus-Konflikt (Mon-Willams und Wann 1998), auch als Akkomodation-Konvergenz Diskrepanz (AKD) bezeichnet.
Gleichgültig ob eine Virtuelle Welt auf einem Computermonitor, einer Projektion oder einem Head-Mounted Display (vgl. Kap. 5) betrachtet wird: Der Betrachter muss die Augen so einstellen, dass die Displayfläche scharf gesehen wird, damit er das dort Gezeigte gut wahrnehmen kann. Wird ein Stereodisplay verwendet und erscheint durch Disparität ein Objekt vor oder hinter der Displayfläche, dann wird die Konvergenz nicht auf Abstand der Displayfläche eingestellt, sondern auf den scheinbaren Abstand des virtuellen Objekts. Will demnach der Betrachter auf ein virtuelles Objekt fokussieren, das sich scheinbar vor der Displayfläche befindet, muss er die Konvergenz vergrößern. Als Resultat erscheint das Objekt aber plötzlich unerwartet verschwommen, da die Augen nun nicht mehr die Displayfläche im Fokus haben. So kann auch ein Widerspruch zwischen Konvergenz und Image Blur auftreten. Insgesamt stehen also Konvergenz und Fokus-Informationen im Konflikt. Als Resultat können Kopfschmerzen auftreten, die Gefahr dazu steigt mit der Dauer, in der die Virtuelle Welt betrachtet wird (Hoffman et al. 2008).
Indem die virtuellen Objekte möglichst nah an die Displayfläche gebracht werden, wird der Widerspruch in den Tiefenhinweisen kleiner. Dazu können die schon besprochenen Techniken wie zyklopische Skalierung oder eine Änderung der Virtual Eye Separation genutzt werden. Diese Techniken können Nebenwirkungen haben, wie z. B. Verfälschungen

2  Wahrnehmungsaspekte von VR

63

in der Tiefenwahrnehmung. Dabei sind diese Nebenwirkungen gegen Phänomene wie Ermüdung oder Kopfschmerz abzuwägen. Es lässt sich nicht umgehen, dass der Betrachter seine Augen auf die Displayfläche konvergiert, denn nur so kann er das darauf gezeigte Bild überhaupt scharf wahrnehmen. Der Ansatz, Schärfentiefe in das Bild nachträglich einzubringen (die Berechnungen von Bildern mit dem Computer ermöglicht die Erzeugung von Bildern, die überall scharf sind – im Gegensatz zu realen Abbildungssystemen wie einem Fotoapparat oder dem menschlichen Auge), indem man Teile des Bildes verschwommen darstellt und so die Fokusinformation der Konvergenz anpasst, hat sich als nicht erfolgreich erwiesen (Barsky und Kosloff 2008).

2.4.5	Diskrepanzen in der Raumwahrnehmung
In Anwendungen aus dem Bereich Architektur, CAD, Stadtvisualisierung, Training, Simulation oder Medizin werden in der Regel dreidimensionale Räume dargestellt. In diesen Anwendungen ist es essentiell, dass der virtuell dargestellte Raum korrekt vom Betrachter wahrgenommen wird, damit die Nutzer Rückschlüsse auf ihre Handlungen und Entscheidungen in der realen Welt ziehen können. Diskrepanzen zwischen der Wahrnehmung von Größe und Distanzen in der virtuellen und realen Welt sind in den oben angesprochenen Anwendungen besonders kritisch. Beispielsweise sollte ein Mediziner, der eine Operation in der Virtuellen Welt simuliert, nicht aufgrund von Fehleinschätzungen des Raums falsche Bewegungsabläufe trainieren. Für viele Anwendungen aus dem Bereich VR ist also die korrekte Wahrnehmung von Größen und Distanzen wesentlich.
Leider zeigen viele Untersuchungen, dass es bei der Wahrnehmung insbesondere des virtuellen Raumes immer wieder zu Diskrepanzen kommen kann. Beispielsweise wurde vielfach gezeigt, dass Nutzer dazu tendieren, Distanzen in der Virtuellen Welt bis zu 50 % zu unterschätzen (Interrante et al. 2006; Steinicke et al. 2010a). Eine übliche Vorgehensweise zur Messung der Distanzeinschätzung ist zum Beispiel das blinde oder imaginäre Gehen. Hier wird dem Probanden eine Marke in einer gewissen Distanz (z. B. 4, 6 oder 8 m) auf dem Boden dargestellt und der Proband muss dann mit geschlossenen Augen bis zu dieser Marke gehen. In der realen Welt ist diese Aufgabe einfach zu lösen und wir laufen fast exakt bis zu der Marke. Ein Anwender in der Virtuellen Welt, der die gleiche Szene (geometrisch korrekt dargestellt) etwa auf einem Head-Mounted Display sieht, wird höchstwahrscheinlich deutlich zu kurz laufen; in einigen Fällen bis zu 50 %. Dieser Effekt ist bei vielen Techniken zur Evaluation der Raumwahrnehmung (z. B. Dreiecksvervollständigung, Blindes Werfen, Imaginäres Laufen oder verbale Einschätzung) zu beobachten. In vielen Untersuchungen ist der Einfluss von einigen Faktoren (wie beispielsweise stereoskopische Darstellung, beschränkter Sichtbereich, realistische Beleuchtung oder Schattierung) auf diese Distanzunterschätzung aufgezeigt worden, aber bis heute gibt es keine vollständige Erklärung für dieses Phänomen.

64

R. Dörner und F. Steinicke

Nach dem Gesetz von Emmert gibt es einen klaren Zusammenhang von Größen und Distanzen. Insofern lässt sich das Phänomen der Distanzunterschätzung auch durch eine Überschätzung von Größen beobachten. Das Gesetz besagt, dass die wahrgenommene Größe sich proportional zum dem Produkt aus wahrgenommener Distanz mit der retinalen Größe, d. h. der Größe des Bildes auf der Netzhaut verhält. Das daraus resultierende Gesetz der Größenkonstanz verwenden wir Menschen bereits im Säuglingsalter. Entfernt sich beispielsweise eine Mutter von ihrem Kind, wird die Projektion der Mutter auf die Netzhaut des Kindes zwar kleiner, allerdings ist dem Kind klar, dass die Mutter nicht schrumpft, sondern sich lediglich weiter entfernt. Es ist daneben auch so, dass je mehr von den oben angesprochenen Tiefenhinweisen fehlen, desto eher wird der Sehwinkel zur Größeneinschätzung genutzt, so dass es auch zu Fehleinschätzungen in der realen Welt kommen kann, die beispielsweise für perspektivische Illusionen verwendet werden. Solche Fehleinschätzungen resultieren allerdings nicht nur auf perzeptuellen Fehlern, sondern auch aus kognitiven Prozessen. Entfernungen werden beispielsweise als größer eingeschätzt, wenn Probanden einen schweren Rucksack tragen (Proffitt et al. 2003) oder einen schwereren Ball werfen sollen (Witt et al. 2004). Nicht nur optische Reize und deren Verarbeitung spielen also eine Rolle in der Tiefenwahrnehmung, sondern auch die intendierten Aktionen und der damit verbundene Aufwand. Des Weiteren haben Untersuchungen gezeigt, dass die Präsenz einen Einfluss auf die Wahrnehmung von Distanzen hat. Je präsenter wir uns in der Virtuellen Welt fühlen, desto besser werden unsere Einschätzungen von Distanzen (Interrante et al. 2006). Dies veranschaulicht, dass die korrekte Einschätzung des Raumes schon in der realen Welt eine komplexe Aufgabe sein kann, die sowohl von perzeptuellen, kognitiven als auch motorischen Prozessen abhängt.
Es gibt nun verschiedene Ansätze, die Einschätzung von Distanzen bzw. Größen in der Virtuellen Welt zu verbessern bzw. den dargestellten Raum oder darin dargestellten Objekte größer bzw. kleiner erscheinen zu lassen. Zum Beispiel könnte man einfach die gesamte Geometrie skalieren. Nun würden die Probanden den Raum zwar eher so wahrnehmen, wie sie ihn in der realen Welt wahrnehmen würden, aber das Problem ist damit nicht gelöst. Ähnliche Effekte erzielt man beispielsweise durch eine Vergrößerung des geometrischen Sichtbereichs (engl. Geometric Field of View). Der geometrische Sichtbereich bezeichnet den von der virtuellen Szene dargestellten Bereich, der durch den horizontalen und vertikalen Öffnungswinkel der virtuellen Kamera definiert wird. Wird dieser vergrößert, sieht der Betrachter einen größeren Bereich von der Virtuellen Welt. Da allerdings immer noch das gleiche physikalische Display verwendet wird, muss dieser größere Bereich auf den immer noch gleichen Bildschirmbereich abgebildet werden. Somit wird die Szene minifiziert und Objekte erscheinen weiter entfernt (Kuhl et al. 2006). Dies ist in Abb. 2.6 illustriert. Ähnliche Effekte lassen sich über die Veränderung des Augenabstandes erzielen. Diese Ansätze haben allerdings den Nachteil, dass sie durch beispielsweise perspektivische Verzerrung eigentlich einen anderen Raum darstellen. Probanden

2  Wahrnehmungsaspekte von VR

65

Abb. 2.6   Darstellung des gleichen virtuellen Raums mit (links) kleinem und (rechts) großem geometrischen Sichtbereichen. (Nach Steinicke et al. 2009)
laufen jetzt zwar weiter, allerdings tun sie das nun auch in einem anderen Raum, der mit anderen geometrischen Eigenschaften projiziert wird (siehe Abb. 2.6).
Alternative Ansätze beruhen auf der Idee, die gegebenen Tiefenhinweise zu überzeichnen, um den Probanden deutlichere Hinweise zur Einschätzung von Distanzen zu geben. So können zum Beispiel künstliche Schatten durch Linien auf die Grundfläche genauso effektive Tiefenhinweise geben wie die Stereoskopie. Durch die Entsättigung von Farben entfernter Objekten lässt sich atmosphärische Tiefe durch Nebel überzeichnen und hilft somit dem Betrachter zum Beispiel in virtuellen Stadtmodell en Distanzen besser einzuschätzen.
Wie oben bereits angedeutet, haben auch kognitive Faktoren einen Einfluss auf die Einschätzung des Raumes. So konnte gezeigt werden, dass die Einschätzungen von Distanzen in einem virtuellen Raum, der eine genaue Abbildung des realen Raumes ist, signifikant besser sind (Interrante et al. 2006). Folgeuntersuchungen haben gezeigt, dass dies nicht nur an dem Wissen über den realen Raum liegt, sondern insbesondere an dem höheren Präsenzgefühl in solchen Virtuellen Welten. Diese verbesserte Fähigkeit zur Distanzeinschätzung lässt sich sogar in andere Virtuelle Welten übertragen, wenn man aus einem dem realen Raum exakt nachgebildeten virtuellen Raum in diese anderen Virtuellen Welten beispielsweise durch ein Portal teleportiert wird (siehe Abb. 2.7).

66

R. Dörner und F. Steinicke

Abb. 2.7   Darstellung eines virtuellen Portals, durch das Anwender in verschiedene Virtuelle Welten reisen können. (Nach Steinicke et al. 2010b)
2.4.6	Diskrepanzen in der Bewegungswahrnehmung
Ein ähnlicher Effekt wie bei der Distanzunterschätzung ist auch bei der Bewegungswahrnehmung festzustellen, derart dass Geschwindigkeiten der Bewegung oder der zurückgelegten Distanzen über- bzw. unterschätzt werden. Viele Untersuchungen haben beispielsweise gezeigt, dass Vorwärtsbewegungen entlang der Blickrichtung unterschätzt werden (Lappe et al. 2007; Loomis und Knapp2003). Dies gilt insbesondere, wenn die Bewegung nur visuell dargestellt wird und der Nutzer im Wesentlichen lediglich den optischen Fluss wahrnimmt. Aber auch wenn der Nutzer sich gleichzeitig bewegt und die Bewegungen 1:1 auf die virtuelle Kamera abgebildet werden, kommt es zu dieser Unterschätzung von Vorwärtsbewegungen entlang der Blickrichtung. Im Gegensatz zu den virtuellen Geradeausbewegungen kommt es bei virtuellen Rotationen hingegen häufig zu einer Überschätzung (Steinicke et al. 2010a).
Im Prinzip lassen sich diese Diskrepanzen bei der Bewegungswahrnehmung relativ einfach auflösen, indem man sogenannte Gains auf die getrackten Bewegungen anwendet. Sei also zum Beispiel (tx,ty,tz) ein gemessener Vektor, der die Kopfbewegung eines Nutzers von einem Frame zum nächsten beschreibt. Mittels eines Gains gT lässt sich diese Bewegung nun einfach durch (gT · tx, gT · ty, gT · tz) skalieren. Ist gT  = 1 wird nicht skaliert, für gT  >  1 wird die Bewegung schneller und für gT  <  1 wird die

2  Wahrnehmungsaspekte von VR

67

Bewegung langsamer umgesetzt. Psychophysische Untersuchungen haben gezeigt, dass beispielweise Vorwärtsbewegungen leicht (ca. 5 % bis 15 %) beschleunigt werden müssen, damit sie von Nutzern als korrekt eingeschätzt werden. Wie oben bereits erwähnt, sollten Rotationsgeschwindigkeiten in umgekehrter Weise leicht (ca. 5 % bis 10 %) reduziert werden.
Diese Manipulationen führen nun dazu, dass die virtuell dargestellten Bewegungen korrekt wahrgenommen werden, d. h. die visuell wahrgenommen Bewegungen passen zu dem vestibular-propriozeptiven sowie dem kinästhetischen Feedback. Allerdings führen die Nutzer nun tatsächlich in der virtuellen und realen Umgebung unterschiedliche Bewegungen durch, was dazu führen kann, dass beispielsweise gewisse Methoden zur Distanzeinschätzung nicht mehr funktionieren, z. B. Schritte zählen. Neuere Ansätze von Bruder et al. (2012b) verhindern solche Diskrepanzen zwischen realen und virtuellen Bewegungen durch Manipulationen des optischen Flusses. Solche optischen Illusionen manipulieren lediglich die Wahrnehmung der Bewegung aber nicht die Bewegung selbst.

2.4.7	Cybersickness
Nutzer einer VR/AR-Anwendung können unerwünschte Nebenwirkungen erfahren: Kopfschmerzen, kalten Schweiß, Blässe, erhöhter Speichelfluss, Übelkeit bis hin zum Erbrechen, Ataxie (Störungen in der Bewegungskoordination), Benommenheit, Schwindel, Abgeschlagenheit, Apathie (Teilnahmslosigkeit) oder Desorientierung.
Allgemein ist bekannt, dass die Nutzung von IT-Systemen nicht frei von gesundheitlichen Nebenwirkungen ist. Allein das Arbeiten an einem Bildschirm kann zu Kopfschmerzen führen, z. B. weil die Augen überanstrengt werden etwa durch langes Fokussieren auf eine Ebene, Flicker bei geringen Bildwiederholraten oder unscharfe Bilder. Diese als Asthenopie (engl. eye strain) bezeichneten Sehstörungen können auch in VR/AR-Anwendungen auftreten, weil diese gleichfalls Bildschirme einsetzen. Die Symptomatik ist hier eher verschärft, z. B. weil die Displays in einem HMD näher an den Augen sein können oder beim Stereosehen noch Fusionen zu leisten sind. Eine frühe Studie (Stone 1993) kam zum Ergebnis, dass 10 min Nutzung eines HMDs genauso belastend für das visuelle System sind wie 8 h vor einem Computermonitor zu sitzen. Verschlechtert wird die Situation bei Individuen, die unter Sehstörungen leiden und z. B. Probleme mit der Augenmuskelkoordination haben.
Nebenwirkungen können auch erwartet werden, wenn Nutzer in einer Anwendung z. B. mittels einer Motion Plattform bewegt werden oder sich selbst bewegen. Das als Seekrankheit (allgemeiner: Reisekrankheit, Bewegungskrankheit) bezeichnete Syndrom von Symptomen ist schon lange bekannt und war auch Gegenstand von Forschung. So können Bewegungen, die Seekrankheit hervorrufen, charakterisiert werden – beispielsweise weiß man, dass Vibrationen mit geringer Frequenz (wie sich auch in VR-Installationen vorkommen können) zu Seekrankheit führen. Bei Flugsimulatoren, die eine ganze Replik eines Cockpits bewegen, wurde schon früh beobachtet, dass ein signifikanter Anteil von Piloten über Unwohlsein klagt (Simulatorkrankheit).

68

R. Dörner und F. Steinicke

Bemerkenswert ist, dass in VR/AR-Anwendungen die eingangs erwähnten Symptome, die teilweise auch bei der Bewegungskrankheit oder Simulatorkrankheit auftreten, selbst dann beobachtet werden können, wenn die Nutzer gar nicht bewegt werden. Allein das Sehen von Bildern scheint Unwohlsein hervorrufen zu können. Man hat daher einen eigenen Begriff geprägt: Cybersickness (manchmal auch als VR-Krankheit bezeichnet). Cybersickness kann nicht nur während der VR/AR-Nutzung auftreten, sondern auch noch eine Zeitlang danach. In der Regel verschwinden die Symptome von selbst. Allerdings kann es sein, dass Nutzer selbst nach dem Ausklingen der Symptome noch sensibilisiert sind, d. h. bei wiederholter Nutzung von VR/AR-Systemen innerhalb einer bestimmten Zeitspanne schneller wieder unter Cybersickness leiden.
Die genauen Ursachen von Cybersickness sind heute nicht bekannt. Wahrscheinlich gibt es auch keine einzelne Ursache, sondern es handelt sich um ein multifaktorielles Syndrom. Eine Theorie, die häufig zur Erklärung von Cybersickness und auch von Bewegungskrankheit heran gezogen wird, ist die Sensory Conflict Theory: Probleme treten auf, wenn Sinnesempfindungen inkonsistent sind. Befindet sich beispielsweise ein Passagier unter Deck während das Schiff durch starken Seegang bewegt wird, dann erhält das Gehirn über den vestibulären Sinn die Information, dass gerade starke Bewegungen vorliegen, während der visuelle Sinn genau das Gegenteil nahe legt, wenn in der Kabine unter Deck keinerlei Bewegung zu erkennen ist. Treisman (1977) motiviert die Sensory Conflict Theory evolutionär: früher traten solche Inkonsistenzen in der Sinneswahrnehmung nur auf, wenn man die falschen Pilze gegessen hatte – und es ist ein sinnvoller Schutzmechanismus, sich des vergifteten Mageninhalts schnell zu entledigen. Während bei Bewegungskrankheit insbesondere Inkonsistenzen zwischen dem visuellen Sinn und dem Gleichgewichtssinn im Innenohr bei der Erklärung von Symptomen im Fokus stehen, werden bei Cybersickness auch Inkonsistenzen innerhalb eines Sinns (z. B. widersprüchliche Tiefenhinweise beim visuellen Sinn wie im Vergence-Focus-Konflikt) betrachtet oder sogar Inkonsistenzen zwischen den erwarteten Sinneseindrücken eines Nutzers und dem tatsächlich Wahrgenommenen. Die Sensory Conflict Theory kann aber nicht alle Phänomene im Bereich Cybersickness erklären, insbesondere kann auch der Umfang des Auftretens von Symptomen nur schlecht vorhergesagt werden. Es werden daher auch andere Erklärungsversuche gesucht, z. B. geht die Postural Instability Theory (Riccio und Stoffregen 1991) davon aus, dass Personen mit ungewohnten Situationen (wie sie einer virtuellen Welt auftreten können) nicht zurechtkommen und es zu einer Störung in der Kontrolle der Körperhaltung kommt, die weitere Symptome verursacht.
Auch wenn man die genauen Ursachen von Cybersickness nicht erklären kann, so konnte man doch Faktoren identifizieren, die das Auftreten von Cybersickness begünstigen. Eine erste Gruppe von Faktoren hängt vom Individuum ab. Alter, Geschlecht, Ethnizität, aber auch individuelle Vorerfahrungen mit VR und AR können das Auftreten von Cybersickness beeinflussen. Bemerkenswert sind große individuelle Unterschiede in der Anfälligkeit für Cybersickness. Personen, die häufig unter Bewegungskrankheit leiden, sind auch anfälliger für Cybersickness. Eine zweite Gruppe von Faktoren hängt mit dem VR/AR-System zusammen. Einflussfaktoren sind u. a. Bildkontrast und damit

2  Wahrnehmungsaspekte von VR

69

verbunden Flicker, Bildwiederholrate, Fehler im Tracking, Güte der Systemkalibrierung sowie Nutzung von Stereodisplays. Je größer das Sichtfeld (und desto mehr peripheres Sehen ermöglicht wird), desto häufiger ist das Auftreten von Cybersickness beobachtet worden. Wesentliche Faktoren sind zudem Latenzen, z. B. der zeitliche Versatz zwischen einer Kopfbewegung, der Erkennung der neuen Kopfposition und der korrekten Bilddarstellung von dieser neuen Kopfposition. Eine Daumenregel besagt, dass Latenzen über 40 ms zu hoch sind und Latenzen unter 20 ms angestrebt werden sollen. Schließlich gibt es eine dritte Gruppe von Faktoren, die sich aus der Anwendung ergeben. Verbringt der Nutzer längere Zeit in der Anwendung? Muss der Nutzer häufig den Kopf bewegen? Wird der Nutzer rotiert, vielleicht sogar um mehr als eine Achse gleichzeitig? Ist der Kopf aus der Achse geneigt, um die der Nutzer rotiert wird (Coriolis Stimulation)? Steht der Nutzer anstatt zu sitzen oder zu liegen? Schauen die Nutzer direkt nach unten auf den Bereich vor ihren Füßen und können nicht weit blicken? Ist es schwer, sich in der Szene zu orientieren, z. B. weil ein statischer Referenzrahmen fehlt? Gibt es viel visuellen Fluss? Bewegen sich Nutzer schnell und viel in einer virtuellen Welt? Gibt es viele Änderungen in der Geschwindigkeit, sind Bewegungen eher oszillierend als linear, gibt es abrupte Bewegungen? Springt der Nutzer häufiger oder steigt Treppen? Werden ungewöhnliche Bewegungen durchgeführt? Sind Nutzer ängstlich? Je mehr Fragen bejaht werden und je nachdrücklicher jeweils die Zustimmung ist, desto mehr ist mit dem Auftreten von Cybersickness zu rechnen. Ein weiterer Faktor ist der Grad der Kontrolle (verbunden mit Antizipation der Bewegung), den ein Nutzer bei der Navigation durch eine virtuelle Welt hat. Dies ist konsistent mit dem Phänomen, dass der Fahrer eines Autos oder der Steuermann eines Schiffs weniger oft unter Bewegungskrankheit leidet. Schließlich wird von einigen Studien als wesentlicher Faktor identifiziert, ob in der Anwendung ein Auftreten von Vektion begünstigt wird, d. h. der Illusion, sich selbst zu bewegen, obwohl keine Bewegung stattfindet.
Will man das Risiko des Auftretens von Cybersickness verringern, so kann man den Einfluss der genannten Faktoren minimieren, zum Beispiel Latenzen durch Verbesserung der technischen Realisierung verringern, Bewegungen des Nutzers durch Teleportation reduzieren oder ein künstliches Blurring bei der Rotation des Nutzers einfügen. Persönlich kann man das Auftreten von Cybersickness vermeiden, indem man sich langsam an VR/AR-Anwendungen gewöhnt (McCauley und Sharkey 1992). Empfohlen wird das Kauen von Kaugummi und ausreichende Flüssigkeitszufuhr. Im Extremfall kann man Medikamente gegen Bewegungskrankheit einnehmen. Als pflanzliches Mittel verhindert Ingwer zwar nicht das Auftreten von Cybersickness, wirkt aber Übelkeit und Erbrechen entgegen. Letztlich gilt es zu akzeptieren, dass man das Auftreten von Cybersickness nicht mit Sicherheit verhindern kann. Als Konsequenz sollte man Nutzern einen klaren Weg aufzeigen, jederzeit eine VR/AR-Anwendung zu beenden. Auch gilt es, Nutzer über mögliche Nebenwirkungen aufzuklären und sich, speziell in Nutzertests, die explizite Einwilligung der Nutzer einzuholen.
Ob und in welchem Umfang Cybersickness auftritt, wird meistens durch Befragung von Nutzern ermittelt. Dafür ist es sinnvoll, standardisierte Fragebögen zu verwenden.

70

R. Dörner und F. Steinicke

Obwohl nicht für Cybersickness gedacht, kommen häufig die Simulator Sickness Questionnaire (SSQ) und die Motion Sickness Assessment Questionnaire (MSAQ) zum Einsatz (Kennedy et al. 1993). Alternativ kann man Nutzer beobachten, um Symptome festzustellen – dies ist aber teilweise diffizil, z. B. sind Kopfschmerzen schwierig zu erkennen, Erbrechen aber einfach. Selten werden physiologische Körperwerte (z. B. Herzschlagrate, Hautleitfähigkeit) gemessen. Hier ist insbesondere die Interpretation der gemessenen Werte schwierig. Basierend auf derartigen Messungen kommen Studien wie (Lawson 2015) zu dem Ergebnis, dass 60 % bis 80 % von Nutzern einer VR-Anwendung Symptome von Cybersickness zeigen. Bei rund 15 % seien die Symptome so stark, dass die Nutzung abgebrochen werden muss. Derartige Zahlen sind aber mit großer Vorsicht auf eine konkrete VR/AR-Anwendung zu übertragen – es gibt viele mögliche Einflussfaktoren und damit auch starke Schwankungen der Werte. Auch individuelle Unterschiede bei den Nutzern sind beträchtlich, der selbe Nutzer kann auf ein mehrfach wiederholtes Szenario bei jeder Wiederholung stark unterschiedlich reagieren. Dennoch zeigen diese Zahlen, dass Cybersickness kein marginales Problem ist, sondern eine echte Barriere für die Verwendung von VR und AR darstellt, die bei der Entwicklung jeder VR/AR-Anwendung berücksichtigt werden sollte.

2.4.8	Problem der vertikalen Parallaxe
Ein Problem bei der technischen Umsetzung von Stereosehen besteht darin, dass die im Rendering verwendete virtuelle Projektionsebene nicht mit der realen Ebene des Displays zur Deckung gebracht werden kann, wenn beide nicht parallel zueinander sind. Dies führt zu einer vertikalen Parallaxe, die vom Betrachter als Belastung empfunden wird und zu Fehlern in der Tiefenwahrnehmung, Unschärfen an bestimmten Bildstellen oder Doppelbildern führen kann. Betrachten wir Abb. 2.8a. Ein Betrachter fokussiert auf Punkt P und dadurch werden die Augen entsprechend ausgerichtet – die Blickrichtungen sind nicht mehr parallel, Konvergenz tritt auf. Bildet man beim Rendering der Bilder dies nach, d. h. wendet man die Toe-In Methode an, dann schneiden sich die beiden Projektionsebenen in Punkt P und sind nicht parallel zueinander. Man kann es meistens technisch nicht realisieren, dass für jede der beiden Projektionsebenen ein eigenes Display zur Verfügung steht, das man entsprechend ausrichten kann. Stattdessen wird ein gemeinsames reales Display für beide Projektionsebenen verwendet. Der Punkt A hat die Entfernung v vom Display. Dies ist die unerwünschte vertikale Parallaxe. Je weiter der Punkt A von Punkt P entfernt liegt, desto größer wird die vertikale Parallaxe und desto unschärfer oder verzerrter erscheint das Bild. Wie bei der horizontalen Parallaxe kann man auch zwischen negativer Parallaxe (liegt vor der Displayebene, z. B. Punkt A) und positiver Parallaxe (z. B. Punkt B) unterscheiden.
Wegen des Problems der vertikalen Parallaxe wird die Toe-In Methode vermieden und stattdessen die Off-Axis Methode angewandt. Diese ist in Abb. 2.8b dargestellt. Jedes Auge hat hier einen fiktiven Blickpunkt P′ bzw. P″, so dass beide Projektionsebenen

2  Wahrnehmungsaspekte von VR

71

Abb. 2.8   a Toe-In Methode führt zum Auftreten von vertikaler Parallaxe b Problemlösung mittels Off-Axis Methode
aufeinander liegen. Damit können auch beide Projektionsebenen exakt auf eine einzige Displayebene abgebildet werden. Als Resultat sind die Sichtvolumen nicht mehr symmetrisch. Entsprechend muss man beim Rendering ein asymmetrisches Sichtvolumen einstellen. Dieses ist um den Abstand t von der Mittelachse verschoben („off-axis“). Die genaue Größe der Sichtvolumina kann man bei Kenntnis des Abstandes Projektionsebene zu Augpunkt mittels Strahlensatz berechnen. Damit ist das Problem der vertikalen Parallaxe lösbar.
2.5	Nutzung von Wahrnehmungsaspekten
Mit Kenntnissen über die menschliche Wahrnehmung kann man nicht nur in VR auftretende Probleme erklären. Wissen um die Funktionsweise der menschlichen Wahrnehmung kann auch nützlich sein, um eine VR-Erfahrung zu verbessern oder zu Verfügung stehende Ressourcen gut einzusetzen. In Abschn. 2.4.1 haben wir bereits ein Beispiel kennengelernt, wie die Fähigkeit des visuellen Systems des Menschen sich zu adaptieren, komplexe technische Lösungen überflüssig macht: Wir müssen nicht aufwändig den Abstand der Pupillen eines Betrachters messen, um die virtuellen Kameras richtig einzustellen. Im Gegenteil, wir können die Virtual Eye Separation manipulieren, um Diplopie zu verhindern, weil wir wissen, dass die menschliche Wahrnehmung robust auf Änderungen der Virtual Eye Separation reagiert. Neben Adaption gibt es für VR noch zwei weitere wichtige Wahrnehmungsaspekte, die in der VR ausgenutzt werden: Salienz und Nutzerführung. Beiden Aspekten ist im Folgenden ein Abschnitt gewidmet.

72

R. Dörner und F. Steinicke

2.5.1	Salienz
Die menschliche Wahrnehmung hat nicht die Kapazität, um alle Umweltreize gleichermaßen ausführlich zu verarbeiten. Es werden Schwerpunkte gesetzt, der Mensch kann Aufmerksamkeit auf bestimmte Aspekte richten. Im visuellen System des Menschen beispielsweise ist schon durch die ungleichmäßige Verteilung der Sinneszellen auf der Netzhaut des Auges eine Differenzierung inhärent eingebaut – der Mensch kann die Fovea so ausrichten, dass Lichtreize von als besonders relevant eingestuften Objekten der Umwelt auf diese Stelle in der Netzhaut treffen.
In der VR nutzt man diese Eigenschaft der menschlichen Wahrnehmung, denn VR-Systeme haben oft nicht die Kapazität, alle Umweltreize gleichermaßen gut künstlich zu erzeugen. Wenn man weiß, worauf der Nutzer einer VR gerade seine Aufmerksamkeit richtet, dann kann man hier etwa die Qualität des Rendering s (z. B. Simulation von Oberflächenmaterialien, Güte der Objektmodelle, Aufwand des Anti-Aliasing), Tonqualität, Güte der Animation oder Genauigkeit der Weltsimulation darauf anpassen. Umgekehrt braucht man keine oder nur wenige Ressourcen eines VR-Systems in Bereiche zu investieren, die nicht im Fokus der Aufmerksamkeit liegen. Im Extremfall kann man sogar Blindheit durch Unaufmerksamkeit (engl. Inattentional Blindness) beobachten. In einem Experiment zeigten Simons und Chabris (1999) knapp 200 Studenten 75 s lange Videos, in denen Basketballspieler sich einen Ball zuzuwerfen. Die Betrachter hatten die Aufgabe zu zählen, wie viele Ballpässe ein Team macht – die Aufmerksamkeit war dadurch auf den Ball gerichtet. Im Video war fünf Sekunden lang ein ungewöhnliches Ereignis zu sehen, z. B. eine als Gorilla verkleidete Person lief über das Spielfeld. Etwa die Hälfte aller Betrachter hat dies überhaupt nicht bemerkt. Warum also sich in einer VR-Version dieser Szene die Mühe machen, Bilder von einem Gorilla zu erzeugen, wenn dieser vom Betrachter nicht wahrgenommen wird?
Zum Ausnutzen dieser Phänomene der menschlichen Wahrnehmung gibt es zwei Hürden. Zum einen kann man zwar Aussagen über Wahrscheinlichkeiten machen, aber für ein Individuum in einer konkreten Situation nicht sicher voraussagen, welche Umweltreize als wichtig erachtet werden. Wir könnten also Fehler begehen. Wir lassen zum Beispiel den Gorilla in unserer VR-Szene weg, obwohl der Betrachter in der konkreten Situation ihn doch gesehen hätte. Hier ist es wesentlich, abzuwägen, wie hoch die Wahrscheinlichkeit für einen Fehler ist und welche Konsequenzen sich daraus ergeben. Aufgrund der limitierten Performanz von VR-Systemen hat man gegebenenfalls gar keine Wahl und muss Schwerpunkte setzen, um Echtzeitbedingungen zu erfüllen. Ein Verletzen von Echtzeitbedingungen (z. B. die Virtuelle Welt reagiert mit einer merklichen Verzögerung auf die Aktion eines Nutzers, vgl. Kap. 7) kann schwerwiegendere Konsequenzen haben als die Schwerpunkte falsch zu wählen.
Zum anderen gibt es die Hürde, dass Wissen benötigt wird, worauf der Betrachter gerade seine Aufmerksamkeit richtet. Es gibt verschiedene Ansätze, diese Information zu erlangen. Erstens, durch technische Systeme kann ermittelt werden, wohin der Betrachter gerade blickt (Eye-Tracking, vgl. Kap. 4). Zweitens, durch Wissen über

2  Wahrnehmungsaspekte von VR

73

die Anwendung und die aktuellen Ziele und Aufgaben des Nutzers einer VR kann abgeschätzt werden, welche Objekte der Virtuellen Welt wahrscheinlich eine hohe Aufmerksamkeit auf sich ziehen können (Cater et al. 2003). In dem Gorillabeispiel könnten wir zum Beispiel aus der Aufgabenstellung an die Betrachter ableiten, dass der Ball im Zentrum der Aufmerksamkeit steht. Myszkowski (2002) erstellt Task Maps, die jedem Objekt eine Priorität für das Rendering zuordnen, wobei bewegte Objekte automatisch eine höhere Priorität erlangen. Ein dritter Ansatz (Treisman und Gelade 1980) basiert auf der Merkmalsintegrationstheorie (engl. Feature Integration Theory). Dieser Ansatz ist attraktiv für VR, da er kein zusätzliches Wissen über die Anwendung oder die Blickrichtung des Betrachters voraussetzt, sondern allein auf den Bildern der 3D-Szene arbeiten kann: es wird die Salienz (engl. Saliency) von Objekten als Maß für deren Wichtigkeit bestimmt.
Salienz beschreibt, wie stark sich ein Objekt von der Umgebung abhebt (z. B. in Farbe, Orientierung, Bewegung, Tiefe). Zeigt man einer Person ein Bild mit 50 gleich großen Quadraten, von denen 47 grau und 3 rot sind, so stechen die 3 roten Quadrate hervor und werden sofort wahrgenommen. Die Person kann die Frage, wie viele rote Quadrate im Bild zu sehen sind, mühelos und schnell beantworten. Selbst wenn man die Anzahl der grauen Quadrate verfünffacht, kann die Person genauso schnell erkennen, dass sich 3 rote Quadrate darunter befinden. Diese Beobachtung erklärt die Merkmalsintegrationstheorie dadurch, dass die menschliche Wahrnehmung stufenweise arbeitet. In der ersten Stufe werden alle eingehenden Bildreize parallel verarbeitet und auf bestimmte Merkmale untersucht. Dies geschieht unterbewusst, man spricht von präattentiver Wahrnehmung (vgl. Abb. 2.9). Anatomisch konnte man schon rezeptive Felder identifizieren, Gruppen von Nervenzellen im Gehirn, die für diese Aufgaben der Merkmalsextraktion zuständig sind. Das Ergebnis der präattentiven Wahrnehmung dient dann als Grundlage für die Entscheidung in der nächsten Stufe, auf welche Regionen im Bild Aufmerksamkeit gelenkt wird.
Will man in der VR dies nachbilden, so muss man zunächst eine Aufmerksamkeitskarte (engl. Saliency Map) eines Bildes berechnen, jedem Pixel eines Bildes wird in

Abb. 2.9   Beispiel für präattentive Wahrnehmung: Die Zeit für die Aufgabe die Anzahl der Ziffer „7“ in einer Ziffernreihe zu suchen, kann erheblich reduziert werden, wenn die Ziffer „7“ andersfarbig dargestellt wird. Dies wird präattentiv wahrgenommen. Wird die Größe der Ziffernreihe erhöht, dann steigt die Zeit für die Aufgabenerfüllung im Fall, dass die Ziffer „7“ nicht hervorgehoben wird, ansonsten bleibt sie gleich

74

R. Dörner und F. Steinicke

ihr ein Salienzwert zugeordnet. Grundlagen heutiger Algorithmen dafür sind die Arbeiten von Itti et al. (1998). Die Vorgehensweise besteht darin, das Eingabebild zunächst in Merkmalsbilder aufzusplitten, z. B. ein Luminanzbild zu extrahieren, das nur Helligkeitswerte enthält. Diese Merkmalsbilder werden parallel mit Methoden der Bildverarbeitung untersucht, wobei man die Arbeitsweise der rezeptiven Felder im Gehirn mathematisch modelliert. Rezeptive Felder, die Orientierung in einem Merkmalsbild erkennen, lassen sich beispielsweise durch Gabor-Filter beschreiben. Ein Gabor-Filter ist aus einer Gaußfunktion aufgebaut, die durch eine Sinusfunktion moduliert wird und so die Sensitivität für verschiedene Frequenzen und Orientierung abbilden kann. Die Ergebnisse der Verarbeitung der einzelnen Merkmalsbilder werden normalisiert. Durch eine gewichtete Summierung werden daraus die Salienzwerte ermittelt. Die Gewichtung kann man dabei auch abhängig von der aktuellen Aufgabe des Betrachters wählen, sie wird häufig durch maschinelles Lernen, z. B. mittels neuronalen Netzen, ermittelt. In diesem Verarbeitungsschritt kann man ein weiteres Phänomen der menschlichen Wahrnehmung nachbauen: die Inhibition. Inhibition bedeutet, dass Nervenzellen nicht nur durch Reize angeregt, sondern auch gehemmt werden können, wodurch Differenzen verstärkt werden. Algorithmisch kann man dies beispielsweise mit einem Winner-Takes-It-All-Ansatz realisieren, d. h. der größte Wert wird für die Salienz heran gezogen, während die Salienz in der Umgebung des größten Wertes reduziert wird, um dessen Bedeutung nochmals zu verstärken. Die schließlich erhaltene Saliency Map dient dann als Grundlage für Entscheidungen, wie man Ressourcen des VR-Systems einsetzt, z. B. für Bereiche mit hoher Salienz werden 3D-Modelle mit einem hohen Detaillierungsgrad verwendet. Man kann auch weiterführende Daten ermitteln, z. B. Fixation Maps (Le Meur et al. 2006), die vorhersagen, worauf ein Betrachter wahrscheinlich den Blick fixieren wird. Da Saliency Maps zweidimensional sind, ist eine relativ aufwändige Rückrechnung in die 3D-Szene notwendig, um virtuellen 3D-Objekten einen Salienzwert zuzuordnen. Daher werden auch Ansätze in Betracht gezogen, die direkt Merkmale von 3D-Objekten untersuchen und daraus eine Salienz ableiten (Lee et al. 2005).

2.5.2	Nutzerführung
Bedenkt man die Tatsache, dass der Bereich des Hardware-Aufbaus einer Virtuellen Umgebung, in dem sich die Nutzer bewegen können, in der Regel deutlich kleiner ist als die darin dargestellte Virtuelle Welt, so wird deutlich, dass der Nutzer ohne zusätzliche Eingabegeräte nur einen sehr kleinen Teil der Virtuellen Welt durch eigene Bewegungen erkunden kann. Es gibt eine Vielzahl von sogenannten Lokomotionsgeräten, die es verhindern, dass der Nutzer sich in der realen Welt von der Stelle bewegt, während er geht. Beispiele sind omnidirektionale Laufbänder oder die Cybersphere (vgl. Kap. 5). Ein anderer Ansatz basiert auf der Idee, die Nutzer so zu manipulieren, dass sie in der realen Welt auf anderen Pfaden gehen als die, die in der Virtuellen Welt wahrgenommen werden. Führt man beispielsweise während einer Vorwärtsbewegung eines Nutzers eine

2  Wahrnehmungsaspekte von VR

75

kleine virtuelle Rotation zu einer Seite ein, so muss der Nutzer diese Rotation in der realen Welt kompensieren, um weiter virtuell geradeaus laufen zu können. Dies führt dazu, dass der Anwender auf einer Kurvenbahn in die entgegengesetzte Richtung läuft. So kann man die Nutzer auf einer Kreisbahn im VR-Aufbau führen, während sie denken, in der Virtuellen Welt geradeaus zu laufen. In Untersuchungen ist aufgezeigt worden, ob und ab wann Probanden solche Manipulationen erkennen können (Steinicke et al. 2010a). Es hat sich gezeigt, dass Versuchspersonen, die in der Virtuellen Welt geradeaus laufen, in der realen Welt auf einem Kreis mit Radius von ca. 20 m geleitet werden können, ohne dies zu bemerken.

2.6	Zusammenfassung und Fragen
Sie haben in diesem Kapitel grundlegende Kenntnisse aus dem Bereich der menschlichen Informationsverarbeitung erworben. Wir haben uns insbesondere mit einigen der wichtigsten Aspekte aus dem Bereich der Raumwahrnehmung und der Wahrnehmung von Bewegungen befasst. Basierend auf diesen Grundlagen haben Sie typische Phänomene und Probleme von VR kennengelernt. Sie haben auch an einigen Beispielen gesehen, wie sich verschiedene Limitierungen der menschlichen Wahrnehmung ausnutzen lassen, um die Qualität und die Nutzererfahrung während einer VR-Session zu verbessern. Um effektive Virtuelle Welten gestalten zu können, ist es unerlässlich, wahrnehmungspsychologische Prozesse bei der menschlichen Informationsverarbeitung zu berücksichtigen. Die Aspekte der Wahrnehmung haben in den letzten Jahren zunehmend an Bedeutung gewonnen, was sich an der gestiegenen Anzahl an Forschungsarbeiten sowie –projekten aus dem Bereich widerspiegelt. Dieses Kapitel hat die Grundlagen für das Verständnis dieser Aspekte dafür geschaffen.
Überprüfen Sie Ihr Verständnis des Kapitels anhand der folgenden Fragen:
• Warum ist die Reaktionszeit für eine Versuchsperson länger, wenn Sie entscheiden muss, ob ein auf dem Bildschirm dargestellter Stimuli mit einem zuvor dargestellten Stimuli übereinstimmt, als wenn die Versuchsperson nur darauf reagieren muss, wenn der Stimuli erscheint?
• Nehmen Sie sich ein Foto von einem Meeresstrand und ein Foto von den Straßen Manhattans vor. Welche piktorialen Tiefenhinweise können Sie in den Fotos erkennen?
• Wie verschiebt sich das Objekt in Abb. 2.4, wenn die Virtual Eye Separation nicht von 64 mm auf 60 mm vermindert wird, sondern sich auf 70 mm vergrößert?
• Warum sollte eine zyklopische Skalierung vor einer Virtual Eye Separation durchgeführt werden?
• Nehmen Sie ein Stereodisplay und führen Sie Experimente durch, um den Panumbereich des Stereodisplays zu ermitteln. Versuchen Sie die in Abschn. 2.4 vorgestellten Techniken zu nutzen, um eine 3D-Szene, die initial über den Panumbereich heraus ragt, in diesen einzupassen.

76

R. Dörner und F. Steinicke

• Finden Sie weitere Beispiele für sich widersprechende Tiefenhinweise in der VR. • Sie möchten einen Straßenbahnsimulator bauen, mit dem ein Fahrschüler durch eine
virtuelle Stadt fahren kann. Überlegen Sie, wo Wahrnehmungsaspekte beachtet werden müssen. Welche Probleme können potentiell auftreten? Wo kann man bei der technischen Realisierung des Simulators Wahrnehmungsaspekte ausnutzen?

Literaturempfehlungen1
Goldstein EB (2016) Sensation and perception (10th edition). Cengage Learning, Belmont – Standardwerk aus der Wahrnehmungspsychologie, das sich nicht nur auf die visuelle Wahrnehmung beschränkt. Sehr anschaulich und mit vielen Beispielen.
Thompson WB, Fleming WF, Creem-Regehr SH, Stefanucci J K (2011) Visual perception from a computer graphics perspective. CRC Press, Boca Raton – Lehrbuch, das auch für VR wesentliche Wahrnehmungsaspekte erläutert und dabei immer den Bezug zur Computergraphik herstellt.

Literatur
Barsky BA, Kosloff TJ (2008) Algorithms for rendering depth of field effects in computer graphics. Proc. 12 WSEAS International Conference on Computers, 999–1010.
Bruder G, Pusch A, Steinicke F (2012a) Analyzing effects of geometric rendering parameters on size and distance estimation in on-axis stereographic. Proc. ACM Symp. on Applied Perception (SAP 12), 111–118.
Bruder G, Steinicke F, Wieland P, Lappe M (2012b) Tuning self-motion perception in virtual reality with visual illusions. IEEE Trans Vis and Computer Graphics (TVCG), 18(7):1068–1078.
Cater K, Chalmers A, Ward G (2003) Detail to attention: exploiting visual tasks for visual rendering. Proc. Eurographics WS on rendering, 270–280.
Card SK, Moran TP, Newell A (1986) The model human processor: an engineering model of human performance. Handbook of Perception and Human Performance. Vol. 2: Cognitive Processes and Performance, 1–35.
Dahm M (2006) Grundlagen der Mensch-Computer-Interaktion. Pearson Studium, New York. Ernst, MO (2008) Multisensory integration: a late bloomer. Current Biology, 18(12): R519– R521. Hagen MA, Elliott HB (1976) An investigation of the relationship between viewing conditions and
preference for true and modified perspective with adults. J Experimental Psychology: Human Perception and Performance 5, 479–490. Hayward V, Astley OR, Cruz-Hernandez M, Grant D, La-Torre GR-D (2004) Haptic interfaces and devices. Sensor Review 24(1):16–29. Hendrix C, Barfield W (1996) Presence within virtual environments as a function of visual display parameters. Presence: Teleoperators and Virtual Environments, 5(3):274–289.

1Das ACM Symposium on Applied Perception (SAP) sowie das Journal Transaction on Applied Perception (TAP) befassen sich mit der multisensorischen Wahrnehmung in Virtuellen Welten.

2  Wahrnehmungsaspekte von VR

77

Hoffmann DM, Girshick AR, Akeley K, Banks MS (2008) Vergence-accomodation conflicts hinder visual performance and cause visual fatigue. J Vision 8(3):1–30.
Howard IP (2002) Seeing in depth: Vol. 1. Basic Mechanisms. I Porteous, Toronto. Interrante V, Anderson L, Ries B (2006) Distance perception in immersive virtual environments,
revisited. Proc IEEE Virtual Reality 2006, 3–10. Itti L, Koch C, Niebur E (1998) A model of saliency-based visual attention for rapid scene ana-
lysis. IEEE Trans Pattern Analysis and Machine Intelligence 20:1254–1259. Kennedy RS, Lane NE, Berbaum KS, Lilienthal GS (1993) Simulator sickness questionnaire: an
enhanced method for quantifying simulator sickness. Intl J Aviation Psychology, 3(3):203–220. Kubovy M (1986) The psychology of linear perspective and renaissance art. Cambridge University
Press, Cambridge. Kuhl SA, Thompson WB, Creem-Regehr SH (2006) Minification influences spatial judgement
in immersive virtual environments. Sym. Applied Perception in Graphics and Visualization, 15–19. Lappe M, Jenkin M, Harris LR (2007) Travel distance estimation from visual motion by leaky path integration. Experimental Brain Research 180:35–48. Lawson B (2015) Motion sickness symptomatology and origins. Handbook of Virtual Environments: Design, Implementation, and Applications, eds Hale KS and Stanney KM, CRCPress, 532–587. Lee CH, Varshney A, Jacobs DW (2005) Mesh saliency. Proc SIGGRAPH 2005, 659–666. Le Meur O, Le Callet P, Barba D, Thoreau D (2006) A coherent computational approach to model the bottom-up visual attention. IEEE Trans. Pattern Analysis and Machine Intelligence 28(5): 802–817. Loomis JM, Knapp JM (2003) Visual perception of egocentric distance in real and virtual environments. In: Hettinger LJ, Haas MW (eds) Virtual and adaptive environments, Erlbaum, Mahwah. Malaka R, Butz A, Hußmann H (2009) Medieninformatik – Eine Einführung. Pearson, München. Marr D (1982) Vision: a computational investigation into the human representation and processing of visual information. MIT Press, Cambridge. McCauley ME, Sharkey TJ (1992) Cybersickness: perception of self-motion in virtual environments. Presence: Teleoperators and Virtual Environments 1(3):311–18. Mendiburu B (2009) 3D movie making: stereoscopic digital cinema from script to screen. Focal Press, New York. Mon-Williams M, Wann JP (1998) Binocular virtual reality displays: when problems do and don’t occur. Human Factors 40(1):42–49. Myszkowski K (2002) Perception-based global illumination, rendering and animation techniques. Spring Conf on Computer Graphics, 13–24. Ooi TL, Wu B, He ZJ (2001) Distance determination by the angular declination below the horizon. Nature 414:197–200. Preim B, Dachselt R (2015) Interaktive Systeme (Band 2), Springer Vieweg, Berlin, Heidelberg. Proffitt DR, Stefanucci J, Banton T, Epstein W (2003) The role of effort in distance perception. Psychological Science 14:106–112. Riccio GE, Stoffregen TA (1991) An Ecological Theory of Motion Sickness and Postural Instability. Ecological Psychology 3(3):195–240. Simons DJ, Chabris CF (1999) Gorillas in our midst: sustained inattentional blindness for dynamic events. Perception 28(9):1059–1074. Slater M, Usoh M, Steed A (1994) Depth of presence in virtual environments. Presence: Teleoperators and Virtual Environments, 3:130–144. Steinicke F, Bruder G, Jerald J, Frenz H, Lappe M (2010a) Estimation of detection thresholds for redirected walking techniques. IEEE Trans on Vis and Computer Graphics 16 (1):17–27.

78

R. Dörner und F. Steinicke

Steinicke F, Bruder G, Hinrichs KH, Steed A (2010b) Gradual transitions and their effects on presence and distance estimation. Computers & Graphics 34(1):26–33.
Stone B (1993) Concerns raised about eye strain in VR systems. Real Time Graphics, 2(4):1–13. Steinicke F, Bruder G, Kuhl S, Willemsen P, Lappe M, Hinrichs KH (2009) Judgment of natural
perspective projections in head-mounted display environments. Proc VRST 2009, 35–42. Treisman AM, Gelade G (1980) A feature integration theory of attention. Cognitive Psychology
12(1):97–136. Treisman M (1977) Motion sickness: An evolutionary hypothesis. Science 197:493–495. Vishwanath D, Girshick AR, Banks MS (2005) Why pictures look right when viewed from the
wrong place. Nature Neuroscience, 8(10):1401–1410. Wanger LR, Ferwander JA, Greenberg DA (1992) Perceiving spatial relationships in computer-ge-
nerated images. IEEE Computer Graphics and Applications 12(3):44–58. Ware C (2000) Information visualization – perception for design. Morgan Kaufmann, San Francisco. Ware C, Gobrecht C, Paton M (1998) Dynamic adjustment of stereo display parameters. IEEE
Trans Systems, Man and Cybernetics 28(1):56–65. Williams SP, Parrish RV (1990) New computational control techniques and increased understan-
ding for 3-D displays. Proc. SPIE Stereoscopic Display Applications, 73–82. Witmer BG, Singer MJ (1998) Measuring presence in virtual environments: a presence question-
naire. Presence – Teleoperators and virtual environments, 7(3):225–240. Witt JK, Proffitt DR, Epstein W (2004) Perceiving distance: a role of effort and intent. Perception
33:577–590.

Virtuelle Welten

3

Bernhard Jung und Arnd Vitzthum

Zusammenfassung Virtuelle Welten, die Inhalte von VR-Umgebungen, bestehen aus 3D-Objekten mit dynamischem Verhalten, die in Echtzeit auf Nutzereingaben reagieren. Nach einem einführenden Überblick über den Erstellungsprozess Virtueller Welten stellt dieses Kapitel zunächst eine zentrale Datenstruktur vieler VR/AR-Anwendungen vor, den Szenengraph, der eine hierarchische Beschreibung Virtueller Welten ermöglicht. Danach werden verschiedene Repräsentationsarten von 3D-Objekten dargestellt und deren Bedeutung für interaktive Virtuelle Welten diskutiert. Besonderes Augenmerk liegt dabei auf Methoden zur Optimierung von 3D-Objekten im Hinblick auf die Echtzeitanforderungen Virtueller Welten. Anschließend werden grundlegende Verfahren zur Erzeugung dynamischen Verhaltens von 3D-Objekten dargestellt, wie Animationen, physikbasierte Simulationen sowie die Unterstützung von Nutzerinteraktionen mit 3D-Objekten. Ein Teilkapitel zu Sound, Beleuchtung und Hintergründen beschreibt Elemente Virtueller Welten, die in gängigen Szenengraphsystemen standardmäßig unterstützt werden. Das abschließende Teilkapitel zu Spezialsystemen geht auf 3D-Objekte ein, deren Modellierung und Darstellung besondere Herausforderungen mit sich bringen. Konkret werden virtuelle Menschen, Partikelsysteme, Landschaften sowie Vegetation wie Bäume und andere Pflanzen betrachtet.

B. Jung (*)  TU Bergakademie Freiberg, Freiberg, Deutschland E-Mail: jung@informatik.tu-freiberg.de

© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2019

79

R. Dörner et al. (Hrsg.), Virtual und Augmented Reality (VR/AR),

https://doi.org/10.1007/978-3-662-58861-1_3

80

B. Jung und A. Vitzthum

3.1	Einführung
Der Begriff Virtuelle Welten bezeichnet die Inhalte von VR-Umgebungen. Virtuelle Welten bestehen aus 3D-Objekten, die dynamisches Verhalten aufweisen und auf Nutzereingaben reagieren können. Neben den eigentlichen 3D-Objekten enthalten Virtuelle Welten u. a. auch abstrakte, unsichtbare Objekte, welche die Simulation und Darstellung der Virtuellen Welt unterstützen. Hierzu gehören u. a. Licht- und Klangquellen, virtuelle Kameras sowie Stellvertreterobjekte für effiziente Kollisionsprüfungen oder Physikberechnungen. Im Folgenden wird ein vereinfachter Überblick über die Schritte bei der Modellierung Virtueller Welten sowie deren Integration in VR-Systeme gegeben.
Vorüberlegung: Anforderungen an Virtuelle Welten In Abgrenzung zu anderen Gebieten der 3D-Computergraphik, wo oft besonders hochwertige Darstellungen von Einzelbildern oder Animationen gefragt sind, stehen bei Virtuellen Welten die Aspekte der Echtzeitfähigkeit und Interaktivität im Vordergrund.
Echtzeitfähigkeit bedeutet etwas vereinfacht ausgedrückt, dass die Virtuelle Welt möglichst verzögerungsfrei aktualisiert und dargestellt wird. Idealerweise würde der Nutzer bezüglich des zeitlichen Verhaltens der Virtuellen Welt keinen Unterschied zur echten Welt wahrnehmen. Für eine ausführlichere Darstellung der Themen Echtzeitfähigkeit und Latenz im Kontext vollständiger VR-Systeme sei auf Abschn. 7.1 verwiesen. Pro Zeitschritt müssen dabei die Teilaufgaben Erfassung und Verarbeitung von Nutzereingaben, die Weltsimulation, das Rendering, sowie die Ausgabe auf den Displays durchgeführt werden (vgl. Abschn. 1.5). Die Art und Weise der Modellierung der 3D-Objekte hat dabei hauptsächlich Einfluss auf die Teilschritte Weltsimulation und Rendering. Wird die Virtuelle Welt zu komplex modelliert, so ist deren Echtzeitfähigkeit nicht mehr gegeben.
Interaktivität bedeutet zunächst, dass der Nutzer sich in der Virtuellen Welt bewegen und das Verhalten der 3D-Objekte in der Virtuellen Welt beeinflussen kann. Während bei anderen Klassen interaktiver Systeme oft noch Reaktionszeiten von bis zu einer Sekunde akzeptabel sind, sollte bei VR-Systemen die Reaktion auf Nutzereingaben möglichst verzögerungsfrei erfolgen. Dazu muss das dynamische Verhalten der 3D-Objekte implementiert werden. Um die Berechnung ihres dynamischen Verhaltens zu erleichtern bzw. zu beschleunigen, werden 3D-Objekte oft um einfachere Kollisionsgeometrien wie Quader oder Kugeln angereichert. Dies ermöglicht effiziente Kollisionsüberprüfungen nicht nur der 3D-Objekte untereinander, sondern auch bei Nutzerinteraktionen zur Erkennung von Kollisionen zwischen den 3D-Objekten und der virtuellen Repräsentation des Nutzers (siehe auch Abschn. 6.2 und 6.4 zur Selektion und Manipulation von 3D-Objekten, sowie Abschn. 7.2 zur Kollisionserkennung).
Sehr unterschiedliche Anforderungen bestehen hingegen bezüglich des visuellen Realismus der Virtuellen Welten. Virtuelle Welten zum Training sollten stark der echten Welt ähneln, Virtuelle Welten für Spiele können auch visuell fantasievoll ausgestaltet werden, während bei wissenschaftlichen Anwendungen typischerweise klarere Formund Farbschemata gegenüber realitätsnahen Darstellungen bevorzugt werden. Selbst bei

3  Virtuelle Welten

81

Anwendungen mit hohen Ansprüchen an die Qualität der visuellen Darstellung haben in VR/AR-Anwendungen jedoch generell die Anforderungen bezüglich Echtzeit und Interaktivität der Virtuellen Welt Vorrang.
Erstellen der 3D-Objekte Der erste Schritt bei der Erschaffung Virtueller Welten ist die Erstellung der einzelnen 3D-Objekte. Dies kann auf unterschiedliche Art und Weise erfolgen:
• Modellierung der 3D-Objekte „von Hand“ in 3D-Modellierungswerkzeugen. Manche dieser Werkzeuge unterstützen auch die Erzeugung von Animationen, z. B. über die Einbindung von Motion Capture-Daten zur Animation virtueller Menschen. Im technischen Umfeld kommen CAD-Systeme zum Einsatz, die oft sehr exakte geometrische Modellierungen ermöglichen. Vor dem Import in VR-Systeme ist typischerweise eine Vereinfachung der oft sehr komplexen CAD-Modelle notwendig (siehe Abschn. 3.3.4).
• Techniken der prozeduralen Modellierung finden Anwendung bei der automatischen Generierung von sehr großen oder sehr komplexen Objekten, deren Modellierung von Hand zu aufwendig wäre. Ein Beispiel ist automatisierte Erzeugung von 3D-Modellen von Gebäuden oder ganzer Städte, evtl. unter Einbezug von Geodaten. Ein weiteres Beispiel ist die Generierung von Objekten mit fraktaler Form wie z. B. Gelände oder Bäume (siehe Abschn. 3.6).
• Des Weiteren können 3D-Modelle als 3D-Scans von realen Objekten oder Umgebungen erfasst werden. Dazu werden z. B. Laserscanner, die Tiefeninformationen liefern, in Verbindung mit Farbkameras zur Gewinnung der Objekttexturen verwendet. Mittels photogrammetrischer Verfahren ist es zudem möglich, 3D-Modelle allein auf Grundlage von mehreren Kamerabildern des Objekts zu erzeugen (siehe Abb. 3.1). Rohe 3D-Scans können aufwendige Nachbearbeitungsschritte erfordern, wie das Füllen von

Abb. 3.1   Erzeugung von 3D-Modellen mittels Photogrammetrie-Software. Links: Auswahl von Fotos eines Objekts, typischerweise würden mehrere Dutzend Fotos verwendet. Mitte: Generiertes 3D-Modell in Gitternetzdarstellung. Rechts: Texturiertes 3D-Modell

82

B. Jung und A. Vitzthum

Lücken (in Bereichen, die von der Kamera aufgrund von Verdeckungen nicht erfasst wurden), die Vereinfachung der Geometrie sowie das Entfernen von Schattenwürfen oder blickpunktabhängigen Glanzlichtern aus den Objekttexturen. Einen guten Überblick zu den algorithmischen Verfahren zur 3D-Rekonstruktion von Objekten aus 2D-Bildern vermittelt z. B. das Buch von Hartley und Zisserman (2004). Zu den häufiger genutzten Software-Werkzeugen gehören u. a. Agisoft Metashape, Autodesk ReCap  und 3DF Zephyr.
Aufbereitung der 3D-Objekte für VR/AR Für die Verwendung in Virtuellen Welten werden 3D-Objekte typischerweise noch aufbereitet. Dies betrifft im Wesentlichen zum einen die Vereinfachung der Objektgeometrie sowie zum anderen die Konversion in geeignete Dateiformate.
Die Vereinfachung der Objektgeometrie zielt u. a. auf die Ermöglichung einer effizi enten Darstellung der 3D-Objekte. Im Wesentlichen geht es darum, die Anzahl der Polygone eines 3D-Objekts zu reduzieren. Dies kann z. B. automatisiert durch spezielle Programme zur Vereinfachung von Polygonnetzen erfolgen. Eine andere Möglichkeit ist die nachträgliche Modellierung einer vereinfachten Variante des 3D-Objekts, das mit Renderings des ursprünglichen, hochaufgelösten 3D-Objekts texturiert wird (Texture Baking). Zudem kann es sinnvoll sein, mehrere Varianten des 3D-Objekts in unterschiedlicher Auflösung bereit zu stellen, zwischen welchen zur Laufzeit in Abhängigkeit von der Entfernung zum Betrachter gewechselt werden kann (Level of Detail). Diese und weitere Techniken werden in Abschn. 3.3 näher erläutert.
Die 3D-Objekte müssen zudem in ein Dateiformat konvertiert werden, das von der jeweilige Laufzeitumgebung der Virtuellen Welt unterstützt wird. Dieser Schritt kann über spezielle Konversionsprogramme oder über Exportoptionen von 3D-Modellierungswerkzeugen erfolgen. Für moderne Game-Engines ist vorrangig das proprietäre.fbx Format von Autodesk relevant. Gängige Dateiformate sind zudem z. B. die schon etwas älteren, aber noch breit unterstützten Formate Wavefront (.obj) und Autodesk (.3ds). Offene Standards sind COLLADA (.dae) und X3D (.x3d).

X3D (Web 3D Consortium 2013) ist eine szenengraphbasierte Beschreibungssprache für 3D-Inhalte und der Nachfolger von VRML (Virtual Reality Markup Language). X3D wurde vom W3C-Konsortium als Standard zur Darstellung von Virtuellen Welten in Web-Anwendungen verabschiedet. Gängige 3D-Modellierungswerkzeuge bieten einen Export in das X3D-Format, das somit auch eine wichtige Rolle als Austauschformat von 3D-Modellen und 3D-Szenen spielt.
Integration der 3D-Objekte in VR/AR-Laufzeitumgebungen Schließlich müssen die einzelnen 3D-Objekte zu vollständigen Virtuellen Welten zusammengeführt werden. Dies kann z. B. durch die Erstellung einer einzelnen X3DBeschreibung der gesamten Virtuellen Welt erfolgen. Alternativ können die 3D-Ob-

3  Virtuelle Welten

83

jekte separat in die VR-Laufzeitumgebung bzw. Game Engine geladen werden. Für die Vereinfachung der Kollisionserkennung und -behandlung als Teil der Weltsimulation ist es zudem oft sinnvoll, spätestens zu diesem Zeitpunkt die 3D-Objekte mit vereinfachten Kollisionsgeometrien auszustatten (vgl. Abschn. 3.4 sowie vertiefend Abschn. 7.2). Neben den eigentlichen 3D-Objekten enthalten Virtuelle Welten spezielle Objekte wie virtuelle Kameras, Lichtquellen, Audioquellen und Hintergründe, die nun ebenfalls definiert werden sollten (vgl. Abschn. 3.5).

3.2	Szenengraphen
Die notwendigen Informationen, welche die innere Struktur und das äußere Erscheinungsbild einer Virtuellen Welt bestimmen, werden in der sogenannten Szene beschrieben. Eine Szene ist ein spezielles 3D-Modell, das neben Geometrie- und Materialbeschreibungen für alle 3D-Objekte typischerweise auch Blickpunkt- bzw. Kameraeinstellungen sowie Licht- und Audioquellen definiert. Zur Laufzeit wird die Szene aus Nutzersicht gerendert, d. h. in eine, bzw. bei Stereodarstellung oder Mehrprojektorsystemen auch mehrere 2D-Rastergraphiken umgewandelt. Die beim Rendering erzeugten (Stereo-) Rastergraphiken werden auf geeigneten Geräten (z. B. Monitor, Head-Mounted Display, Projektionssysteme wie CAVE) dargestellt. Zudem werden in der Szene enthaltene Audioinformationen über Lautsprecher oder Kopfhörer ausgegeben. Eine Szene kann sich zur Laufzeit dynamisch verändern. Beispielsweise können die Positionen von 3D-Objekten über die Zeit variieren. Hierbei spricht man von einer animierten Szene. Reagieren 3D-Objekte auch auf Eingaben des Nutzers, ist die Szene interaktiv. Die Fähigkeit eines Objekts, auf Ereignisse wie Nutzereingaben oder Wechselwirkungen mit anderen Objekten durch eine Änderung seines Zustandes zu reagieren, bezeichnet man als Verhalten (engl. Behavior).
Die der Szene oft zugrunde liegende Datenstruktur ist der Szenengraph. Ein Szenengraph ist ein gerichteter azyklischer Graph (engl. Directed Acyclic Graph – DAG). Mittels eines solchen Graphen lassen sich hierarchisch aufgebaute Szenen effizient beschreiben. Konzeptuell besteht ein Szenengraph aus Knoten, die über gerichteten Kanten miteinander verbunden sind. Verläuft eine Kante von Knoten A zu Knoten B, so bezeichnet man A als Elternknoten und B als Kindknoten. Szenengraphen enthalten einen Wurzelknoten, d. h. einen Knoten, der selbst keinen Elternknoten besitzt. Knoten ohne Kinder werden als Blattknoten bezeichnet. Im Gegensatz zu einem Baum, welcher einen speziellen DAG darstellt, dürfen Kindknoten in den meisten Szenengrapharchitekturen mehrere Elternknoten besitzen. Der Szenengraph wird zur Laufzeit von der Wurzel zu den Blättern traversiert, wobei u. a. Informationen für das Rendering gesammelt werden.
Szenengraphen ermöglichen eine kompakte Repräsentation hierarchisch aufgebauter Objekte. Abb. 3.2 zeigt als Beispiel eine Szene, die ein Fahrzeug, eine Straße und einen Nagel umfasst. Das Fahrzeug besteht aus mehreren Teilobjekten, nämlich dem Rumpf und vier Rädern. Die hierarchische Beziehung wird durch Zusammenfassung in einer

84

B. Jung und A. Vitzthum

Abb. 3.2   Beispiel für einen Szenengraphen. Die Szene besteht aus einem Fahrzeug mit vier Rädern sowie einer Straße, auf der ein Nagel liegt. Das 3D-Objekt für das Rad muss nur einmal in den Speicher geladen werden, wird aber mehrfach wiederverwendet
Transformationsgruppe modelliert. Indem hier eine Transformationsgruppe anstelle einer „normalen“ Gruppe verwendet wird, kann das Fahrzeug als Ganzes bewegt werden. Die vier Räder werden durch jeweils eine Transformationsgruppe repräsentiert, was ermöglicht, dass die Räder sich während der Fahrt drehen können. Ein Vorteil, den Szenengraphen bieten, ist dadurch begründet, dass es sich um DAGs und nicht zwangsläufig um Baumstrukturen handelt. Somit können Definitionen von 3D-Objekten sehr einfach wiederverwendet werden. So muss im Fahrzeugbeispiel nur ein Geometrieobjekt des Rads an Stelle von vier Geometrieobjekten im Speicher gehalten werden.
Die Blattknoten des Szenengraphen repräsentieren die eigentlichen (meist geometrischen) 3D-Objekte. Alle anderen Knoten haben eine gruppierende Funktion. Der Wurzelknoten repräsentiert etwa die gesamte Szene, da er die Gesamtheit aller 3D-Objekte gruppiert. Speziell hervorzuheben sind auch die sogenannten Transformationsgruppen. Diese definieren ein eigenes (lokales) Koordinatensystem für ihre Kindknoten und sind mit einer Transformationsmatrix versehen. Die von einem solchen Knoten festgelegte Transformation beschreibt dann die Verschiebung, Drehung und Skalierung des lokalen Koordinatensystems bzgl. des Koordinatensystems des übergeordneten Elternknotens. Um die endgültige (globale) Position, Orientierung und Skalierung eines

3  Virtuelle Welten

85

Abb. 3.3   Auswahl typischer Knotentypen in Szenengrapharchitekturen. Die Blattknoten im Szenengraph (grün) werden i. d. R. visuell oder auditiv dargestellt, Gruppenknoten (rot) dienen der Strukturierung
Objektes zu bestimmen, muss der Pfad von der Wurzel des Szenengraphen zu dem entsprechenden Objekt traversiert werden. Für alle auf dem Pfad auftretenden Transformationsknoten sind die entsprechenden Transformationsmatrizen in der Reihenfolge des Pfades per Rechtsmultiplikation miteinander zu verknüpfen. Die sich ergebende Matrix muss nun noch mit den Eckpunktkoordinaten des Objektes multipliziert werden. Die mathematischen Grundlagen zum Rechnen mit Transformationsmatrizen werden in Kap. 11 erläutert. Abb. 3.3 illustriert typische Knotentypen von Szenengrapharchitekturen. Auf die Bedeutung und Verwendung dieser und weiterer Knotentypen wird innerhalb dieses Kapitels an den passenden Stellen genauer eingegangen.
Neben den eigentlichen geometrischen 3D-Objekten enthält der Szenengraph i. d. R. weitere Elemente, wie Audioquellen, Lichtquellen und ein oder mehrere virtuelle Kameras (oder Viewpoints). Objektivparameter wie der horizontale und vertikale Öffnungswinkel (das sogenannte horizontale und vertikale Field of View) sowie Ausrichtung und Position einer virtuellen Kamera bestimmen den sichtbaren Ausschnitt der Virtuellen Welt.
Die hierarchische Struktur von Szenengraphen bietet auch die interessante Möglichkeit, ein Objekt im Koordinatensystem eines anderen Objektes (dem Bezugsobjekt) darzustellen. Beispielsweise können so die Eckpunktkoordinaten eines geometrischen Objektes in das Koordinatensystem der virtuellen Kamera überführt werden. Dafür muss ein Pfad im Graphen vom Knoten des Bezugsobjektes zum jeweiligen Objektknoten traversiert werden. Kanten dürfen dabei auch in umgekehrter Richtung durchlaufen werden. Wie zuvor müssen auch hier die auf dem Pfad auftretenden Transformationsmatrizen multipliziert werden, allerdings ist zu beachten, dass mit der inversen Matrix zu multiplizieren ist, falls die entsprechende Transformationsgruppe über eine Kante in umgekehrter Richtung erreicht wurde.

86

B. Jung und A. Vitzthum

Als Beispiel soll die Transformationsmatrix MNagel→Rad1 bestimmt werden, welche die Objektkoordinaten des ersten Rades eines Fahrzeugs in das Koordinatensystem eines Nagels überführt, der auf der Straße liegt (vgl. Abb. 3.2). Es ergibt sich folgende Matrixmultiplikation:
MNagel→Rad1 = MNagel−1 · MStrasse−1 · MFahrzeug · MRad1

Eine populäre, plattformunabhängige Szenengraphbibliothek ist das C++basierte OpenSceneGraph, das u. a. für die Entwicklung immersiver VR-Systeme Verwendung findet. Mit dem ebenfalls quelloffenen X3DOM-Framework können X3D-basierte Virtuelle Welten in Web-Browsern dargestellt werden. Auch Game Engines nutzen üblicherweise Szenengraphen. Szenengraphen von Game Engines haben i. d. R. Baumstruktur; die speichereffiziente Mehrfacheinbindung von 3D-Objekten wird hier u. a. durch Instanziierungsmechanismen und die Wiederverwendbarkeit von Komponenten erreicht.

3.3	3D-Objekte
3D-Objekte sind der vielleicht wichtigste Bestandteil Virtueller Welten. Um 3D-Objekte visualisieren zu können, werden zunächst Modelle benötigt, welche die Geometrie der Objekte möglichst genau und in einer Form beschreiben, die sich von einem Computer leicht verarbeiten lässt. Einige dieser Modelle werden nachfolgend vorgestellt. Grundlegend lassen sich Oberflächen- und Festkörpermodelle unterscheiden. Oberflächenmodelle eignen sich – wie der Name bereits erkennen lässt – zur Beschreibung von Oberflächen (engl. Surfaces). Mittels Festkörpermodellen (engl. Solids) können Objekte beschrieben werden, die ein Volumen einschließen. An dieser Stelle sollen Polygonnetze stellvertretend für Oberflächenmodelle und B-Reps sowie das Primitve Instancing als Beispiele für Festkörpermodellierung betrachtet werden.
3.3.1	Oberflächenmodelle
Die Bereitstellung geeigneter Methoden zur Beschreibung von Oberflächen (Surfaces) ist von zentraler Bedeutung. Die reale Welt enthält viele gekrümmte Flächen. Beispiele dafür sind etwa das menschliche Gesicht oder Hügellandschaften. Die Oberfläche eines Objektes ist das, was unmittelbar wahrnehmbar ist.
Polygonbasierte Repräsentationen Polygonbasierte Flächenbeschreibungen gehören zu den am häufigsten vorkommenden, da sich damit beliebig geformte Oberflächen einfach nachbilden lassen. Ein Nachteil ist