DissLiteratur/storage/U282DWID/.zotero-ft-cache

radClub
Radiologie 2023 · 63:204–208 https://doi.org/10.1007/s00117-022-01101-8 Angenommen: 25. November 2022 Online publiziert: 28. Dezember 2022 © The Author(s), under exclusive licence to Springer Medizin Verlag GmbH, ein Teil von Springer Nature 2022
Redaktion F. Bamberg, Freiburg (Leitung) U. Attenberger, Bonn M. Eisenblätter, Bielefeld I. Molwitz, Hamburg M. Notohamiprodjo, München B. Sigl, Wien A. A. Tavakoli, Mannheim L. Ullrich, München

Die Radiologie
vormals Der Radiologe
Einführung in Methoden neuronaler Netzwerke
Leon M. Bischoﬀ1,2 · Julian A. Luetkens1,2
1 Klinik für Diagnostische und Interventionelle Radiologie, Universitätsklinikum Bonn, Venusberg-Campus 1, Bonn, Deutschland 2 Quantitative Imaging Lab Bonn (QILaB), Universitätsklinikum Bonn, Bonn, Deutschland

QR-Code scannen & Beitrag online lesen
204 Die Radiologie 3 · 2023

Künstliche Intelligenz als zentrale Methodik in Gesellschaft und Medizin
Das Forschungsfeld der künstlichen Intelligenz hat sich in den letzten 10 Jahren zu einer zentralen Thematik nicht nur im wissenschaftlichen, sondern auch im gesellschaftlichen und politischen Diskurs entwickelt. Insbesondere in der Medizin erhoﬀt man sich durch den Einsatz der künstlichen Intelligenz eine ressourcenschonende Automatisierung alltäglicher Routine unter Aufrechterhaltung eines hohen Qualitätsniveaus, welches neben der Diagnostik von Erkrankungen auch die gezielte Therapieplanung und Prognoseeinschätzung miteinschließt. Die Methodik, die hierbei in verschiedensten Variationen zum Einsatz kommt, ist jedoch auf den ersten Blick für viele Personen ohne direkten mathematischen Hintergrund nur schwer verständlich. Dieser Beitrag zielt deshalb darauf ab, die grundlegende Methodik von neuronalen Netzwerken als wichtigstem und am häuﬁgsten angewandten Werkzeug der künstlichen Intelligenz zu erläutern.
Was ist ein neuronales Netzwerk?
Vereinfacht gesagt ist ein neuronales Netzwerk nichts anderes als ein riesiges mathematisches Gleichungssystem mit meh-

reren Tausend, oft sogar Millionen oder gar Milliarden Variablen. Die kleinste Einheit eines solchen Netzwerkes nennt man Perzeptron (. Abb. 1a). Ein Perzeptron besteht aus vier verschiedenen Teilen: 1. Inputwerte (x): Dies sind die Werte, die
das Perzeptron verarbeiten muss. Sie können prinzipiell jeden beliebigen Wert annehmen. Bei Algorithmen zur Bilderkennung stellen in der ersten Schicht des Netzwerks beispielsweise die Pixelwerte des Bildes die Inputwerte dar. 2. Gewichte (w) und Bias (b): Dies sind die Variablen, die während des Trainingsprozesses fortlaufend optimiert werden. Während die Gewichte mit den Inputwerten multipliziert werden, wird der Bias zu diesen addiert. 3. Summierung des Inputs (∑): Sämtliche Zwischenergebnisse, die aus der Verrechnung der Inputwerte mit den Gewichten und dem Bias entstanden sind, werden addiert. So wird sichergestellt, dass alle Inputwerte einen Einﬂuss auf das Endergebnis haben. 4. Aktivierungsfunktion (A): Um das Ergebnis der Addition zu skalieren und sehr hohe und niedrige Werte zu vermeiden, wird eine Aktivierungsfunktion angewandt. Eine der am häuﬁgsten verwendeten ist beispielsweise die Sigmoidfunktion (. Abb. 1b). Werden hohe positive Werte (> 0) in

a

b

c

Abb.

1

8

Grundsätzliche

Elemente

neuronaler

Netzwerke.

a

Aufbau

eines
^

Perzeptrons

mit

den

Inputwerten

(x),

Gewich-

ten (w), Bias (b), der Aktivierungsfunktion (A) und den Outputwerten (y). b Graf der Sigmoidfunktion als Beispiel einer Akti-

vierungsfunktion. c Funktionsweise eines „convolutional neural networks“

diese Funktion eingegeben, nähert sich das Endergebnis asymptotisch dem Wert 1 an, bei negativen Werten (< 0) entsprechend dem Wert 0. So wird sichergestellt, dass das Ergebnis immer zwischen 0 und 1 liegt.
Zusammengefasst werden in einem Perzeptron viele verschiedene Inputwerte zu
^
einem Outputwert (y) verrechnet. Neuronale Netzwerke sind dabei in vielen hintereinander folgenden Schichten aufge-

baut. Die erste Schicht ist immer die Inputschicht, in die direkt die Zahlenwerte aus dem zu analysierenden Objekt eingespeist werden. Die letzte Schicht berechnet das ﬁnale Ergebnis (. Abb. 2a). Alle dazwischenliegenden Schichten werden als versteckte Schichten bezeichnet und stellen im Wesentlichen eine Abstraktion der ursprünglichen Inputwerte in verschiedener Ausprägung dar. Neuronale Netzwerke unterscheiden sich dabei nicht nur in der Anzahl der Schichten, Perzeptrons und Va-

riablen, sondern auch in der Wahl der Aktivierungsfunktion und insbesondere der Perzeptronverschaltung [2].
Stark verbesserte Bilderkennung durch „convolutional neural networks“
Die automatische Bilderkennung ist eine der wichtigsten Anwendungsarten neuronaler Netzwerke, insbesondere in der Radiologie. Um Kontraste in Bildern so-

Die Radiologie 3 · 2023 205

radClub

a

Abb. 2 9 Funktionsweise

und Trainingsprozess neu-

ronaler Netzwerke. a Das

neuronale Netzwerk als

Verschaltung mehrerer

Perzeptrons (P) gibt eine

Schätzung für jedes Bild ab

(in diesem Fall Katze oder

Hund). b Outputwerte und

Label werden mittels der

Verlustfunktion mitein-

ander verglichen und ab-

hängig hiervon in der Back-

propagation die Variablen

des Netzwerks angepasst.

(Tierbilder unterliegen der

Pixabay Lizenz; https://

b

pixabay.com/de/service/

license/)

wohl in horizontaler als auch in vertikaler Pixelrichtung besser zu erkennen, wurden sog. „convolutional neural networks“ (CNNs) entwickelt [1]. Die Inputwerte werden hierbei nicht separat voneinander betrachtet, sondern als Bildmatrix (. Abb. 1c). Über diese Matrix bewegt sich nun ein Filter, beispielsweise mit einer Größe von 3 × 3 Feldern. Die einzelnen Felder dieses Filters stellen die Gewichte oder den Bias dar, die während des Trainingsprozesses angepasst werden. Jedes Gewicht des Filters wird mit dem jeweiligen Inputwert, über dem es sich beﬁndet, multipliziert. Die Zwischenergebnisse eines Filters werden addiert und mittels einer Aktivierungsfunktion skaliert. Der Filter bewegt sich im Anschluss auf der Bildmatrix stets eine Position weiter, bis das Ende erreicht ist. Es entsteht eine neue, horizontal und vertikal minimal kleinere Bildmatrix, die eine bessere Abstraktion der Bildkontraste darstellt, als es in einem konventionellen neuronalen Netzwerk möglich wäre. Meist wird eine Kombination

von CNNs und konventionell verbundenen Schichten verwendet. Eine genaue Auﬂistung der wichtigsten Architekturen neuronaler Netzwerke und deren bevorzugte Anwendung ﬁndet sich in . Tab. 1.
Minimierung der Verlustfunktion
Der zu analysierende Datensatz muss vor dem Training manuell annotiert werden. Im Falle des klassischen „Hunde-versusKatzen“-Datensatzes bedeutet dies beispielsweise, dass alle Hunde als 1 und alle Katzen als 0 gelabelt werden [3]. Das neuronale Netzwerk erkennt nach abgeschlossenem Training bei einem Ergebnis der letzten Sigmoidfunktion von > 0,5 einen Hund und bei < 0,5 eine Katze (. Abb. 2a). Damit ein neuronales Netzwerk abhängig von den initialen Inputwerten die richtigen ﬁnalen Outputwerte errechnet, muss es zuerst trainiert werden. Sämtliche Variablen des Netzwerks werden vor Beginn des Trainings zufällig initialisiert. Für jedes Bild des Da-

tensatzes, das im Anschluss das Netzwerk durchläuft, wird im folgenden Schritt ein Outputwert errechnet („forward propagation“). Der errechnete Wert wird mit dem ursprünglichen Label des Bildes verglichen (. Abb. 2b); das gesamte Ziel des Trainings besteht in einer Minimierung des Unterschieds zwischen den beiden Größen. Dieser Vergleich wird durch die Verlustfunktion durchgeführt, beispielsweise mittels der binären Kreuzentropie:

L

=

−

1 N

N
∑
i=1

yi

⋅

log

(yˆi )

+ (1 − yi ) ⋅ log(1 − yˆi )

L: Verlust (Loss) N: Anzahl der Bilder y: Label yˆ: Outputwert

Zusammengefasst lässt sich diese Funktion so verstehen, dass abhängig vom Label jeweils einer der beiden Terme yi ⋅ log(y^ i ) oder (1 − yi ) ⋅ log(1 − ^yi )

206 Die Radiologie 3 · 2023

Tab. 1 Übersicht über die wichtigsten Architekturen neuronaler Netzwerke und deren Haupt-

anwendungen mit populären Beispielen

Netzwerkarchitektur Hauptanwendung

Beispiele

Convolutional neural network

Bildklassiﬁkation Objektdetektion

AlexNet, Inception, EﬃcientNet
Faster R-CNN, Mask R-CNN, YOLO

Recurrent neural net- Computerlinguistik work

LSTM, GRU

Transformer

Bildklassiﬁkation, Objektdetektion, GPT-2, BERT Computerlinguistik

R-CNN Region based recurrent neural network, YOLO You only look once, LSTM Long short-term memory, GRU Gated recurrent unit, GPT-2 Generative Pre-trained Transformer, BERT Bidirectional Encoder Representations from Transformers

Tab. 2 Überblick zu weiterführenden Internetseiten, die Methoden der künstlichen Intelligenz

für Einsteiger, Fortgeschrittene und Proﬁs erläutern. Beispielhaft sind ebenfalls vier Journals dar-

gestellt, die regelmäßig neue Erkenntnisse und Methodiken zu künstlicher Intelligenz publizieren

Internetseiten

Journals

www.medium.com www.towardsdatascience.com www.stackoverﬂow.com www.machinelearningmastery.com www.kaggle.com

Nature Machine Intelligence Machine Learning IEEE Transactions on Pattern Analysis and Machine Intelligence IEEE Transactions on Medical Imaging

gleich null ist und somit aus der Gleichung wegfällt. Der jeweils andere Term ist aufgrund des verwendeten Logarithmus bei log(1) gleich 0; dies wird nur erreicht, wenn der Outputwert sich nicht vom Label unterscheidet. Das Ergebnis aller Bilder, die zum gleichen Zeitpunkt das Netzwerk durchlaufen, wird gemittelt.
Optimierung des neuronalen Netzwerks mittels Backpropagation
Um eine Minimierung des Verlusts zu erreichen, müssen sämtliche Variablen des neuronalen Netzwerks fortlaufend angepasst werden. Dieser Prozess wird Backpropagation genannt [4]. Dies ist der letzte wichtige Baustein, um den generellen Trainingsprozess solcher Netzwerke besser verstehen zu können. Stellt man sich den errechneten Verlust als Funktion in Abhängigkeit einer einzelnen Variablen vor (der Verständlichkeit halber kann man sich diese Verlustverteilung als einfache quadratische Funktion vorstellen), so ist ersichtlich, dass das erwünschte Minimum durch eine Grafsteigung von 0 charakterisiert ist, wohingegen ein höherer Verlust mit einem positiven oder negativen Gradienten verbunden ist. Wird nun der Gradient der Verlustverteilung für diese Variable von dem ursprünglichen Wert der Varia-

ble subtrahiert, so nähert sich das Ergebnis dem Minimum des Verlusts an und wird als neuer Wert der Variable gesetzt. Die Lernrate α skaliert dabei den Gradienten, um große Schwankungen zu vermeiden:

w1′

=

w1

−

α

⋅

∂L ∂w1

w1′: Optimiertes Gewicht w1: Ursprüngliches Gewicht

α: Lernrate

L: Verlust (Loss)

Dies wird für alle Variablen des Netzwerks separat berechnet, sodass nach Abschluss der Backpropagation ein optimiertes Gleichungssystem entsteht(. Abb. 2b). Ein einzelner Durchgang wird dabei als Epoche bezeichnet, in der Realität wird ein Netzwerk meist über hunderte oder tausende Epochen trainiert.
Diese und weitere Methoden werden fortlaufend weiterentwickelt; für eine tiefergreifende Erläuterung verweisen wir auf die beispielhaft aufgelisteten Informationsquellen in . Tab. 2.

Übertragung der Eigenschaften eines neuronalen Netzwerks mittels Transferlernen
Eine der am häuﬁgsten angewandten Trainingsstrategien ist das sog. Transferlernen [5]. Bei dieser Strategie wird sich zu Nutze gemacht, dass Kontraste in Bildern eine generelle Eigenschaft und unabhängig vom abgebildeten Motiv sind. So sind Netzwerke, die bereits auf umfangreichen Datensätzen wie beispielsweise ImageNet trainiert wurden, ausgezeichnet in der Lage, die erlangte Fähigkeit der Diﬀerenzierung von Kontrasten nach erneutem kurzem Training auf andere Datensätze mit unterschiedlichen Bildern und Labeln zu übertragen. Dies führt nicht nur zu deutlich reduzierten Trainingszeiten, sondern erzielt auch oftmals bessere Ergebnisse.
Aufbau eines Datensatzes
Damit neuronale Netzwerke ihre Magie entfalten können, ist vorher eine sorgfältige Präparation des Datensatzes nötig. Meist wird der gesamte Datensatz zufällig in 3 Subdatensätze für unterschiedliche Zwecke aufgeteilt: 1. Trainingsdatensatz: Training des neu-
ronalen Netzwerks 2. Validierungsdatensatz: Testung des
neuronalen Netzwerkes während des Trainings auf bisher unbekannte Daten (z. B. nach jeder Epoche) 3. Testdatensatz: Testung des neuronalen Netzwerkes nach Abschluss des Trainings auf einen weiteren unbekannten Datensatz zur ﬁnalen Evaluation und Messung der Generalisierbarkeit
Die prozentuale Aufteilung der Datensätze ist frei wählbar, häuﬁg verwendet wird beispielsweise ein Verhältnis von 70 %/15 %/15 %.
Fazit
– Der Grundbaustein jedes neuronalen Netzwerks ist das Perzeptron, die zusammengeschaltet ein großes Gleichungssystem ergeben.
– Neben der Struktur bilden die Verlustfunktion und die Backpropagation die wichtigsten methodischen Baustei-

Die Radiologie 3 · 2023 207

radClub
ne, um ein neuronales Netzwerk zu trainieren. – Für ein eﬃzientes Training können Netzwerke mittels Transferlernen auf neue Datensätze angepasst werden. – Eine Dreiteilung des Datensatzes für das Training, die Validierung und die abschließende Testung ermöglicht eine gute Generalisierbarkeit des neuronalen Netzwerks.
Korrespondenzadresse

Leon M. Bischoﬀ Klinik für Diagnostische und Interventionelle Radiologie, Universitätsklinikum Bonn, Venusberg-Campus 1 53127 Bonn, Deutschland leon.bischoﬀ@ukbonn.de
Einhaltung ethischer Richtlinien
Interessenkonﬂikt. L.M. Bischoﬀ gibt an, dass kein Interessenkonﬂikt besteht. J.A. Luetkens ist als Referent für die Firma Philips Healthcare tätig und erhält Beraterhonorare von der Firma Bayer HealthCare.
Für diesen Beitrag wurden von den Autor/-innen keine Studien an Menschen oder Tieren durchgeführt. Für die aufgeführten Studien gelten die jeweils dort angegebenen ethischen Richtlinien.
Literatur
1. LeCun Y, Bottou L, Bengio Y et al (1998) Gradientbased learning applied to document recognition. Proc Ieee 86:2278–2324. https://doi.org/10.1109/ 5.726791
2. LeCun Y, Bengio Y, Hinton G (2015) Deep learning. Nature 521(7553):436–444. https://doi.org/10. 1038/nature14539
3. Microsoft (2022) Kaggle cats and dogs dataset. https://www.microsoft.com/en-us/download/ details.aspx?id=54765. Zugegriﬀen: 3. Okt. 2022
4. Rumelhart D, Hinton G, Williams R (1986) Learning representations by back-propagating errors. Nature 323:533–536. https://doi.org/10.1038/ 323533a0
5. Weiss K, Khoshgoftaar TM, Wang D (2016) A survey of transfer learning. J Big Data 3:9. https://doi.org/ 10.1186/s40537-016-0043-6
208 Die Radiologie 3 · 2023

SpringerMedizin.de Lesen Sie Ihre Fachzeitschrift auch als ePaper!
Als Abonnentin/Abonnent können Sie Ihre Zeitschrift in verschiedenen Formaten lesen. Wählen Sie je nach Vorliebe und Situation aus, ob Sie die Zeitschrift als Print-Ausgabe, in Form von einzelnen Beiträgen auf springermedizin.de oder aber als komplette, elektronische ePaper-Ausgabe lesen möchten.
Die ePaper sind die identische Form der gedruckten Ausgaben. Sie sind nutzbar auf verschiedenen Endgeräten wie PC, Tablet oder Smartphone
Das sind die Vorteile des ePapers: D Das verlinkte Inhaltsverzeichnis führt Sie direkt zum gewünschten Beitrag. D Eine Suchfunktion ermöglicht das Auﬃnden von Schlagworten innerhalb der Zeitschrift. D Jede Ausgabe kann als PDF heruntergeladen und damit auch oﬄine gelesen werden bzw. auch gespeichert oder ausgedruckt werden. D Als Abonnentin/Abonnent haben Sie Zugang zu allen ePaper-Ausgaben ab 2016. Sie ﬁnden die ePaper auf SpringerMedizin.de bei der jeweiligen Ausgabe Ihrer Fachzeitschrift. Klicken Sie auf den Button „Ausgabe als ePaper lesen“.