ML | Deep Learning

Neuronale Netze

Neuronale Netze sind das Herzstück des Deep Learning. Sie bestehen aus mehreren Schichten von künstlichen Neuronen, die Daten verarbeiten und Muster erkennen. Ein wichtiger Typ ist das Multi-Layer-Perzeptron (MLP), das aus Eingabe-, versteckten und Ausgabeschichten besteht.

Um neuronale Netze effizient zu trainieren, werden Aktivierungsfunktionen wie ReLU oder Sigmoid genutzt, um Nichtlinearität in das Modell zu bringen. Der Lernprozess erfolgt durch Gradientenabstieg, eine Optimierungsmethode, die die Gewichte des Netzes so anpasst, dass der Fehler minimiert wird. Da tiefe Netze oft instabil werden können, gibt es Methoden zur Stabilisierung.

Methoden zur Stabilisierung

Batch Normalization: Normalisiert Zwischenergebnisse, um das Training zu beschleunigen.
Layer Normalization: Reduziert Schwankungen innerhalb von Schichten.
Dropout: Deaktiviert zufällig Neuronen, um Überanpassung zu vermeiden.

Zur Optimierung werden Algorithmen wie Stochastic Gradient Descent (SGD) oder Adam verwendet, die das Training effizienter machen.

Transfer Learning

Transfer Learning ermöglicht es, vortrainierte Modelle wiederzuverwenden, um neue Aufgaben mit weniger Daten und Rechenaufwand zu lösen. Dies ist besonders nützlich in Bereichen mit begrenztem Trainingsmaterial.

Hauptansätze für Transfer Learning

Sequential Transfer Learning: Das bestehende Modell wird an eine neue Aufgabe angepasst, indem einige Schichten eingefroren oder feingetunt werden.
Vortrainierte Modelle: Modelle wie ResNet oder VGG können direkt für neue Anwendungen genutzt werden, indem nur die letzte Schicht ersetzt wird.

Transfer Learning wird häufig in der Bildverarbeitung, NLP und vielen anderen KI-Anwendungen eingesetzt.

Convolutional Neural Networks

Convolutional Neural Networks (CNNs) sind spezialisierte neuronale Netze für Bild- und Mustererkennung. Sie nutzen Convolutional Layers, die Merkmale aus Bildern extrahieren, indem sie kleine Filter über das Bild bewegen.

Durch Pooling-Schichten wird die Datenmenge reduziert, indem wichtige Informationen beibehalten werden. Dadurch werden CNNs effizienter und robuster gegenüber Verzerrungen und Skalierungen.

Häufige Anwendungen von CNNs sind:

Objekterkennung: Erkennen und Klassifizieren von Objekten in Bildern (z. B. YOLO oder Faster R-CNN).
Bildsegmentierung: Modelle wie U-Net teilen Bilder in semantische Regionen auf (z. B. für medizinische Bildverarbeitung).

CNNs sind eine Schlüsseltechnologie für moderne Computer-Vision-Anwendungen, von autonomem Fahren bis zur medizinischen Diagnostik.

Sprachmodelle

Sprachmodelle (LLM) sind auf die Verarbeitung natürlicher Sprache spezialisiert. Moderne Sprachmodelle basieren auf der Transformer-Architektur, die effizient mit langen Texten umgehen kann.

Zentrale Konzepte von LLMs

Tokenisierung: Zerlegt Texte in kleinere Einheiten (Tokens), um sie für neuronale Netze verarbeitbar zu machen.
Embeddings: Wandelt Wörter oder Tokens in Vektoren um, um semantische Ähnlichkeiten darzustellen.
Attention-Mechanismus: Ermittelt die wichtigsten Wörter in einem Text und verbessert dadurch das Sprachverständnis.
Positional Encoding: Ergänzt Sequenzen um Positionsinformationen, da Transformer-Modelle keine feste Reihenfolge nutzen.

Bekannte Modellfamilien

BERT (Bidirectional Encoder Representations from Transformers): Ein Modell, das Texte bidirektional analysiert und für Aufgaben wie Frage-Antwort-Systeme und Sentiment-Analyse eingesetzt wird.
GPT (Generative Pre-trained Transformer): Ein autoregressives Modell, das Texte generiert und für Chatbots oder kreative Textgenerierung genutzt wird.

Diese Modelle treiben Anwendungen wie automatische Übersetzungen, Chatbots und intelligente Assistenten voran und revolutionieren die Interaktion mit natürlicher Sprache.