Overfitting
Overfitting tritt auf, wenn ein Modell die Eigenheiten und das Rauschen in den Trainingsdaten „auswendig lernt“, anstatt allgemeine Muster zu erkennen. Ein typisches Anzeichen dafür ist eine sehr hohe Genauigkeit auf den Trainingsdaten, aber eine deutlich schlechtere Performance auf neuen Daten (Validierungs- oder Testdaten).
Mögliche Gegenmaßnahmen
- Regularisierung (z. B. L1/L2): Begrenzt die Größe bzw. Komplexität der Modellparameter.
- Dropout bei neuronalen Netzen: Schaltet während des Trainings zufällig Neuronen ab und erhöht die Robustheit des Netzwerks.
- Data Augmentation: Erweitert den Datensatz künstlich (z. B. durch Bildrotationen oder Synonymersetzungen), um die Vielfalt der Trainingsdaten zu erhöhen.
- Early Stopping: Beendet das Training, sobald sich die Leistung auf Validierungsdaten nicht weiter verbessert.
- Verringerung der Modellkomplexität: Weniger Schichten bei neuronalen Netzen oder einfachere Algorithmen verwenden.
Das Ziel ist ein Gleichgewicht zwischen Underfitting (zu einfaches Modell) und Overfitting (zu komplexes Modell, das sich zu stark an Trainingsdaten anpasst), um eine gute Generalisierungsfähigkeit auf neue Daten zu gewährleisten.