Bootstrap Test
Unsicherheit der Modellleistung bewerten
Ein einzelner Testdurchlauf liefert zwar einen Messwert für die Modellleistung (z. B. Genauigkeit, F1-Score, RMSE), gibt jedoch keine Auskunft über dessen Unsicherheit oder mögliche Schwankungen. Der Bootstrap-Test schafft hier Abhilfe: Durch wiederholtes Ziehen von Stichproben aus dem Testdatensatz (mit Zurücklegen) kann ein Konfidenzintervall für die Modellmetriken bestimmt werden. Dies ermöglicht eine präzisere Einschätzung der tatsächlichen Modellleistung.
%%{init: { 'theme': 'default' } }%%
xychart-beta
title "Bootstrap-Metrik Verteilung"
x-axis "Werte der Metrik" [5.0, 5.2, 5.4, 5.6, 5.8, 6.0, 6.2, 6.4, 6.6, 6.8, 7.0, 7.2]
y-axis "Anzahl der Bootstrap-Samples" 10 --> 1100
bar [10, 60, 175, 520, 950, 1050, 1000, 820, 592, 185, 70, 15]
%%{init: { 'theme': 'dark' } }%%
xychart-beta
title "Bootstrap-Metrik Verteilung"
x-axis "Werte der Metrik" [5.0, 5.2, 5.4, 5.6, 5.8, 6.0, 6.2, 6.4, 6.6, 6.8, 7.0, 7.2]
y-axis "Anzahl der Bootstrap-Samples" 10 --> 1100
bar [10, 60, 175, 520, 950, 1050, 1000, 820, 592, 185, 70, 15]
Vorgehensweise des Bootstrap-Tests
- Modelltraining: Das Modell wird einmalig auf dem gesamten Trainingsdatensatz trainiert.
- Stichprobenziehung: Mehrfache zufällige Ziehung von Teilmengen aus dem Testdatensatz (mit Zurücklegen).
- Metrikberechnung: Berechnung relevanter Modellkennzahlen (z. B. RMSE, Genauigkeit, F1-Score) für jede Stichprobe.
- Konfidenzintervall bestimmen: Ableitung eines Bereichs, in dem die tatsächliche Modellleistung mit hoher Wahrscheinlichkeit liegt.
Warum ist der Bootstrap-Test wichtig?
In vielen Anwendungsfällen gibt es klare Anforderungen an die Modellleistung, beispielsweise eine maximale Fehlertoleranz. Ein einzelner Testwert kann den Eindruck vermitteln, dass diese Vorgabe erfüllt ist – doch erst der Bootstrap-Test zeigt, ob das Modell die Grenzwerte tatsächlich mit hoher Wahrscheinlichkeit einhält oder ob es größere Abweichungen gibt.
- Breites Konfidenzintervall → Die Modellleistung variiert stark zwischen den Stichproben, was auf Unsicherheit hinweist.
- Enges Konfidenzintervall → Die Modellleistung ist stabil, da die Werte weniger stark schwanken.
Diese Unsicherheitsanalyse hilft bei fundierten Entscheidungen, z. B. ob ein Modell bereits für den produktiven Einsatz geeignet ist oder ob es weiter optimiert werden muss.