Portfolio

Hier finden Sie meine Projekte aus den Bereichen maschinelles Lernen und Datenanalyse.

Dual-Encoder für die Text-zu-Bild-Suche

In diesem Projekt entwickle ich ein System, das auf Basis einer Texteingabe die relevantesten Bilder findet. Mithilfe eines Dual-Encoder-Ansatzes werden Bilder und Texte in einen gemeinsamen Merkmalsraum eingebettet, um Ähnlichkeiten präzise zu bestimmen.

\[\text{sim}(I{\prime}, T{\prime}) = \frac{I{\prime} \cdot T{\prime}^T}{\|I{\prime}\| \|T{\prime}\|}\]

Durch kontrastives Training entsteht ein leistungsfähiger Embedding-Raum, der eine effektive Bildsuche ermöglicht.
```
sim_eval.mvp_image_search("Cyclist")
```
Neben der Modellarchitektur werden auch die Datenstruktur, Compliance-Filter und Performancekennzahlen wie Recall@5 beleuchtet. Codebeispiele veranschaulichen das Training und die Evaluierung des Modells.

Mehr über das Dual-Encoder-Modell
Prognose der Temperatur für die Stahlindustrie

In diesem Projekt¹ entwickle ich ein Vorhersagemodell zur präzisen Temperaturprognose in der Stahlverarbeitung. Ziel ist es, den Stromverbrauch zu optimieren und die Produktionskosten zu senken.

Das Modell simuliert den technologischen Prozess, indem es Temperaturänderungen während der Legierungs- und Entschwefelungsphasen vorhersagt. Dabei werden Prozessdaten analysiert und maschinelles Lernen eingesetzt, um die Temperaturregelung effizienter zu gestalten.

Mehr über die Temperaturprognose

BERT: Erkennung von toxischen Kommentaren

In diesem Projekt entwickle ich ein Klassifikationsmodell zur Erkennung von toxischen Kommentaren. Grundlage ist ein Sequential Transfer Learning-Ansatz, bei dem BERT iterativ auf Teilmengen des Datensatzes trainiert wird, um sowohl Datenveränderungen (Data Drift) als auch Effizienzanforderungen zu berücksichtigen.

Mit dieser Methode erzielt das Modell einen ROC-AUC von 0.96, was eine hohe Trennschärfe zwischen toxischen und nicht-toxischen Kommentaren bestätigt.

Mit einem F1-Score von 0.82 übertrifft das Modell den geforderten Wert von 0.75, und laut Bootstrap-Analyse besteht lediglich eine 2,5%ige Wahrscheinlichkeit, dass dieser Wert unterschritten wird.

Das Projekt umfasst einen vollständigen Produktionspipeline-Ansatz von Preprocessing über Inference bis zur Evaluation. Durch die modulare Architektur lässt sich das Modell einfach an neue Daten anpassen und bei sich ändernder Datenlage weiter optimieren.

Mehr über diesen STL-Ansatz
Stern-Temperaturvorhersage mittels neuronaler Netze

In diesem Projekt entwickle ich ein Modell, das die Oberflächentemperatur von Sternen anhand ihrer Eigenschaften wie Leuchtkraft, Radius, absoluter Helligkeit und spektraler Klasse vorhersagt.

Durch den Einsatz von Datenaugmentation und Hyperparameter-Optimierung konnte ein robustes Modell entwickelt werden, das auch extreme Temperaturwerte zuverlässig prognostiziert. Die Ergebnisse werden unter anderem mit Bootstrap-Analysen evaluiert, um das Vertrauensniveau der Vorhersagen zu bestätigen.

Mehr über die Stern-Temperaturvorhersage

Hinweis

In letzter Zeit sind zahlreiche Projekte entstanden. Ich werde diese nach und nach hier ergänzen.

Es lohnt sich also, später wieder vorbeizuschauen!

Dieses Projekt wurde im Rahmen meines Data-Science-Online-Kurses als Abschlussprojekt entwickelt. ↩

Portfolio

Dual-Encoder für die Text-zu-Bild-Suche

Prognose der Temperatur für die Stahlindustrie

BERT: Erkennung von toxischen Kommentaren

Stern-Temperaturvorhersage mittels neuronaler Netze