Klassifikation von Hautläsionen mit Vision Transformern

Hautkrebs gehört zu den häufigsten Krebsarten weltweit, und die frühzeitige Unterscheidung zwischen gutartigen und bösartigen Läsionen entscheidet oft über den Therapieerfolg. Dieses Projekt untersucht, ob moderne Vision-Transformer-Architekturen (ViT) bei dieser feingranularen Bildklassifikation klassische CNN-Ansätze übertreffen können.

Ansatz

Aufbau auf einem vortrainierten ViT-Backbone, feinjustiert auf einem kuratierten dermatologischen Datensatz.
Sorgfältig entworfene Daten-Augmentierung und Klassen-Balancing — eine Notwendigkeit bei der typischen Klassen-Schieflage medizinischer Datensätze.
End-to-End-Pipeline für Training, Evaluierung und Fehleranalyse in PyTorch.

Ergebnis

Das finale Modell erreichte eine Klassifikationsgenauigkeit von 96,95 % auf dem zurückgehaltenen Testset — ein deutlicher Hinweis darauf, dass Attention-basierte Architekturen besonders gut zu textur- und mustergetriebenen Aufgaben passen.

Warum das für Kund:innen relevant ist

Dieselbe Pipeline — vortrainiertes Backbone, gezieltes Fine-Tuning, sauberes Evaluierungs-Setup — lässt sich direkt auf industrielle Vision-Aufgaben übertragen: Qualitätskontrolle, Defekt-Erkennung, Dokumenten-Klassifikation und vieles mehr. Dieser Case zeigt konkret, wie sich ein Forschungs-Standardansatz in ein messbares, deploybares Ergebnis für eine spezifische Domäne übersetzen lässt.