Wissen aus großen Sprachmodellen destillieren

Journal: Information Processing & Management, Bd. 63, Ausgabe 2 (Teil A), Artikel 104309 (2026)

Authors: R. Labadie-Tamayo, D. Slijepčević, X. Chen, A. J. Böck, A. Babic, L. Freimann, C. Atzmüller, M. Zeppelzauer

Dieser Zeitschriftenbeitrag untersucht, wie Wissen aus großen Sprachmodellen in ein interpretierbareres Concept-Bottleneck-Modell zur Erkennung von Hassrede und Gegenrede destilliert werden kann. Der Ansatz verbindet die Vorhersagekraft von LLMs mit einer transparenten, konzeptbasierten Schicht, sodass Klassifikationen auf menschlich verständliche Faktoren zurückgeführt werden können, anstatt als Black Box behandelt zu werden – eine wichtige Eigenschaft für sensible Moderationsaufgaben.

Die Arbeit knüpft direkt an meine Forschung zu Gegenrede und digitalem Humanismus an und trägt zu Methoden bei, die automatische Hassredeerkennung sowohl effektiv als auch erklärbar machen.

Vollständigen Beitrag lesen: https://doi.org/10.1016/j.ipm.2025.104309