Handling unbalancierter Klassen in der Aspekt-basierten Sentiment Analyse: Exploration verschiedener Methoden anhand eines Datensatzes deutschsprachiger Hotelbewertungen
- Thema:
- Handling unbalancierter Klassen in der Aspekt-basierten Sentiment Analyse: Exploration verschiedener Methoden anhand eines Datensatzes deutschsprachiger Hotelbewertungen
- Art:
- BA, MA
- BetreuerIn:
- Jakob Fehle
- Status:
- Entwurf
- Stichworte:
- Sentiment Analyse, Annotation, NLP
- angelegt:
- 2023-07-30
Hintergrund
Die Aspektbasierte Sentiment Analyse (ABSA) ist eine Methode im Bereich des Natural Language Processing (NLP), die es ermöglicht, Meinungen und Stimmungen in Texten gegenüber spezifischen Aspekte zu identifizieren. Im Gegensatz zur herkömmlichen Sentiment Analyse, die lediglich das allgemeine Sentiment eines Textes ermittelt, fokussiert sich die ABSA auf einzelne Aspekte eines Produkts oder einer Dienstleistung. Dadurch können detaillierte Einblicke in das Feedback zu Produkten und Dienstleistungen gewonnen und gezielt auf die Bedürfnisse und Vorlieben eingegangen werden.
In dieser Arbeit soll auf eine bereits durchgeführten Arbeit aufgebaut werden, in der die ABSA als Multi-Label Klassifikationsaufgabe für deutschsprachige Hotelbewertungen auf TripAdvisor untersucht wurde. Im Zuge dieser vorherigen Arbeit wurde ein eigener Datensatz erstellt, in welchem im Rahmen einer Annotationsstudie Aspekte, Unteraspekte und Polaritäten annotiert wurden. Allerdings stellte sich heraus, dass die Vorhersagekraft der Multi-Label ABSA abnimmt, wenn viele verschiedene Aspekt-Klassen betrachtet werden, u. a. da selten vorkommende Klassen nur schwer vorherzusagen sind. Dies bildet den Ausgangspunkt für diese Arbeit, die sich zum Ziel setzt, den Datensatz zu optimieren und die Leistung der Multi-Label ABSA zu verbessern. Sowohl der erstellte Datensatz als auch bereits erstellte Code-Beispiele stehen zur Verfügung.
Zielsetzung der Arbeit
Das Hauptziel dieser Arbeit besteht darin, die Qualität des bestehenden Datensatzes zu verbessern und die Vorhersagekraft der Aspekt-basierten Sentiment Analyse zu erhöhen. Hierfür sollen zwei zentrale Ansätze verfolgt werden: (1) die Kuration und Erweiterung des Datensatzes, um die Klassenbalance zu verbessern und seltene Aspekt-Klassen besser abbilden zu können und (2) sollen verschiedene Methoden und Techniken aus der Literatur angewandt und evaluiert werden, um den Umgang mit einem stark unausgeglichenen Datensatz zu verbessern.
Der Rahmen der Arbeit kann für eine Masterarbeit erweitert werden, z. B. durch eine weitere Verbesserung des Multi-Label Klassifikations-Ansatzes (z. B. als Multi-Task Multi-Label Klassifikation).
Konkrete Aufgaben
- Überprüfung und Kuration aller Annotationen, Unter-Aspekt-Klassen werden z.T. in Hauptaspektklassen zusammengefasst oder ggfs. entfernt, um die Qualität des Datensatzes zu steigern.
- Verbesserung der Klassenbalance durch Hinzufügen neuer Annotationen seltener und unterrepräsentierter Aspekt-Klassen.
- Untersuchung und Anwendung von Techniken zur Behandlung unbalancierter Datensätze, wie z.B. Sub- und Oversampling, festlegen von Class Weights oder ähnliche Ansätze beim Durchführen einer Multi-Label Klassifikation zur ABSA.
Erwartete Vorkenntnisse
Umgang mit Python, idealerweise Vorerfahrung mit Machine Learning/Natural Language Processing.
Weiterführende Quellen
tbd