7 Fallstudie 2: Hauptuntersuchung

7.1 Hier geht es drum, ein Mehrebenenannotationsmodell zu entwickeln, was heißt. dass die Annotation über alle linguistischen Ebenen hinweg erfolgt.

7.2 Datenaufbereitung: Im ersten Schritt wurden die Primärdaten automatisch mit dem Webtagger tokenisiert, getaggt und lemmatisiert. WebTagger ist eine Weiterentwicklung des TreeTaggers und wurde spezifisch für die Aufbereitung von Webkommentaren entwickelt. Dabei wurden die Tokenisierungs- und Taggingsregeln angepasst. Dazu werden themenspezifische Lexika genutzt. Drin ist festghalten, welche Wortformen und Tags ein Wort annehmen kann.

7.3 Ebenen des Mehrebenenannotationsmodells

Die Auf der morphosyntaktischen Ebene getaggten Daten bilden die Basis der Mehrebenenannotation. Für die weitere Annotation werden die getaggten Dateien in den Partitur Editor EXMARaLDA (steht online frei zur Verfügung). Die Daten werden auf der Text- und Metadatenebenen annotiert.

Der Umfang einer Annotation ist die Anzahl der Token, der mit einem Tag annotiert werden dürfen. Es werden fünf Tokenumfänge unterschieden: 1)Token als eine Einheit. 2) Mehrere Token wie Phrasen. 3) Satzteile 4) ganze Sätze 5) Satzübergreifende Annotationen. Für jedes Tag des Modells wurde einzeln definiert, wie groß der Tokenumfang sein darf. Die Annotationsrichtlinien sind wie folgt im Annotationsschema notiert.

7.3.1 Metadatenebene

Unten ist das Tagset für die Annotation kontextbezogener Metadaten

7.3.2 Textebene

Bezogen auf den Kommentartext werden sieben Annotationsebenen unterschieden:

Bei der Definition der Analysekategorien werden textmusterbezogene Merkmale modelliert und bestehende Ansätze aus der Literatur adaptiert.

Auf der morphologischen Ebene werden Tags zur Auszeichnung von Flexion und Wortbildung vergeben. Abkürzung, Akronyme, Anglizismen, Enklise, Klitisierung, Kompositum, Netzjargon, Reduktion des Adressatenpronomens, e-Tilgung werden auf dieser Ebene annotiert.

Auf der syntaktischen Ebene wird die Struktur des Blogkommentars annotiert. Da werden drei Subebenen unterschieden: Satz, Absatz und Text. Die Annotation auf der Text- und Absatzebene gibt die Textstruktur wieder, sie kann u.a. dienlich sein, um Verwendungsregularitäten von Bewertungshandlungen zu identifizieren.

Auf der lexikalisch-semantischen Ebene werden themenbezogene Lexeme annotiert. Die identifizierten themenbezogenen Lexeme können für die Erstellung themenspezifischer Lexika verwendet werden und bilden die Basis für die Annotation von Bewertungskomponenten.

Auf der pragmatischen Ebene werden Bewertungshandlungen und Komponenten des Bewertungskonzepts annotiert. Die bewertungshandlungsanzeigenden Mittel werden im Folgenden als Indikatoren beschrieben. Es werden sprachliche, korpusbezogene und polaritätsbezogene Indikatoren unterschieden.

Auf der Polaritätsebene werden drei Typen unterschieden: Token, Multitoken, Satz: Auf der Tokenebene werden die Polaritäten einzelner Einheiten annotiert (dadurch kann herausgefunden werden, welche Bewertungsgegenstände wie bewertet werden. Auf der Multitoken-Ebene wird die Polarität der Phrasen annotiert. Immer dann, wenn auf der Tokenebene ein oder mehrere Token ausgezeichnet wurden, erfolgt in den meisten Fällen die Annotation auf der Multitokenebene. Bei der bottom-up Polaritätsbestimmung werden die zuvor auf den zwei Ebenen ausgzeichneten Satzteile berücksichtigt. Bei kontextbezogener Polaritätsbestimmung wird der Kontext berücksichtigt.

7.4 Fazit. Die verwendeten Tools WebTagger und EXMARalDA erwiesen sich als nützliche Werkzeuge bei der semi-automatischen Datenannotation von Blogkommentaren. Die manuelle Annotation des Mehrebenenannotationsmodells in EXMARaLDA erlaubt die Einführung von Annotationsebenen als auch das vertikale Lesen der Ebenenannotation zu Zwecken der Feststellung von Mehrheitsentscheidungen und Ableitung des Goldstandards. Eine Automatisierung der Toolfunktionen ist für die stark regelbasierten und weniger interpretativen Ebenen, wie die graphematische, morphologische, syntaktische, lexikalisch-semantische und Polarität_Token Ebene denkbar. Stark interpretative Ebene, wie etwa die Ebenen Bewertungshandlung, Bewertungskonzept. Polaritätssatz und rhetorische Mittel sind maschinell nur eingeschränkt verarbeitbar.

7 Fallstudie 2: Hauptuntersuchung

推荐阅读更多精彩内容