[Medienobservationen] Evi Zemanek: Lost in Information?

Evi Zemanek

Lost in Information?

Ein Beitrag der Linguistik zum Fortschritt im Datenmanagement

Rezension zu: Matthias Wagner: Text Mining für die Nachrichtenbeobachtung. Mit linguistischem Know-how zu einem computergestützten Pressespiegel-Modell, VDM Verlag Dr. Müller, Saarbrücken 2007.

Unsere Nachrichtenmedien überfluten uns täglich mit einer Unmenge kaum überblickbarer Neuigkeiten aus Politik, Wirtschaft, Forschung, Kultur und Sport. Das explosionsartig wachsende world wide web und die stetige Weiterentwicklung moderner Kommunikationstechnik ist kein reiner Segen unseres so genannten Informationszeitalters. Denn für viele Organisationen stellen die Nachrichtenmedien eine ganz und gar unentbehrliche Informationsressource dar. Zahlreiche Unternehmen haben deshalb Lektorate eingerichtet, die den Blätterwald durchforsten und relevante Texte zu einem Pressespiegel zusammenstellen. Zwar erleichtern statistisch verfahrende Suchmaschinen, die einen Überblick über sämtliche Internet-Pressetexte zu einem bestimmten Schlagwort bieten, diese Arbeit, doch sind sie verbesserungsfähig.

Matthias Wagner sucht in seiner Studie nach Wegen, der Informationsflut mithilfe von Computerprogrammen Herr zu werden, die für den Benutzer die Spreu vom Weizen trennen, das heißt: das jeweils Relevante selektieren. Die Entwicklung von Verfahren, die eine zuverlässige, benutzerspezifische Datenrecherche ermöglichen, ist eine so große Herausforderung, dass gar von einer ‚zweiten Gutenbergschen Revolution’ gesprochen wird: Sie zielt darauf ab, mit technologischen und linguistischen Mitteln aus riesigen Textmengen am PC die gewünschte Information zutage zu fördern – ein Vorgang, der passenderweise ‚data mining’ genannt wird. Wagner macht deutlich, dass der Linguistik bei dieser Revolution eine Schlüsselrolle zukommen soll.

„Computers cannot understand language“ konstatiert man zwar auch heute noch in Übereinstimmung mit Searles Anfang der achtziger Jahre vorgebrachten These (dem so genannten ‚Chinese Room Argument’). Dennoch können spezielle Computerprogramme mit durchaus nützlichen Antworten auf spezifische Benutzerfragen reagieren, so Wagner. Besonders gewinnbringend könnten spracherkennende Computersysteme im Bereich des Information Retrieval eingesetzt werden.

Die Probleme bei der automatischen Spracherkennung und Inhaltserschließung von Texten zeigt Wagner an konkreten Beispielen. Da die Anforderungen an die Pressespiegel je nach Auftraggeber stark variieren, konzentriert er sich auf die Bedürfnisse politischer Parteien, die ihm dank eigener praktischer Erfahrung mit der Presseauswertung für die CSU-Landesleitung und den SPD-Bundesvorstand vertraut sind.

Wagners Studie erklärt und vergleicht die beiden möglichen Herangehensweisen an die Problematik der automatischen Texterschließung. Da statistische Verfahren eher der Informatik zuzurechnen sind, geht seine Studie nur auf das Grundprinzip der automatischen Klassifikation ein. Ausführlicher diskutiert sie die Einsatzmöglichkeiten linguistischen Know-hows in diesem Bereich.

Das Hauptinteresse gilt symbolverarbeitenden Verfahren. Basierend auf dem Konzept der Mustererkennung wird ein Verfahren entwickelt, das personenbezogene Nominalphrasen in einem Satz ermittelt, im Detail konzipiert und schließlich seine Zuverlässigkeit überprüft. Fokussiert wird dabei exemplarisch die Frage, ob geographische Eigennamen sich tatsächlich auf den Ort beziehen oder auf die Administration eines Landes, wie beispielsweise in dem Satz: „Die USA bemühen sich um eine Koalition gegen den Terror.“ Für derartige Probleme stellt Wagner einen Lösungsansatz vor, der die Valenztheorie zur Hilfe nimmt.

Bei allen Verfahren, die es dem Anwender erleichtern sollen, sich im Dickicht der Informationen zu orientieren, überwiegen nach wie vor statistische Verfahren. Geht es jedoch darum, die Bedeutung von Wörtern in einem Kontext zu ermitteln, stoßen statistische Verfahren an Grenzen. Letztere können nur mit linguistischem Know how überschritten werden, das nicht auf einen größtmöglichen Überblick, sondern auf die Isolation des wirklich Gesuchten abzielt.

Im Hinblick auf die Weiterentwicklung spracherkennender Computersysteme leistet diese Studie zweierlei: Sie rückt die akute Problemlage im alltäglichen Umgang mit Informationsrecherchen wieder in das Blickfeld der Sprachwissenschaft und wirbt um Aufmerksamkeit für die Anwendbarkeit linguistischer Modelle.

Wer einen Einblick in die Möglichkeiten eines linguistisch orientierten Text Mining gewinnen will, der besorge sich Wagners Studie und behalte überdies sein daran anschließendes Promotionsprojekt im Auge, das sich der satzbasierten Codierung semantischer Strukturen und Inhalte in Nachrichtentexten widmet (www.nachrichtenanalyse.de).

Kontakt: Evi Zemanek Veröffentlicht am 13.02.2008