Monitoring-Konzept

Wie der Crawler Social Media Monitoring arbeitet

Eine wesentliche Kenngröße der Leistungsfähigkeit von Social Media Monitoring Tool in der IT-Struktur ist die Anzahl der Prozesse, die parallel verarbeitet werden können. Je mehr Prozesse der Indexierung und Kategorisierung gleichzeitig ablaufen können, desto schneller stehen dem Kunden die neuesten Social Media Posts zur Verfügung. Professionelle Social Media Monitoring Tools arbeiten nahezu in Real Time. Das bedeutet, dass die neuen Ergebnisse in das Tool einlaufen, kurz nachdem sie im Internet veröffentlicht wurden. Ein Anbieter, der beispielsweise nur einmal am Tag neue Ergebnisse bereitstellt, ist für eine schnelle Reaktion auf Ereignisse im Social Web nicht geeignet.

Die Indexierung von Treffern

Das Durchsuchen des Internets nach neuen Beiträgen in den sozialen Medien geschieht durch Suchmaschinentechnologie, die um bestimmte Funktionen erweitert wurde. Der Crawler bezeichnet hierbei die Software, die Ergebnisse erkennt, einliest und abgleicht. Er durchläuft im besten Fall mehrmals täglich das Internet.

Nach dem Einlesen wird ein Dopplerabgleich durchgeführt, der prüft, ob der gleiche Treffer schon einmal eingelesen und archiviert wurde.

Bei Foren funktioniert der Abgleich über einen Zeitstempel. Da es zu viele Daten generieren würde, sämtliche Veröffentlichungen in Foren noch einmal komplett einzulesen, werden nur neue Posts und Kommentare erfasst, die seit dem letzten Durchlauf dazu gekommen sind. Nach dem Einlesen und dem Dopplerabgleich werden die so gewonnenen Daten in Datenbanken abgelegt.

Jede professionelle Agentur hat dabei einen eigenen Crawler, der auf die spezifischen Anforderungen der jeweils eigenen Zielgruppe ausgerichtet ist, entwickelt. Bei Veränderungen in den sozialen Medien muss eine solche Software außerdem in der Lage sein, sich flexibel anpassen zu lassen.

Ein Beispiel sei hier Twitter. Der Kurznachrichtendienst hat Ende 2017 seine mögliche Zeichenlänge von 140 auf 280 Zeichen verdoppelt. Die Social Media Agentur muss auf diese veränderten Bedingungen reagieren und der Crawler muss mehr Zeichen auslesen können.

Meist sind mehrere Crawler zugleich im Einsatz, welche auf verschiedenen Servern laufen. Für die gleiche Aufgabe können Server auch gekoppelt werden, um den erforderlichen Arbeitsspeicher für das ressourceníntensive Indexieren bereitzustellen. Hierfür muss die gesamte IT-Struktur allerdings, wie weiter oben beschrieben, auf Skalierung ausgelegt sein. Eine unflexible oder veraltete Server-Architektur kann unter Umständen bei der Durchführung neuer Prozesse eine komplette Erneuerung erfordern.

Als Richtwert kann davon ausgegangen werden, dass für ein schnelles Indexieren von Social Media Daten mehr als 1.000 Prozesse zur gleichen Zeit ausgeführt werden.

Grenzen der Indexierung bei Social Media Monitoring

Eine höhere Prozessanzahl kann jedoch Nachteile mit sich bringen. Je öfter das Internet in großem Stil ausgelesen wird, desto mehr Doppler ergeben sich. Viele Medien aktualisieren Ihre Veröffentlichungen mehrfach am Tag, welches dann einen jeweils eigenen Datensatz generiert. Dies zieht unnötig hohe Datenmengen nach sich, die weiterverarbeitet werden müssen und damit wertvolle IT-Ressourcen belegen.

Konkret: Allein das Einlesen eines namhaften Forums kann unter Umständen mehrere Millionen von Datensätzen erzeugen. Wenn viele verschiedene Foren dieser Größenordnung indexiert werden sollen, multipliziert sich diese Anzahl in entsprechendem Maße. Zusätzlich kommen im Social Media Bereich auch noch Bild- und Videodaten aus Blogs und Video-Communities dazu. Dies führt dazu, dass größere Agenturen über Speicherplatz im mehrfachen Terrabyte-Bereich verfügen müssen, der zusätzlich noch ausbaufähig sein muss. Die Erweiterung muss während des laufenden Betriebs erfolgen und erfordert eine strategische Planung der IT-Architektur.

Verfügbarkeit historischer Daten

Das Vorhalten von historischen Social Media Daten stellt ebenfalls hohe Ansprüche an die Speicherkapazität. Um die eigenen IT-Ressourcen sinnvoll zu nutzen, werden Social Media Daten von den meisten Agenturen nur für eine bestimmte Zeitperiode gespeichert. Diese Zeitspanne liegt zwischen einem und zwei Jahren. Ein Einbeziehen dieser Daten wird durch die Agenturen meist mit einem einmaligen Betrag bepreist. Der Fokus der Prozessverarbeitung sollte also bei einer schnellen Verfügbarkeit der aktuelleren Daten liegen.

Hintergrund: Der Vergleich der aktuellen Themen mit denen anderer Zeiträume kann dem Kunden Aufschluss über die Entwicklung der eigenen Kommunikation oder jener der Wettbewerber geben. Jedoch sind die Meinungen und Topics in den sozialen Medien schnell veraltet und damit irrelevant. Eine Orientierung zu weit in die Vergangenheit ist also nicht immer sinnvoll.

Social Media Monitoring – Data-Warehouse

Jegliche Daten, die zu erheben und speichern sind, werden in strukturierten Datenbanken abgelegt. Dabei gilt es, den komplexen Eigenheiten der sozialen Medien Rechnung zu tragen und sinnvolle Felder zu erstellen.

Je nach Art des Mediums hat ein Social Media Treffer unterschiedliche Kennzahlen und Eigenschaften. So spielen in Foren vor allem der Benutzername, das Datum der Veröffentlichung und der Post selbst die größte Rolle. Auf Plattformen wie Facebook oder Twitter dagegen kommen die Anzahl der Kommentare, Likes und Shares hinzu. Auch Hashtags gewinnen immer mehr an Bedeutung und müssen zusammen mit dem Post erfasst werden. Hierfür ist ein gutes Datenbankkonzept gefragt. Die Strukturierung der Datenbanken ist dabei essentiell, um die Weiterverarbeitung zu Analysen zu gewährleisten. Neben dem Volltext der Posts müssen auch Kennzahlen wie Erscheinungsdatum, Nutzer, Reichweite, Anzahl der Follower etc. abgelegt werden.

Es gilt zwei Arten von Datenbanksystemen zu unterscheiden. Verbreitete Datenbanksysteme für das Monitoring solch großer Datenmengen sind kommerzielle Anbieter wie Microsoft SQL Server, Oracle oder dBASE. Diese Systeme haben gegenüber Open-Source-Systemen viele Vorteile. Wer professionell mit Daten arbeitet, muss sicherstellen, dass wichtige Updates vorhanden sind und die Kompatibilität gewährleistet ist. Open-Source-Lösungen wie MySQL, Firebird, MaxDB und SQLite sind zwar verfügbar, aber nicht für riesige Datenmengen konzipiert.

Für Monitoring-Tasks ist meist die Nutzung mehrerer Datenbanktabellen nötig, um die Geschwindigkeit der Verarbeitung zu erhöhen, was Open-Source-Lösungen nicht immer leisten können. Wie auch bei Suchmaschinen selbst müssen die Daten in der Medienbeobachtung fragmentiert in sogenannten Teildatenbeständen abgelegt werden.

Das weltweit am meisten verbreitete Datenbanksystem, MySQL, lässt sich dennoch durchaus in Kombination mit kommerziellen Lösungen nutzen. Für die Auslagerung kleinerer, weniger komplexer Aufgaben kann es eine kostengünstige Ergänzung zum Monitoring-Datenbanksystem sein.

Einhaltung rechtlicher Bestimmungen

In der EU, insbesondere aber in Deutschland ist die rechtliche Lage der Datenerhebung und -weiterverarbeitung streng geregelt. Im Mai 2018 wurden die zugrundeliegenden Richtlinien noch einmal verschärft, um den Schutz der Privatsphäre bei Privatpersonen sicherzustellen. Dies hatte einige Änderungen zur Folge, die nicht nur die Monitoring-Agenturen betreffen. Auch Plattformen wie Facebook und Instagram haben die Art der Daten und Kennzahlen, die sie über die Anbindung auslesen lassen, eingeschränkt. So sind bestimmte Kennzahlen, die bei Verknüpfung die Bestimmung der Identität des Internetnutzers zulassen, anonymisiert. Dies sind beispielsweise die Namen und Bilder der Nutzeraccounts der Follower und Kommentierenden, die Angabe der Anzahl Follower oder die Erhebung unbekannter Hashtags, die pro Post genutzt wurden. Die Erhebung bestimmter Angaben ist nur noch in eigenen Accounts (Owned Media) oder gezielt vorher festgelegten öffentlich sichtbaren Seiten oder Accounts möglich.

Wie Sie sehen ist der Aufbau einer lauffähigen, hochverfügbaren IT-Infrastruktur essentiell für den Erfolg des Social Media Monitorings ist. Mit einer etablierten Agentur haben Sie die Sicherheit, dass all diese Prozesse und technischen Erfordernisse erfüllt werden und sie sich hier auf die Kernkompetenz einer Monitoring-Agentur verlassen können: das Monitoring komplexer Daten.