„Mo‘ Data Mo‘ Problems“: Die zwei Gesichter von Big Data

Big-Data-Auswertung erfordert optimierte technische Lösungen, aber auch die menschliche Komponente. Bei einem Meetup in München erhielt die Tech-Community Einblicke in beide Seiten.

Two Faces of Big Data

Björn GreifRedakteur

Im Rahmen unserer Veranstaltungsreihe „Mo‘ Data Mo‘ Problems“ haben wir vergangenen Donnerstag die Tech-Community zu einem Meetup in unsere Münchener Büroräume am Rosenkavalierplatz eingeladen. Das Motto lautete diesmal „Die zwei Gesichter von Big Data“.

Zum einen erhielten Besucher in entspannter Atmosphäre einen Überblick über die technische Seite von Big Data, einschließlich Algorithmen, Anwendungen, Probleme und Lösungen. Zum anderen ging es um die menschliche Seite von Big Data: manuelle Qualitätstests für Big-Data-Anwendungen. Bei leckerem Essen und kühlen Getränken gab es außerdem reichlich Gelegenheit, sich mit Cliqz-Experten und anderen Teilnehmern auszutauschen.

Die technische Seite von Big Data

Bei Cliqz spielt Big Data vor allem bei der selbst entwickelten Suche eine wichtige Rolle, die dank eigenem Index vollkommen unabhängig von anderen Suchmaschinen arbeitet. Erik Larsson, Software Engineer im Cliqz Search Backend Team, ging in seinem technischen Vortrag „High-Dimensional Nearest Neighbor Search” auf das Problem der Nächster-Nachbar-Suche in hochdimensionalen Daten ein und präsentierte verschiedene Lösungen sowie Anwendungsbeispiele.

Die Suchmaschine von Cliqz versucht beispielsweise, schwierige Anfragen zu beantworten, indem sie die Nächster-Nachbar-Suche verwendet, um ähnliche, einfachere Anfragen zu finden. Der Algorithmus verknüpft verschiedene Suchanfragen, die dieselbe (oder eine ähnliche) Bedeutung haben, obwohl sie nur wenige Wörter gemeinsam haben. Durch die Identifizierung zweier ähnlicher Anfragen, z.B. “Wo man in München essen kann” und “beste Restaurants in München”, können die Ergebnisse verbessert werden.

Erik erläuterte, wie Cliqz Big Data für seine eigenständige Suchmaschine nutzt.
Erik erläuterte, wie Cliqz Big Data für seine eigenständige Suchmaschine nutzt.

Erik erklärte auch, warum die meisten exakten Standardverfahren für niedrigdimensionale Daten nicht für höherdimensionale Räume geeignet sind. Hier empfiehlt es sich, das Problem zu vereinfachen und ein Annäherungsverfahren wie Annoy, HNSW oder granne einzusetzen. Letztlich geht es darum, je nach Dimensionalität, Datengröße und Datenstruktur zu entscheiden, was die beste Methode für den jeweiligen Anwendungsfall darstellt.

Die menschliche Seite von Big Data

Neben der technischen kommt auch der menschlichen Komponente eine große Bedeutung zu, wenn es um die Auswertung großer Datenmengen geht. Die menschliche Seite von Big Data stand im Mittelpunkt des Vortrags „Organisation und Skalierbarkeit von manuellen Tests für Big-Data-Anwendungen“ von Humera Noor Minhas, Team Lead Quality Analysis bei Cliqz. Konkret sprach sie über die Motivation und Notwendigkeit einer manuellen Bewertung der Cliqz-Suchergebnisse, die damit verbundenen Herausforderungen und wie das Qualitätsanalyse-Team diese angeht.

Wenn man an Big Data denkt, denkt man zuerst an leistungsfähige, schnelle und skalierbare Maschinen. Maschinen fehlt aber ein wichtiges Element: der menschliche Intellekt. Der „gesunde Menschenverstand“ kann leicht Probleme lösen, die Maschinen vor große Herausforderungen stellen. Das gilt etwa für das Erkennen von Objekten, das Identifizieren von Personen oder das Analysieren von Bild-, Video- und Textinhalten.

Humera stellte die Arbeit des Quality Analysis Team vor, das bei Cliqz für das menschliche Gesicht von Big Data steht.
Humera stellte die Arbeit des Quality Analysis Team vor, das bei Cliqz für das menschliche Gesicht von Big Data steht.

Letzteres ist unabdingbar für Cliqz, um etwa nicht-jugendfreie Inhalte zu identifizieren, die allgemeine Suchqualität zu verbessern und Nutzern immer die relevantesten Ergebnisse zu liefern. Die manuelle Bewertung von URLs und Websites ist ein wichtiger Teil der Arbeit des Quality Analysis Team. Dessen Mitglieder kommen übrigens aus völlig unterschiedlichen Bereichen, von Literatur und Philosophie über Biologie bis hin zu Wirtschaft, und sie beherrschen zusammen mehr als neun Sprachen. Sie benötigen auch ein hohes technisches Verständnis, um Probleme zu erkennen und selbst zu beheben oder an die zuständigen Entwickler weiterzuleiten.

Fazit

Big Data erfordert neben optimierten technischen Lösungen immer auch die menschliche Komponente. Denn egal wie effizient und genau die maschinelle Auswertung sein mag, spätestens für die Bewertung der Ergebnisse ist menschlicher Verstand erforderlich. Wir bei Cliqz sind überzeugt, dass bestmögliche Resultate nur durch die Kombination beider Seiten von Big Data zu erzielen sind. Daher sollte man die menschliche Komponente nie vergessen, wenn man an Big Data denkt.


CLIQZ FÜR MOBILE