Ich und die Technik

Wie groß ist Big Data?

Weltweit wachsen die Datenmengen ständig an – was kann man mit ihnen machen?

Wir leben in einer Ära der Daten. Wenn wir uns im Alltag mit der digitalen Welt verbinden, generieren wir fortlaufend Daten, die auf Servern gespeichert und verarbeitet werden. Weltweit fallen so immer größere Datenmengen an, die heute oft als „Big Data“ bezeichnet werden. Aber wann wird eine Datensammlung zu Big Data gezählt?

Naheliegend wäre es, Big Data über die Größe der Daten zu definieren. Doch wo setzen wir die Grenze – bei 100 Gigabyte, 10 Terabyte, 1 Petabyte? Vor zehn Jahren war es noch unvorstellbar, dass man mit einem PC eine 100-Gigabyte-Festplatte füllen könnte, doch heute ist das eine kleine Ziffer angesichts all der Daten, die wir angehäuft haben. Dasselbe wird mit den Datenmengen passieren, die wir heute für groß halten. Da sich das, was wir unter groß verstehen, mit der Zeit ändert, müssen wir Big Data anders definieren, und zwar in Bezug auf unsere Fähigkeit, die Datenmengen zu verarbeiten. Heute verfügen wir über Rechner, die in der Lage sind, Millionen von Transaktionen pro Sekunde auszuführen, sowie über Programme, die diese sehr geschickt steuern können. Außerdem werden die Speichermedien immer schneller und billiger.

Aus diesem Grund ist das, was wir heute unter Big Data verstehen, noch mehr als ein großes Datenvolumen oder seine Verarbeitung. Der Begriff bezieht sich auf die Aufgabe, in größtmöglicher Geschwindigkeit viele unterschiedliche Daten zu erfassen, zu speichern und zu verarbeiten, um Information und belastbares Wissen zu generieren. Laut einer Definition von IBM muss Big Data über vier Dimensionen verfügen: Größe, Schnelligkeit, Verschiedenartigkeit und Wahrhaftigkeit.

Wozu ist Big Data nützlich? Schon vor dreißig Jahren kam man zu dem Schluss, dass die von EDV-Systemen erfassten und angehäuften Daten dazu genutzt werden können, viele Aspekte eines Unternehmen zu verstehen (das Verhalten von Kunden, die Produktion, den Vertrieb und den Verkauf). Walmart war eines der ersten Unternehmen, das diese Daten nutzte, um seine Entscheidungen zu verbessern und den Gewinn zu erhöhen. Es gab viele Fälle, in denen die Firmen, die Datentechnologie einsetzten, einen großen Vorteil gegenüber der Konkurrenz hatten, weil sie den Vertrieb effizienter gestalten, ihre Produkte in den Geschäften besser platzieren und die Werbung stärker auf die Kunden zuschneiden konnten. Diese Unternehmen waren die ersten, die den Wert von Daten bewiesen. Heute glauben wir, dass wir mit mehr Daten auch mehr Möglichkeiten haben, die Welt zu verstehen, vorausschauend zu handeln und den größtmöglichen Nutzen aus den Datenmengen zu ziehen.

In unserer heutigen Welt wächst aber nicht nur das Volumen von Daten, sondern auch ihre Heterogenität sowie die Geschwindigkeit, mit der sie generiert und verarbeitet werden können. Es gibt immer mehr unterschiedliche Datenquellen: soziale Netzwerke, Instant-Messaging-Dienste, mobile Apps, Cloud-Speicherdienste und Firmensoftware für die Verwaltung eines Betriebs.

Auch wenn die Analyse von Big Data im Bereich der Wirtschaft begann, wird sie inzwischen auch in der Wissenschaft, bei den Medien und der Polizei eingesetzt. Die Polizei analysiert etwa in Echtzeit Daten, die aus sozialen Netzwerken und von Überwachungskameras stammen, um Verbrechen aufzudecken sowie zur Kriminalprävention. In der Wissenschaft ist der Einsatz von Big Data etwa bei der Erforschung des menschlichen Genoms unverzichtbar: Um nur ein menschliches Genom zu speichern, braucht man rund 100 GB Speicherplatz und die Forschung versucht natürlich, so viele Genome wie möglich zu sammeln und zu speichern.

Auch der Journalismus hat sich seit dem Aufkommen von Big Data weiterentwickelt. Große Datenmengen stellten in der Vergangenheit Journalisten oft vor große Probleme, die Suche nach relevanten Informationen glich der sprichwörtlichen Suche nach der Nadel im Heuhaufen. Heute können relevante Informationen bei Recherchen mit entsprechenden elektronischen Werkzeugen, Indizierungsprogrammen und Texterkennungssoftware viel schneller erschlossen werden.

Das International Consortium of Investigative Journalists (ICIJ) ist ein gutes Beispiel, wie Journalisten Big Data einsetzen. Der weltweite Zusammenschluss von Investigativjournalisten, für den auch ich arbeite, veröffentlichte 2013 eine Untersuchung, die auf einem großen Datenset (260 GB groß) basierte, das geleaked worden war und Informationen zu mehr als 100.000 Offshore-Gesellschaften und den von ihnen Begünstigten enthielt. Bei der Erschließung dieser Daten mussten die Journalisten mit verschiedenen Arten strukturierter Daten (Datenbanken) und unstrukturierter Daten (Bilder, Dokumente, PDFs mit gescannten Dokumenten oder E-Mails) arbeiten. Mehreren Journalisten weltweit wurde das Material zur Auswertung zur Verfügung gestellt.

Vom ICIJ erhielten sie auch speziell eingerichtete digitale Werkzeuge, unter anderem Programme wie dtSearch, Nuix und Apache Solr, die es erlauben, in der Gesamtheit der unterschiedlichen Daten zu suchen. Ein Großteil der Vorarbeit bestand darin, die gescannten Dokumente mit einem Texterkennungsprogramm zu digitalisieren. Darüber hinaus wurden die Daten in eine Datenbank aufgenommen und mithilfe des Programms Linkurious als Graphen visualisiert. So konnten die Journalisten sehr schnell die Beziehungen zwischen einzelnen Elementen ihrer Recherchen erkennen.

Die Journalisten enthüllten mehrere Skandale: Personen des öffentlichen Interesses nutzten Fiskalparadiese wie die British Virgin Islands, Singapur, die Cayman Islands oder die Cook Islands, um Steuern zu umgehen. Die bekanntesten unter ihnen waren Mel Gibson und Placido Domingo, aber auch Regierungsvertreter und deren Familienangehörige in China, Aserbaidschan, Russland, Kanada, Pakistan, Thailand, auf den Philippinen, in der Mongolei und anderen Ländern.

Eine Serie von Berichten, die weltweit in der Presse erschien, führte dazu, Reformen anzustoßen, um Finanzdaten international auszutauschen und Steuerhinterziehungen künftig zu erschweren. Mehrere Finanzbehörden konnten so Millionen von US-Dollar für die öffentlichen Kassen wiedererlangen. Ohne Big Data hätten wir diesen massiven Steuerbetrug nie aufdecken können.

Aus dem Spanischen von Timo Berger