Datenorakel Das Erkennen von Mustern und die Grenzen der Messbarkeit

AUTOR/IN

Der vermessene Mensch (12)

Computer erstellen statistische Zusammenhänge und berechnen Wahrscheinlichkeiten, etwa zur Stauvorhersage oder Materialermüdung. Google weiß, was wir anklicken und wo wir sind. Amazon und Payback ahnen, was wir am liebsten kaufen. In den USA kann eine Software aufgrund von Algorithmen die Wahrscheinlichkeit von Verbrechen vorher sagen - allerdings nicht, wer sie begehen wird. Führen immer mehr Daten tatsächlich zu immer besseren Vorhersagen?

Binäre Codes um Kugel (Foto: © Colourbox.com -)
Wie genau können Vorhersagen aus Datenmassen errechnet werden? © Colourbox.com -

Neugierig war der Mensch schon immer. Er zieht gern aus Beobachtungen Schlüsse. Er wirft hundert Mal einen Stein, zieht daraus den Schluss, dass die Steine immer eine Parabelbahn durchfliegen – und baut dreitausend Jahre später ein Ding, das verdammt gut trifft, auch über Kontinente hinweg, und nennt es Boden-Boden-Rakete.

Spitzel im Wohnzimmer

Im Wochentakt veröffentlichen Zeitungen wie der englische Guardian neue von Edward Snowden gesammelte Details – so viele, dass sie trotz ihrer politischen Bedeutung inzwischen nur noch dritte Plätze in den anderen Medien einnehmen. Nur ein Beispiel von vielen: Ende Februar 2014 veröffentlichte der Guardian ein von Snowden bezogenes Papier, demzufolge der britische Geheimdienst GCHQ mithilfe der amerikanischen National Security Agency Webcam-Bilder aus den Wohnzimmern von Millionen von Internetnutzern abgefangen und gespeichert hat.

Nacktbilder lenken Geheimdienst ab

Das Programm zum Mitschneiden von Einzelbildern privater PC-Kameras heißt "Optic Nerve" – Optischer Nerv. Allein in einem Zeitraum von 6 Monaten im Jahr 2008 hat der Geheimdienst durch das heimliche Überwachen von Internetleitungen Fotos von weltweit mehr als 1,8 Millionen Yahoo-Nutzern mitgeschnitten.

Zudem beklagt der britische Geheimdienst in dem Dokument, dass unter den heimlich gesammelten Fotos 7 Prozent Nacktfotos seien – von ermittlungstechnisch geringem Wert. Die Software, die Bilder mit viel nackter Haut aussondern soll, funktioniere nicht zuverlässig. Zudem lenkten die vielen anzüglichen Webcam-Fotos die Geheimdienstmitarbeiter von der eigentlichen Terroraufklärungsarbeit ab.

Zwei Datenkabel auf einer  USA und EU Flagge (Foto: Getty Images, Thinkstock - Montage: SWR)
Verbindliche Datenschutz-Grundverordnung? Thinkstock - Montage: SWR

Ein Analysewerkzeug von "Optic Nerve" nutzt ein Verfahren, das wir auch von normalen PCs und Macintosh-Computern kennen: die biometrische Analyse von Gesichtern, also zum Beispiel den Abstand der Augen oder die Form der Ohren. Am PC zu Hause dient das dazu, die Oma, die man auf einem Foto "Oma" genannt, also verschlagwortet hat, automatisch auch in hundert anderen Fotos als Oma zu erkennen.

Digitale Kopfvermessung

Man findet die Fotos dann sofort, wenn man nach „Oma“ sucht. Klappt nicht immer, aber häufig. Dem Geheimdienst ist die Fehleranfälligkeit dieser digitalen Kopfvermessung bekannt, weswegen ein Abschnitt in dem Papier erwägt, die höher auflösenden Webcam-Bilder der Microsoft X-Box-Computerspielekonsole abzufangen; Gamer spielen heute meistens mit anderen übers Internet. Und sie haben dabei ihre Kamera eingeschaltet, etwa um ihren Krieger mit Gesten, also mit Körperbewegungen zu steuern.

Überwachung und Datenschutz (Foto: colourbox.com / Montage: ARD.de -)
Tragen der Nutzer und die Nutzerin tatsächlich die Schuld? colourbox.com / Montage: ARD.de -

Dagegen wirken Datenschutzthemen von früher fast romantisch, als manche sich darüber aufregten, wenn der Online-Buchhändler Amazon ihm aufgrund des Kaufs eines Buchs ähnliche Bücher anbot. Oder der Computerkonzern Apple, der gern alle unsere Bilder und Musik in der Cloud, also in einem Rechenzentrum irgendwo, abspeichern möchte. Der Suchmaschinenbetreiber Google geht noch weiter und fordert den Kunden dazu auf, gespeicherte Fotos scannen zu dürfen. Damit sind Algorithmen gemeint, die die Bilder nach Tag/Nacht, nach Urlaub/Arbeit, nach alt/jung und dergleichen analysieren. Zu angeblich anonymisierten, rein statistischen Zwecken.

Datenhunger von Google ungebremst

"Street View"-Autos fahren durch Städte und Dörfer und fotografieren jedes Haus. "Google Glass", eine Brille mit Internet und eingebauter Kamera, nimmt unbemerkt alles auf, was ihr Träger sieht. Der Widerstand dagegen, insbesondere in der Öffentlichkeit, wo sich Menschen unangenehm beobachtet fühlen, nimmt zu.

Anzeigetafel mit nicht erkennbaren Zeichen und unlesbaren Buchstaben (Foto: srf -)
Es gibt überzeugende Alternativen zu den Datenkraken srf -

Der NSA-Skandal war auch für die Wissenschaft ein Paradigmenwechsel. Zuvor dachten die meisten Informatiker: Eine solche Datenmenge, wie sie beim Abfangen von E-Mails, Telefonaten und Videochats entsteht, kann niemand auswerten. Es ist einfach zu viel, es sprengt jeden Speicher. Sie suggerierten, dass wir uns sicher fühlen können in dieser gigantischen Datenmenge, einfach weil sie so gigantisch ist. Sinngemäß: Lass die Geheimdienste ruhig sammeln, sie werden selbst darin ersticken.

Seit Edward Snowden die internen Mechanismen offengelegt hat, sehen auch Informatiker das etwas anders. Die NSA baut gerade ein neues Rechenzentrum, so groß wie ein Dorf, mit großem Datenspeicher, viel Software – und Supercomputern. Es scheint doch möglich zu sein, mit statistischen Verfahren, Mustererkennung, Entschlüsselungstechnik große Datenmengen auf sogenannte Signifikanzen – Besonderheiten, Auffälligkeiten – zu untersuchen. Ob die Ergebnisse Sinn machen, können wir nur vermuten, sonst würde die "Dienste" nicht so massiv in Hard- und Software investieren.

Starr oder neuronal

Bei der Datenanalyse gibt es zwei Richtungen. Die eine rechnet nach einem starren, vorher festgelegten Schema – sogenannten deterministischen Algorithmen –, Datenberge durch und sucht nach Verbindungen. Dimitri Kanevsky und andere Wissenschaftler in einem Zukunftsprojekt bei IBM gehen einen völlig anderen Weg. Ihre Computersysteme sind lernfähig, man kann mit unscharfen Fragen an sie herantreten. Sie funktionieren wie neuronale Netze, so wie das Gehirn ein Netz von Neuronen, Nervenzellen ist. Es gibt darüber hinaus viele Projekte weltweit, die die Welt als Sensor-Landschaft begreifen, die Signale in Form von Babygeschrei, von Bild, von Temperatur liefert.

Das was für die akademische Forschung naheliegt und fast paradiesisch klingt – Daten für einen guten Zweck hergeben –, kann natürlich jederzeit auch gegen uns genutzt werden. Unzählige Anwendungen auf Smartphones rufen, ohne uns zu fragen, die GPS-Daten ab, also unseren Standort. Oder sie aktivieren bei Bedarf, ohne uns zu fragen, das Mikrofon oder die Kamera. Wohin diese Daten dann gelangen, liegt im Nebel. Sie landen zunächst natürlich im Rechenzentrum des App-Herstellers, der selbstverständlich in seinen Allgemeinen Geschäftsbedingungen schreibt, dass er sie anonymisiert und niemals weitergäbe.

Kein Vertrauen in Verträge

Ein animierter Baum an dem Rechner, SMS, Chats und weitere digitale Spuren wachsen (Foto: Getty Images, Thinkstock -)
Spezialisierte Programme können Daten filtern und zuordnen Thinkstock -

Dem kann man nicht vertrauen, denn viele Hersteller solcher kleinen kostenlosen Programme haben Verträge mit Werbetreibenden, und sie selbst wissen in der Regel nicht einmal, wo das Rechenzentrum steht, in dem die Daten ihrer Kunden liegen. Was passiert, wenn das Start-Up-Unternehmen einmal verkauft wird oder pleitegeht? Angenommen, Google würde Insolvenz anmelden, in 50 Jahren, aus Gründen, die wir nicht kennen: Die Rechenzentren werden dann sicher nicht gesprengt, im Gegenteil.

Computerprogramme haben ihre Grenzen. Auch wenn sich die mathematischen Disziplinen der Wahrscheinlichkeitstheorie und Statistik immer weiterentwickelt haben, braucht jedes Szenario sein eigenes Modell. Ein Beispiel, wo die mathematischen Modelle versagt haben, ist die Bankenkrise um das Jahr 2009. Die Finanzmathematikerin Claudia Klüppelberg kritisiert, dass die Banken sich nicht der neueren Mathematik bedient haben, sondern den bequemeren Weg gingen und mit gewohnten Algorithmen Finanzentwicklungen simulierten.

Wir leben in einer spannenden Zeit, wo uns die Daten zu Füßen liegen und wir mit den richtigen Werkzeugen die Welt besser machen können. Aber überall lauert die Gefahr, dass sich Dritte unerlaubten Zugang zu unseren Daten verschaffen können. Die Konsequenzen von beidem kann man nicht abschätzen.

AUTOR/IN
STAND