Uni Basel über die KI für Fotosammlung

Basel, 17.11.2021 - 13:40

Heiko Schuldt ist Professor für Computer Science an der Uni Basel und hat mit seinem Team eine neuartige Multimedia-Suchmaschine «vitrivr» entwickelt.

Das Kollegienhaus der Universität Basel. - Universität Basel

Die Zahl der Fotos und Videos, die jeder Mensch im Laufe seines Lebens ansammelt, wächst ins Unermessliche. Um den Überblick zu behalten, müssen wir uns auf technische Lösungen verlassen. Dies birgt auch Nachteile.

Fast acht Billionen (8 000 000 000 000) Fotos hat die Menschheit schon jetzt auf Smartphones, Computern und in der Cloud gespeichert – und jedes Jahr kommen mindestens weitere 1,5 Billionen dazu, schätzt die amerikanische Marktforschungsfirma «Rise Above Research».

Doch die meisten dieser Erinnerungen wird vermutlich nie wieder jemand anschauen. Denn Hand aufs Herz: Wer hat heutzutage noch die Zeit, das ganze Material zu sichten und fein säuberlich zu sortieren?

Riesige Datenmengen so speichern, dass der Nutzer schnell darauf zugreifen kann

Zum Glück lässt sich diese lästige Aufgabe delegieren, beispielweise an Apps, die Motive und Gesichter erkennen, Fotoalben zusammenstellen oder die Bilder nach Kategorien geordnet ablegen.

«Auf solche Dienste werden wir in Zukunft mehr und mehr angewiesen sein», sagt Heiko Schuldt, Professor für Computer Science am Departement Mathematik und Informatik der Universität Basel.

Er beschäftigt sich mit der technischen Seite solcher Hilfsmittel: Wie kann man diese riesigen Datenmengen so speichern, dass man schnell darauf zugreifen kann? Und wie kann man effektiv und zielgerichtet in grossen Sammlungen suchen?

Suche mit Skizzen oder Tönen

Seine Forschungsgruppe hat in den letzten Jahren ein neuartiges System entwickelt, das weit mehr kann, als Fotosammlungen zu verwalten. Die Multimedia-Suchmaschine «vitrivr» durchforstet auch andere Medientypen wie Videos und Audioaufzeichnungen.

Dabei können die Nutzenden nicht nur mit Schlagworten arbeiten. «Man kann auch mit Skizzen, Tönen, Bewegungsabfolgen und vielem mehr in allen möglichen Medien suchen», so Schuldt.

Mit «vitrivr» gewann das Basler Team in diesem Jahr einen Wettbewerb, bei dem es darum ging, möglichst schnell bestimmte Filmsequenzen in tausend Stunden Videomaterial zu finden.

Computer lernen anders als Menschen

Dokmanić erforscht den Einsatz von Maschinellem Lernen im Bildbereich, etwa um Bilder von höherer Qualität aus Computertomografien mit geringerer Strahlenbelastung zu rekonstruieren.

Nach ähnlichen Prinzipien funktionieren die Applikationen, die beim Finden und Sortieren von Fotos helfen: Sie haben ein Training mit Millionen von Fotos durchlaufen, die zuvor von Menschen mit Schlagworten versehen worden sind.

Diesen Einsatz des maschinellen Lernens sieht Dokmanić allerdings eher kritisch: «Computer lernen anders als Menschen. Man nennt es zwar gerne künstliche Intelligenz, aber es steckt nicht viel Intelligentes dahinter.»

Eine gesunde Skepsis ist angesagt

Die automatisierten Systeme liefern zwar Resultate, die auf den ersten Blick Sinn ergeben. Trotzdem gehen viele Feinheiten verloren, vielleicht ohne dass wir es merken: Womöglich identifiziert die App ein unscharfes Foto als schlecht und zeigt es nicht an – dabei sind darauf die ersten Schritte unserer Tochter zu sehen.

Oder andersherum: Das Programm weiss nicht, dass auf dem Strandfoto die Ex-Freundin zu sehen ist und das Bild deshalb nicht in die Kategorie der schönsten Ferienerinnerungen gehört.

Und es gibt ein weiteres Problem: Sowohl Dokmanić als auch Schuldt weisen darauf hin, dass es Risiken birgt, wenn wir unsere persönlichen Daten unbesehen den verschiedensten Foto-Apps und Cloud-Anbietern anvertrauen.

«Diese Programme bieten zwar schöne Mehrwerte, aber der Preis, den man dafür bezahlt, kann sehr hoch sein. Eine gesunde Skepsis ist angesagt», so Schuldt.

Mehr Transparenz ist nötig

Ein besseres Verständnis für die Arbeitsweise solcher Programme findet auch der Psychologe Florian Brühlmann wichtig.

«Moderne Algorithmen, die bei maschinellem Lernen eingesetzt werden, sind eigentlich eine Blackbox, bei denen die Nutzenden nicht nachvollziehen können, wie Entscheidungen getroffen werden», sagt der Leiter des Forschungsschwerpunkts Mensch-Maschine-Interaktion der Universität Basel.

Deswegen gibt es auch schon Forderungen, dass solche Algorithmen bestimmte ethische Kriterien wie Zuverlässigkeit, Fairness und Transparenz erfüllen sollen.

Vor allem der letzte Punkt interessiert Brühlmann und seinen Mitarbeiter Nicolas Scharowski: «Wir suchen nach Methoden, um das Verhalten und die Entscheidungen von künstlicher Intelligenz für Menschen nachvollziehbar zu machen. Dies ist umso schwieriger, je komplexer die Systeme werden. Selbst Programmierer wissen dann nicht mehr, was genau in der Blackbox abläuft.»

Nicht nötig, alles bis ins kleinste Detail zu verstehen

Neuere Forschung zeigt aber, dass es möglicherweise nicht nötig ist, alles bis ins kleinste Detail zu verstehen – hilfreich kann es beispielsweise schon sein, die relevantesten Entscheidungskriterien zu kennen oder den Nutzenden einen Hinweis zu geben, was sie bei der Anfrage ändern könnten, um ein anderes Ergebnis zu erhalten.

Wie und ob solche Erklärungen in Alltagssprache tatsächlich für mehr Transparenz und Vertrauen in Algorithmen sorgen, möchte Brühlmann in den nächsten Jahren in mehreren Studien evaluieren.

Tatsache ist, dass Smartphones süchtig machen

Wie gehen eigentlich die Experten selbst mit ihrer privaten Datenflut um? «Vielleicht sollte man es wagen, die Realität unmittelbar zu geniessen, anstatt endlos Bilder zu knipsen», sagt Ivan Dokmanić, fügt aber hinzu, dass das auch ihm sehr schwerfällt – angesichts der Tatsache, dass Smartphones süchtig machen.

Florian Brühlmann versucht, die Fotos zeitnah zu sichten und sich gleich die Favoriten zu markieren, die er später nochmals anschauen will.

Heiko Schuldt hingegen speichert seine Bilder meist ungesehen (aber nicht in der Cloud) ab. Wenn er etwas wiederfinden will, kann er ja auf das von ihm selbst mitentwickelte Suchprogramm zurückgreifen.