«Sich selber aufnehmen und fotorealistisch woandershin transportieren – das ist unser Ziel für die nächsten fünf Jahre»

Otmar Hilliges erforscht an der ETH Zürich Technologien für virtuelle Räume. Das grosse Thema für die nächsten Jahre sei Telepräsenz, sagt er – allerdings auf einem ganz anderen Niveau, als das bis jetzt möglich ist.

Helga Rietz 22.01.2022, 05.30 Uhr

Mit einem Virtual-Reality-Headset werden Videospiele noch realistischer.

Seongjoon Cho / Bloomberg

Herr Hilliges, wo beginnt eigentlich die virtuelle Realität?

Ich würde fast alle Informationstechnologien als immersiv bezeichnen. Schon das Smartphone ist es, einfach dadurch, dass ständig Information und bunte Pixel da sind, die sehr viel von unserer Aufmerksamkeit in Anspruch nehmen. Und damit sind wir schon mittendrin in der Mixed Reality.

Also gibt es keine Grenze, sondern eher ein Kontinuum? Und Technologie wird ständig immersiver in dem Sinne, dass sie uns immer engmaschiger umgibt und stärker in unseren Alltag hineinwächst?

Ja, ganz klassisch spricht man sogar vom Mixed-Reality-Kontinuum, und das fängt an mit Situationen, in denen man ein Smartphone oder ein Tablet oder ein anderes Display verwendet, um zusätzliche Informationen anzuzeigen. Die Information lebt gewissermassen in unserer 3-D-Welt. Ganz egal, ob sie Chirurgen im OP-Saal unterstützt oder Menschen bei der Orientierung in der Stadt.

Heute kann man im virtuellen Raum ein Konzert besuchen oder andere Menschen in Phantasielandschaften treffen – zweifelsfrei tolle Sachen, aber nichts, wofür man Milliarden Anwender gewinnen könnte, oder? Welcher Use-Case kann diese Technologien in die Masse bringen?

Otmar Hilliges ist Computerwissenschafter und erforscht an der ETH Zürich Technologien aus den Bereichen Augmented, Mixed und Virtual Reality. Er leitet das Labor Advanced Interactive Technologies.

Federico Pedrotti

Die Anwendungen, von denen wir schon seit zwanzig Jahren reden, fallen zum grossen Teil in die Bereiche Medizin und Maintenance. Stellen Sie sich vor, Sie wollen zu Hause etwas Kleines reparieren. Und anstatt einen Elektriker zu holen, schalten Sie einen zu, der Ihnen sagt, was zu tun ist. Das wird auch kommerziell verfolgt. Die Killer-App ist für mich aber Telepräsenz. Wir fliegen und fahren viel zu viel unnötig in der Gegend herum. Daran kann sich signifikant etwas ändern, wenn die Technologien so weit vorangeschritten sind, dass es einfacher und komfortabler ist, mit jemandem virtuell zu reden, so als würden wir nebeneinandersitzen. Und einer von uns ist ein Hologramm oder eine virtuelle Variante. Aber es fühlt sich trotzdem fast genauso an, als wären wir im selben Raum. Das ist, was mich motiviert.

Von Smartphones hat man geglaubt, sie seien letztlich auch für eine Reisbäuerin in Asien interessant, weil sie mit dem Gerät Zugang zu besseren Informationen habe, die sie beträfen. Also zum Beispiel zu den Reispreisen auf ihrem lokalen Markt. Am Ende haben die Leute aus viel banaleren Gründen Smartphones gekauft: Sie wollten mit ihren Verwandten telefonieren, und sie wollten spielen. Auf die Technologien von Mixed und Augmented Reality übertragen: Was bieten diese denn zum Beispiel dem Taxifahrer in New York?

Na ja, die Tante im globalen nächsten Dorf zu besuchen, statt zwanzig Stunden im Flugzeug zu sitzen, finde ich auch für den Taxifahrer in New York interessant. Vielleicht kommt er ja ursprünglich aus Bangladesh. Und wir reden da von einem ganz anderen Level von Präsenz als dem, was Facebook in seinen Metaversum-Ankündigungen gezeigt hat. In den nächsten fünf Jahren möchten wir erreichen, dass wir uns selber aufnehmen und fotorealistisch woandershin transportieren können. Idealerweise ohne die aufwendige Hardware, die man momentan dafür braucht. Dieses sogenannte fotorealistische Targeting funktioniert heute schon im Forschungslabor, wenn auch nur in Teilen.

Man steht dann in einem speziell dafür eingerichteten Raum, wird von mehreren Kameras gleichzeitig erfasst . . .

Genau. Wir hätten natürlich gerne, dass das auf Knopfdruck am Handy funktioniert. Davon sind wir aber noch sehr weit weg. Einfach, weil zuvor ganz viele schwierige Probleme gelöst werden müssen. Das hat mit Displays zu tun, mit Algorithmen, mit der Frage, wie Daten gesendet werden . . .

Die Avatare in den virtuellen Welten von heute sind gerade nicht fotorealistisch, sondern absichtlich stark vereinfacht. Weil man weiss: Wenn die Darstellung dem Eindruck in der Realität zu nah kommt, wirkt das unheimlich. Ihr Ziel ist aber eine Telepräsenz, die sich wie die reale anfühlt.

Ob man dafür wirklich Fotorealismus braucht, ist unklar. Wir sind von der Evolution sehr gut darauf trainiert, Menschen zu erkennen. Wir brauchen da nicht das volle Detail. Aber wir wissen natürlich, dass wir eine Repräsentation betrachten und nicht den Menschen selbst. Also kommt es darauf an: Ist ein Telepräsenzsystem nur für bestimmte Einsatzzwecke geeignet? Oder ist es etwas, was tatsächlich das persönliche Gespräch ersetzen soll? Mit grosser Wahrscheinlichkeit bekommen wir ein Einsamkeitsproblem, und dann werden Technologien wichtig, die die reale Anwesenheit so gut nachbilden, dass ich nicht jedes Mal in ein anderes Land fliegen muss, um bei meinen älteren Verwandten zu sein.

Also ist die fotorealistische Darstellung dann wichtig, wenn die Begegnung emotional wichtig ist?

Ja, je komplexer die Themen sind, über die wir reden, desto subtiler wird unsere Kommunikation. Und umso wichtiger werden Details.

Wie soll eine derart detailreiche Telepräsenz gelingen, ohne dass die dafür notwendigen Datenvolumen ins Unermessliche steigen?

Das ist exakt die Schwierigkeit daran. Ich möchte eigentlich die Strasse entlanggehen können und neben mir jemanden sehen, der mitläuft. Und wir können uns unterhalten, obwohl die Person neben mir rein virtuell ist und im gleichen Moment eigentlich anderswo auf der Couch sitzt. Dazu muss ich aber erst einmal schauen, wie ich von den zweidimensionalen Kamerabildern zu einer dreidimensionalen Repräsentation dieses Gesprächspartners komme, die ich brauche, um ihn im virtuellen Raum in irgendeiner anderen Körperhaltung zu zeigen. Heute brauchen wir dafür komplexe Multi-Kamera-Systeme. Dieses Problem mit Konsumerhardware und geringem Aufwand zu lösen, ist der nächste Schritt.

Sie könnten dann mit Ihrem Vater joggen gehen, auch wenn er eigentlich im Krankenhaus liegt.

Genau. Aber selbst wenn die Unterschiede nicht ganz so krass sind wie in diesem Beispiel – ein Gesprächspartner im Spital, der andere quietschfidel –, müssen wir dieses Problem lösen, weil wir nie davon ausgehen können, dass die Umgebung der beiden Gesprächspartner die gleiche – oder auch nur eine ähnliche – ist.

Die für solche Projektionen notwendigen Berechnungen sind im Moment noch sehr aufwendig.

Ja, deswegen geht es immer auch darum, die Algorithmen so effizient wie möglich zu machen. Bei den Fragestellungen, an denen wir jetzt arbeiten, läuft ein Server drei bis vier Stunden für eine Minute Bewegung im virtuellen Raum. Es ist klar, dass das nicht geht – weil die Qualität noch immer nicht ausreicht, um physische Präsenz zu ersetzen, und auch wegen der CO₂-Bilanz nicht. Aber das Potenzial, solche Algorithmen um Grössenordnungen effizienter zu machen, ist da.

Verschlimmern sich die gesellschaftlichen Probleme, die mit der intensiven Mediennutzung einhergehen, mit den Technologien der virtuellen Realität?

Also, ich würde sagen, das Problem ist jetzt schon ziemlich drastisch. Wir sind nun einmal informationsmaximierende Organismen, und den grossen Schaden richtet schon das Scrollen in Facebook an, weil wir unsere Augen nicht mehr vom Smartphone wegbekommen. Dass eine andere Art und Weise, Informationen darzustellen und zu konsumieren, das noch einmal wesentlich schlimmer macht, glaube ich nicht. Ich bin zwar auch nicht der Meinung, dass immer alles besser wird durch Technologie, aber zu einem gewissen Grad ist das Kind längst in den Brunnen gefallen.

Zurzeit gibt es eine Flut von Falschinformation aus Bildern und Text. Das sind Informationseinheiten, die man sehr gut durchsuchen, klassifizieren und bewerten kann. Aber ein virtueller Raum ist doch etwas anderes. Haben wir die Werkzeuge, um dort mögliche Fälschungen zu verfolgen und zu ahnden?

Fälschung und Detektion gehen immer Hand in Hand. Wenn ich verstehe, wie ich noch realistischere Bilder erzeugen kann, habe ich gleichzeitig etwas darüber gelernt, wie ich auch noch realistischere Fälschungen erkennen kann. Wir machen unsere Arbeit und unseren Code immer zugänglich, alle Papers sind öffentlich. So steht das Wissen beiden Seiten zur Verfügung, und daraus ergibt sich eine Balance. Deshalb ist es wichtig, dass solche Forschung nicht hinter verschlossener Tür passiert.