Schau' mir in die Augen, Kleines!
„Ein schönes Beispiel dafür, wie künstliche Intelligenz die Welt wieder menschlicher macht.“
Im Gespräch mit Carsten Kraus, Casablanca.AI

(Titelbild: ©Adobe Stock | 616288549 | SHOTPRIME STUDIO)
Kurz und Bündig
Casablanca.AI, bringt mithilfe einer innovativen Software den Augenkontakt in Videokonferenzen zurück. Indem die Software, die ohne spezielle Hardwareanforderungen eingesetzt werden kann, den ganzen Kopf einer Person dreht, bleiben Mimik und Gestik der Nutzenden authentisch erhalten.
Videokonferenzen sind mittlerweile ein unverzichtbares Werkzeug in der modernen Kommunikation geworden. Doch während man die anderen Teilnehmenden auf dem Bildschirm sieht, fehlt oft der echte Augenkontakt – die emotionalen Nuancen, und dadurch oft auch das gegenseitige Vertrauen, bleiben auf der Strecke. Der Grund dafür ist simpel: Statt in die Kamera am Bildschirmrand zu blicken, konzentrieren sich die Teilnehmenden meist auf das Zentrum des Bildschirms. So entsteht zwar der Anschein von Interaktion, aber die tiefere emotionale Verbindung bleibt aus. Die 2020 gegründete Casablanca.AI GmbH bringt mit ihrer selbst entwickelten künstlichen Intelligenz den Blickkontakt zurück in Businesscalls.
IM+io: Herr Kraus, Sie haben mit Casablanca.AI eine Software entwickelt, die den Augenkontakt zurück in Videokonferenzen bringt. Wie ist die Idee entstanden?
CK: Ich spreche gerne mit Menschen. Als die Lockdowns aufgrund der Coronapandemie begannen, hat mich der fehlende Blickkontakt immens gestört. Als KI-Experte kannte ich natürlich die damals aktuell „heißen“ Verfahren – und dachte, ich kann den Kopf mit einem Cycle-Consistent Generative Adversarial Network (CycleGAN) drehen, das ich dafür um weitere Diskriminatoren erweitern wollte. Das war aber viel zu schlecht. Ich habe dann mehrere Forscher gesucht und gefunden, und dachte, das Problem in einem Jahr lösen zu können. Es war dann leider doch nicht so einfach.
IM+io: Was ist das Alleinstellungsmerkmal der Casablanca.AI? Wie hebt sich das Unternehmen beziehungsweise die Software von Wettbewerbern ab?
CK: Wir sind die einzigen, die den ganzen Kopf drehen können. Alle anderen Produkte, die Ähnliches wie wir versuchen, drehen nur die Augen. Und bereits ab einem nicht so großen Winkel sieht deren Blick aus den Augenwinkeln seltsam aus. Deshalb braucht man den ganzen Kopf. Zudem benötigen alle anderen eine Grafikkarte oder eine NPU im Prozessor, unsere Verfahren sind weitaus effizienter und laufen bereits auf einem aktuellen normalen Notebook. Vereinfacht gesprochen erzeugen wir aus dem 2D-Kamerabild ein 3D-Modell des Kopfes und drehen das dann. Unsere ersten Ansätze mit Voxels waren aber zu langsam. Wir verwenden eigene KI-Verfahren und erzeugen damit eine Art 3D-jpeg, ein KI-Modell mit einem nur 300-dimensionalen Vektor, das sehr effizient ist. Patente sind angemeldet. Mit unseren Basiserfindungen könnten wir auch vieles Weiteres tun, zum Beispiel Videocalls trotz nur langsamer EDGE-Verbindung auf dem Handy ermöglichen. Wahrscheinlich gründen wir später Tochterfirmen, die diese und viele weitere Nebenprodukte aus der Technologie entwickeln.
IM+io: Ihre Software möchte ein natürliches Gesprächserlebnis in Videoanrufen ermöglichen und verändert hierzu die Blickrichtung der Personen, die miteinander sprechen. Hat dieser Eingriff Auswirkungen auf die Mimik und Gestik der anwendenden Person? Bleibt die authentische Mimik erhalten?
CK: Ja, die Mimik bleibt komplett erhalten. Wenn man es ernsthaft betrachtet, ist das Casablanca-Bild das Echte, während das direkte Kamerabild verfälscht ist: Denn wenn wir uns gegenüber sitzen, würden Sie mich ja aus Ihren Augen anschauen. Casablanca setzt sozusagen die Kamera auf Höhe Ihrer Augen auf dem Bildschirm, und produziert damit genau das Bild, was Sie live hätten. Das normale Kamerabild hingegen ist anders als live, weil es aus einem anderen Winkel schaut als Ihre Augen.

IM+io: Wer kann die Software nutzen und welche technischen Voraussetzungen müssen erfüllt werden?
CK: Das aktuelle Hauptinteresse kommt aus den Bereichen Sales und Recruiting, wo der emotionale Kontakt mit dem Gesprächspartner und das entstehende Vertrauen besonders wichtig sind. Mehrere Großunternehmen sind aber auch interessiert, Casablanca unternehmensweit an alle auszurollen, denn auch die Teamarbeit verbessert sich durch Blickkontakt, und es entsteht weniger Stress durch Zoom-Fatigue. Was die Voraussetzungen angeht, sind wir sehr stolz, dass die Basis-Variante von Casablanca inzwischen ohne Grafikkarte mit einem aktuellen Pentium i5/i7 auskommt (Version ab 12. Generation, also gegen Ende 2022). Auf Mac läuft es sogar seit den 2020er-Varianten mit M1-Prozessor. Wer einen älteren Computer hat, braucht eine Grafikkarte. Weitere Hardware-Voraussetzungen gibt es nicht.
IM+io: Wie ist der Weg vom Download der Software bis zum perfekten Face-to-Face-Erlebnis in der Videokonferenz für die Nutzenden?
CK: Nach Download und Registrierung als Free- oder Pro-User muss man heute die Software noch kalibrieren. Dazu schaut man sich selbst auf dem Bildschirm an und bewegt die Maus, bis die Blickausrichtung perfekt ist. Wir arbeiten an einer automatischen Kalibrierung, das ist aber schwerer als gedacht, weil Menschen so genau auf die Blickrichtung achten.
IM+io: Sie bieten eine kostenlose Starter-Version, aber auch eine kostenpflichtige Version Ihrer Software an. Welchen Mehrwert bietet die kostenpflichtige Version gegenüber der kostenlosen?
CK: Die Gratis-Variante zeigt dem Gegenüber das Casablanca-Logo an, macht also Werbung für uns. Möglicherweise ändern sich die Unterschiede zu einem späteren Zeitpunkt.
IM+io: Inwiefern kann Casablanca Datenschutz gewährleisten? Was passiert mit den Bilddaten?
CK: Sämtliche Bilder werden komplett on-Edge, also auf dem Computer des Nutzers verarbeitet – unsere Server bekommen absolut nichts von Bild oder Text mit und der Datenschutz ist zu jeder Zeit gewährleistet.
IM+io: Wann wurde Casablanca.AI gegründet und wie sieht Ihr Geschäftsmodell aus?
CK: Ich habe im Frühjahr 2020 das erste Patent angemeldet, nach vier Jahren Forschung ist unser 17-köpfiges Team jetzt bereit. Eine Pro-Lizenz kostet derzeit 7 € pro Monat. Versionen mit erweitertem Funktionsumfang sind in Planung. Wir planen, bis 2030 100 Mio. zahlende Casablanca-User zu bekommen.
IM+io: Sie waren mit Casablanca kürzlich in einer bekannten deutschen TV Show zu sehen, in der Startups um Investor:innen werben. Sie haben ein Deal-Angebot in der Show erhalten, was im Nachhinein nicht geklappt hat. Wie ging es anschließend für das Unternehmen weiter?
CK: Wir wollten den Investor in erster Linie wegen seiner Expertise im internationalen Geschäft. Das externe Geld war in der Pre-Launch-Phase nicht lebensnotwendig, ich habe ja schon gute Exits mit früheren Erfindungen gemacht. Zum Jahreswechsel 24/25 wollen wir aber eine Venture-Capital-Runde machen, um die Internationalisierung dann mit Schwung durchführen zu können. Aktuell werden wir zwei bis drei erfahrene Business Angels aufnehmen, einer unterstützt uns bereits bei Großkunden.
IM+io: Welche Vision haben Sie für die Zukunft des Unternehmens?
CK: In fünf Jahren sollen sich die Menschen nur noch vage erinnern, wie es damals war, als Videocalls noch nicht authentisch waren, als man noch aneinander vorbeigeschaut hat. Ein schönes Beispiel, wie künstliche Intelligenz die Welt wieder menschlicher macht.