Brauchen wir Spatial Audio für Microsoft Teams Rooms?

Die starke Präsenz der UC-Industrie auf der ISE im Februar 2023 war unübersehbar. Kein Wunder, wo doch in den letzten beiden Jahren Dienste wie Microsoft Teams oder Zoom spektakuläre Zuwachsraten verzeichnen konnten. Umso interessanter, wenn es dann doch einmal Kooperationen gibt, bei denen sich die UC- und die AV-Welt annähern. Daher sorgte eine Meldung dann für großes Interesse: Microsoft präsentierte gemeinsam mit QSC, einem der führenden Anbieter von professioneller Audiotechnik, Spatial Audio für Microsoft Teams Rooms. Aber was ist das? Brauchen wir das, und wollen wir das?

Konferenzraum(Bild: Microsoft)


Inhalt dieses Grundlagen-Artikels:


Der Begriff „spatial“ kommt aus dem Lateinischen „spatium“ und bedeutet Raum oder Strecke. Er bezieht sich auf die räumliche Dimension oder die Position von Objekten im Raum. In der AV-Technik wird der Begriff „spatial“ ver­wendet, um die Fähigkeit von Geräten oder Systemen zu beschreiben, den Klang oder das Bild räumlich zu positio­nieren und zu lokalisieren, für ein natürlicheres und im­mersiveres Erlebnis für den Benutzer.

>> zurück zur Übersicht

Hörkomfort dank Ortung

Obwohl unsere Augen und Ohren vollkommen unabhän­gig arbeiten, kombiniert sie unser Gehirn zu einem gesam­ten Sinneseindruck der Lokalisierung, also WO sich unsere Gesprächspartner befinden. Im normalen Leben hören wir unseren Gesprächspartner aus der gleichen Richtung, wie wir die Person sehen. Dies ist „richtig“ bzw. „normal“.

Was aber, wenn das Ohr meint, der Sprecher stehe links,

das Auge ihn aber klar rechts im Blick hat? Ist in einem Meetingraum das große Display geradeaus vor uns, der Lautsprecher aber seitlich montiert, dann kommt es genau zu solch einer Situation. Was wird wohl passieren, wenn wir in einem Experiment den Zuhörer ersuchen, jeweils genau dorthin zu zeigen, wo er den Sprecher lokalisiert?

Fall 1. Wir sehen, können aber nicht hören, z.B. der Lautsprecher ist stumm geschaltet: Dann zeigen wir auf den Screen, weil unsere Augen den Sprecher dort sehen. Niemand würde auf den Lautsprecher zeigen.

Fall 2. Wir hören, können aber nicht sehen: Wir verbin­den unserer Testperson die Augen, schalten das Video aus oder bitten darum, kurz aus dem Fenster zu schauen an­statt auf den Screen. Dann wird auf den Lautsprecher ge­zeigt, weil das Ohr den Ton von dort hört! Vom Auge kommt ja im Moment keine ortungsrelevante Information.

Fall 3. Der Normalfall, wir sehen UND hören die Remote-Teilnehmer: Unser Sehsinn ist bekanntlich dominant, un­sere Testperson wird folglich den Sprecher analog zur Po­sition auf dem Screen verorten. Trotzdem melden unsere Ohren die Quelle aus der Richtung, welche sich aufgrund der Lautsprecher-Situation (Pegel, Laufzeit etc.) ergibt. Unser Gehirn nimmt diese gänzlich andere Ortung sehr wohl wahr, gibt aber dem Auge den Vorzug. Verschwin­det der Sichtkontakt, so springt die Lokalisierung auf die des Gehörs. Geht der Blick nun wieder zurück zum Spre­cher, wird das Ohr wieder vom Auge überstimmt, das Image springt nochmals.

Solche Vorgänge sind verwirrend und anstrengend für unser Gehirn, auch wenn es uns nicht bewusst auffällt. Wir ermüden schneller, und unsere Konzentration nimmt signifikant ab. Es macht uns Menschen auch ein wenig nervös, wenn sich ein Sprecher ausgerechnet dann zu bewegen scheint (aufgrund der wechselnden Ortung), wenn wir kurz nicht hinschauen. Oft kann man daher beobachten, dass Konferenzteilnehmer bewusst nicht auf das Videobild des Remote-Teilnehmers blicken, um sich so der Doppel-Lokalisierung zu entziehen.

>> zurück zur Übersicht

Audio im typischen Meetingraum

Unsere Sinne sind bei Videokonferenzen besonders gefor­dert. Die Bild- und Tonübertragung ist selten perfekt und die Tatsache, dass wir mit einer Person kommunizieren sollen, die sich gar nicht im gleichen Raum befindet, ist für unser Gehirn verwirrend genug. Umso wichtiger ist es, dass wir es möglichst wenig „falsch“ machen.

Sehen wir uns nun einen typischen modernen Microsoft Enhanced Teams Room an. Die relative Bildschirmbreite ist dank Front-Row-Layout sehr groß, die einzelnen Teilnehmer verteilen sich über einen sehr großen horizontalen Winkel. 21:9- oder sogar 32:9-Bilder sind bei Front Row üblich.

Wir sehen Teilnehmer A genau in der Mitte, Person B ganz links außen und Person C halb rechts. Aber aus wel­cher Richtung hören wir sie? Auf der Audioseite gibt es nun mehrere Lösungsansätze. Diese sind naturgemäß ab­hängig vom Aufwand, den man treiben will und dem vor­handenen Budget. Eines ist in diesem Zusammenhang jedoch sehr relevant. Der wahrscheinlich fundamentalste Unterschied zwischen AV und UC ist die komplett unterschiedliche Herangehenswei­se. Während sich die AV-Welt (zu Recht?) da­für auf die Schulter klopft, jeden Raum indi­viduell zu betrachten und die entsprechend optimale Lösung finden will, steht bei den IT-lastigen UC-Projekten die Skalierung im Vordergrund. Nach Möglichkeit sollten alle Meetingräume identisch ausgestattet wer­den. Während dem gestandenen Medien­techniker ob dieses Ansinnens die Haare zu Berge stehen, verweist der IT-Fachmann stolz darauf, dass alle 5.000 PCs des Unterneh­mens das gleiche Windows-Image haben.

Videokonferenz Front-Row-Layout Microsoft Enhanced Teams Room
Front-Row-Layout: Typischer moderner Microsoft Enhanced Teams Room

Lösungsansatz A: ein Center-Lautsprecher in der Mitte des Screens

Dann kommen alle Höreindrücke von direkt vorne. Und zwar unabhängig von der Sitzposition der lokalen Teilneh­mer. Egal wo diese sitzen, sie werden alle Remote-Teil­nehmer aus der Bildschirmmitte hören. Je nachdem, wel­cher Remote-Teilnehmer spricht und wo dieser im Bild zu sehen ist, stimmt die Ortung mehr oder weniger überein. Person B, welche ganz links außen im Bild zu sehen ist, wird trotzdem aus der Mitte gehört. Da dies für alle Remote-Teilnehmer gleich ist, tritt ein gewisser Gewöh­nungseffekt auf.

Lösungsansatz B: zwei Lautsprecher links und rechts vom Screen, aber Mono-Übertragung

Dabei kommen alle Remote-Teilnehmer aus allen Laut­sprechern. Die Profis unter Ihnen wissen schon, was jetzt kommt. Hören wir den gleichen Sound aus mehreren Quellen, so lokalisieren wir den Klang beim Lautsprecher mit der geringsten Entfernung! (Präzedenz-Effekt) Die links sitzenden lokalen Teilnehmer werden folglich die Remote-Teilnehmer alle im linken Lautsprecher (außerhalb des Screens!) lokalisieren, und auf der rechten Seite des Tisches passiert das gleiche.

Nur die Menschen exakt in der Mitte (meist nur eine oder zwei Personen) werden die Teilnehmer in der soge­nannten „Phantom-Mitte“ lokalisieren. Genau dort ist zwar kein Lautsprecher, aber weil die Entfernung zu den beiden seitlichen Speakern gleich groß ist, erfindet unser Gehirn einen virtuellen Lautsprecher in der Mitte.

Lösungsansatz C: Lautsprecher links und rechts vom Screen, aber Stereo-Übertragung

Bekanntlich werden bei Stereo zwei Audiosignale über­tragen, eines für links und eines für rechts. Die erste Aus­baustufe von Spatial Audio für Microsoft Teams Rooms sieht nun Folgendes vor: Beim Front-Row-Layout werden die Remote-Teilnehmer am unteren Bildschirmrand (bei richtiger Montage des Screens in Augenhöhe!) in einzel­nen Videokacheln nebeneinander aufgereiht. So weit, so gut. Das mit großen Fanfaren angekündigte Spatial Audio für Microsoft Teams Rooms verteilt nun analog da­zu die einzelnen Audiofeeds ebenfalls entlang des Stereo-Panoramas. Das Ziel ist es also, dass Teilnehmer B, der ganz links zu sehen ist, auch von dort zu hören ist, Teil­nehmerin B aus der Mitte etc.

Bei näherer Betrachtung eine überschaubar revolutio­näre Funktion. Der Audiotechniker merkt sofort: So rich­tig perfekt ist es trotzdem nur für jene, die genau in der Mitte sitzen. Bekanntlich funktioniert das mit dem korrek­ten Stereobild eben nicht für jede Hörposition. Da war doch etwas mit Stereo-Dreieck und so, oder?

Abbildung Stereo-Dreieck
Stereo-Dreieck: Für seitlich sitzende Teilnehmer nicht perfekt, da sie sich nicht in der optimalen Stereo-Position befinden.

>> zurück zur Übersicht

Sollten wir nun verzweifeln?

Ist es überhaupt möglich, tolles Spatial Audio für Microsoft Teams Rooms zu machen? Ganz ehrlich: Diese Frage ist viel größer und mit Sicherheit nicht auf UC-Räume be­schränkt. Die gesamte professionelle Audiowelt beschäf­tigt sich seit Jahrzehnten mit diesem Thema, egal ob für Live-Konzerte oder im Kino. Es gibt Für und Wider für alle Varianten, sei es Mono, Stereo, Surround oder auch objekt­basiertes Audio (wie z.B. Dolby Atmos). Eines ist jedoch sicher: Damit das Upgrade von Mono zu Spatial Audio für Microsoft Teams Rooms auch einen echten Nutzen für die User bringt, braucht es Audio-Expertise. Variablen wie Raumakustik, Platzierung und Auswahl der Lautsprecher müssen berücksichtigt und ein ordentliches Systemdesign muss erstellt werden.

Mono-zu-Stereo-Abbildung
Mono zu Stereo: Das Audio-Signal kommt bei Spatial Audio für Microsoft Teams Rooms nicht mono aus der Mitte, sondern analog zu den Bildpositionen der Remote-Teilnehmer entlang des Stereo-Panoramas aus seitlichen Lautsprechern.

>> zurück zur Übersicht

Microsoft ist nicht direkt verantwortlich, wenn es nicht klappt

Genauso wie der Produzent einer CD oder DVD kann die UC-Plattform nur ein bestmögliches Signal anliefern. Es liegt dann am System im eigenen Raum, das angelie­ferte Audiosignal so im Raum optimal zu verteilen, dass alle Teilnehmer einen bestmöglichen Eindruck bekom­men. Durch die richtige Auswahl und Positionierung ge­eigneter Lautsprecher, für die Positionierung der Stühle etc.

>> zurück zur Übersicht

Spatial Audio für Microsoft Teams Rooms wirkt wie ein Verstärker

Gute und richtig konzipierte Räume werden durch Spatial Audio für Microsoft Teams Rooms nochmals massiv bes­ser werden. Das Meetingerlebnis wird signifikant besser, weil es weniger unnatürlich ist. Gleichzeitig werden aber Räume mit schlechtem Audio ziemlich sicher noch schlechter werden.

>> zurück zur Übersicht

Meeting Room Audio-Dilemma

Der Grund ist einfach: Mono-Audio ist vielleicht nicht per­fekt, aber „einfach“ zu hören. Der Ton kommt nur aus einer Richtung und wird nur einmal gehört. Die Richtung stimmt vielleicht nicht ganz, aber der Fehler ist zumindest konstant. Das Ohr kann sich, wenn auch mit Aufwand, auf diese Situation anpassen. Ein Stereosignal ist ungleich komplexer.

Mit diesem vergleichsweise einfachen Beispiel ist nur die ERSTE Ausbaustufe in Sachen Spatial Audio für Microsoft Teams Rooms erreicht. Es betrifft nur die Wiedergabe-Seite des Meetings. Über nachfolgende Erweiterungen ist noch nicht viel bekannt bzw. darf aus Verschwiegenheits­gründen nicht viel gesprochen werden. Die Möglichkeiten für eine möglichst realistische Audio-Umgebung in Colla­boration-Räumen sind mit diesem ersten Schritt noch lan­ge nicht erschöpft.

>> zurück zur Übersicht

Lassen Sie AV-Profis an die Arbeit

Audio und Videotechnik ist nicht trivial: Raumakustik ist ebenfalls ein komplexes Thema. Genauso wenig, wie jemand, der ein paar Geräte mit dem Heim-Rou­ter verbindet, damit zum Netzwerk-Profi wird, werden IT-Spezialisten durch Teams Rooms Systeme automatisch zu AV-Inge­nieuren.

Spatial Audio für Microsoft Teams Rooms ist eine tolle Erweiterung für die­se marktführende Plattform. Damit diese auch in der Praxis gut funktioniert, ist ein gewisser Aufwand und Know-how nötig, ganz egal, was uns die Marketingspezialisten in der Theorie versprechen. Für die UC-Welt mag korrekte Stereo-Wiedergabe vielleicht neu sein, Tontech­niker beschäftigt das Thema schon seit Erfindung des Tonfilms vor vielen Jahr­zehnten.

>> zurück zur Übersicht


// [15347]

Quelle: COM! – Das Computer Magazin