Ambisonics Spatial Audio - Der Maschinenraum

Spatial Audio = Räumliches Audio ist die Fähigkeit, einen Klang zu „lokalisieren“, wobei man sich, wenn man die Augen geschlossen hätte, bestimmte Geräusche aus einer bestimmten Richtung und Entfernung vorstellen könnte.

Seit Jahren versuchen Tontechniker & Soundengineers, diese Schärfentiefe bei traditionellen Stereo- und Surround-Aufnahmen durch eine Vielzahl von Techniken zu erzeugen. Am einfachsten lässt sich dies durch das Schwenken der Kanalamplitude erreichen. In 5.1 Surround ist der Hörer in der Lage, Klänge zu lokalisieren, die sowohl von der vorderen als auch von der hinteren horizontalen Achse kommen. Obwohl dies eine Annäherung der Position größer als Stereo gibt, bietet es nicht die wichtige vertikale Achse der Höhe, sowie abhängig von so vielen Variablen für den Endbenutzer.

Es gibt einige neue Technologien, die 3D-Audio integrieren, so dass 3D-Audio mit Stereo-Lautsprechern durch Übersprechunterdrückung technisch möglich ist. Die Anwendung dafür gilt mehr für Heimkinos als für interaktive VR, aber es ist definitiv eine spannende Technik, die wir im Auge behalten sollten.

Zunächst einmal hat nicht jeder Surround-Setups, und selbst für Stereoanlagen haben viele Leute entweder falsch konfigurierte Lautsprecheranordnungen oder hören nie im begehrten „Sweet Spot“ zu. Die Idee, dass aufwendigere Lautsprecherkonfigurationen diese Probleme lösen können, existiert sicherlich, aber wenn man im Kontext von VR denkt, braucht der Endanwender nichts davon.

In der realen Welt nehmen wir den Klang „binaural“ wahr, was wörtlich übersetzt „mit zwei Ohren“ bedeutet. Bei echtem 3D-Audio geht es letztlich darum, unsere Ohren dazu zu bringen, Lokalisierungsinformationen zu empfangen, die alle Richtungen und Entfernungen von einer einzigen, binauralen Schallquelle, den so genannten Kopfhörern, umfassen.

Für VR muss das Spatial Audio auch interaktiv sein, wenn man das Endprodukt betrachtet, bei dem sich Änderungen in der wahrgenommenen Position der Quelle durch benutzerdefinierte Bewegungen ändern. Dies wird durch eine Rendering-Engine erreicht, die in der Lage ist, Metadaten der Benutzerposition neben der Verarbeitung von Audioquellen binaural auf Kopfhörer zu übertragen.

Der Einsatz von Kopfhörern ist nicht nur für VR-Anwendungen sinnvoller, sondern bietet auch einen großen Vorteil für jeden, der ein immersives Klangerlebnis machen oder hören möchte. Da praktisch jeder bereits Zugang zu einem Paar hat, ist zum Tauchen keine spezielle Ausrüstung erforderlich.

Der binaurale Renderer ahmt das psychoakustische Phänomen nach, wie der Schall von einer Stereoquelle auf unsere beiden Ohren trifft, indem er einen komplizierten Algorithmus namens „head-related transfer function“ (HRTF) verwendet. HRTFs erklären die physische Form und Größe unseres Kopfes und unserer Ohren, sowie den Unterschied im Timing, der Amplitude und der Frequenz von Geräuschen, die in beide Gehörgänge eindringen. Dies hängt davon ab, wie wir den Klang in der realen Welt lokalisieren.

Objekte in Bewegung

Wenn Sie also nur einen Kopfhörer benötigen (außerhalb Ihres Computers und der DAW), wie wird dieser ultra-cool wahrnehmbare und interaktive Effekt im Produktionsstudio erreicht? Nehmen wir an, Sie haben ein Video erhalten, das von einer 360er-Kamera gefilmt wurde und vom Kunden mitgeteilt wird, dass er den Ton „verräumlichen“ (engl. „spatialize“)möchte. Lassen Sie uns auch sagen, dass Sie Zugriff auf das gesamte Audio des Toningenieurs haben, das Lavalier-Mikrofone zu den Themen sowie ein Ambisonic-Mikrofon enthält.

Das ambisonische Mikrofon.

Sie haben oder werden bald viel über Ambisonics hören, wenn Sie in diese Welt eintauchen. Ambisonics stammt aus den frühen 70er Jahren und ist ein lautsprecherunabhängiges, mehrkanaliges räumliches Audioformat, das die fehlende „height“-Achse hinzugefügt hat. Der einfachste Weg, an Ambisonics zu denken, ist im Zusammenhang mit den Richtcharakteristiken des Mikrofons. Für diejenigen, die mit der Technik des Mittenmikrofons vertraut sind, ist es im Grunde das gleiche Konzept, jedoch mit einem zusätzlichen Mittenpaar für die Höhe.

Mit einer Ambisonic-Aufnahme haben Sie die Möglichkeit, ein sphärisches Bild der aufgenommenen Umgebung aufzunehmen, ähnlich wie mit einem Umgebungsmikrofon auf Steroiden, das sich in Ihre direkten Signale einfügt. Sie erhalten nicht nur ein sphärisches Bild (als Szene bezeichnet), sondern das B-Format kann auch mit Metadaten des Benutzers dekodiert werden, um interaktive Funktionalität zu bieten.
Für „First Order Ambisonics“, die einfachste Ambisonic-Konfiguration, gibt es vier Kanäle zur Darstellung der Klangsphäre mit den Bezeichnungen W (omnidirektional), X (vorne/hinten), Y (links/rechts) und Z (oben/unten). Diese Art von Audiokanälen ist uns nicht bekannt, da sie nicht zu einer festen Lautsprecherbezeichnung gehören. Bei richtiger Dekodierung bestehen diese Kanäle aus einer Klangkugel, in der die Richtcharakteristik jeder Achse vom Benutzer gesteuert werden kann. Dieses Spatial Audio-Format wird als Ambisonics B-Format bezeichnet.

Wenn Sie also diese erstaunliche 3D-Ambisonic-Aufnahme haben, warum brauchen Sie dann auch die Lavalier-Mikrofone? Wie bei einem normalen Mix kann die Kombination von Direkt- oder Nahmikrofonen und entfernten Umgebungsmikrofonen wunderbar kombiniert werden.

Spatialization

Im Falle der Verräumlichung tun Ambisonic-Mikrofone viel, aber nicht genug, um detaillierte räumliche Informationen zu erzeugen. Denken Sie daran, was passiert, wenn Sie eine Schallquelle näher an den Nullpunkt eines Mikrofons heranführen. Das Bild ist weniger klar mit oft massiven Veränderungen im Frequenzgang (aber nicht die Veränderungen im Frequenzgang, die unsere Ohren natürlich hören, wenn sie sich in einem 3D-Feld bewegen). Dies kann Einfluss darauf haben, wie wir den Ort genau wahrnehmen, an dem die Verstärkung der Direktsignalmikrofone oder „Objekte“ zum Einsatz kommen.

Jede direkte Signal- oder Monoaufnahme, die eine visuelle Komponente in einem 360-Video- oder anderen immersiven Medienformat darstellt, kann entsprechend der Aktion auf dem Bildschirm platziert werden. Das muss auch nicht aufgezeichnet werden, es kann aus Tonbibliotheken oder geschichteten Klängen stammen, wie man sie normalerweise für das Sounddesign eines Films verwenden würde.

Das objektbasierte Schwenken baut auf der Idee eines räumlichen Surround-Panners auf, nur dass sich das Objekt unabhängig von den Lautsprechern frei um alle Raumachsen bewegt. Diese Schallquellen werden in Echtzeit binaural gerendert, ohne jegliche Unschärfe oder Verschlechterung der Lageklarheit.

Spatial Audio Tools

Zum Glück sind alle Spatial Audio-Theorien, -Konzepte und -Anwendungen neben unseren bestehenden DAW-Produktionsumgebungen sehr einfach durchführbar. Was die Software betrifft, hat G’Audio Lab ein kostenloses und sehr intuitives Spatial Audio Plugin namens „Works“ entwickelt, das sich nahtlos in 360 Videos in Pro Tools integriert.

Mit G’Audio Works können Sie Objekte und ambisonische Tracks direkt auf einem Quicktime-Video platzieren, um die Positionen von Sounds einfach zu synchronisieren. Die Audiospuren in Ihrer Pro Tools-Sitzung werden in Works mit objektbasierten Steuerelementen wie Azimut (Seitenlage), Höhe (Höhenlage) und Abstand angezeigt. Beim Verschieben der bunten Punkte auf dem Bildschirm werden die Positionierungsparameter mit Einzelbewegungen berücksichtigt.

Works verwendet einen „Edit as you watch“-Ansatz zur Verräumlichung (spatialization) , bei dem das gesamte Objekt-Panning von einem einzigen Plugin-Fenster aus durchgeführt werden kann. Es hat eine vereinfachte Plugin-Struktur, die aus Slave-Plugins besteht, die auf einer beliebigen Spur instanziiert werden und einem einzigen Master-Plugin, in dem Sie diese Spuren mit einem Quicktime-Film bearbeiten können. Mit der Pro Tools Video-Engine können Sie einen mono oder stereoskopischen Quicktime-Film laden und sehen, wohin Ihre Sounds gehen sollen

Die vertraute Umgebung, in der Sie Ihre Audiospuren mit einer Videospur synchronisieren können, wird mit der Möglichkeit kombiniert, Audioobjekte in Echtzeit zu platzieren, zu automatisieren und zu mischen. Diese erscheinen als farbkodierte Punkte und können direkt über dem Quicktime-Film angeklickt und auf die entsprechenden Zeichen gezogen werden.

Sie können zwischen 2D- und HMD-Ansicht (Head Mounted Display) umschalten, um eine visuelle Referenz für die erste Person zu erhalten. Die 2D-Ansicht eines 360-Videos ist wie das Strecken eines Globus auf eine 2D-Karte, auf der Sie leicht die Richtungsabhängigkeit der Objekte in einer Ebene steuern können.

Auch die Einrichtung ist recht einfach. Sie können jede beliebige Mono-, Stereo-, Quad- oder Surround-Audiospur in Pro Tools mit dem Master-Plugin kommunizieren lassen, indem Sie ein Slave-Plugin auf die Spur laden, die Sie spatialisieren möchten. Jede Spur wird sofort in die binaurale Engine gerendert, so dass Sie nur auf die Objekte im Master-Plugin klicken müssen, um zu entscheiden, wo sie im Raumfeld vorhanden sind. Wenn Ihr Video Bewegung für die Sounds hat, stellen Sie einfach sicher, dass die Automationsparameter für das Plugin aktiv sind und die Objekte direkt auf dem Quicktime-Film geschrieben/verriegelt/berührt werden.

Einzelne Spuren wie Azimut (Seitenlage) und Elevation (Höhenlage) werden in einem Arbeitsgang automatisiert. Die 3D-Objektkarte auf der rechten Seite der Schnittstelle kann alle diese Parameter sowie die Abstandsregelung steuern, was die Automatisierung sehr zeiteffizient macht.

Alles andere über das Mischen für Video in Pro Tools ist so, wie es immer war. Solide Bearbeitung, Komprimierung und EQ sind nach wie vor in Kraft, ebenso wie die Verwendung anderer DSP-Plugins, die Ihnen zur Verfügung stehen. Die größte Veränderung im akustischen Workflow betrifft die räumliche Positionierung, die von dem 360-Video abhängt, mit dem Sie arbeiten. Da das Endergebnis interaktiv ist, ist es immer eine gute Idee zu überprüfen, wie die Dinge klingen, indem man auf die HMD-Ansicht umschaltet und die Maus zum Zuhören bewegt. Wenn ein Objekt zu laut ist, verringern Sie den Pegel dieses Kanals mit dem Gain-Schieberegler im Master-Plugin (die Lautstärkeregelung in Pro Tools ist ein vorbinauraler Renderer und daher nicht in der räumlichen Audiodatei enthalten).

Das Monitoring zwischen den Formaten ist der Schlüssel, um sich Ihren Mix nach dem Upload vorzustellen.

Eine weitere wichtige Funktion ist, dass Sie zwischen dem GA5-Format von G’Audio und FOA (First Order Ambisonics), das derzeit in Media-Sharing-Diensten wie YouTube und Facebook verwendet wird, überwachen können. So wissen Sie, wie der Mix nach dem Hochladen übersetzt wird (mehr dazu später).

Wenn Sie mit dem Mix zufrieden sind, erstellen Sie einfach einen Offline-Bounce in Pro Tools, und je nach Bedarf erhalten Sie entweder eine SpatialAudiodatei zum Kodieren mit einem Quicktime-Film oder Sie können sie direkt aus Works in Pro Tools kodieren (dies wird in den Exporteinstellungen geändert).

Zu beachten ist, dass die normale Audiodatei, die Sie von Pro Tools erhalten, wenn Sie einen Bounce erstellen, verworfen werden soll, da sie nur die binaurale Headlock-Version Ihres Mixes darstellt und nicht das für VR benötigte interaktive Raumformat ist.

Angenommen, Sie haben Ihr Ambisonics-Mikrofon genau richtig positioniert, Ihre einzelnen Objekte bewegen sich perfekt synchron zur Action auf dem Bildschirm, aber der Produzent möchte etwas Hintergrundmusik hinzufügen. Sie laden ein Slave-Plugin auf einen Stereo-Musik-Track und es erscheint im Master-Plugin, wie es sollte. Wenn man jedoch die Kopfposition des Benutzers dreht, wird die Musik mit dieser Bewegung verräumlicht. Was, wenn Sie das nicht wollen, indem Sie die Stereomusik „head-locked“ halten, damit sie unabhängig von der Benutzerinteraktion bleibt?
Wählen Sie für Tracks, die sich nicht im Feld bewegen müssen, wie z.B. Musik oder VO, das Bypass-Rendering. In Works ist es so einfach wie das Einschalten des „bypass spatial rendering“ für die jeweilige Spur. Bei Bedarf kann dies eine sehr effektive Produktionstechnik sein, um „non-diegetic“ Audio in Ihr Projekt zu integrieren, so dass so etwas wie Musik oder ein Voiceover direkt in den Hörer eingespeist wird. Dies kann sehr nützlich sein für narrative Momente, die keine visuelle Aufmerksamkeit für ein bestimmtes Thema erfordern oder die Benutzerbewegungen weniger störend für Dialog und Musik machen.

Obwohl dies in der DAW-Umgebung wirklich einfach zu kontrollieren ist, führt uns die Implikation, dass diese Funktionalität in der Medienwiedergabe funktioniert, zum einzigen schwierigen Aspekt des räumlichen Audios: Wo wird dieses Medium

Wie Sie mit diesem Workflow sehen können, ist es genauso einfach, wie es Spaß wie macht. Der einzige Teil dieses Prozesses, der ein wenig Kopfzerbrechen bereitet, ist das Endziel für die Medien.

Da sich die Formate für räumliches Spatial Audio derzeit noch in der Entwicklungs-Phase befinden, sind noch keine Standards für die gemeinsame Nutzung von Medien festgelegt. G’Audio reagierte auf dieses Problem mit der Entwicklung eines eigenen Formats namens „GA5″, das eine sehr hochwertige und flexible Möglichkeit bietet, Objekte, Ambisonics und Headlocked Channel-Signale in einem Paket zu integrieren.

Aufgrund der Unterschiede in den verwendeten Playerplattformen und Codecs muss es auch einen Renderer geben, der SpatialAudio abspielen kann, das diese Unterschiede ignoriert. SOL, die Rendering-Engine, die das GA5-Format abspielt, kann auf der Playerseite für beste räumliche Ergebnisse implementiert werden. Wenn Sie einen Gear VR haben, können Sie den G’Player im Oculus Store kostenlos herunterladen, der einen 360 Media Player mit integriertem SOL enthält.

Da ihre Rendering-Technologie über alle Plattformen hinweg kompatibel ist, ist sie immer noch auf dem Weg zu HMD’s und Media-Sharing-Plattformen. Die Möglichkeit, Spatial Audio auf Facebook oder YouTube hochzuladen, ist ebenfalls noch in einem frühen Stadium, da beide Plattformen Einschränkungen und Unterschiede in den Möglichkeiten bieten.

Aufgrund der räumlichen Dekodierung im Ambisonics B-Format wurde es derzeit als Ausgangspunkt für die Einbindung von räumlichem Audio in abspielbare 360er-Medien gewählt. Das Problem dabei ist, dass diesem Format inhärente Grenzen gesetzt sind. Erstens gibt es nur vier Kanäle, die binaural mit einer „First Order Ambisonic“-Raumaudiodatei kodiert sind. Dies bedeutet, dass für jedes Objekt, das sich außerhalb der gegebenen sphärischen Harmonischen befindet (denken Sie an Richtcharakteristiken), die räumlichen Effekte stark reduziert werden.

Von „Higher Order Ambisonics“ als mögliche Lösung zur Erhöhung der räumlichen Auflösung werden Sie sicherlich einiges hören. In HOA werden mit jeder Reihenfolge weitere Kugelachsen hinzugefügt. Dies ist bei bestehender Technik bis zu einem gewissen Punkt nicht praktikabel, da für höhere Aufträge eine wesentlich höhere Kanalzahl benötigt wird (neun Kanäle für zweite Ordnung, sechzehn Kanäle für dritte Ordnung usw.). Während Pro Tools HD 12.8.3 bis zu 3OA (3. Ordnung Ambisonics) unterstützt, gibt es derzeit keine Plattformen, die eine so kodierte Masterdatei abspielen können. Obwohl Ambisonics eine großartige Möglichkeit ist, 3D-Audio aufzunehmen, ist es hoffentlich nicht das, worauf wir als Ausgabeformat beschränkt sind.

Diese Technologie ändert sich in rasantem Tempo und erfordert, dass wir so gut wie möglich auf dem Laufenden bleiben, was die Weitergabe dieser Medien angeht. Zum Zeitpunkt dieses Artikels kann der folgende Abschnitt als Referenz für die gemeinsame Nutzung Ihrer Medien auf verschiedenen Plattformen dienen.