Guía Sonido para UHD y 4K 709 MediaRoom, parte 2

El siguiente apartado lo dedicamos al ‘Sonido inmersivo, sonido 3D o sonido basado en objetos’, que ha irrumpido con fuerza en el mundo del cine. El ejemplo más conocido es ‘Dolby Atmos’, pero hay también otros sistemas compitiendo en este mercado emergente.

Sonido inmersivo, sonido 3D o sonido basado en objetos

El nuevo paradigma en audio es el sonido inmersivo, sonido 3D o sonido basado en objetos, que tiene aplicaciones en exhibición de cine en salas, en realidad virtual y también en el entorno de consumo doméstico de contenidos audiovisuales. El nuevo modelo ya no está basado en el número de canales: las mezclas para sonido inmersivo ubican cada fuente sonora, denominadas objetos, en el espacio 3D.

 

Esquema de la recepción de sonido inmersivo. Fuente: Newsbytes

 

El campo de sonido que percibe el ser humano es como una esfera y nosotros estamos dentro de ella escuchando distintas fuentes de sonido u objetos. Con los sistemas de sonido basados en canales, los creadores tienen que pensar en la configuración que tiene el cliente final (2.0, 5.1 o 7.1) para que los efectos de espacialidad suenen eficazmente. Pero los sistemas de audio basados en objetos ofrecen mayor libertad creativa porque se incluye en los metadatos una descripción espacial de la ubicación de cada objeto. A partir de estos metadatos, el procesador del audio tendrá que ajustar la mezcla en función del número de altavoces disponible y su posición en cada sala. El procesador determinará automáticamente cómo usar estos metadatos para crear el campo de sonido más inmersivo posible.

 

Interfaz de usuario de Dolby para la colocación de objetos sonoros en el espacio 3D. Fuente: Dolby

 

Colocación de los altavoces laterales y superiores en una instalación Dolby Atmos. Fuente: Dolby

 

Esta flexibilidad facilitada por los metadatos del sonido basado en objetos, viene acompañada de otras innovaciones, entre las que destacan:

  • Altavoces en el eje vertical
  • Altavoces con mayor capacidad para reproducir las frecuencias del espectro audible (20 Hz; 20 kHz)
  • Presencia de altavoces subwoofers no solo detrás de la pantalla sino también en las zonas traseras y laterales de la sala.
  • Gestión específica del rango dinámico para cada entorno de reproducción
  • Mayor precisión de la panoramización de las fuentes de sonido
  • Mayor precisión y complejidad de las reverberaciones y delays

 

El diseño de sonido basado en objetos hace que la experiencia del audio envolvente sea posible con cualquier configuración de altavoces, aunque, como es obvio, a mayor número de altavoces, mejor será la experiencia inmersiva, ya sea en una sala de exhibición o en el hogar (Home Cinema).

 

Configuración de los altavoces Home Cinema. Fuente: Auro 3D

 

Para designar las distintas configuraciones de altavoces se utilizan un código de tres cifras. Por ejemplo, en 9.2.4, la primera cifra (9) indica el número de altavoces tradicionales, la segunda (2), el número de altavoces de subgraves (subwoofer) y la tercera el número máximo de altavoces de altura o eje vertical.

 

 

Entendiendo los números: en la derecha con altavoces directos en el techo y a la izquierda utilizando sonido reflejado. Fuente: Onkyo

 

En cimenatografía hay ahora tres sistemas de sonido inmersivo compitiendo:

  • En 2012, Dolby lanzó ‘Dolby Atmos’ con la película Brave (2012, Pixar, Mark Andrews & Brenda Chapman).
  • Dos años más tarde, en 2015, DTS entró en escena presentando su sistema de mezcla de sonido por objetos, ‘DTS X’, de momento más centrado en la electrónica de consumo, como los Blu-ray 4K.
  • El tercer actor es ‘Auro 11.1’, de la compañía Barco, especializada en proyección digital para cine. La primera película que utilizó Auro es Red Tails (2012, Lucasfilm, Anthony Hemingway)

 

La mayor dificultad para la implantación de estos sistemas inmersivos es la interoperabilidad: cada exhibidor debe apostar y elegir uno para instalarlo en sus salas.  Afortunadamente en el ámbito doméstico la mayoría de los componentes (TV UHD, receptores AV, reproductores multimedia…) cuentan con los códecs de varios fabricantes a la vez.

Debido a la diversidad de instalaciones de sonido en las salas de exhibición y los hogares, una misma película se tiene que poder escuchar en estéreo, en 5.1, en 7.1 y en sonido inmersivo 3D. Estas conversiones se basan en el concepto de downmix.

El downmix, es el procedimiento por el cual una mezcla basada en una configuración de más canales/altavoces se reduce a una configuración menor, por ejemplo, pasar de una mezcla 5.1 a un estéreo.  No se trata solo de una cuestión de recolocación de las fuentes de sonido, si no también, de delays, coeficientes reductores de volumen, dinámica y ecualización. El proceso de downmix tiene que garantizar que una película se escuchará fielmente en cualquier instalación en un hogar.

Para la adaptación del sonido basado en objetos a los distintos escenarios de recepción domésticos, se utilizan los metadatos que vienen asociados al archivo de sonido MXF.

“El equipo de reproducción, cuando lee el MXF con los metadatos, tiene que detectar el procesador y el modo de distribución, y entonces, hace el ajuste de la espacialidad y la dinámica. Por ejemplo, en la reducción de 64 canales de sonido a 16, hay un conflicto brutal de dinámica. Si no se hace bien, ciertos altavoces pueden acabar saturados. Ese ajuste de espacialidad y ese segundo ajuste de dinámica, es de lo más interesante que traen ‘Dolby Atmos’, o ‘DTS-X’ o ‘Auro11.1’.” (Sergio Márquez)

 

Metadados de un archivo MXF preparado para Dolby

 

Metadados de un archivo MXF preparado para DTS

 

Los estudios de sonido certificados por Dolby como ‘Dolby Atmos Premier ’pueden llegar a tener hasta un máximo de 128 canales mapeados para disponer de 64 outputs simultáneos.  Y gracia al hardware con el que están dotados pueden comprobar en tiempo real como queda el resultado en otras configuraciones más reducidas como por ejemplo, 16 altavoces, un entorno 5.1 o incluso un estéreo.

En España todavía hay pocas salas que hayan apostado por el sonido inmersivo, pero afortunadamente, el número va creciendo. Las grandes cadenas, como Kinepolis , Odeon o Warner, han optado por la propuesta de Dolby. ‘Auro 11.1’ tiene niveles muy bajos de implantación por dos motivos: el primero de ellos es que resulta el menos inmersivo de los formatos contendientes; y el segundo y principal, es que prácticamente solo se instala cuando se ha comprado previamente un proyector DCI de la misma marca, Barco.

 

Sonido para salas de exhibición de cine

La norma DCI para los servidores DCP es la referencia técnica que se utiliza para la exhibición de cine digital en salas.

Estas son las recomendaciones básicas que hace Fernando Alfonsin en relación al audio para la creación de un DCP:

  • Un DCP puede incluir hasta 32 pistas de audio lineal PCM.
  • Las configuraciones más comunes son 5.1, 7.1 y estéreo 2.0.
  • Para crear un DCP necesitamos que nos entreguen cada canal por separado en un fichero .WAV (mono) con una resolución de 24 bits y una frecuencia de muestro de 48 kHz o 96 kHz.
  • Una vez procesados todos los canales se crea un fichero MXF con ellos.
  • El sonido multicanal, al ser PCM, no necesita codificación Dolby y por tanto se ahorra en el coste de esta licencia

Cuando se masteriza una película para DCP se pueden dar las siguientes configuraciones de audio multicanal:

 

  Configuración Canales y formato
  Estéreo 2 PCM letf, right
  LCR 3 PCM left, center, right
  5.1 6 PCM front L., C., front R., surround L, surround R. + Subwoofer
  7.1 8 PCM se añaden los canales traseros: rear L. y rear R.
  Immersivo MXF sonido por objetos, sonido 3D

 

El estéreo no se usa en cinematografía. En la configuración mínima se incluye un tercer canal central: LCR (left, center, right). Solo se encuentran en estéreo algunas piezas publicitarias o adaptaciones de otros medios que se exhiben también en las salas de exhibición (desgraciadamente sin haber adaptado su mezcla).

El canal central ya se usaba hace décadas, así que en los DCP para exhibición en salas es muy recomendable mezclar incluyendo este tercer canal. Incluso para cortometrajes con presupuestos muy ajustados, la recomendación es por lo menos hacer un LCR.

En largometrajes de ficción o documentales, lo habitual es la configuración 5.1. En España no se está haciendo casi nada en 7.1. Casi todo es 5.1.

El sonido inmersivo / por objetos / 3D, todavía no está muy extendido. Dolby Atmos se está incorporando recientemente, aunque no muchas producciones hacen todavía este tipo de mezcla.

 

Sala para mezclas de sonido Dolby Atmos Best Digital: fuente Best Digital

 

Códecs Sonido para televisión en UHD y Blu-ray

Radiodifusión:

En postproducción de sonido para televisión lo ideal es hacer al menos dos mezclas distintas a la original de las salas de exhibición: un 5.1 nuevo y un estéreo, ajustando dinámicas, ecualizaciones etc.

En radiodifusión no es posible emitir a la vez la versión original y la doblada en 5.1 y estéreo. Ocuparía demasiado ancho de banda. Lo habitual es emitir con Dolby Digital y utilizar el sistema automático de downmix para sacar la versión estéreo en el receptor doméstico.  Desgraciadamente se produce una pérdida de fidelidad con la mezcla original puesto que el resultado es dependiente de la configuración de receptor que descodifica en el hogar. La mezcla estéreo producida en postproducción siempre estará mejor que el estéreo que se consigue a partir de un downmix de Dolby Digital 5.1.

Para la televisión y la difusión digital de audio multicanal, Dolby creó ‘Dolby Digital Plus’, un códec con más capacidad que el tradicional ‘Dolby Digital (AC-3)’.

 

La arquitectura del sistema funciona con un core ‘Dolby Digital’ y unas extensiones (substream) que le van añadiendo más capacidades. ‘Dolby Digital Plus’ puede llegar hasta 6 Mb/s y la extensión ‘Atmos’ ya permite la recepción en hogar del sonido inmersivo.

El core ‘Dolby Digital’ siempre hace falta, porque las extensiones ‘Plus’ y ‘Atmos’ no son reproducible de forma aislada. Siempre necesitan el paquete anterior, por eso se llaman extensiones.

El ‘Dolby Atmos’ para broadcast, es una versión reducida, pero mantiene el espíritu de la mezcla Atmos que se hizo para los cines. Y es una mejora enorme con respecto al paquete anterior, ‘Digital Plus’ a secas, y del core ‘Dolby Digital’.

Para radiodifusión no hay una solución de DTS, ni siquiera aparece como recomendación en las versiones actuales de la norma BT.2020 como ‘Dolby Digital Plus’.

 

Configuración de altavoces para home cinema 5.1 en el hogar: A) Altavoz delantero (izquierda) B) Altavoz delantero (derecha) C) Altavoz central D) Altavoz envolvente (izquierda) E) Altavoz envolvente (derecha) F) Altavoz potenciador de graves. Fuente: Sony

Blu-ray:

Para los Blu-ray se sigue el mismo esquema que para la radiodifusión, pero los códecs son distintos porque no se dan las mismas restricciones en relación con el ancho de banda de la radiodifusión. En los discos Blu-ray la dificultad está en que normalmente se incorporan varios idiomas para facilitar la comercialización internacional y no hay espacio de almacenamiento suficiente en el disco para poner sonido envolvente en todas las versiones.

Por lo tanto, para Blu-ray nos encontramos con códecs distintos que los que se usan en televisión o para internet. Para el sonido multicanal se pueden dar tres casos:

  1. Sonido 5.1 PCM. Sonido sin compresión, sin patente.
  2. DTS-HD Master Audio’. Sonido sin compression; hasta 24.5 Mbits/s de flujo de transferencia.
  3. Dolby True HD’. Hasta 18 Mbits/s de flujo de transferencia.

 

 

Los primeros Blu-ray venían con sonido 5.1 PCM sin comprimir que no está sujeto a ninguna patente. Pero con este modelo no caben en un disco de 50 GB muchas versiones de idiomas, ni todos los equipos son compatibles con él (aunque parezca paradójico).

Poco a poco el sector se ha ido pasando a ‘DTS HD Master Audio’, que organiza los ficheros para que ocupen menos espacio, pero sin perdidas de información (actuando de igual manera que un archivo ZIP). ‘DTS HD Master Audio’ se utiliza como portador de una extensión que puede llevar el sonido inmersivo DTS-X.  Del mismo modo, ‘Dolby True HD’, permite integrar la extensión Atmos.

Con todo esto, lo habitual en los lanzamientos de Blu-ray 4K de películas, es encontrar este escenario: un 7.1 con DTS-X inmersivo en la versión original; un 7.1 en castellano en DTS HD Master audio; y los demás idiomas en 5.1 o estéreo en Dolby Digital.

En esta imagen se puede ver la contraportada de un Blu-ray 4K donde se ven los diferentes códecs de audio que han incorporado en este lanzamiento comercial.

 

Logotipos de sistemas de audio en la contraportada de un Blu-ray 4K

 

Códecs de sonido para difusión por internet

Advanced Audio Coding (AAC) es el formato de sonido que más se está utilizando para difusión de contenidos audiovisuales por internet. Aunque es difícil generalizar, puesto que hay muchos escenarios tecnológicos distintos: V.O.D. través del proveedor de telefonía, televisión por internet OTT/HBBTV, video en páginas web streaming/downloading, etc.

En Internet el factor determinante es la limitación de ancho de banda. En ese sentido es un escenario similar al de la radiodifusión, donde lo que prima son flujos de transferencia muy bajos.

En entornos de vídeo bajo de demanda de pago, el 5.1 está bastante normalizado. Pero se está lanzando el sonido a menos de 320 Kbits/s que es muy poco para que seis canales de sonido suenen fielmente a la mezcla original.

Recientemente con la pujanza de los nuevos actores como Netflix, Amazón Prime, HBO, etc., se están subiendo los flujos de transferencia y utilizando nuevos códecs como ‘Dolby Digital Plus’ entre 320 y 640 Kbits/s; e incluso ocasionalmente con la extensión Atmos (manteniendo el sonido por objetos, pero en una versión más reducida que la original).

Pese a esto, hay casos sorprendentes, como que Youtube sigua sonando sólo en estéreo ¡sin ninguna opción de 5.1!

 

Configuración de altavoces en el hogar con sonido reflejado en techo. Fuente: Dobly

 

Altavoz Pioneer S-BS73A para proyectan sonido hacia el techo. Pioneer

 

Conclusiones

La mejora de la experiencia de usuario de la ultra alta definición tiene que pasar forzosamente por un sonido de mayor calidad. Sin embargo, los desarrollos tecnológicos para mejorar la calidad del audio, que están resueltos desde hace años, no se han implantado de forma generalizada.

Manuel Sánchez Cid, profesor de la Universidad Rey Juan Carlos (URJC) y experto en sonido envolvente, ha expresado reiteradamente esta idea:

“La ultra alta definición no termina de significarse por incorporar la implementación definitiva de los parámetros de máximo nivel de calidad de sonido logrados hasta la fecha por el desarrollo tecnológico. No obstante, la llegada del Ultra HD posibilita una reapertura hacia a conceptos de inmersión sonora que, sin ser novedosos, se orientan hacia la implementación del segundo plano vertical, así como parece que permite asumir con mayor compromiso una planificación espacial más entroncada con la multiperspectiva y la ruptura del anclaje visual.”

El reto que plantea Sánchez Cid está, por lo tanto, orientado a cuestiones artísticas de realización y a cómo se utilizan los recursos técnicos disponibles. Con los sistemas de sonidos envolvente, son especialmente relevantes la representación del espacio (planos sonoros) y el punto de audición en el que se sitúa al espectador (perspectiva).

Los niveles de calidad que la tecnología de sonido ofrece actualmente son enormes y lo que se está utilizando en la práctica es muy poco en comparación con de lo que se podría hacer.

Sonido en salas de exhibición. En los complejos de exhibición, la tendencia es la actualización o adaptación al sonido inmersivo o 3D en una configuración básica sólo en la sala con mayor capacidad de público.  En las salas o cines nuevos, la tendencia es construir aquellas con más capacidad de espectadores directamente en sonido inmersivo en configuración avanzada y el resto o no dotarlas de sonido inmersivo o hacerlo en una configuración pequeña.

 

Distribución de altavoces de sonido envolvente para una sala de exhibición de cine.

 

Radiodifusión. El cuello de botella en cuanto a la calidad de sonido está aquí. Para la captación y la postproducción de sonido hay estándares y herramientas de muy alta capacidad que ven frenada su expansión por la gestión del ancho de banda, el coste económico renovando equipos y la falta de innovación como inversión en imagen corporativa. Las emisiones en mono o estéreo son mayoritarias en la TDT. En la TV por satélite/cable, el Dolby 5.1 convive con producciones estéreo.

Vídeo bajo demanda. Es el actual motor del desarrollo e innovaciones técnicas en la entrega de materiales con mayor calidad de imagen y de sonido, con bit rates más elevados, códecs de última generación, sonido inmersivo etc.

Consumo audiovisual de alta calidad en el hogar o Home Cinema.  Los equipos de Home Cimena facilitan las condiciones necesarias para disfrutar el sonido prácticamente con la misma calidad que en el estudio de producción (evidentemente, sin contar el acondicionamiento acústico etc.).  Si a estos equipos les llegan señales bajo demanda online o discos Blu-ray, tenemos al alcance contenidos HDR / 4K / sonido inmersivo/ audio sin pérdidas etc. a todo al máximo nivel, cuando hace unos pocos años esto era impensable en un hogar.

 

Panel trasero del receptor AV Denon AVR-X4200W para sonido envolvente. Fuente: Denon

 

Informe elaborado por Luis Ochoa, Sergio Márquez y Francisco Utray.

Deja una respuesta