audio generado por IA

¿Cómo se puede marcar y detectar el audio generado por IA?

¡Comparte!

Un informe técnico elaborado por investigadores de la Universidad Pompeu Fabra (UPF) para la Comisión Europea analiza el estado del arte de las soluciones disponibles para marcar, detectar e identificar los contenidos de audio generado por IA en el contexto de lo explicitado por el artículo 50(2) del AI Act, el Reglamento Europeo de Inteligencia Artificial.

Este artículo exige que determinados sistemas de IA generativa deben marcar sus resultados en formato legible por máquina y que esas soluciones sean, en la medida de lo posible, eficaces, interoperables, robustas y fiables.

Cuatro tipos de tecnología para el marcado, detección e identificación

El documento analiza las cuatro familias de soluciones tecnológicas disponibles en el mercado:

  • Metadatos (marcado-detección): Se refiere a la información estructurada que acompaña a cada archivo de audio y describe cuestiones como su origen, autoría, historial o uso de herramientas IA.
  • Marcas de agua (marcado-detección): Consisten en insertar información directamente en la señal de audio de forma imperceptible para los oyentes, pero detectable mediante algoritmos.
  • Fingerprinting (identificación): Consiste en generar una huella distintiva de un fragmento de audio a partir de sus características acústicas. Esa huella se compara después con bases de datos de referencia para identificar si el audio coincide con un contenido conocido, incluso después de haber sufrido transformaciones (compresión, ecualización, ruido de fondo, …).
  • Identificación forense de modelos generativos (identificación): es una técnica que busca detectar artefactos o patrones técnicos que provengan de determinados sistemas de IA, incluso aunque el contenido no incluya ninguna marca explícita.

La conclusión del estudio es que ninguna de estas tecnologías resuelve el problema de la detección e identificación por si sola:

  • Los metadatos pueden aportar información sobre el origen del contenido, pero pueden eliminarse o modificarse de manera relativamente sencilla.
  • Las marcas de agua no siempre resisten transformaciones o manipulaciones.
  • El fingerprinting es útil para verificar contenidos conocidos, pero no para identificar cualquier nuevo contenido generado por IA.
  • Las técnicas forenses son frágiles ante nuevos modelos o incluso ante modificaciones de audio.

Por todo ello, el informe apuesta por un enfoque combinado, basado en distintas capas de trazabilidad: metadatos criptográficamente protegidos, marcas de agua, bases de datos de referencia y herramientas forenses. De la misma manera, se pone énfasis en la necesidad de estándares comunes a nivel industria y marcos comunes de verificación y certificación para que estas tecnologías puedan utilizarse de forma fiable en entornos reales.

Límites, regulación y trazabilidad

El documento muestra los límites actuales de la detección automática y evita una conclusión simplista: actualmente no existe una solución única, robusta e interoperable para identificar todo el audio generado por IA. Esa realidad es clave para cualquier debate futuro sobre autorización, remuneración, atribución y responsabilidad.

Desde el punto de vista de los reguladores, si las obligaciones de transparencia se diseñan sin tener en cuenta los límites técnicos reales, pueden acabar siendo difíciles de aplicar, fáciles de eludir o dependientes de soluciones propietarias controladas por unos pocos actores.

Por eso, el informe apunta a la necesidad de estándares comunes, infraestructuras de verificación, bancos públicos de prueba y marcos de certificación que permitan evaluar estas tecnologías de forma independiente y sostenida en el tiempo. De lo contrario, si la trazabilidad queda en manos de soluciones propietarias de plataformas o desarrolladores, la capacidad de control de artistas, titulares de derechos y entidades de gestión será débil.

¡Comparte!