Cómo sabe Google quién habla, incluso entre una multitud ruidosa

Por

13 abril, 2018

332

Google es muy bueno para descifrar lo que dice un usuario, pero ¿es bueno saber quién lo dice? Solo mire la tecnología actual de altavoces inteligentes, que puede ser fácilmente engañada.

Google podría tener una solución bastante simple, sin embargo. Sus investigadores han creado un sistema de aprendizaje profundo que puede seleccionar voces. Lo hace mirando literalmente las caras de las personas cuando están hablando.

Cómo separa Google las voces de una multitud

En primer lugar, los investigadores capacitaron a su sistema para reconocer a personas individuales que hablan solos. Después de lo cual crearon ruido virtual, agregando a otras personas para formar una multitud falsa, como una forma de enseñar a la inteligencia artificial a separar varias pistas de audio en distintas partes y, por lo tanto, permitir que el sistema reconozca cuál es cuál.

Los resultados son asombrosos. Como se ve en el siguiente video, la IA puede separar las voces de dos comediantes independientes, incluso si sus discursos individuales se superponen, y lo hace con sólo mirar sus rostros. El truco funciona incluso si las caras de los comediantes se ven solo parcialmente, como cuando está ligeramente bloqueado por un micrófono.

La investigación de Google se detalla en un documento titulado «Looking to Listen at the Cocktail Party», llamado así por el efecto de cóctel en el que las personas pueden enfocarse en una fuente de audio a pesar del ruido y las distracciones que la rodean.

«Nuestro método funciona en videos ordinarios con una única pista de audio, y todo lo que se requiere del usuario es seleccionar la cara de la persona en el video que quiere escuchar, o hacer que dicha persona sea seleccionada algorítmicamente en función del contexto, «escriben los investigadores en un blog posterior.

Puede ser útil?

Los investigadores aún están tratando de determinar cómo se puede implementar esta tecnología en los productos de Google, pero eso no debería demorar en contemplarse. El candidato más obvio son los servicios de video como Hangouts o Duo, que pueden integrar esta función para amplificar la voz de una persona cuando habla en contra del ruido abrumador de la multitud. También existen grandes implicaciones para la accesibilidad, como señala Engadget : el seguimiento de voz con alimentación de IA puede llevar a audífonos asistidos por cámara que pueden hacer que una voz sea más fuerte cuando están delante del usuario.

Sin embargo, también hay implicaciones de privacidad. Imagine que la tecnología avanza lo suficiente hasta el punto en que es capaz de identificar una voz específica de una calle bulliciosa en una ciudad urbana como Nueva York. Combinado con cámaras de seguridad, la nueva tecnología de Google sirve otro combustible más para el pánico por la seguridad. El tiempo, sin embargo, dirá.

Reddit actualiza su logotipo a medida que aumentan las especulaciones sobre la OPI

¿Quieres convertirte en millonario? Sigue estas 4 reglas

Chip Apple M3: todo lo que necesitas saber

El jefe de Instagram dice que la API de Threads está en proceso

El nuevo director ejecutivo de Magic Leap es un ejecutivo de Bain Capital

OnePlus Nord N30 5G revisión: El mejor teléfono por debajo de los $300

Apple iPhone 13 Pro Revisión

iPhone 13 mini Revisión: el mejor teléfono pequeño acaba de mejorar

La controvertida función de acceso directo de Alexa podría salvar vidas

Revisión de GoPro Hero 10 Black: una excelente evolución

iPhone 16: 12 cosas que queremos ver en el próximo iPhone

Lyft crea una división de medios para sacar provecho de los anuncios en el automóvil

El Apple Watch 8 podría parecerse mucho al Apple Watch 7

Nuevo iPad Air 6: lo que queremos ver

Los Mejores Tipos de Videos para Ganar Dinero en YouTube

Cómo ganar $10,000 al mes con Canva

Cómo Ganar Dinero en Línea de Forma Exitosa

¿Quieres convertirte en millonario? Sigue estas 4 reglas

Cómo sabe Google quién habla, incluso entre una multitud ruidosa

Cómo separa Google las voces de una multitud

Puede ser útil?

RECOMENDACIONES DEL EDITOR

La mejor demostración de Gemini de Google fue falsificada

Cómo Ganar Dinero en Línea de Forma Exitosa

Chip Apple M3: todo lo que necesitas saber

ENTRADAS POPULARES

Samsung Galaxy S21 Ultra vs. Galaxy Note 20 Ultra: ¿Cuál es...

Jugando Free Fire con el Mouse y el Teclado «Free Fire...

Adolescente evita las redes sociales durante 6 años, gana dinero de...

CATEGORÍA POPULAR