Mozilla nuevo modelo de código abierto tiene como objetivo revolucionar el reconocimiento de voz

Usted puede haber notado el estable y seguro el progreso de reconocimiento de voz tecnología en los últimos tiempos – todas las grandes empresas tecnológicas quieren hacer avances en este campo si sólo para mejorar sus asistentes digitales, de Cortana Siri – pero Mozilla quiere empujar más duro, y más ampliamente, en este frente con el lanzamiento de una fuente abierta de reconocimiento de voz modelo.

La versión inicial de este sistema Automático de motor de Reconocimiento de Voz ha sido desatada, basado en el trabajo realizado por la Máquina de Aprendizaje del equipo de Mozilla. El motor se basa en ‘en lo más Profundo Discurso’ artículos publicados por Baidu, que detalle un entrenable de múltiples capas profundas de la red neuronal.

Mozilla dice que su proyecto inicialmente tenía un objetivo de golpear a ‘word error rate’ de menos de 10%. Sin embargo, la empresa dice que el motor’s word error rate en LibriSpeech’s de la prueba-juego limpio es ahora el 6,5%, superando claramente este objetivo, y el logro de cerca el Santo Grial de los derechos humanos-nivel de rendimiento (que se produce en alrededor de 5.8%, según el Profundo Discurso de papel 2).

Mozilla ha trabajado duro para entrenar el reconocimiento de voz modelo con ‘aprendizaje supervisado’ y un enorme conjunto de datos de miles de horas de la etiqueta de audio, procedentes de todo tipo de fuentes, incluyendo los libres (TED-LIUM y LibriSpeech) y de pago (Fisher y Centralita) discurso de cuerpos.

la etiqueta Más datos de voz fue retirado de la talla de estudio de la lengua de los departamentos en las universidades, públicas y estaciones de radio y TV, todo lo cual era más leña al fuego para perfeccionar el motor de reconocimiento de voz.

Y, por supuesto, la enorme fuerza de este proyecto, su naturaleza open source, significa que esta perfeccionado la tecnología ahora está abierto a cualquier persona a usar en su reconocimiento de voz de proyectos.

Optimizado de voz

Mozilla señala además que el plan para el futuro es la liberación de un modelo que’s la luz y lo suficientemente rápido para ejecutar en un teléfono inteligente o único ordenador de a bordo, como el Raspberry Pi.

La compañía también ha desatado su Voz Común de la iniciativa, que es una abierta y públicamente disponibles voz del conjunto de datos que contiene más de 400.000 grabaciones de 20.000 diferentes altavoces – que representa alrededor de 500 horas de habla.

Como Mozilla pone, la idea aquí es el “construir un discurso en el corpus que's libre, de código abierto, y lo suficientemente grande como para crear significativa productos con”, que se ejecuta en paralelo con el nuevo reconocimiento de voz modelo.

Microsoft también está haciendo grandes avances en el reconocimiento de voz frente, tener consigue una palabra de la tasa de error de 5.1% en el panel de control de reconocimiento de voz de referencia, tal como se anunció en el verano.

TechRadar – Todas las noticias de última tecnología

Play
Slider