Ayuda a crear el primer objetivo segmentado de Common Voice

ole1105

Maestro de las montañas
Super Moderador
Ayuda a crear el primer objetivo segmentado de Common Voice

A partir de hoy, Common Voice tiene la capacidad de recopilar datos de voz para un propósito o caso de uso específico. Estamos poniendo a prueba esta capacidad y vamos a comenzar la recopilación de datos para un objetivo segmentado de una sola palabra que eventualmente permitirá
  1. reconocimiento de dígitos hablados
  2. detección de sí y no
  3. datos para la prueba de las palabras clave Hey Firefox.
Para que esto suceda, la web de Common Voice recopilará audio de colaboradores en varios idiomas hablando los dígitos cero a nueve, así como las palabras sí, no, hey y Firefox. Estas 14 frases (de una sola palabra) tendrán prioridad para cada colaborador cuando Hable o Escuche en Common Voice.

Para garantizar una amplia gama de datos en cada idioma, limitaremos el registro de estas frases a solo una vez por persona, por idioma. También reconocemos que escuchar a la gente decir que estos términos cortos en repetidas ocasiones puede ser aburrido y ser mentalmente fatigante. Para evitar el agotamiento y garantizar la calidad de la contribución al escuchar clips, cada persona solo recibirá un máximo de dos conjuntos (o 28 en total) de estas grabaciones.

¿Por qué un objetivo segmentado?

Esta recopilación de datos beneficiará inmediatamente a dos colaboraciones: la primera con el Mozilla Fellow, Josh Meyer, y la segunda con nuestros compañeros de equipo que desarolla Firefox Voice.

Parte del trabajo de Josh es descubrir cuántos datos se necesitan para entrenar un motor de aprendizaje automático en una nueva aplicación de reconocimiento de voz en un nuevo idioma. Para este trabajo, Josh tiene como objetivo evaluar la precisión del motor de reconocimiento de voz de código abierto de Mozilla, Deep Speech, en varios idiomas para una tarea similar.

Josh y el equipo de Deep Speech han identificado que el reconocimiento de dígitos hablados, así como la detección de sí y no, son excelentes candidatos para este tipo de pruebas de aplicaciones. La única advertencia es que necesitan datos para ejecutar esas pruebas y, citando al propio Josh; “Esos datos no existen … todavía”.

De manera similar, nuestros colegas de Mozilla en Emerging Technologies están probando opciones de “Wake Word” para Firefox Voice. Se acercaron con la curiosidad de si las comunidades de Common Voice podrían ayudar a generar datos de voz para Hey Firefox en varios idiomas.

Al agregar tu voz a este objetivo segmentado, estás contribuyendo al trabajo que están haciendo Josh, Deep Speech, Firefox Voice y Common Voice, sin mencionar a las personas que descargarán este objetivo segmentado y crearán aplicaciones de reconocimiento de voz en varios idiomas.

¿En qué idiomas se recopilará esto?

A partir de hoy, esta recopilación de datos específica está disponible en 13 idiomas *.

Si está disponible en tu(s) idioma(s), notarás 1) un banner que lo anuncia en el sitio web de Common Voice y 2) una nota en las tarjetas de frases a leer.

Nuestro objetivo es habilitar esta colección en tantos idiomas como sea posible. Para hacerlo, primero debemos obtener todas las palabras traducidas o transliteradas ** para cada idioma, verificadas por un hablante nativo. Una vez listos, se fusionarán y estarán disponibles para su uso en Common Voice.

Si está interesado en ayudar a contribuir a la traducción de estas palabras en tu(s) idioma(s), visita este repositorio de Githhub donde puedes enviar un “pull request” o un “issue” para su revisión.

¿Por qué es esto importante y qué sigue?

A medida que el proyecto Common Voice crece en tamaño de conjunto de datos, comunidad y alcance, se ha vuelto cada vez más importante para la plataforma poder distinguir el contexto de sus datos recopilados.

Proporcionar contexto, o un vocabulario de lo que se relaciona con los datos a través del etiquetado, permite una imagen más completa más allá del idioma, el acento, el sexo y la edad. Este nivel de detalle permitirá a los colaboradores, tanto a los miembros de la comunidad que envían grabaciones y frases, como a los investigadores y desarrolladores que analizan el resultado final, seleccionar el segmento que sea más relevante para ellos. Esto permitirá comentarios más detallados sobre cómo continuar mejorando el conjunto de datos, al tiempo que desbloqueará más posibilidades de utilidad y aplicación.

Para avanzar en este trabajo, el equipo explorará oportunidades que esta nueva estructura facilita, incluyendo el etiquetado a nivel de clip durante la fase de Escucha.

Nuestro objetivo es introducir segmentos de datos más específicos basados en el contenido que se está grabando. Ejemplos de esto podrían ser etiquetar el ruido de fondo en un clip grabado o confirmar que el contenido está relacionado con la medicina o la geografía. Al implementar el etiquetado, tanto para las frases importadas como para los clips grabados, la estructura de datos obtenida es más completa y precisa. ¡Estad atentos al anuncio de ese lanzamiento y agregad vuestra voz al primer objetivo segmentado de Common Voice!

Saludos,

Common Voice by Mozilla

*13 idiomas iniciales: árabe, catalán, inglés, alemán, español, francés, holandés, polaco, portugués, ruso, tamil, turco, tártaro.

** Para la captura de Hey como parte de Hey Firefox, el equipo de Firefox Voice desea utilizar un enfoque de transliteración para capturar enunciados más naturales y cómodos. Un ejemplo en francés es Hé Firefox en lugar de Salut Firefox.
 

ole1105

Maestro de las montañas
Super Moderador
Sí, ya sea hablando o escuchando cada aporte es importante para este proyecto. :ok:

110526052020
 
Arriba Pie