Tesista: Axel Fridman

Director: Pablo Riera

Resumen.

Las señales de habla pueden estar contaminadas por ruidos que dificultan nuestra capacidad de comunicarnos, para resolver esta problemática existe la tarea de eliminación de ruido. En este trabajo se estudia un modelo basado en redes neuronales tomando como punto de partida el modelo HiFi-GAN. A diferencia de este trabajo, nosotros decidimos utilizar habla en español. Se presentan una serie de experimentos centrados en mejorar resultados, que abarcan aspectos diversos como: evaluación de tres funciones de pérdida alternativas, entrenamiento con diferentes conjuntos de datos, comparación de distintas arquitecturas de red generadora y la implementación de curriculum learning. Los resultados indican que una arquitectura reducida puede alcanzar resultados similares a los que se obtienen con la arquitectura original (para el conjunto de datos utilizados en este trabajo). También se utilizaron estrategias como decaimiento de la tasa de aprendizaje para optimizar el entrenamiento. Además, se estudian las predicciones del modelo bajo diversas condiciones de ruido y para diferentes grupos de hablantes. También se incluye el código del proyecto proporcionando una herramienta valiosa para futuros trabajos.

Palabras claves:
eliminación de ruido, habla, habla hispana, castellano, señales de voz, WaveNet, funciones de pérdida, Arquitecturas de red, curriculum learning, PostNet, tasa de aprendizaje, métricas Objetivas.

Buenos Aires, 2023

Descargar PDF
Exploración de la limpieza de ruido en habla hispana con redes neuronales