Tesista: Pedro Ortiz
Director: Pablo Riera
Resumen.
En esta tesis se aborda el problema de estimar la velocidad del habla —medida en fonemas por segundo (FPS) o sı́labas por segundo (SPS)— a partir de señales acústicas. Esta tarea resulta relevante en contextos educativos, clínicos y tecnológicos, donde el ritmo del habla puede aportar información clave sobre la producción y comprensión del lenguaje. A diferencia de métodos tradicionales que requieren transcripciones explícitas, aquí se propone una aproximación que trabaja directamente sobre representaciones acústicas derivadas del audio. Se utilizan posteriogramas, matrices temporales que reflejan la probabilidad de activación de cada fonema a lo largo del tiempo, como entrada para modelos de regresión. Se exploran tanto modelos lineales con atributos fonéticos diseñados manualmente como arquitecturas neuronales convolucionales que operan sobre estas representaciones, en particular modelos 1D y 2D con distintas estrategias de convolución y resumen temporal. Los resultados muestran que los modelos que preservan la estructura fonética de las representaciones alcanzan el mejor desempeño en ambas tareas. También se presentan experimentos controlados con oraciones en español e inglés, que permiten observar cómo los modelos responden a cambios en el ritmo del habla, incluso fuera del dominio original de entrenamiento. Estos hallazgos refuerzan la idea de que un diseño de modelo alineado con
la estructura del lenguaje puede mejorar significativamente la estimación de la velocidad del habla.
Palabras clave: Velocidad del habla, Posteriogramas, Fonemas por segundo, Sílabas por segundo, Redes neuronales convolucionales, Reconocimiento del habla, Representaciones acústicas.
Buenos Aires, 2025
Descargar PDF
Medición de la velocidad del habla con aprendizaje profundo