Tesista: Cecilia Micaela Bolaños
Director: Pablo Brusco
Codirector: Leonardo Pepino
Resumen.
En el campo del aprendizaje automático, es muy común el uso de modelos pre-entrenados. Estos modelos, creados para resolver tareas generales y, generalmente entrenados sobre grandes cantidades de datos, se utilizan o adaptan posteriormente para tareas especı́ficas. Un factor común de estos modelos es la capacidad de generar representaciones de los datos (embeddings). El poder expresivo de estas representaciones dependen en gran medida del diseño del modelo, del proceso de entrenamiento, y de los datos con los que fueron entrenados.
Una pregunta de interés en este campo es el estudio de la convergencia hacia representaciones universales, incluso en modelos entrenados en instancias provenientes de diferentes modalidades (audio, texto, imágenes, etc.). Entender qué información capturan estas representaciones y cómo se relacionan entre sı́ es esencial para aprovechar al máximo estos modelos.
En este trabajo, nos concentramos en el mundo de las representaciones de palabras habladas. Para ello, nos proponemos replicar y extender parte del trabajo realizado en Pasad et al. [2021]. En este artículo, los autores utilizan el Análisis de Correlación Canónica (CCA) para examinar similitudes y diferencias entre representaciones de palabras habladas provenientes de un modelo de habla (Wav2Vec 2.0 ), en contraste con representaciones generadas por un modelo de texto (GloVe). Como extensión al trabajo proponemos la utilización de dos métricas adicionales: (a) Linear Centered Kernel Alignment (Linear CKA), como alternativa a CCA; y (b) ASIF, como métrica complementaria con una visión más localizada de las representaciones, lo cual proporciona una mayor interpretabilidad. En cuanto a los modelos, proponemos la inclusión de modelos modernos que incluyen BEATs y EncodecMAE para audio, y BERT para texto.
Nuestros resultados indican que tanto Linear CKA como CCA son igualmente efectivos para evaluar la similitud entre representaciones, aunque Linear CKA es más eficiente computacionalmente. Además, mostramos cómo Wav2Vec 2.0 presenta una mayor similitud en las representaciones generadas con el modelo BERT que con las generadas con el modelo GloVe, alcanzando una similitud de 0.30 con BERT y 0.18 con GloVe bajo la métrica Linear CKA. Si bien se espera que Wav2Vec 2.0 aprenda del contexto del audio debido a su arquitectura, este hallazgo indicaría que además captura información contextual de las palabras y su significado, lo cual no es tan evidente. En este trabajo analizamos esta y otras hipótesis que pueden explicar la mayor cercanía entre estos espacios de representación. Por último, la comparación entre modelos de audio general (EncoderMAE) y de audio provenientes únicamente de habla (Wav2Vec 2.0) reveló diferencias en cómo los modelos de audio tienden a ser más fonéticos que semánticos.
Palabras claves: Modelos de Audio, Modelos de Texto, Similitud entre Representaciones, Representaciones de Palabras, Linear Centered Kernel Alignment, ASIF, Análisis de Correlación Canónica.
Buenos Aires, 2024
Descargar PDF
Análisis de similaridad entre representaciones de palabras generadas por modelos de audio y de texto