Resumen. El presente proyecto tiene como objetivo analizar los efectos de reentrenar el tokenizador de un modelo de lenguaje preentrenado mediante métricas que relacionan el comportamiento de éstos modelos con respuestas humanas a estímulos lingüísticos.

Palabras clave. NLP, LLM, GPT, Neurociencias

Conocimientos deseables. Librerías de python asociadas a NLP (Huggingface) y análisis de datos (numpy, pandas, seaborn, etc)

¿Qué podría aprender quien realice esta tesis? – Técnicamente el/la estudiante aprenderá a trabajar con grandes modelos de lenguaje, tanto a nivel de uso como, posiblemente, de reentrenamiento del mismo. A nivel experimental nos proponemos trabajar fuertemente en la generación iterativa de hipótesis y sus respectivos testeos. El análisis de los resultados obtenidos en cada experimento será altamente formativo en el área experimental.

Dirección de la tesis
Bianchi, Bruno
Laboratorio de Inteligencia Artificial Aplicada
Contacto: brunobian@gmail.com

Descargar PDF
Cambio de tokenizador mediante finetuning