Tesista: Ignacio Rodríguez Sañudo

Director: Germán Rosati
Codirector: Juan Kamienkowski

 

Resumen.

La extracción de información a partir de datos de texto libre es un proceso fundamental para transformar grandes volúmenes de información no estructurada en formatos organizados y analizables. Esta tarea adquiere especial relevancia en dominios específicos, como el análisis de denuncias y testimonios, donde el vocabulario, la semántica y los formatos de redacción presentan particularidades. Sin embargo, la aplicación de técnicas de extracción de información en estos contextos se enfrenta a desafíos como la escasez de datos anotados, limitaciones en los recursos computacionales y la necesidad de proteger la privacidad de la información sensible. Este trabajo se centra en evaluar la factibilidad de emplear modelos de lenguaje autorregresivos para la extracción de información en textos en español provenientes del dominio de denuncias y testimonios. Se investiga el rendimiento de tres variantes de la familia Gemma 3 (con 4, 12 y 27 mil millones de parámetros), exploradas como una alternativa viable para su ejecución local, frente a restricciones de privacidad y recursos. Además, se utiliza el modelo Gemini 2.5 Flash, que permite contrastar el desempeño de un modelo comercial de acceso remoto frente a soluciones que podrían implementarse de forma local. Para este estudio, se definieron dos tareas principales de extracción: en primer lugar, la extracción de entidades correspondientes a las categorías PERSONA, LUGAR, ORGANIZACIÓN y FECHA. Esta tarea se abordó utilizando enfoques de zero-shot y one-shot learning, con prompts diseñados tanto en español como en inglés, con el objetivo de evaluar el impacto del idioma del prompt en el rendimiento de los modelos. En segundo lugar, se llevó a cabo la detección de eventos de tipo CAPTURA y ASESINATO, empleando estrategias de one-shot learning con prompts en español. La evaluación de ambas tareas se realizó sobre un corpus de 64 documentos del Proyecto Angelus de México, utilizando métricas de precisión, recall y F1-score. Los resultados demuestran una mejora consistente en el rendimiento a medida que aumenta el tamaño del modelo, siendo la variante Gemma 3 de 27 mil millones de parámetros la que obtiene los mejores resultados dentro de las opciones de tamaño moderado. En la tarea de extracción de entidades, este modelo alcanza un rendimiento comparable, aunque ligeramente inferior al de Gemini 2.5 Flash. En la extracción de eventos, Gemini 2.5 Flash obtiene, con diferencia, mejores resultados que todas las variantes de Gemma 3. Se concluye que la utilización de modelos de lenguaje autorregresivos, como la variante Gemma 3 de 27 mil millones de parámetros, resulta factible y ofrece un rendimiento prometedor para la extracción de entidades en textos de denuncias y testimonios, especialmente en contextos con restricciones de recursos y privacidad. Sin embargo, para tareas de mayor complejidad, como la extracción de eventos, puede ser conveniente emplear modelos de mayor escala, como Gemini 2.5 Flash, que demuestra una clara superioridad en desempeño.

Palabras claves: extracción de información, modelos de lenguaje, procesamiento del lenguaje natural, extracción de entidades nombradas, extracción de eventos, instruction tuning, in-context learning, Gemma 3, Gemini 2.5, dominio específico, privacidad de datos.

 

Buenos Aires, 2025

Descargar PDF
Extracción de información de datos de texto libre