Understand memorization and knowledge acquisition in LLM

Changed on 03/03/2026
  • Jueves 12 de marzo de 2026 - 10:00 am (hora de Santiago de Chile)
  • Formato híbrido 
  • La charla será en inglés
  • Expositor:
  • Yannis Karmim es investigador postdoctoral en el equipo ALMAnaCH de Inria e Inria Chile. 
Yannis-Karmim_Banner

Resumen

¿Cómo adquieren, almacenan y recuperan los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) el conocimiento factual? 

A diferencia de las bases de datos clásicas, que responden a consultas explícitas, los LLMs modelan distribuciones de probabilidad sobre secuencias de tokens, un mecanismo fundamentalmente distinto para codificar el conocimiento del mundo.

En esta charla, Yannis Karmim examinará el funcionamiento interno de la adquisición de conocimiento durante el preentrenamiento de los LLMs, centrando la discusión en el trabajo "How Do Language Models Acquire Knowledge During Pretraining?" (Chang et al., NeurIPS 2024). Este estudio ofrece información sobre las condiciones en las que un modelo asimila de manera confiable un hecho: cuántas exposiciones son necesarias, qué estrategias de presentación son más efectivas y cómo el olvido catastrófico moldea lo que se retiene a lo largo de entrenamientos prolongados. Basándose en estos hallazgos, también presentará resultados complementarios recientes que ayudan a comprender los mecanismos subyacentes, abordando cómo la estructura relacional, la repetición y la paráfrasis interactúan durante la codificación del conocimiento.

Yannis Karmim

Yannis Karmin

Yannis Karmim es investigador postdoctoral en el equipo ALMAnaCH de Inria e Inria Chile.

Yannis obtuvo su doctorado en el Conservatoire National des Arts et Métiers (CNAM), donde su investigación doctoral se centró en el aprendizaje automático en grafos dinámicos.

Actualmente, es investigador postdoctoral en Inria, trabajando de manera conjunta entre el equipo ALMAnaCH, del centro Inria París e Inria Chile, en el tema de los sesgos socioculturales en los modelos de lenguaje grandes (LLMs).

Su trabajo postdoctoral busca caracterizar estos sesgos y desarrollar estrategias de mitigación más efectivas, explorando especialmente cómo los grafos de conocimiento pueden servir como priors estructurados para la reducción de sesgos y la inyección de conocimiento en los LLMs.