IA para Científicos Sociales

Sesión 4.1: Entendiendo los LLMs

Danilo Freire

danilofreire@gmail.com

Departament of Data and Decision Sciences
Emory University

Día 4: LLMs y aplicaciones

Repaso del Día 3

K-means: agrupa observaciones sin etiquetas
PCA: reduce dimensiones preservando varianza
Texto como datos: tokenización, stopwords, bag-of-words
TF-IDF: identifica palabras distintivas
LDA: descubre temas latentes en un corpus
Estos métodos funcionan bien pero tienen limitaciones: no capturan significado ni contexto

Hoy: cómo funcionan los LLMs

Los LLMs cambian la forma en que trabajamos con texto:

Entienden contexto y significado
Pueden clasificar, resumir, traducir y generar texto
Funcionan con instrucciones en lenguaje natural (no código)
Un solo modelo para muchas tareas

Pero: ¿cómo funcionan por dentro?

Agenda de la sesión

Primera parte

¿Qué es un LLM?
Tokenización por subpalabras (BPE)
Ventana de contexto
Embeddings y significado semántico

Segunda parte

El mecanismo de atención
Arquitectura de los transformers
Tipos de modelos: encoder, decoder, encoder-decoder
Entrenamiento: pre-training y fine-tuning
El ecosistema actual de LLMs

¿Qué es un LLM?

Modelos de lenguaje extensos

LLM (Large Language Model): un modelo de IA entrenado con cantidades masivas de texto para predecir la siguiente palabra
“El gato se sentó en la ___”
- “silla”: 27%
- “cama”: 22%
- “mesa”: 18%
- …
¿De dónde viene el “large”?
- GPT-3: 175 mil millones de parámetros (Brown et al., 2020)
- GPT-4: número no divulgado por OpenAI (se especula con ~1 billón)
- Entrenados con billones de palabras de internet, libros, código
A pesar de su simplicidad conceptual (predecir la siguiente palabra), a gran escala estos modelos muestran capacidades que no fueron programadas explícitamente: traducción, resumen, razonamiento básico. Si esto constituye “emergencia” genuina es un debate abierto (Schaeffer et al., 2024)

Fuente: Jay Alammar

La tokenización en los LLMs

Ayer vimos tokenización por palabras. Los LLMs usan algo diferente: subpalabras
Algoritmo más común: BPE (Byte Pair Encoding; Sennrich, Haddow y Birch, 2016)
- Empieza con caracteres individuales
- Fusiona los pares más frecuentes iterativamente
- “desempleo” → [“des”, “empleo”] o [“desem”, “pleo”]
¿Por qué subpalabras?
- Vocabulario finito (~50.000 tokens) pero puede representar cualquier texto
- Palabras raras se descomponen; palabras comunes son un solo token
Los tokens no son palabras: “Hola” = 1 token, “paralelepípedo” = 4+ tokens
Esto importa porque los LLMs tienen un límite de tokens (ventana de contexto)

Fuente: Hugging Face NLP Course

Ventana de contexto

La ventana de contexto es el número máximo de tokens que el modelo puede procesar a la vez
Incluye tanto la entrada (prompt) como la salida (respuesta)
Evolución:
- GPT-3 (2020): 2.048-4.096 tokens (~1.500-3.000 palabras)
- GPT-4 (2023): 128.000 tokens (~96.000 palabras)
- Claude (2025): 1.000.000 tokens (~750.000 palabras)
¿Por qué importa?
- Con más contexto, el modelo puede analizar documentos largos
- Puede mantener conversaciones más largas
- Puede procesar múltiples documentos a la vez
El costo de las APIs se cobra por token

Embeddings y atención

Embeddings: palabras como vectores

Cada token se convierte en un vector (lista de números)
Estos vectores capturan significado semántico:
- Palabras similares → vectores cercanos
- “rey” - “hombre” + “mujer” ≈ “reina” (Mikolov et al., 2013; este ejemplo clásico es una simplificación, pero la idea general funciona)
GPT-2: cada token → 768 números
GPT-4: cada token → miles de números
Los embeddings se aprenden durante el entrenamiento
Aplicaciones prácticas:
- Búsqueda semántica: buscar por significado, no por palabras exactas
- Clasificación: agrupar textos similares
- Recomendaciones: encontrar documentos relacionados

El mecanismo de atención

La atención es la innovación clave de los transformers
Para cada palabra, el modelo pregunta: “¿qué otras palabras son relevantes para entenderme?”
“El banco cerró porque la economía estaba en crisis”
- “banco” presta atención a “economía” y “crisis” → banco financiero
“Me senté en el banco del parque”
- “banco” presta atención a “senté” y “parque” → banco para sentarse
La misma palabra cambia de significado según el contexto
Esto es lo que los métodos del Día 3 (bag-of-words, TF-IDF) no podían hacer
La atención permite que el modelo entienda relaciones a larga distancia en el texto

Mapa de atención: qué palabras atienden a cuáles

Transformers: la arquitectura completa

Los transformers (Vaswani et al., 2017) combinan:
1. Tokenización: texto → tokens
2. Embeddings: tokens → vectores
3. Autoatención: cada token “mira” a los demás
4. Red feed-forward: procesa la información
5. Predicción: el siguiente token más probable
Se apilan muchas capas (bloques) de atención + feed-forward
- GPT-2: 12 bloques
- GPT-3: 96 bloques
Las capas tempranas captan gramática
Las capas profundas captan significado y razonamiento
Recurso interactivo: Transformer Explainer

Prompt engineering

¿Qué es prompt engineering?

Prompt engineering: el arte de escribir instrucciones efectivas para los LLMs
La calidad de la respuesta depende en gran medida de la calidad de la pregunta
No es solo “hacer preguntas”: es diseñar la entrada para obtener la salida deseada
Un buen prompt tiene cuatro componentes (PTCF):
- Persona: ¿quién debería ser el modelo? (“Eres un analista político experto en América Latina”)
- Tarea: ¿qué debe hacer? (“Clasifica el sentimiento de este texto”)
- Contexto: ¿qué información adicional necesita?
- Formato: ¿cómo debe estructurar la respuesta? (“Responde en formato JSON”)

Temperatura y creatividad

La temperatura controla la aleatoriedad de las respuestas
Temperatura baja (0-0,3): respuestas deterministas, siempre elige el token más probable
- Bueno para: clasificación, extracción de datos, análisis
Temperatura alta (0,7-1,0): respuestas más creativas y variadas
- Bueno para: escritura creativa, brainstorming
Para investigación, casi siempre queremos temperatura baja
- Reproducibilidad
- Consistencia entre ejecuciones
- Menos alucinaciones

Zero-shot, few-shot y chain-of-thought

Zero-shot: dar la instrucción sin ejemplos

Clasifica el sentimiento de este texto
como positivo, negativo o neutro:
"La economía ha crecido un 5%"

Few-shot: dar la instrucción con ejemplos

Clasifica el sentimiento:
- "La inflación es alta" → negativo
- "El empleo mejoró" → positivo
- "Los datos son de 2023" → neutro

Ahora clasifica:
"La pobreza ha disminuido" →

Chain-of-thought (CoT) (Wei et al., 2022): pedir razonamiento paso a paso

Clasifica el sentimiento y explica
tu razonamiento paso a paso:

Texto: "A pesar de la crisis, el
gobierno logró reducir la pobreza"

Razonamiento:
1. "crisis" sugiere algo negativo
2. "logró reducir la pobreza" es positivo
3. "a pesar de" indica que el resultado
   positivo supera al contexto negativo
4. Clasificación: POSITIVO

CoT mejora la precisión en tareas complejas al obligar al modelo a “pensar” antes de responder.

System prompts

El system prompt define el comportamiento del modelo para toda la conversación
Se envía antes de cualquier mensaje del usuario
Establece la personalidad, restricciones y formato
Ejemplo para investigación:

Eres un asistente de investigación
especializado en ciencias sociales
latinoamericanas.

Reglas:
- Responde siempre en español
- Cita fuentes académicas cuando sea posible
- Si no estás seguro, dilo explícitamente
- No inventes datos ni estadísticas
- Formato: respuestas concisas con viñetas

Los system prompts son clave para obtener resultados consistentes al usar LLMs como herramientas de investigación

Tipos de modelos

Encoder, Decoder, Encoder-Decoder

Los transformers tienen dos componentes principales:
- Encoder: “lee” y comprende el texto de entrada
- Decoder: “genera” texto de salida
Tres arquitecturas principales:
- Solo encoder (BERT): para clasificación, NER, similaridad
- Solo decoder (GPT, Claude, Llama): para generación de texto
- Encoder-decoder (T5, BART): para traducción, resumen
¿Por qué importa?
- Los modelos de solo decoder (GPT, Claude) son los que usamos en chat
- Los modelos de encoder (BERT) son mejores para obtener embeddings de documentos completos

Modelo	Tipo	Uso principal
BERT	Encoder	Clasificación, NER
RoBERTa	Encoder	Clasificación
GPT-4	Decoder	Generación, chat
Claude	Decoder	Generación, chat
Llama	Decoder	Generación
T5	Enc-Dec	Traducción
BART	Enc-Dec	Resumen

Para investigación social, usaremos principalmente modelos decoder (generativos).

BERT vs. GPT: dos filosofías

BERT (Devlin et al., 2019)

Bidireccional: ve el contexto antes Y después de cada palabra
Entrenamiento: Masked Language Model
- “El [MASK] se sentó en la silla” → predice “gato”
Bueno para entender texto
Aplicaciones: clasificación, extracción de entidades, búsqueda semántica
No genera texto fluido

GPT (Radford et al., 2019)

Unidireccional: solo ve el contexto anterior (izquierda a derecha)
Entrenamiento: predecir siguiente token
- “El gato se sentó en la” → “silla”
Bueno para generar texto
Aplicaciones: chat, escritura, código, razonamiento
La arquitectura detrás de ChatGPT, Claude, etc.

GPT y sus variantes dominan el mercado actual porque la generación de texto es más versátil.

Entrenamiento de LLMs

Pre-training: aprender el lenguaje

El pre-training es la fase donde el modelo aprende el lenguaje
Se entrena con cantidades masivas de texto:
- Internet (Common Crawl): ~60% del texto
- Libros digitalizados
- Wikipedia
- Código fuente (GitHub)
- Papers científicos
GPT-3 se entrenó con ~300 mil millones de tokens
El modelo aprende:
- Gramática y sintaxis
- Hechos del mundo (con fecha de corte)
- Patrones de razonamiento
- Múltiples idiomas

Costo del pre-training:

Modelo	Costo estimado
GPT-3 (2020)	~USD 4 millones
GPT-4 (2023)	~USD 100 millones
Llama 3 (2024)	~USD 30 millones

El pre-training requiere miles de GPUs durante semanas o meses.

Por eso solo las empresas grandes pueden entrenar modelos desde cero.

Nosotros usamos modelos pre-entrenados.

Fine-tuning: especializar el modelo

El fine-tuning ajusta un modelo pre-entrenado para una tarea específica
Mucho más barato que pre-training:
- Menos datos necesarios
- Menos tiempo de entrenamiento
- Se puede hacer con una sola GPU
Tipos de fine-tuning:
- Supervised fine-tuning: con ejemplos etiquetados
- RLHF: con feedback humano (lo que hace a ChatGPT “amable”)
- LoRA: ajuste eficiente de parámetros
Alternativa: prompt engineering
- No requiere entrenamiento
- Usamos el modelo tal cual, con instrucciones bien diseñadas

Ejemplo de fine-tuning:

Modelo base: Llama 3

Fine-tuning para clasificación:
- 1000 textos etiquetados
- 2 horas de entrenamiento
- 1 GPU

Resultado: modelo especializado
en clasificar textos políticos
latinoamericanos

En este curso usaremos prompt engineering, no fine-tuning. Es más accesible y suficiente para la mayoría de tareas.

El ecosistema actual

Modelos comerciales vs. abiertos

Modelo	Empresa	Tipo	Contexto	Costo
GPT-4o	OpenAI	Cerrado	128K tokens	~USD 5/M tokens
GPT-4o-mini	OpenAI	Cerrado	128K tokens	~USD 0.15/M tokens
Claude 3.5 Opus	Anthropic	Cerrado	200K tokens	~USD 15/M tokens
Claude 3.5 Sonnet	Anthropic	Cerrado	200K tokens	~USD 3/M tokens
Gemini 1.5 Pro	Google	Cerrado	1M tokens	~USD 3.5/M tokens
Llama 3.1 405B	Meta	Abierto	128K tokens	Gratis (hosting propio)
Mistral Large	Mistral	Abierto	32K tokens	Gratis (hosting propio)

Cerrado: acceso solo por API, no se puede ver el código
Abierto: pesos disponibles, se puede ejecutar localmente con Ollama

Modelos multimodales

Los LLMs modernos son multimodales: procesan más que solo texto
GPT-4V, Claude 3, Gemini: texto + imágenes
Pueden:
- Describir imágenes
- Extraer texto de documentos (OCR)
- Analizar gráficos y tablas
- Comparar múltiples imágenes
Aplicaciones en investigación:
- Digitalizar archivos históricos
- Analizar propaganda visual
- Extraer datos de PDFs complejos
- Codificar imágenes de redes sociales

Ejemplo de prompt multimodal:

[Imagen de un afiche político]

User: Describe este afiche de
campaña. ¿Qué partido representa?
¿Qué mensaje transmite?
¿Qué colores y símbolos usa?

Claude: El afiche muestra...
[análisis detallado]

Los modelos multimodales abren nuevas posibilidades para el análisis de contenido visual.

Elegir el modelo adecuado

Para tareas simples:

Clasificación básica
Resumen de textos cortos
Extracción de entidades

→ gpt-4o-mini o Claude 3.5 Haiku

Rápido y muy barato
Suficiente precisión para la mayoría de tareas

Para tareas complejas:

Razonamiento multi-paso
Análisis de documentos largos
Tareas que requieren matices

→ GPT-4o o Claude 3.5 Sonnet

Más caro pero más capaz
Menos alucinaciones
Mejor comprensión del contexto

Regla general: empezar con el modelo más barato y escalar si es necesario.

Resumen de la sesión

Conceptos clave:

LLM: predice el siguiente token a gran escala
BPE: tokenización por subpalabras
Embeddings: palabras como vectores semánticos
Atención: entender qué palabras son relevantes para cada contexto
Transformers: arquitectura que combina todo

Tipos de modelos:

Encoder (BERT): para entender
Decoder (GPT, Claude): para generar
Pre-training: aprender el lenguaje general
Fine-tuning: especializar para una tarea
Multimodales: texto + imágenes

En la próxima sesión veremos cómo usar estos modelos de forma práctica: prompt engineering, RAG, y aplicaciones para investigación.

Próximos pasos

Sesión 4.2: LLMs como herramientas de investigación
- Prompt engineering en profundidad
- Alucinaciones y cómo mitigarlas
- RAG (Retrieval-Augmented Generation)
- Aplicaciones prácticas
Laboratorios (4.3 y 4.4):
- Configurar y usar ellmer desde R
- Clasificación de textos con LLMs
- Análisis de sentimiento estructurado
- Auditoría de sesgos

Nos vemos en la próxima sesión.

Nos vemos en la sesión de aplicaciones