IA para Científicos Sociales

Sesión 4.1: Entendiendo los LLMs

Danilo Freire

Departament of Data and Decision Sciences
Emory University

Día 4: LLMs y aplicaciones

Repaso del Día 3

  • K-means: agrupa observaciones sin etiquetas
  • PCA: reduce dimensiones preservando varianza
  • Texto como datos: tokenización, stopwords, bag-of-words
  • TF-IDF: identifica palabras distintivas
  • LDA: descubre temas latentes en un corpus
  • Estos métodos funcionan bien pero tienen limitaciones: no capturan significado ni contexto

Hoy: cómo funcionan los LLMs

Los LLMs cambian la forma en que trabajamos con texto:

  • Entienden contexto y significado
  • Pueden clasificar, resumir, traducir y generar texto
  • Funcionan con instrucciones en lenguaje natural (no código)
  • Un solo modelo para muchas tareas

Pero: ¿cómo funcionan por dentro?

Agenda de la sesión

Primera parte

  • ¿Qué es un LLM?
  • Tokenización por subpalabras (BPE)
  • Ventana de contexto
  • Embeddings y significado semántico

Segunda parte

  • El mecanismo de atención
  • Arquitectura de los transformers
  • Tipos de modelos: encoder, decoder, encoder-decoder
  • Entrenamiento: pre-training y fine-tuning
  • El ecosistema actual de LLMs

¿Qué es un LLM?

Modelos de lenguaje extensos

  • LLM (Large Language Model): un modelo de IA entrenado con cantidades masivas de texto para predecir la siguiente palabra
  • “El gato se sentó en la ___”
    • “silla”: 27%
    • “cama”: 22%
    • “mesa”: 18%
  • ¿De dónde viene el “large”?
    • GPT-3: 175 mil millones de parámetros (Brown et al., 2020)
    • GPT-4: número no divulgado por OpenAI (se especula con ~1 billón)
    • Entrenados con billones de palabras de internet, libros, código
  • A pesar de su simplicidad conceptual (predecir la siguiente palabra), a gran escala estos modelos muestran capacidades que no fueron programadas explícitamente: traducción, resumen, razonamiento básico. Si esto constituye “emergencia” genuina es un debate abierto (Schaeffer et al., 2024)

El pipeline de un LLM

Fuente: Jay Alammar

La tokenización en los LLMs

  • Ayer vimos tokenización por palabras. Los LLMs usan algo diferente: subpalabras
  • Algoritmo más común: BPE (Byte Pair Encoding; Sennrich, Haddow y Birch, 2016)
    • Empieza con caracteres individuales
    • Fusiona los pares más frecuentes iterativamente
    • “desempleo” → [“des”, “empleo”] o [“desem”, “pleo”]
  • ¿Por qué subpalabras?
    • Vocabulario finito (~50.000 tokens) pero puede representar cualquier texto
    • Palabras raras se descomponen; palabras comunes son un solo token
  • Los tokens no son palabras: “Hola” = 1 token, “paralelepípedo” = 4+ tokens
  • Esto importa porque los LLMs tienen un límite de tokens (ventana de contexto)

Byte Pair Encoding

Fuente: Hugging Face NLP Course

Ventana de contexto

  • La ventana de contexto es el número máximo de tokens que el modelo puede procesar a la vez
  • Incluye tanto la entrada (prompt) como la salida (respuesta)
  • Evolución:
    • GPT-3 (2020): 2.048-4.096 tokens (~1.500-3.000 palabras)
    • GPT-4 (2023): 128.000 tokens (~96.000 palabras)
    • Claude (2025): 1.000.000 tokens (~750.000 palabras)
  • ¿Por qué importa?
    • Con más contexto, el modelo puede analizar documentos largos
    • Puede mantener conversaciones más largas
    • Puede procesar múltiples documentos a la vez
  • El costo de las APIs se cobra por token

Ventana de contexto

Embeddings y atención

Embeddings: palabras como vectores

  • Cada token se convierte en un vector (lista de números)
  • Estos vectores capturan significado semántico:
    • Palabras similares → vectores cercanos
    • “rey” - “hombre” + “mujer” ≈ “reina” (Mikolov et al., 2013; este ejemplo clásico es una simplificación, pero la idea general funciona)
  • GPT-2: cada token → 768 números
  • GPT-4: cada token → miles de números
  • Los embeddings se aprenden durante el entrenamiento
  • Aplicaciones prácticas:
    • Búsqueda semántica: buscar por significado, no por palabras exactas
    • Clasificación: agrupar textos similares
    • Recomendaciones: encontrar documentos relacionados

Palabras en un espacio vectorial

El mecanismo de atención

  • La atención es la innovación clave de los transformers
  • Para cada palabra, el modelo pregunta: “¿qué otras palabras son relevantes para entenderme?”
  • “El banco cerró porque la economía estaba en crisis”
    • “banco” presta atención a “economía” y “crisis” → banco financiero
  • “Me senté en el banco del parque”
    • “banco” presta atención a “senté” y “parque” → banco para sentarse
  • La misma palabra cambia de significado según el contexto
  • Esto es lo que los métodos del Día 3 (bag-of-words, TF-IDF) no podían hacer
  • La atención permite que el modelo entienda relaciones a larga distancia en el texto

Mapa de atención: qué palabras atienden a cuáles

Transformers: la arquitectura completa

  • Los transformers (Vaswani et al., 2017) combinan:
    1. Tokenización: texto → tokens
    2. Embeddings: tokens → vectores
    3. Autoatención: cada token “mira” a los demás
    4. Red feed-forward: procesa la información
    5. Predicción: el siguiente token más probable
  • Se apilan muchas capas (bloques) de atención + feed-forward
    • GPT-2: 12 bloques
    • GPT-3: 96 bloques
  • Las capas tempranas captan gramática
  • Las capas profundas captan significado y razonamiento
  • Recurso interactivo: Transformer Explainer

Arquitectura del transformer

Prompt engineering

¿Qué es prompt engineering?

  • Prompt engineering: el arte de escribir instrucciones efectivas para los LLMs
  • La calidad de la respuesta depende en gran medida de la calidad de la pregunta
  • No es solo “hacer preguntas”: es diseñar la entrada para obtener la salida deseada
  • Un buen prompt tiene cuatro componentes (PTCF):
    • Persona: ¿quién debería ser el modelo? (“Eres un analista político experto en América Latina”)
    • Tarea: ¿qué debe hacer? (“Clasifica el sentimiento de este texto”)
    • Contexto: ¿qué información adicional necesita?
    • Formato: ¿cómo debe estructurar la respuesta? (“Responde en formato JSON”)

Prompt engineering

Temperatura y creatividad

  • La temperatura controla la aleatoriedad de las respuestas
  • Temperatura baja (0-0,3): respuestas deterministas, siempre elige el token más probable
    • Bueno para: clasificación, extracción de datos, análisis
  • Temperatura alta (0,7-1,0): respuestas más creativas y variadas
    • Bueno para: escritura creativa, brainstorming
  • Para investigación, casi siempre queremos temperatura baja
    • Reproducibilidad
    • Consistencia entre ejecuciones
    • Menos alucinaciones

Efecto de la temperatura

Zero-shot, few-shot y chain-of-thought

Zero-shot: dar la instrucción sin ejemplos

Clasifica el sentimiento de este texto
como positivo, negativo o neutro:
"La economía ha crecido un 5%"

Few-shot: dar la instrucción con ejemplos

Clasifica el sentimiento:
- "La inflación es alta" → negativo
- "El empleo mejoró" → positivo
- "Los datos son de 2023" → neutro

Ahora clasifica:
"La pobreza ha disminuido" →

Chain-of-thought (CoT) (Wei et al., 2022): pedir razonamiento paso a paso

Clasifica el sentimiento y explica
tu razonamiento paso a paso:

Texto: "A pesar de la crisis, el
gobierno logró reducir la pobreza"

Razonamiento:
1. "crisis" sugiere algo negativo
2. "logró reducir la pobreza" es positivo
3. "a pesar de" indica que el resultado
   positivo supera al contexto negativo
4. Clasificación: POSITIVO

CoT mejora la precisión en tareas complejas al obligar al modelo a “pensar” antes de responder.

System prompts

  • El system prompt define el comportamiento del modelo para toda la conversación
  • Se envía antes de cualquier mensaje del usuario
  • Establece la personalidad, restricciones y formato
  • Ejemplo para investigación:
Eres un asistente de investigación
especializado en ciencias sociales
latinoamericanas.

Reglas:
- Responde siempre en español
- Cita fuentes académicas cuando sea posible
- Si no estás seguro, dilo explícitamente
- No inventes datos ni estadísticas
- Formato: respuestas concisas con viñetas
  • Los system prompts son clave para obtener resultados consistentes al usar LLMs como herramientas de investigación

System prompts en la práctica

Tipos de modelos

Encoder, Decoder, Encoder-Decoder

  • Los transformers tienen dos componentes principales:
    • Encoder: “lee” y comprende el texto de entrada
    • Decoder: “genera” texto de salida
  • Tres arquitecturas principales:
    • Solo encoder (BERT): para clasificación, NER, similaridad
    • Solo decoder (GPT, Claude, Llama): para generación de texto
    • Encoder-decoder (T5, BART): para traducción, resumen
  • ¿Por qué importa?
    • Los modelos de solo decoder (GPT, Claude) son los que usamos en chat
    • Los modelos de encoder (BERT) son mejores para obtener embeddings de documentos completos
Modelo Tipo Uso principal
BERT Encoder Clasificación, NER
RoBERTa Encoder Clasificación
GPT-4 Decoder Generación, chat
Claude Decoder Generación, chat
Llama Decoder Generación
T5 Enc-Dec Traducción
BART Enc-Dec Resumen


Para investigación social, usaremos principalmente modelos decoder (generativos).

BERT vs. GPT: dos filosofías

BERT (Devlin et al., 2019)

  • Bidireccional: ve el contexto antes Y después de cada palabra
  • Entrenamiento: Masked Language Model
    • “El [MASK] se sentó en la silla” → predice “gato”
  • Bueno para entender texto
  • Aplicaciones: clasificación, extracción de entidades, búsqueda semántica
  • No genera texto fluido

GPT (Radford et al., 2019)

  • Unidireccional: solo ve el contexto anterior (izquierda a derecha)
  • Entrenamiento: predecir siguiente token
    • “El gato se sentó en la” → “silla”
  • Bueno para generar texto
  • Aplicaciones: chat, escritura, código, razonamiento
  • La arquitectura detrás de ChatGPT, Claude, etc.


GPT y sus variantes dominan el mercado actual porque la generación de texto es más versátil.

Entrenamiento de LLMs

Pre-training: aprender el lenguaje

  • El pre-training es la fase donde el modelo aprende el lenguaje
  • Se entrena con cantidades masivas de texto:
    • Internet (Common Crawl): ~60% del texto
    • Libros digitalizados
    • Wikipedia
    • Código fuente (GitHub)
    • Papers científicos
  • GPT-3 se entrenó con ~300 mil millones de tokens
  • El modelo aprende:
    • Gramática y sintaxis
    • Hechos del mundo (con fecha de corte)
    • Patrones de razonamiento
    • Múltiples idiomas

Costo del pre-training:

Modelo Costo estimado
GPT-3 (2020) ~USD 4 millones
GPT-4 (2023) ~USD 100 millones
Llama 3 (2024) ~USD 30 millones


El pre-training requiere miles de GPUs durante semanas o meses.

Por eso solo las empresas grandes pueden entrenar modelos desde cero.

Nosotros usamos modelos pre-entrenados.

Fine-tuning: especializar el modelo

  • El fine-tuning ajusta un modelo pre-entrenado para una tarea específica
  • Mucho más barato que pre-training:
    • Menos datos necesarios
    • Menos tiempo de entrenamiento
    • Se puede hacer con una sola GPU
  • Tipos de fine-tuning:
    • Supervised fine-tuning: con ejemplos etiquetados
    • RLHF: con feedback humano (lo que hace a ChatGPT “amable”)
    • LoRA: ajuste eficiente de parámetros
  • Alternativa: prompt engineering
    • No requiere entrenamiento
    • Usamos el modelo tal cual, con instrucciones bien diseñadas

Ejemplo de fine-tuning:

Modelo base: Llama 3

Fine-tuning para clasificación:
- 1000 textos etiquetados
- 2 horas de entrenamiento
- 1 GPU

Resultado: modelo especializado
en clasificar textos políticos
latinoamericanos


En este curso usaremos prompt engineering, no fine-tuning. Es más accesible y suficiente para la mayoría de tareas.

El ecosistema actual

Modelos comerciales vs. abiertos

Modelo Empresa Tipo Contexto Costo
GPT-4o OpenAI Cerrado 128K tokens ~USD 5/M tokens
GPT-4o-mini OpenAI Cerrado 128K tokens ~USD 0.15/M tokens
Claude 3.5 Opus Anthropic Cerrado 200K tokens ~USD 15/M tokens
Claude 3.5 Sonnet Anthropic Cerrado 200K tokens ~USD 3/M tokens
Gemini 1.5 Pro Google Cerrado 1M tokens ~USD 3.5/M tokens
Llama 3.1 405B Meta Abierto 128K tokens Gratis (hosting propio)
Mistral Large Mistral Abierto 32K tokens Gratis (hosting propio)


  • Cerrado: acceso solo por API, no se puede ver el código
  • Abierto: pesos disponibles, se puede ejecutar localmente con Ollama

Modelos multimodales

  • Los LLMs modernos son multimodales: procesan más que solo texto
  • GPT-4V, Claude 3, Gemini: texto + imágenes
  • Pueden:
    • Describir imágenes
    • Extraer texto de documentos (OCR)
    • Analizar gráficos y tablas
    • Comparar múltiples imágenes
  • Aplicaciones en investigación:
    • Digitalizar archivos históricos
    • Analizar propaganda visual
    • Extraer datos de PDFs complejos
    • Codificar imágenes de redes sociales

Ejemplo de prompt multimodal:

[Imagen de un afiche político]

User: Describe este afiche de
campaña. ¿Qué partido representa?
¿Qué mensaje transmite?
¿Qué colores y símbolos usa?

Claude: El afiche muestra...
[análisis detallado]


Los modelos multimodales abren nuevas posibilidades para el análisis de contenido visual.

Elegir el modelo adecuado

Para tareas simples:

  • Clasificación básica
  • Resumen de textos cortos
  • Extracción de entidades

gpt-4o-mini o Claude 3.5 Haiku

  • Rápido y muy barato
  • Suficiente precisión para la mayoría de tareas

Para tareas complejas:

  • Razonamiento multi-paso
  • Análisis de documentos largos
  • Tareas que requieren matices

GPT-4o o Claude 3.5 Sonnet

  • Más caro pero más capaz
  • Menos alucinaciones
  • Mejor comprensión del contexto


Regla general: empezar con el modelo más barato y escalar si es necesario.

Resumen de la sesión

Conceptos clave:

  • LLM: predice el siguiente token a gran escala
  • BPE: tokenización por subpalabras
  • Embeddings: palabras como vectores semánticos
  • Atención: entender qué palabras son relevantes para cada contexto
  • Transformers: arquitectura que combina todo

Tipos de modelos:

  • Encoder (BERT): para entender
  • Decoder (GPT, Claude): para generar
  • Pre-training: aprender el lenguaje general
  • Fine-tuning: especializar para una tarea
  • Multimodales: texto + imágenes


En la próxima sesión veremos cómo usar estos modelos de forma práctica: prompt engineering, RAG, y aplicaciones para investigación.

Próximos pasos

  • Sesión 4.2: LLMs como herramientas de investigación
    • Prompt engineering en profundidad
    • Alucinaciones y cómo mitigarlas
    • RAG (Retrieval-Augmented Generation)
    • Aplicaciones prácticas
  • Laboratorios (4.3 y 4.4):
    • Configurar y usar ellmer desde R
    • Clasificación de textos con LLMs
    • Análisis de sentimiento estructurado
    • Auditoría de sesgos

Nos vemos en la próxima sesión.

Nos vemos en la sesión de aplicaciones