Sesión 4.1: Entendiendo los LLMs
Hoy: cómo funcionan los LLMs
Los LLMs cambian la forma en que trabajamos con texto:
Pero: ¿cómo funcionan por dentro?
Primera parte
Segunda parte
Fuente: Jay Alammar
Fuente: Hugging Face NLP Course
Zero-shot: dar la instrucción sin ejemplos
Clasifica el sentimiento de este texto
como positivo, negativo o neutro:
"La economía ha crecido un 5%"
Few-shot: dar la instrucción con ejemplos
Clasifica el sentimiento:
- "La inflación es alta" → negativo
- "El empleo mejoró" → positivo
- "Los datos son de 2023" → neutro
Ahora clasifica:
"La pobreza ha disminuido" →
Chain-of-thought (CoT) (Wei et al., 2022): pedir razonamiento paso a paso
Clasifica el sentimiento y explica
tu razonamiento paso a paso:
Texto: "A pesar de la crisis, el
gobierno logró reducir la pobreza"
Razonamiento:
1. "crisis" sugiere algo negativo
2. "logró reducir la pobreza" es positivo
3. "a pesar de" indica que el resultado
positivo supera al contexto negativo
4. Clasificación: POSITIVO
CoT mejora la precisión en tareas complejas al obligar al modelo a “pensar” antes de responder.
Eres un asistente de investigación
especializado en ciencias sociales
latinoamericanas.
Reglas:
- Responde siempre en español
- Cita fuentes académicas cuando sea posible
- Si no estás seguro, dilo explícitamente
- No inventes datos ni estadísticas
- Formato: respuestas concisas con viñetas
| Modelo | Tipo | Uso principal |
|---|---|---|
| BERT | Encoder | Clasificación, NER |
| RoBERTa | Encoder | Clasificación |
| GPT-4 | Decoder | Generación, chat |
| Claude | Decoder | Generación, chat |
| Llama | Decoder | Generación |
| T5 | Enc-Dec | Traducción |
| BART | Enc-Dec | Resumen |
Para investigación social, usaremos principalmente modelos decoder (generativos).
BERT (Devlin et al., 2019)
GPT (Radford et al., 2019)
GPT y sus variantes dominan el mercado actual porque la generación de texto es más versátil.
Costo del pre-training:
| Modelo | Costo estimado |
|---|---|
| GPT-3 (2020) | ~USD 4 millones |
| GPT-4 (2023) | ~USD 100 millones |
| Llama 3 (2024) | ~USD 30 millones |
El pre-training requiere miles de GPUs durante semanas o meses.
Por eso solo las empresas grandes pueden entrenar modelos desde cero.
Nosotros usamos modelos pre-entrenados.
Ejemplo de fine-tuning:
Modelo base: Llama 3
Fine-tuning para clasificación:
- 1000 textos etiquetados
- 2 horas de entrenamiento
- 1 GPU
Resultado: modelo especializado
en clasificar textos políticos
latinoamericanos
En este curso usaremos prompt engineering, no fine-tuning. Es más accesible y suficiente para la mayoría de tareas.
| Modelo | Empresa | Tipo | Contexto | Costo |
|---|---|---|---|---|
| GPT-4o | OpenAI | Cerrado | 128K tokens | ~USD 5/M tokens |
| GPT-4o-mini | OpenAI | Cerrado | 128K tokens | ~USD 0.15/M tokens |
| Claude 3.5 Opus | Anthropic | Cerrado | 200K tokens | ~USD 15/M tokens |
| Claude 3.5 Sonnet | Anthropic | Cerrado | 200K tokens | ~USD 3/M tokens |
| Gemini 1.5 Pro | Cerrado | 1M tokens | ~USD 3.5/M tokens | |
| Llama 3.1 405B | Meta | Abierto | 128K tokens | Gratis (hosting propio) |
| Mistral Large | Mistral | Abierto | 32K tokens | Gratis (hosting propio) |
Ejemplo de prompt multimodal:
[Imagen de un afiche político]
User: Describe este afiche de
campaña. ¿Qué partido representa?
¿Qué mensaje transmite?
¿Qué colores y símbolos usa?
Claude: El afiche muestra...
[análisis detallado]
Los modelos multimodales abren nuevas posibilidades para el análisis de contenido visual.
Para tareas simples:
→ gpt-4o-mini o Claude 3.5 Haiku
Para tareas complejas:
→ GPT-4o o Claude 3.5 Sonnet
Regla general: empezar con el modelo más barato y escalar si es necesario.
Conceptos clave:
Tipos de modelos:
En la próxima sesión veremos cómo usar estos modelos de forma práctica: prompt engineering, RAG, y aplicaciones para investigación.
Nos vemos en la próxima sesión.