IA para Científicos Sociales

Sesión 1.1: ¿Qué es la Inteligencia Artificial?

Danilo Freire

danilofreire@gmail.com

Departament of Data and Decision Sciences
Emory University

Bienvenidos! 🥳

Agenda de la sesión

¿Qué veremos hoy?

Bienvenida y presentaciones
- Quiénes somos, materiales del curso, filosofía de trabajo
¿Qué es la IA?
- Definición, tipos (estrecha, general, superinteligente), mitos comunes, taxonomía
Historia de la IA
- De Turing y Dartmouth a ChatGPT
Tipos de aprendizaje automático
- Supervisado, no supervisado, por refuerzo
Ética y regulación
- Sesgos, alucinaciones, legislación actual

Materiales del curso

Enlaces importantes

Repositorio del curso: https://github.com/danilofreire/introduccion-ia-ucu

Sitio web del curso: https://danilofreire.github.io/introduccion-ia-ucu

Todos los materiales del curso (diapositivas, código, laboratorios y lecturas) están disponibles en nuestro repositorio de GitHub y sitio web

Las diapositivas se publicarán antes de cada sesión y se actualizarán a lo largo de la semana si surgen nuevas ideas o preguntas 😉

Nota

Revisen el repositorio del curso con frecuencia para ver actualizaciones y nuevos materiales!

Sobre el docente

Un poco sobre mí

Danilo Freire

danilofreire@gmail.com

https://danilofreire.github.io/

https://github.com/danilofreire/

Professor Assistente en el Department of Data and Decision Sciences, Emory University

MA del Graduate Institute Geneva, PhD de King’s College London, Postdoc en Brown University, Senior Lecturer en la University of Lincoln, UK

Investigación: ciencias sociales computacionales, métodos experimentales, evaluación de políticas públicas, violencia política

Sobre ustedes

Ahora les toca a ustedes! 😊
Por favor, preséntense brevemente
Cuéntennos su nombre, su área de trabajo y qué les gustaría aprender en este curso

Estructura del curso

Cinco días, 20 horas

Día	Tema	Sesiones	Laboratorios
1	Fundamentos de IA y ML	¿Qué es la IA? + Flujo de ML	tidymodels + comparación de modelos
2	Aprendizaje supervisado	Clasificación + Predicción	clasificación + regresión
3	Texto y no supervisado	Clustering/PCA + Texto	clustering + análisis de texto
4	LLMs y aplicaciones	Transformers + APIs	ellmer + aplicaciones avanzadas
5	Ética y cierre	Sesgo/regulación + Propuestas	auditoría de sesgo

Objetivos de aprendizaje

Al finalizar este curso, serán capaces de:

Explicar cómo funcionan los sistemas de IA actuales
Identificar fallos comunes y problemas de datos
Evaluar afirmaciones sobre IA en noticias y políticas públicas
Diseñar un plan realista para una aplicación de IA
Reflexionar sobre las cuestiones éticas y sociales de la IA

¿Qué es la Inteligencia Artificial?

Definición de IA

Una definición sencilla: la Inteligencia Artificial (IA) es una rama de la informática centrada en crear sistemas capaces de realizar tareas que normalmente requieren inteligencia humana
Estas tareas incluyen aprender, razonar, resolver problemas, percibir, entender el lenguaje y muchas más
La IA se puede clasificar en tres categorías principales:
- IA estrecha (narrow): diseñada para tareas específicas (asistentes virtuales, sistemas de recomendación)
- IA general: sistemas hipotéticos con inteligencia similar a la humana en una amplia gama de tareas
- IA superinteligente: superaría la inteligencia humana en todos los aspectos (hipotética; no existe ni está claro que sea posible)
Técnicas comunes de IA: aprendizaje automático (ML), aprendizaje profundo (un subconjunto de ML que usa redes neuronales) y procesamiento del lenguaje natural (NLP, un área de aplicación)

¿Qué NO es la IA?

Mitos y concepciones erróneas

Mitos comunes:

La IA “piensa” como los humanos
- No. Procesa patrones estadísticos, no tiene conciencia ni comprensión real
La IA es objetiva e imparcial
- No. Refleja los sesgos de los datos con los que fue entrenada
La IA va a reemplazar todos los trabajos
- Parcialmente. Transforma trabajos más de lo que los elimina por completo
La IA es infalible
- No. Comete errores, a veces con mucha confianza

Lo que la IA realmente es:

Una herramienta poderosa para tareas específicas
Un sistema que encuentra patrones en grandes cantidades de datos
Una tecnología que requiere supervisión humana
Un campo en rápida evolución con limitaciones reales

Entender qué NO es la IA es tan importante como entender qué es.

Taxonomía de la IA

Fuente: McKinsey & Company (2024)

IA en América Latina

La región produce y adapta IA, no solo la consume
Agricultura: predicción de cosechas, monitoreo de deforestación
Fintech: detección de fraude (MercadoLibre, Nubank)
Salud: triaje automático en hospitales públicos
Justicia: clasificación de procesos (Uruguay, Brasil)
Logística: optimización de rutas (Rappi)
Desafíos:
- Pocos datos en español/portugués
- Brecha digital urbano-rural
- Infraestructura desigual
- Dependencia de cloud extranjero
¿Quién diseñará la IA para la región?

Benchmarks de IA y desempeño humano

Fuente: Artificial Intelligence Index Report (2025)

El estado actual de la IA (2025)

Lo que la IA ya hace bien:

Generación de texto: redacción, resumen, traducción, código
Análisis de imágenes: diagnóstico médico, reconocimiento facial
Predicción: demanda, riesgo crediticio, mantenimiento preventivo
Automatización: atención al cliente, clasificación de documentos

Lo que todavía le cuesta:

Razonamiento causal: entender por qué, no solo correlaciones
Sentido común: cosas obvias para humanos pero difíciles para máquinas
Explicabilidad: justificar sus decisiones de forma comprensible

Tendencias actuales:

Modelos cada vez más grandes (pero con rendimientos decrecientes)
Énfasis en eficiencia (modelos más pequeños y rápidos)
Multimodalidad: texto + imagen + audio + video
Agentes: sistemas que pueden realizar tareas complejas de forma autónoma
IA abierta vs. cerrada: debate sobre transparencia y acceso

Estamos en un momento de experimentación activa: nadie sabe exactamente a dónde va esto!

Breve historia de la IA

Mitos antiguos y calculadoras mecánicas

Los seres humanos siempre han soñado con crear vida artificial
Mitos antiguos con seres mecánicos:
- Talos (griego): gigante de bronce que protegía Creta
- Golem (folclore judío): figura de arcilla que cobra vida
- Frankenstein (1818): la novela de Mary Shelley
Calculadoras mecánicas:
- 1642: Blaise Pascal construye la Pascalina
- 1837: Charles Babbage diseña la Máquina Analítica; Ada Lovelace escribe lo que muchos consideran el primer programa informático
El cálculo podía separarse de la mente humana

Fuente: Wikipedia - Talos

Alan Turing y los fundamentos

1936: Alan Turing publica “On Computable Numbers”, donde introduce el concepto de máquina universal
1950: publica “Computing Machinery and Intelligence” en la revista Mind
- Propone el famoso Test de Turing: ¿puede una máquina engañar a un humano haciéndole creer que es humana?
- Pregunta: “¿Pueden pensar las máquinas?” y la reformula como una pregunta práctica
Las ideas de Turing sentaron las bases teóricas tanto de la computación como de la IA
Sugirió que las máquinas podían aprender, no solo seguir reglas fijas

Fuente: Wikipedia - Test de Turing

La Conferencia de Dartmouth (1956)

Verano de 1956: un taller en Dartmouth College marca el nacimiento de la IA como campo de estudio
Organizado por John McCarthy, Marvin Minsky, Nathaniel Rochester y Claude Shannon
Primera vez que se usa el término “Inteligencia Artificial”
La conjetura fundacional:

“Todo aspecto del aprendizaje o cualquier otra característica de la inteligencia puede, en principio, describirse con tal precisión que una máquina puede simularla.”

El optimismo era alto: muchos creían que la IA a nivel humano estaba a pocas décadas

Los participantes del taller de Dartmouth

Fuente: IEEE Spectrum

IA simbólica y sistemas expertos

IA simbólica, 1956-1980s

Inteligencia = manipular símbolos según reglas (la “IA clásica”)
Programar las reglas formales del comportamiento inteligente
Primeros éxitos: ELIZA (terapeuta), SHRDLU (mundo de bloques)
Prueben ELIZA: https://anthay.github.io/eliza.html
Predicciones audaces pero excesivamente optimistas

Sistemas expertos, 1970s-1980s

Cambio hacia dominios especializados con conocimiento experto
Codificar la experiencia humana como reglas si-entonces (if x then y else z)
Ejemplos: MYCIN (infecciones), DENDRAL (análisis químico)
Ambos enfoques dependían del conocimiento codificado a mano, no del aprendizaje a partir de datos
Ninguno podía aprender o mejorar automáticamente

Los inviernos de la IA

Primer invierno (1974-1980)

Explosión combinatoria, poder computacional limitado, fragilidad
El financiamiento colapsó, los investigadores abandonaron el campo
Lección: la IA es más difícil de lo que los pioneros pensaban

Segundo invierno (1987-1993)

Sistemas costosos de mantener, cuello de botella del conocimiento, no podían aprender
Las computadoras de escritorio hicieron obsoleto el hardware especializado
El mercado colapsó en 1987 y “IA” se convirtió en una mala palabra

El patrón

Grandes promesas atraen financiamiento
Los éxitos iniciales generan entusiasmo
Las limitaciones se hacen evidentes a escala
El financiamiento se seca, los investigadores se van
La investigación silenciosa continúa, preparando el terreno…

¿Les resulta familiar este patrón?

¿Será que esta vez es diferente?

El renacer: datos + GPUs + algoritmos

2009: Halevy, Norvig y Pereira publican “The Unreasonable Effectiveness of Data”
Modelos simples con muchos datos superan a modelos complejos con pocos datos
2012: AlexNet (Krizhevsky, Sutskever y Hinton) gana ImageNet por un margen enorme
- Tasa de error top-5: 15,3% (el siguiente mejor: 26,2%)
- Usó redes neuronales profundas entrenadas en GPUs
Datos, poder computacional y mejores algoritmos convergieron al mismo tiempo
Ninguno de ellos solo era suficiente, pero los tres juntos cambiaron el campo

Fuente: Google Research

Transformers (vista de alto nivel)

2017: investigadores de Google publican “Attention Is All You Need” (Vaswani et al.)
Introducen el mecanismo de autoatención
En lugar de procesar secuencialmente:
- Cada palabra puede “mirar” todas las demás palabras directamente
- Calcula puntuaciones de relevancia entre todos los pares
- Procesamiento en paralelo: mucho más rápido de entrenar
Esta arquitectura alimenta GPT, BERT y prácticamente toda la IA moderna
Veremos los transformers en detalle en el Día 4

Fuente: Vaswani et al. (2017)

De GPT a ChatGPT

Modelo	Año	Parámetros	Referencia
GPT-1	2018	117M	Radford et al. (2018)
BERT	2018	340M	Devlin et al. (2018)
GPT-2	2019	1,5B	Radford et al. (2019)
GPT-3	2020	175B	Brown et al. (2020)
GPT-4	2023	No divulgado	OpenAI (2023)

ChatGPT (nov. 2022) no fue simplemente un modelo más grande
Tres innovaciones: ajuste de instrucciones, RLHF (aprendizaje por refuerzo con retroalimentación humana) y entrenamiento de seguridad
100 millones de usuarios en 2 meses (Reuters, 2023)

Fuente: Voronoi

IA multimodal

La IA moderna no se limita solo al texto
Los modelos multimodales pueden procesar:
- Texto e imágenes (DALL-E, Midjourney)
- Texto y audio (Whisper, ElevenLabs)
- Texto y video (Sora, Runway)
- Texto y código (Codex, Copilot)
Misma arquitectura de transformers, diferentes entradas y salidas
Las fronteras entre modalidades se están difuminando

Fuente: Tarun Sharma

Capacidades emergentes

A medida que los modelos crecen, aparecen capacidades que no fueron entrenadas explícitamente
Ejemplos de capacidades emergentes:
- Razonamiento matemático: resolver problemas paso a paso
- Traducción zero-shot: traducir entre idiomas que nunca vio juntos
- Programación: escribir código funcional en múltiples lenguajes
- Seguimiento de instrucciones: entender y ejecutar indicaciones complejas
Nadie diseñó estas capacidades: emergieron del entrenamiento a escala
Esto genera tanto entusiasmo como preocupación: no siempre sabemos qué puede hacer un modelo hasta que lo probamos

¿Por qué ocurre esto?

Los modelos grandes ven tantos ejemplos durante el entrenamiento que internalizan patrones abstractos sin que nadie se los enseñe explícitamente.

Implicancia para investigadores:

No podemos predecir exactamente qué hará un modelo nuevo
La evaluación post-hoc es necesaria
Nuevas capacidades pueden aparecer (o desaparecer) con cambios de escala

Es un área de investigación activa: ¿cómo predecir y controlar capacidades emergentes?

Tipos de aprendizaje automático

Aprendizaje supervisado

El modelo aprende de ejemplos etiquetados
Tenemos datos de entrada (features) y la respuesta correcta (label)
Dos tipos principales:
Clasificación: predecir una categoría
- ¿Este correo es spam o no?
- ¿Este tumor es benigno o maligno?
Regresión: predecir un número continuo
- ¿Cuál será el precio de esta vivienda?
- ¿Cuántos productos venderemos el próximo mes?
Es el tipo de aprendizaje más usado en la práctica
Lo veremos en detalle en el Día 2

Ejemplo: clasificación de spam

Entrada: "¡Ganaste un premio! Haz clic aquí"
Etiqueta: SPAM ❌

Entrada: "Reunión de equipo mañana a las 10"
Etiqueta: NO SPAM ✅

El modelo aprende patrones:
  - palabras como "premio", "gratis" → spam
  - palabras como "reunión", "equipo" → no spam

Ejemplo: regresión

Entrada: casa con 3 habitaciones, 120 m²
Salida: USD 250.000

El modelo aprende la relación entre
características y precio.

Aprendizaje no supervisado

El modelo busca patrones sin etiquetas
No hay respuestas “correctas”: el modelo descubre la estructura por sí mismo
Técnicas principales:
Clustering: agrupar elementos similares
- Segmentación de clientes
- Agrupación de noticias por tema
Reducción de dimensionalidad (PCA): simplificar datos con muchas variables
- Visualizar datos de alta dimensión en 2D/3D
- Identificar las variables más informativas
Útil cuando no sabemos qué estamos buscando
Lo veremos en el Día 3

Ejemplo: segmentación de clientes

El modelo recibe datos de compras
de miles de clientes y descubre
grupos por sí mismo:

Grupo A: compras frecuentes, bajo valor
Grupo B: compras ocasionales, alto valor
Grupo C: nuevos clientes, sin patrón claro

Nadie le dijo que estos grupos existían;
el algoritmo los encontró solo.

Aprendizaje por refuerzo

El modelo aprende por ensayo y error
Un agente interactúa con un entorno y recibe recompensas o penalizaciones
El objetivo: maximizar la recompensa acumulada a lo largo del tiempo
Ejemplos:
- AlphaGo (DeepMind): venció al campeón mundial de Go en 2016
- Robots que aprenden a caminar cayéndose miles de veces
- RLHF en ChatGPT: humanos califican respuestas, el modelo aprende qué es “útil”
No necesita ejemplos etiquetados: aprende de la experiencia
Seramos más específicos sobre RLHF en el Día 4

El ciclo del aprendizaje por refuerzo

El agente aprende qué acciones llevan a mejores resultados.

Ética básica de la IA

Sesgo algorítmico

Los modelos de IA pueden amplificar los sesgos presentes en los datos de entrenamiento
Ejemplo real (Buolamwini y Gebru, 2018):
- Tasas de error en reconocimiento facial comercial:
- Hombres de piel clara: 0,8% de error
- Mujeres de piel oscura: 34,7% de error
- Un rendimiento 43 veces peor para un grupo
El modelo “funciona” en general, pero falla para poblaciones específicas
Incluso eliminando variables sensibles (raza, género), los sesgos persisten porque se correlacionan con otras variables
Siempre evaluar los modelos por subgrupos, no solo en promedio

Disparidades en el rendimiento por subgrupos

Fuente: Joy Buolamwini / Medium

Alucinaciones

Alucinación: la IA genera contenido fluido pero factualmente incorrecto o inventado
Formas comunes:
- Citas fabricadas: inventar papers que no existen
- Estadísticas falsas: “el 73% de los científicos coinciden…”
- Datos biográficos incorrectos: fechas, eventos, logros equivocados
Caso real (2023): dos abogados presentaron un escrito legal citando seis casos judiciales inexistentes generados por ChatGPT. Fueron sancionados por el tribunal
¿Por qué ocurre? Porque los modelos están entrenados para predecir texto probable, no texto verdadero:

\[P(\text{siguiente palabra} | \text{contexto}) \neq P(\text{afirmación verdadera})\]

Preguntas para la discusión:

¿Cómo verificarían si la respuesta de una IA es correcta?

¿Consultar fuentes primarias?
¿Preguntarle a otra IA?
¿Confiar en la intuición?
¿Confiar en la reputación de la empresa?

La IA es una herramienta, no un oráculo.

Siempre mantengan el pensamiento crítico.

Actividad: verdadero o falso

Verdadero o falso

Un modelo con 95% de accuracy siempre es mejor que uno con 80%
- Falso. Con clases desbalanceadas, predecir siempre la clase mayoritaria da 95% sin aprender nada
Los LLMs “entienden” el significado de las palabras como los humanos
- Falso. Procesan patrones estadísticos de co-ocurrencia, sin comprensión real
Si un modelo funciona bien en el conjunto de entrenamiento, funcionará bien en datos nuevos
- Falso. Eso es sobreajuste: memoriza sin generalizar

El código postal puede ser una variable discriminatoria aunque no incluya raza
- Verdadero. El código postal es proxy de raza por la segregación residencial histórica
BERT y GPT usan la misma arquitectura transformer pero para tareas diferentes
- Verdadero. BERT es encoder (comprensión), GPT es decoder (generación)
La validación cruzada sirve para elegir hiperparámetros sin “contaminar” el test set
- Verdadero. Evalúa configuraciones solo con datos de entrenamiento, reservando el test set

Recurso interactivo

Exploren los transformers ustedes mismos

Transformer Explainer de Georgia Tech
Visualización interactiva de cómo funcionan los transformers
Vean los patrones de atención en tiempo real
Experimenten con la temperatura y el muestreo
Ejecuta GPT-2 directamente en su navegador

https://poloclub.github.io/transformer-explainer

Resumen de la sesión

IA: sistemas que realizan tareas que requieren inteligencia humana
Historia: ciclos de entusiasmo y decepción, cada uno con avances reales
Tres tipos de ML: supervisado, no supervisado y por refuerzo
Problemas reales: sesgo, alucinaciones, regulación incompleta
América Latina: desafíos de datos e infraestructura, pero aplicaciones concretas en fintech, salud y agricultura

Próximo: Fundamentos de Machine Learning

En la próxima sesión, vamos a profundizar en los fundamentos del aprendizaje automático
Veremos:
- El flujo de trabajo completo de ML
- División train/test y validación cruzada
- Sobreajuste y el compromiso sesgo-varianza
- Métricas de evaluación (precisión, recall, matrices de confusión)
Y cerraremos con un laboratorio práctico en R con tidymodels
Nos vemos después del descanso

Nos vemos en la próxima sesión! 🤓