Programa del curso
Descripción general
Este curso introduce a estudiantes de ciencias sociales en los fundamentos de la Inteligencia Artificial y el Machine Learning usando R. Se cubren conceptos básicos, aprendizaje supervisado y no supervisado, análisis de texto y modelos de lenguaje extensos (LLMs). El enfoque es aplicado, priorizando la intuición y el uso de herramientas computacionales sobre la teoría matemática.
Objetivos
Al finalizar el curso, los estudiantes podrán:
- Comprender los conceptos fundamentales de IA, Machine Learning y Deep Learning
- Aplicar algoritmos de clasificación y regresión para resolver problemas de investigación social
- Implementar técnicas de aprendizaje no supervisado y análisis computacional de texto
- Evaluar críticamente las capacidades y limitaciones de los LLMs como herramientas de investigación
- Analizar las implicancias éticas, sesgos y desafíos de equidad en el uso de sistemas de IA
Público objetivo
Estudiantes de grado y posgrado de ciencias sociales con conocimientos básicos de métodos de investigación y manejo intermedio de R. No se requiere conocimiento previo de Python ni de matemáticas avanzadas.
Modalidad
Presencial. El curso se dicta en un formato intensivo de 20 horas totales (5 días, 4 horas por día). Cada jornada se divide en dos sesiones de 2 horas que combinan exposición teórica con laboratorios prácticos en R, donde los estudiantes aplican los métodos discutidos a datos reales.
Contenido por día
Día 1: Fundamentos de IA y Machine Learning
Sesión 1.1: ¿Qué es la Inteligencia Artificial?
- Definición de IA, historia (de la IA simbólica al deep learning)
- Tipos de aprendizaje: supervisado, no supervisado, refuerzo
- Ética básica y contexto actual
Sesión 1.2: Fundamentos de Machine Learning
- Flujo de trabajo: datos, entrenamiento, evaluación
- División de datos (train/test)
- Compromiso sesgo-varianza y métricas de evaluación
Laboratorio 1: Primer flujo de trabajo con tidymodels
- Configuración de RStudio y primer flujo de trabajo con
tidymodels
Laboratorio 2: Exploración avanzada y comparación de modelos
- Feature engineering, comparación de modelos (logística, árboles, KNN)
Día 2: Aprendizaje supervisado
Sesión 2.1: Métodos de clasificación
- Regresión logística, árboles de decisión y Random Forests
- Aplicaciones: predicción de comportamiento político y social
Sesión 2.2: Regresión y predicción
- Predicción vs. explicación en ciencias sociales
- Regularización: LASSO, Ridge, Elastic Net
- Ingeniería de variables para datos sociales
Laboratorio 3: Clasificación avanzada con Latinobarómetro
- Random Forest con tuning de hiperparámetros, XGBoost
- Interpretación con VIP y Partial Dependence Plots
Laboratorio 4: Regresión y regularización
- Regresión lineal, LASSO, Ridge y Elastic Net con
glmnet - Comparación de modelos de regresión y selección de variables
Día 3: Texto y aprendizaje no supervisado
Sesión 3.1: Clustering y reducción de dimensionalidad (versión express)
- K-means y PCA: conceptos e intuición
- Laboratorio breve: segmentación de países latinoamericanos por indicadores socioeconómicos
Sesión 3.2: Análisis computacional de texto
- Preprocesamiento, tokenización, Bag-of-words, TF-IDF
- Análisis de sentimiento
- Topic Modeling (LDA)
- Laboratorio: extracción de tópicos en discursos políticos con
tidytextytopicmodels
Día 4: Modelos de lenguaje extensos (LLMs) y aplicaciones
Sesión 4.1: Entendiendo los LLMs
- Arquitectura Transformer: la intuición detrás de la atención
- Capacidades de GPT-4 y Claude
- Ingeniería de prompts: zero-shot, few-shot, chain-of-thought
Sesión 4.2: LLMs como herramientas de investigación
- Anotación automática de textos
- Generación de datos sintéticos
- Uso de APIs desde R
- Laboratorio: interacción con LLMs usando
ellmery auditoría de sesgos
Día 5: Ética, sesgo algorítmico y cierre
Sesión 5.1: Ética y sesgo algorítmico
- Tipos de sesgo y cómo surgen
- Métricas de equidad
- Regulación: EU AI Act, legislación latinoamericana, Ley 18.331 (Uruguay)
Sesión 5.2: Mini-propuestas de investigación
- Integración de IA en el flujo de investigación
- Taller: cada estudiante diseña una mini-propuesta aplicando una técnica del curso a una pregunta de ciencias sociales relevante para América Latina
- Presentaciones breves (5 minutos) y discusión
Software necesario
Los estudiantes deben tener instalado antes del inicio del curso:
- R (versión 4.3 o superior)
- RStudio (versión 2022.07 o superior, que ya incluye Quarto)
- Paquetes de R:
tidyverse,tidymodels,ranger,glmnet,tidytext,topicmodels,ellmer
Instrucciones de instalación
Paso 1: Instalar R desde https://cran.r-project.org/. Elijan la versión correspondiente a su sistema operativo (Windows, macOS o Linux) y sigan las instrucciones del instalador.
Paso 2: Instalar RStudio desde https://posit.co/download/rstudio-desktop/. RStudio es el entorno de desarrollo que usaremos en el curso. Las versiones recientes ya incluyen Quarto, que necesitaremos para los laboratorios.
Paso 3: Abrir RStudio y ejecutar el siguiente código en la consola para instalar todos los paquetes necesarios:
install.packages(c(
"tidyverse", "tidymodels",
"ranger", "glmnet", "kknn", "rpart", "vip", "pdp",
"tidytext", "topicmodels", "textrecipes",
"ellmer", "httr2"
))La instalación puede tomar unos minutos. Si aparecen errores, asegurarse de tener una conexión a internet estable y de estar usando una versión reciente de R (4.3 o superior).
Paso 4: Para verificar que todo funciona, ejecutar:
library(tidyverse)
library(tidymodels)
cat("Todo listo para el curso!")Si ambos paquetes se cargan sin errores, la instalación fue exitosa.