Programa del curso

Descripción general

Este curso introduce a estudiantes de ciencias sociales en los fundamentos de la Inteligencia Artificial y el Machine Learning usando R. Se cubren conceptos básicos, aprendizaje supervisado y no supervisado, análisis de texto y modelos de lenguaje extensos (LLMs). El enfoque es aplicado, priorizando la intuición y el uso de herramientas computacionales sobre la teoría matemática.

Objetivos

Al finalizar el curso, los estudiantes podrán:

Comprender los conceptos fundamentales de IA, Machine Learning y Deep Learning
Aplicar algoritmos de clasificación y regresión para resolver problemas de investigación social
Implementar técnicas de aprendizaje no supervisado y análisis computacional de texto
Evaluar críticamente las capacidades y limitaciones de los LLMs como herramientas de investigación
Analizar las implicancias éticas, sesgos y desafíos de equidad en el uso de sistemas de IA

Público objetivo

Estudiantes de grado y posgrado de ciencias sociales con conocimientos básicos de métodos de investigación y manejo intermedio de R. No se requiere conocimiento previo de Python ni de matemáticas avanzadas.

Modalidad

Presencial. El curso se dicta en un formato intensivo de 20 horas totales (5 días, 4 horas por día). Cada jornada se divide en dos sesiones de 2 horas que combinan exposición teórica con laboratorios prácticos en R, donde los estudiantes aplican los métodos discutidos a datos reales.

Contenido por día

Día 1: Fundamentos de IA y Machine Learning

Sesión 1.1: ¿Qué es la Inteligencia Artificial?

Definición de IA, historia (de la IA simbólica al deep learning)
Tipos de aprendizaje: supervisado, no supervisado, refuerzo
Ética básica y contexto actual

Sesión 1.2: Fundamentos de Machine Learning

Flujo de trabajo: datos, entrenamiento, evaluación
División de datos (train/test)
Compromiso sesgo-varianza y métricas de evaluación

Laboratorio 1: Primer flujo de trabajo con tidymodels

Configuración de RStudio y primer flujo de trabajo con tidymodels

Laboratorio 2: Exploración avanzada y comparación de modelos

Feature engineering, comparación de modelos (logística, árboles, KNN)

Día 2: Aprendizaje supervisado

Sesión 2.1: Métodos de clasificación

Regresión logística, árboles de decisión y Random Forests
Aplicaciones: predicción de comportamiento político y social

Sesión 2.2: Regresión y predicción

Predicción vs. explicación en ciencias sociales
Regularización: LASSO, Ridge, Elastic Net
Ingeniería de variables para datos sociales

Laboratorio 3: Clasificación avanzada con Latinobarómetro

Random Forest con tuning de hiperparámetros, XGBoost
Interpretación con VIP y Partial Dependence Plots

Laboratorio 4: Regresión y regularización

Regresión lineal, LASSO, Ridge y Elastic Net con glmnet
Comparación de modelos de regresión y selección de variables

Día 3: Texto y aprendizaje no supervisado

Sesión 3.1: Clustering y reducción de dimensionalidad (versión express)

K-means y PCA: conceptos e intuición
Laboratorio breve: segmentación de países latinoamericanos por indicadores socioeconómicos

Sesión 3.2: Análisis computacional de texto

Preprocesamiento, tokenización, Bag-of-words, TF-IDF
Análisis de sentimiento
Topic Modeling (LDA)
Laboratorio: extracción de tópicos en discursos políticos con tidytext y topicmodels

Día 4: Modelos de lenguaje extensos (LLMs) y aplicaciones

Sesión 4.1: Entendiendo los LLMs

Arquitectura Transformer: la intuición detrás de la atención
Capacidades de GPT-4 y Claude
Ingeniería de prompts: zero-shot, few-shot, chain-of-thought

Sesión 4.2: LLMs como herramientas de investigación

Anotación automática de textos
Generación de datos sintéticos
Uso de APIs desde R
Laboratorio: interacción con LLMs usando ellmer y auditoría de sesgos

Día 5: Ética, sesgo algorítmico y cierre

Sesión 5.1: Ética y sesgo algorítmico

Tipos de sesgo y cómo surgen
Métricas de equidad
Regulación: EU AI Act, legislación latinoamericana, Ley 18.331 (Uruguay)

Sesión 5.2: Mini-propuestas de investigación

Integración de IA en el flujo de investigación
Taller: cada estudiante diseña una mini-propuesta aplicando una técnica del curso a una pregunta de ciencias sociales relevante para América Latina
Presentaciones breves (5 minutos) y discusión

Software necesario

Los estudiantes deben tener instalado antes del inicio del curso:

R (versión 4.3 o superior)
RStudio (versión 2022.07 o superior, que ya incluye Quarto)
Paquetes de R: tidyverse, tidymodels, ranger, glmnet, tidytext, topicmodels, ellmer

Instrucciones de instalación

Paso 1: Instalar R desde https://cran.r-project.org/. Elijan la versión correspondiente a su sistema operativo (Windows, macOS o Linux) y sigan las instrucciones del instalador.

Paso 2: Instalar RStudio desde https://posit.co/download/rstudio-desktop/. RStudio es el entorno de desarrollo que usaremos en el curso. Las versiones recientes ya incluyen Quarto, que necesitaremos para los laboratorios.

Paso 3: Abrir RStudio y ejecutar el siguiente código en la consola para instalar todos los paquetes necesarios:

install.packages(c(
  "tidyverse", "tidymodels",
  "ranger", "glmnet", "kknn", "rpart", "vip", "pdp",
  "tidytext", "topicmodels", "textrecipes",
  "ellmer", "httr2"
))

La instalación puede tomar unos minutos. Si aparecen errores, asegurarse de tener una conexión a internet estable y de estar usando una versión reciente de R (4.3 o superior).

Paso 4: Para verificar que todo funciona, ejecutar:

library(tidyverse)
library(tidymodels)
cat("Todo listo para el curso!")

Si ambos paquetes se cargan sin errores, la instalación fue exitosa.

Volver arriba