Lecturas

Sobre las lecturas

Este curso es autocontenido: todo lo necesario para seguir las clases y completar los laboratorios se cubre en las sesiones presenciales. Las lecturas que se listan a continuacion son opcionales, pensadas para quienes quieran profundizar en algun tema o explorar aplicaciones adicionales. No es necesario leerlas antes de las sesiones.

Lecturas por dia

Dia 1: Fundamentos de IA y Machine Learning

Russell, S. & Norvig, P. (2021). Artificial Intelligence: A Modern Approach. Capitulo 1.

Introduccion clasica a la IA: definiciones, historia y enfoques fundamentales.

James, G., Witten, D., Hastie, T. & Tibshirani, R. (2021). An Introduction to Statistical Learning with Applications in R. Capitulos 1-2.

Fundamentos de aprendizaje estadistico. Disponible gratuitamente en statlearning.com.

Kuhn, M. & Silge, J. (2022). Tidy Modeling with R. O’Reilly. Capitulos 1-3.

Guia practica para modelado con tidymodels, el ecosistema que usamos en el curso. Disponible gratuitamente en tmwr.org.

Wickham, H., Cetinkaya-Rundel, M. & Grolemund, G. (2023). R for Data Science (2da edicion). O’Reilly. Capitulos 1-4.

Referencia para tidyverse. Util para quienes quieran repasar manipulacion de datos y visualizacion en R. Disponible en r4ds.hadley.nz.

Dia 2: Aprendizaje supervisado

Muchlinski, D. et al. (2016). Comparing random forest with logistic regression for predicting class-membership. Political Analysis, 24(2), 168-185.

Aplicacion de Random Forest a la prediccion de conflictos civiles. Ejemplo clasico de ML en ciencia politica.

Mullainathan, S. & Spiess, J. (2017). Machine learning: An applied econometric approach. Journal of Economic Perspectives, 31(2), 87-106.

Discusion sobre prediccion vs. explicacion, relevante para cientificos sociales que vienen de la tradicion inferencial.

Athey, S. & Imbens, G. W. (2019). Machine learning methods that economists should know about. Annual Review of Economics, 11, 685-725.

Revision de metodos de ML desde una perspectiva econometrica. Cubre arboles, LASSO y bosques causales.

James, G., Witten, D., Hastie, T. & Tibshirani, R. (2021). An Introduction to Statistical Learning. Capitulos 4-6 y 8.

Regresion logistica (cap. 4), regularizacion (cap. 6) y arboles de decision y bosques aleatorios (cap. 8). Disponible en statlearning.com.

Dia 3: Texto y aprendizaje no supervisado

Grimmer, J. & Stewart, B. (2013). Text as data: The promise and pitfalls of automatic content analysis methods for political texts. Political Analysis, 21(3), 267-297.

Articulo fundacional sobre el uso de metodos computacionales para analizar textos politicos.

Silge, J. & Robinson, D. (2017). Text Mining with R: A Tidy Approach. O’Reilly.

Manual practico de analisis de texto en R. Disponible gratuitamente en tidytextmining.com.

Roberts, M. E., Stewart, B. M. & Tingley, D. (2019). stm: An R package for structural topic models. Journal of Statistical Software, 91(2), 1-40.

Descripcion del paquete stm para topic models con covariables, una extension del LDA que veremos en clase.

James, G., Witten, D., Hastie, T. & Tibshirani, R. (2021). An Introduction to Statistical Learning. Capitulos 10 y 12.

Clustering (cap. 10) y PCA (cap. 12). Disponible en statlearning.com.

Dia 4: LLMs y aplicaciones

Gilardi, F., Alizadeh, M. & Kubli, M. (2023). ChatGPT outperforms crowd workers for text-annotation tasks. PNAS, 120(30).

Evidencia empirica de que los LLMs pueden superar a anotadores humanos en tareas de clasificacion de texto.

Bail, C. A. (2024). Can generative AI improve social science? PNAS, 121(21).

Revision critica del potencial y las limitaciones de la IA generativa para la investigacion en ciencias sociales.

Tornberg, P. (2024). Best practices for text annotation with large language models. Sociological Methods & Research.

Guia practica para usar LLMs en tareas de anotacion, con recomendaciones metodologicas.

Argyle, L. P. et al. (2023). Out of one, many: Using language models to simulate human samples. Political Analysis, 31(3), 337-351.

Uso de LLMs para generar datos sinteticos que simulan respuestas de encuestas, con aplicaciones a opinion publica.

Vaswani, A. et al. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30.

El articulo original que propone la arquitectura Transformer. Lectura tecnica, pero la seccion 3 (atencion) es accesible.

Dia 5: Etica y sesgo algoritmico

O’Neil, C. (2016). Weapons of Math Destruction. Crown.

Libro accesible sobre como los algoritmos pueden perpetuar y amplificar desigualdades sociales.

Barocas, S., Hardt, M. & Narayanan, A. (2023). Fairness and Machine Learning. MIT Press.

Referencia sobre equidad algoritmica. Disponible gratuitamente en fairmlbook.org.

Eubanks, V. (2018). Automating Inequality: How High-Tech Tools Profile, Police, and Punish the Poor. St. Martin’s Press.

Casos concretos de como los sistemas automatizados afectan a comunidades vulnerables en Estados Unidos. Lectura accesible y muy relevante para cientificos sociales.

Raji, I. D. et al. (2020). Closing the AI accountability gap: Defining an end-to-end framework for internal algorithmic auditing. ACM Conference on Fairness, Accountability, and Transparency.

Marco practico para auditar algoritmos dentro de organizaciones.

Bibliografia complementaria

Estas lecturas no son obligatorias, pero ofrecen perspectivas valiosas para profundizar en temas especificos:

Athey, S. (2017). Beyond prediction: Using big data for policy problems. Science, 355(6324), 483-485.
Breiman, L. (2001). Statistical modeling: The two cultures. Statistical Science, 16(3), 199-231.
Crawford, K. (2021). Atlas of AI. Yale University Press.
Gentzkow, M., Kelly, B. & Taddy, M. (2019). Text as data. Journal of Economic Literature, 57(3), 535-574.
Grimmer, J., Roberts, M. E. & Stewart, B. M. (2022). Text as Data: A New Framework. Princeton University Press.
Lazer, D. et al. (2020). Computational social science: Obstacles and opportunities. Science, 369(6507), 1060-1062.
Molina, M. & Garip, F. (2019). Machine learning for sociology. Annual Review of Sociology, 45, 27-45.
Salganik, M. J. (2018). Bit by Bit: Social Research in the Digital Age. Princeton University Press.
Ziems, C. et al. (2024). Can large language models transform computational social science? Computational Linguistics, 50(1), 237-291.
Benoit, K. et al. (2016). Crowd-sourced text analysis: Reproducible and agile production of political data. American Political Science Review, 110(2), 278-295.
Blei, D. M., Ng, A. Y. & Jordan, M. I. (2003). Latent Dirichlet Allocation. Journal of Machine Learning Research, 3, 993-1022.
Hastie, T., Tibshirani, R. & Friedman, J. (2009). The Elements of Statistical Learning (2da edicion). Springer. Disponible en hastie.su.domains.
Knox, D. & Lucas, C. (2021). A dynamic model of speech for the social sciences. American Political Science Review, 115(2), 649-666.

Volver arriba