Libros para aprender a razonar y comunicarse con datos

Una lista que actualizo constantemente

Todas las personas pueden aprender a pensar claramente con datos.
books
data vis
econometrics
causality
machine learning
bayesian
r
python
español
Author

Edwin Alvarado-Mena

Published

March 10, 2025

Todas las personas pueden aprender a pensar claramente con datos. Es más, todas las personas deben aprender a pensar claramente con datos.

Sin importar la profesión de base, la capacidad de evaluar evidencia cuantitativa le mejora el CV a cualquiera.

En este post voy a mantener actualizada una lista de mis libros favoritos para aprender a razonar y comunicarse con datos. Cuando me encuentre con alguna novedad que me parezca valiosa, la incluiré aquí.

La lista está dividida en seis categorías:

  1. Generales.
  2. Econometría e inferencia causal.
  3. Machine Learning.
  4. Bayesianos.
  5. Programación.
  6. Visualización de datos.

En la lista habrá cierto predominio de publicaciones en ciencias sociales. No obstante, son libros útiles para cualquier persona que busque saber más de Ciencia de Datos.

A continuación, mis recomendaciones en cada categoría.

Generales

Un libro que recomendaría si sólo pudiera recomendar uno

de Mesquita, Ethan Bueno, and Anthony Fowler. Thinking clearly with data: A guide to quantitative reasoning and analysis. Princeton University Press, 2021.

Thinking clearly with data sería mi recomendación maestra para una persona sin formación en estadística o para cualquiera que simplemente desee reforzar conceptos. Este libro es enteramente conceptual. No tiene código. ¿Matemática? Una gota. Los autores se enfocan en enseñar conceptos fundamentales para analizar datos, pero lo hacen en prosa.

Es una obra completa. Básicamente cubre la secuencia entera de cursos metodológicos de un programa doctoral en Political Science en los Estados Unidos. Lo sé porque estoy cursando uno y este libro me ha sido de tremenda ayuda.

Arranca por explicar qué es un correlación y se prolonga hasta cubrir temas complejos de inferencia causal (más adelante voy a dar recomendaciones sobre inferencia causal).

Los data sets se pueden descargar aquí.

Un libro de ciencias sociales que enseña programación y estadística

Imai, Kosuke. Quantitative Social Science: An introduction. Princeton University Press, 2018.

Quantitative Social Science es uno de los libros de generalidades estadísticas que más suelo consultar. Si pudiese traducir un libro al español, sería este.

El estándar de las ciencias sociales en Estados Unidos es la cuantificación. Aunque hay alguna controversia al respecto, yo creo que la fijación de la academia americana con los métodos es su mejor virtud. Como sea, este libro es excelente para familiarizarse con los fundamentos de las ciencias sociales cuantitativas tal como se enseñan en Estados Unidos.

El libro lo recomiendo para estudiantes de ciencias sociales y más allá. Cualquier persona puede aprender R con este libro. Es abundante en código reproducible (la primera edición se enfoca en Base R; también existe una edición basada en Tidyverse). El menú de conceptos estadísticos es amplio. La cobertura temática abarca gratas sorpresas (minería de texto, análisis de redes, datos geo-espaciales). La organización de los capítulos puede ser un poco extraña, pero el libro es muy sólido y útil.

Los data sets y scripts se pueden descargar aquí.

Un libro para principiantes que se sientan muy principiantes

Llaudet, Elena, and Kosuke Imai. Data Analysis for Social Science: A friendly and practical introduction. Princeton University Press, 2022.

Data Analysis for Social Science, escrito por Elena Llaudet y Kosuke Imai, es una obra aún más introductoria que el previamente reseñado Quantitative Social Science, escrito por Kosuke Imai solo. La cobertura temática es más reducida pues se trata de un libro para principiantes extra-principiantes.

El libro no asume ningún conocimiento previo en estadística ni programación. Está basado en R. Los capítulos están organizados de modo tal que se avanza de los temas más aplicados e intuitivos a los más abstractos y técnicos.

Este libro tiene sitio web. El índice y el primer capítulo son de libre acceso, aquí.

Un libro de estadística en español y de libre acceso

Pignataro López, Adrián. Manual para el análisis político cuantitativo. Editorial Universidad de Costa Rica, 2016.

Manual para el análisis político cuantitativo se puede descargar gratis como una contribución de mi querida Universidad de Costa Rica a la comunidad hispanohablante. Es el único libro en español que voy a incluir en esta lista.

Funciona muy bien como introducción a la estadística inferencial. Entre este libro y Quantitative Social Science (reseñado arriba) se arman de dos a tres cursos de gran calidad para undergraduates.

La segunda edición es en R. Cubre métodos estadísticos elementales como regresión lineal simple, regresión lineal múltiple, regresión logística, entre otros.

Este libro se puede descargar aquí.

Un libro de conceptos estadísticos con código en R y Python

Bruce, Peter, Andrew Bruce, and Peter Gedeck. Practical Statistics for Data Scientists: 50+ essential concepts using R and Python. O’Reilly Media, 2020.

Practical Statistics for Data Scientists se me hace una lectura muy agradable. Lo mejor que tiene es su carácter comprensivo. Sobrevuela una generosa selección de temas clave en Ciencia de Datos, aunque sea para dar una pincelada.

Competente material para familiarizarse con gran variedad de conceptos. Incluye referencias bibliográficas adicionales, muchas notas al margen para desarrollar con calma ciertos conceptos, cápsulas con definiciones concretas y oportunísimas precauciones de naturaleza aplicada.

Como si no fuera suficientemente bueno, el libro presenta código tanto en R como en Python.

Los scripts se pueden descargar aquí.

Un libro con toda la matemática de las ciencias sociales

Moore, Will H., and David A. Siegel. A Mathematics Course for Political and Social Research. Princeton University Press, 2013.

A Mathematics Course for Political and Social Research me ha salvado de apuros en numerosas ocasiones durante el PhD. La matemática de las ciencias sociales, concentrada en un solo lugar.

Libro importante pues las ciencias sociales son matemáticas también. Lo son incluso sus vertientes más cualitativas (que se basan ímplicita o explícitamente en teoría de conjuntos) y ni se diga las ramas más volcadas hacia la estadística.

Los autores acompañan los capítulos con ejemplos concretos de investigaciones que aplican modelación estadística o teoría de juegos. Entre otras fortalezas, destaco que el capítulo sobre álgebra de matrices desarrolla un ejercicio de OLS Estimation que me resultó más claro en comparación con el de otros autores. De no ser por este libro tal vez seguiría sin entender qué demonios es una random variable.

Este libro tiene sitio web.

Econometría e inferencia causal

Un libro de econometría que es el rey de los libros de econometría

Wooldridge, Jeffrey M. Introductory Econometrics: A modern approach. Cengage Learning, 2015.

Introductory Econometrics es el mejor libro para estudiar econometría por primera vez. Jeffry Wooldridge fue bendecido con el don de la claridad. Otros autores lo citan mucho a Wooldridge. Casualidad no es.

El capítulo sobre el modelo de regresión simple es una de las mejores introducciones a la materia que yo conozco.

No tiene nada de código, pero sí notable cantidad de ejemplos pertinentes y bien masticados. Además, en los anexos del libro hay unos cuantos Math Refresher que son espléndidos.

Un libro de econometría apto para cualquiera (aplican restricciones)

Kennedy, Peter. A Guide to Econometrics. John Wiley & Sons, 2008.

A Guide to Econometrics es un libro útil para cualquiera… para cualquiera que haya alcanzado ya cierta familiaridad con la econometría.

Porque el libro puede dejar un sinsabor inicial. Empezando por su organización y diagramación extrañas y por cierta notación matemática, esta obra podría confundir rápidamente a más de uno.

Bajo ninguna circunstancia tendría mi voto como material para principiantes. Sin embargo, una vez que uno ha asimilado los principios del modelo de regresión simple y consolidado cierto lenguaje técnico, este libro empieza a cobrar valor.

Me atrae su énfasis en los supuestos del análisis de regresión y, aún más específicamente, valoro la forma en la que el autor va presentando las posibles violaciones de dichos supuestos. La terminología que utiliza me gusta cada vez más (no era así al principio), pero no podría describir mejor estas fortalezas sin recurrir a tecnicismos que no tienen lugar en un post como este.

Un libro de modelación estadística en R

Kuhn, Max, and Julia Silge. Tidy modeling with R. O’Reilly Media, 2022.

Tidy modeling with R es un libro de modelación de datos. Igualmente, las obras econométricas que reseñé anteriormente son… libros de modelación datos.

Lo que diferencia a este libro es que se enfoca en la programación de los modelos, no en la formalidad matemática detrás de ellos. En cambio, los libros de econometría son libros de matemática (los dos que reseñé arriba, por ejemplo, no tienen nada de código).

Añado este libro a la lista por una sencilla razón: si uno está estudiando la matemática de la econometría, conviene de una vez aprender buenas prácticas de programación en materia de modelación estadística.

Pero hay otra buena razón: para algunas personas, programar un modelo es una vía de aprendizaje más accesible y efectiva que resolver la matemática detrás del modelo. Además, el libro tiene una diagramación muy bonita.

Este libro se puede leer completo aquí.

Un libro para analizar relaciones de causa y efecto

Angrist, Joshua D., and Jörn-Steffen Pischke. Mostly Harmless Econometrics: An Empiricist’s Companion. Princeton University Press, 2009.

Mostly Harmless Econometrics es el libro que he leído con más insistencia en mi vida doctoral y el que más ha cambiado mis intereses de investigación de cara al futuro.

El libro es una introducción al canon de la investigación empírica en la actualidad: la inferencia causal.

Inferencia causal

Hace falta contexto para entender qué es inferencia causal.

Cuando corremos una regresión, nuestro objetivo es entender cómo cambia una variable, Y, en función de cambios en otra variable, X.

Una de dos: o el cambio de la variable X está de hecho causando el cambio de la variable Y, o ambas variables están meramente cambiando juntas sin ningún efecto causal de por medio.

No es nada sencillo determinar si el cambio en Y es causado por X o si se trata de una mera asociación entre ambas variables.

¿Haberse infectado de Covid-19 causa otras complicaciones en el mediano plazo? En los medios se suele escuchar Long Covid-19 para referirse a un supuesto conjunto de síntomas que pacientes infectados por el virus presentan tiempo después de haber superado la infección, síntomas que las personas que no han enfermado de Covid-19 no sufren. Hay, sin embargo, un gran problema metodológico por resolver: tal vez la gente que sí se infectó no es comparable con la que no se infectó. Para empezar, tal vez la gente que se infectó ya era menos saludable desde el principio.

Las diferencias pre-existentes importan mucho a la hora de determinar causalidad.

Para evaluar relaciones de causa y efecto, la herramienta más prometedora es la experimentación. En un experimento, tenemos un conjunto de individuos a quienes repartimos aleatoriamente en dos grupos diferentes. Haber conformado los dos grupos de modo aleatorio garantiza que no existen diferencias sistemáticas entre sus miembros.

Las farmaceúticas recurren a experimentos cuando evalúan vacunas: uno de los dos grupos recibe un tratamiento (la vacuna) y el otro, el grupo de control, no lo recibe. Si se observan resultados diferentes entre el grupo de tratamiento y el grupo de control respecto a la frecuencia con la que se resfrían, por poner un ejemplo, se puede afirmar que las diferencias en la frecuencia de resfríos fueron causadas por la vacuna, no por diferencias preexistentes entre las personas vacunadas o no, ya que la conformación aleatoria de los grupos anuló cualquier diferencia preexiste al tratamiento en sí.

Ya sea por razones éticas, económicas o de conveniencia, en ciencias sociales se nos complica bastante conducir experimentos como el anterior (mi colega Elías Chavarría Mora me previno con acierto que debí haber subrayado que, pese a todo, en ciencias sociales sí se realizan experimentos).

Para conseguir inferencias causales, a menudo no nos queda más remedio que confiar en estrategias de identificación.

Las estrategias de investigación permiten estimar efectos causales a partir de un conjunto de presunciones sobre la naturaleza de los datos y del modelo estadístico en cuestión. Tales presunciones son difíciles de probar (algunas no se pueden probar del todo) y no conducen a resultados tan robustos como los de la experimentación, pero son nuestra mejor alternativa en un gran número de contextos.

Este libro es bastante técnico. Presenta una selección de estrategias de identificación (variables instrumentales, regresión discontinua, diferencias-en-diferencias, entre otras) que podría ser válido implementar bajo ciertas circunstancias, estrategias de identificación que son capaces de estimar el efecto causal de una variable sobre otra cuando la experimentación no es viable.

Este libro tiene sitio web. Los data sets se pueden descargar aquí.

Un libro de inferencia causal para el público general

Angrist, Joshua D., and Jörn-Steffen Pischke. Mastering’metrics: The path from cause to effect. Princeton University Press, 2014.

Mastering’metrics es una versión de Mostly Harmless Econometrics más bien orientada a la divulgación y al público general. Escrito por los mismos autores, este es un libro de inferencia causal que cualquier persona podría leer sin ahogarse en las tecnicidades de las estrategias de identificación.

Lo recomiendo como un buen primer contacto antes de aterrizar en Mostly Harmless Econometrics, especialmente para personas cuyas bases en matemática no sean tan fuertes.

Este libro tiene sitio web.

Un libro ecuménico sobre inferencia causal

Cunningham, Scott. Causal Inference: The mixtape. Yale University Press, 2021.

Causal Inference: The mixtape es un libro de libros de inferencia causal. El autor afirma que preparó este material para sus cursos y lo acabó publicando.

El libro dialoga con la literatura. Hace ampliaciones. Comenta otros libros. A veces los mejora. Por ilustrarlo con un ejemplo, es evidente que su capítulo sobre regresión se basa en Introductory Econometrics, el libro de Wooldridge que reseñé más temprano, pero a la vez pule aspectos que Wooldridge da por sentados muy rápido -e.g., qué hace el intercepto en el modelo de regresión-.

Lo describo como un libro ecuménico porque incluye control sintético, una estrategia de identificación ausente en Mostly Harmless Econometrics, y porque dedica un capítulo a los Directed Acyclic Graphs (DAGs) popularizados por Judea Pearl, otro galáctico de la inferencia causal que fundó una escuela aparte de la econometría.

El autor escribe aquí.

Un libro de inferencia causal en prosa

Pearl, Judea, and Dana Mackenzie. The Book of Why: The new science of cause and effect. Basic books, 2018.

The Book of Why no sólo no es econométrico, tampoco es técnico ni se consume en la matemática. Es más bien un libro en prosa. Un libro que narra la historia de la inferencia causal como campo de conocimiento emergente. Un libro para leer al final del día.

Su autor principal, Judea Pearl, es una personalidad en la literatura sobre inferencia causal. Pearl defiende su forma particular de concebir la causalidad, una forma fundada en el uso de Directed Acyclic Graphs (DAGs) para representar las relaciones entre variables y así razonar más claramente sobre modelos causales.

Pearl habla todo el tiempo de computación, de representaciones, de inteligencia artificial. Este enfoque no se parece a la econometría por una buena razón: Pearl es computer scientist, no econometrista.

Un libro de inferencia causal que no es econométrico

Pearl, Judea, Madelyn Glymour, and Nicholas P. Jewell. Causal Inference in Statistics: A primer. Wiley, 2016.

Causal Inference in Statistics es un excelente texto introductorio. Antes de tocar el asunto espinoso de la inferencia causal, los autores llevan a cabo un productivo repaso por la teoría de la probabilidad y algunos pormenores de la regresión estadística.

Este libro es una introducción a los Directed Acyclic Graphs (DAGs), modelos gráficos que representan las relaciones existentes entre las variables de interés y a partir de los cuales Pearl funda su escuela de pensamiento sobre la causalidad.

Cabe mencionar una vez más que la inferencia causal de Pearl no es la inferencia causal de la econometría. Del todo no hay DAGs en Mostly Harmless Econometrics (libro reseñado previamente).

Judea Pearl escribe en el blog Causal Analysis in Theory and Practice.

Machine Learning

Un libro muy conocido de Machine Learning

Tibshirani, Hastie Robert, Gareth James, and Daniela Witten Trevor. An Introduction to Statistical Learning (with applications in Python). Springer, 2023.

An Introduction to Statistical Learning es la obra indispensable para aprender Machine Learning. Me animo a decir que es la más popular también. Impecable la impresión y notable el talento de los autores para plasmar ideas complejas en oraciones simples.

Originalmente en R, hay una nueva edición con código en Python. La impresión es, repito, de altísima calidad. El libro cubre variedad de métodos tanto supervisados como no supervisados, más un capítulo sobre redes neuronales. Los ejemplos son todos aplicados a problemas típicos de la industria o la academia.

Este libro se puede descargar aquí.

Un libro de Machine Learning para romperse la cabeza

Hastie, Trevor, Robert Tibshirani, Jerome H. Friedman, and Jerome H. Friedman. The Elements of Statistical Learning: Data mining, inference, and prediction. Springer, 2009.

The Elements of Statistical Learning es la versión avanzada y experta de An Introduction to Statistical Learning. Es una obra mucho más matemática y densa, y escrita por casi los mismos autores.

La mayoría de personas no habría de empezar por este libro su aprendizaje en Machine Learning. Se aprovecha mejor como material de consulta que de estudio.

Este libro se puede descargar aquí.

Un libro para estudiar Machine Learning desde lo más básico

Rogers, Simon, and Mark Girolami. A First Course in Machine Learning. Chapman and Hall/CRC, 2016.

A First Course in Machine Learning reúne apenas unos cuantos métodos de Machine Learning pero los examina con perfecto detalle. Al mismo tiempo, incluye toda la matemática necesaria para entender esos métodos e implementarlos adecuadamente.

Los primeros tres capítulos son excelentes introducciones sobre linear regression, maximum likelihood y Bayes’ theorem, respectivamente. Tres capítulos que dan material de sobra para estudiar largo rato.

Este libro tiene sitio web.

Bayesianos

Un libro bayesiano que lo tiene todo y más

Gelman, Andrew, Jennifer Hill, and Aki Vehtari. Regression and Other Stories. Cambridge University Press, 2020.

Regression and Other Stories tiene todo lo que se necesita saber sobre regresión. Cuando digo que lo tiene todo quiero decir que, en serio, lo tiene todo: probabilidad, estadística inferencial, regresión lineal, modelos lineales generalizados, inferencia causal.

Un libro tan completo que no necesito incluir en esta lista la joya Data Analysis Using Regression and Multilevel/Hierarchical Models, de los mismos autores, aunque la mención no está de sobra.

Lo más característico de este libro es que los capítulos incorporan secciones enteras de inspiración bayesiana, algo que no es común encontrar en obras de esta índole, al menos no con tanta pericia. El anexo 10 quick tips to improve your regression modeling es para imprimirlo y andarlo en la billetera.

Este libro tiene sitio web.

Un libro bayesiano para conocer otras formas de modelar datos

McElreath, Richard. Statistical Rethinking: A Bayesian course with examples in R and Stan. CRC Press, 2020.

Statistical Rethinking es el culmen de las obras de estadística desde que se escriben obras de estadística. Hermosa edición, con muchísimo código, visualizaciones y DAGs al estilo de Causal Inference in Statistics (ya reseñado anteriormente). Lo compré en físico y no me atreví a rayarlo.

Es el libro de estadística bayesiana por excelencia. Elabora sobre una premisa que yo resumo así: los modelos estadísticos que nos enseñan en la universidad rara vez son aptos para abordar las preguntas que queremos contestar con ellos. Pero hay soluciones. O como dice Richard McElreath: “I’m telling anyone who will listen that, if we are very careful and try very hard, we might not completely mislead ourselves”.

Los data sets y scripts se pueden descargar aquí. El autor ha estado colgando material audiovisual sobre este libro en YouTube.

Un libro bayesiano para hacer investigación cualitativa rigurosa

Fairfield, Tasha, and Andrew E. Charman. Social Inquiry and Bayesian Inference: Rethinking qualitative research. Cambridge University Press, 2022.

Social Inquiry and Bayesian Inference es un libro de investigación cualitativa. Lo incluyo en esta lista porque es excelente y porque ilustra a la perfección cómo hasta la investigación cualitativa hunde sus raíces en la matemática.

El camino hacia la sofisticación de la investigación cualitativa ha estado, por cierto, lleno de dificultades y controversias. Entre 2014 y 2016, mientras trabajaba en mi tesis de maestría, empecé a leer sobre diseños de investigación que compaginaban el estudio de caso con el teorema de Bayes. Algo de eso implementé en mi tesis. Aunque el trabajo tiene su importancia personal (lo escribí muy joven), siempre percibí demasiada provisionalidad en mi producto final. En aquel entonces había como mucho unos cuatro o cinco working papers sobre esta idea de “estudio de caso bayesiano”. Precisamente uno era de Tasha Fairfield y Andrew E. Charman, quienes, por fin, publicaron un auténtico tratado sobre la materia.

El estudio de caso, más fuerte que nunca.

Programación

Un libro para personas que hace un minuto no sabían qué es R

Grolemund, Garrett. Hands-On Programming with R: Write your own functions and simulations. O’Reilly Media, 2014.

Hands-On Programming with R es el manual de programación en R que yo suelo recomendar cuando me preguntan por tal cosa. No asume ningún tipo de adiestramiento previo y es efectivo a la hora de traducir conceptos especializados a un lenguaje común y accesible a todas las personas dispuestas a hacer el esfuerzo de travesear R por primera vez.

En programación hablamos de objetos, funciones, argumentos, vectores, listas, matrices, pipes, entre otros términos. El objetivo de este libro es consolidar ese lenguaje, y lo cumple con muy buena nota.

Este libro se puede leer completo aquí.

Un libro de programación en R orientada a Ciencia de Datos

Wickham, Hadley, Mine Çetinkaya-Rundel, and Garrett Grolemund. R for data science. Import, tidy, transform, visualize, and model data. O’Reilly Media, 2023.

R for Data Science fue mi primer libro de programación en R. Si volviera a empezar, lo sería también, aunque yendo y viniendo entre este libro y el antes reseñado Hands-On Programming with R.

Este libro no es sobre programación en R sino sobre programación en R aplicada a Ciencia de Datos, que no es lo mismo. Justo una de sus fortalezas es que abarca y detalla todas las etapas de un proyecto típico de Ciencia de Datos: cargar los datos, limpiarlos, transformarlos, modelarlos, visualizarlos y comunicarlos.

El autor, Hadley Wickham, es tal vez el nombre propio más conocido entre las personas que programamos en R. Literalmente, somos muchos quienes usamos las creaciones de Wickham todos los días.

Este libro se puede leer completo aquí.

Un libro para alcanzar el nirvana de la programación en R

Wickham, Hadley. Advanced R. CRC Press, 2019.

Advanced R es un libro que el citado Hadley Wickham escribió específicamente para personas interesadas en perfeccionar sus habilidades de programación al más alto nivel posible.

Este libro puede ser extremadamente desafiante para principiantes. Si caen en él demasiado pronto, podrían acabar con la idea precipitada y fatal de que es imposible aprender a programar. Hay que tomárselo con calma y utilizarlo nada más como material de referencia para atender dudas puntuales.

Este libro se puede leer completo aquí.

Un libro de programación en Python orientada a Ciencia de Datos

McKinney, Wes. Python for Data Analysis: Data wrangling with pandas, numpy, and Jupyter. O’Reilly Media, 2022.

Python for Data Analysis es el equivalante del ya reseñado R for Data Science. Excelente libro para aprender programación en Python orientada a Ciencia de Datos, con un enfoque en librerías ampliamente conocidas como pandas y numpy. Su autor, Wes McKinney, es precisamente la mente detrás de pandas.

Este libro se puede leer completo aquí.

Visualización de datos

Un libro de visualización que no tiene código

Wilke, Claus O. Fundamentals of Data Visualization: A primer on making informative and compelling figures. O’Reilly Media, 2019.

Fundamentals of Data Visualization tiene una insólita característica: es un libro de visualización de datos que no tiene código. El libro abarca una importante gama de temas: sistemas de coordenadas, escalas de colores, páneles, balance, visualizaciones para cantidades, para distribuciones, para proporciones, para proporciones anidadas, para esto y para aquello…

Pero el libro no tiene código. El autor nos lo negó por una razón poderosa: el código sería una distracción en un libro cuyo propósito es que nos tomemos el tiempo de razonar exactamente qué visualizaciones queremos producir y por qué, un ejercicio que a menudo omitimos por saltar al código demasiado pronto.

Este libro se puede leer completo aquí.


Cite my blog posts as follows:
Alvarado-Mena, Edwin. (Year, Month Date). Title. AlvaradoCSS. URL.

Any strong opinions about this post?
Please let me know! I take your feedback very seriously.


Photo by Kimberly Farmer on Unsplash