19 Oct 2022
Conocimiento

¿Qué estamos leyendo en Wúru? – Octubre de 2022

Tres miembros del equipo cuentan qué estuvieron leyendo en las últimas semanas. En esta entrega de ¿Qué estamos leyendo en Wúru?, Mariana Szewach (Product Owner), Ayelén Borracci (Customer Success) y Georgina Cicerchia (Data Scientist) recomiendan tres lecturas para reflexionar sobre los sesgos en la ciencia, la forma en que consumimos e interpretamos datos y el valor del algoritmo Isolation Forest.

Que la ciencia te acompañe, de Agostina Mileo, te acerca cientos de argumentos que plantean las distintas formas en las que los sesgos culturales atraviesan a la ciencia a pesar de su aspiración a la objetividad. Quizás los principales sesgos en los que se detiene el libro son aquellos vinculados a la identidad de género. Así, la autora invita a reflexionar sobre las consecuencias de que la gran mayoría de las investigaciones y experimentos científicos sean liderados por y pensados para hombres. 

Un ejemplo muy concreto y llamativo de este tipo de sesgos es el airbag. En su libro, Mileo lo cita como uno de los muchos desarrollos cuyos ensayos fueron probados con hombres, razón por la cual están diseñados a la medida de un cuerpo masculino (contemplando estatura y peso promedio de conductores hombres). Incluso, por tener estas características, existen altas probabilidades de que, al expandirse, un airbag lastime a una conductora mujer más de lo que puede llegar a protegerla.

El mensaje de este libro importa no solo para reflexionar, en retrospectiva, sobre las investigaciones y desarrollos del pasado, sino para intentar revertir esta tendencia. Así, la autora resalta la importancia de la diversidad en el campo científico para reducir todos los sesgos culturales al mínimo y para que todas las individualidades puedan ser beneficiadas por los avances de la ciencia y la tecnología.

Como casi todo lo que consumo, me lo recomendó alguien brillante. Uno de los aspectos que me parecieron más interesantes de Factfulness de Hans Rosling es que ofrece una visión optimista sobre la actualidad. Así, maneja la hipótesis de que, en general, miramos la realidad con una tendencia a ser críticos y hasta con cierto pesimismo. Rosling, por su parte, tiene una mirada muy positiva sobre los logros y avances sociales experimentados en las últimas décadas, basándose en datos e indicadores como la mortalidad, la educación, los ingresos y la calidad de vida, entre otros.

El autor cuestiona el saber popular y expone lo que él considera una “ignorancia generalizada” y presente incluso entre personas capacitadas y que alcanzaron el nivel educativo universitario. Para demostrarlo, Rosling entrevista periodistas, universitarios, estudiantes, directivos de empresas y políticos haciendo preguntas del estilo:

Se sorprende al ver que repiten el patrón del desconocimiento y visión negativa sobre la realidad actual. A partir de ahí, desarrolla las diez razones por las que considera que no conocemos el mundo actual. En resumen, es un libro que te deja repensando cómo consumimos los datos y qué interpretación hacemos de los hechos a partir de ellos.

Isolation Forest es un algoritmo de aprendizaje no supervisado que permite detectar valores atípicos en un conjunto de datos con mucha rapidez. En este artículo que Yenwee Lim publicó en Medium, se repasan de forma sintética las teorías detrás de este algoritmo, imprescindible para personas que están preparándose para trabajar en ciencia de datos.

Los outliers o valores atípicos son observaciones en el conjunto de datos que difieren considerablemente frente al resto de las observaciones. Se pueden haber generado por incorrecta carga de datos o por variaciones en el proceso, entre otros motivos. Detectarlos es útil para ayudarnos a entender la variabilidad en los datos y, entendiendo su naturaleza, determinar qué hacer con ellos.

El gran problema de los outliers está, justamente, en identificarlos, ya que en general no se cuenta con datos etiquetados. El isolation forest (de sklearn) viene a resolver este problema: detectar outliers evaluando cada observación en el conjunto de datos. Lo que hace es, como su nombre lo indica, aislar a las observaciones. En cada iteración, aleatoriamente selecciona un feature y genera un árbol hasta que en cada nodo terminal se encuentra una observación. Este proceso se realiza N veces y luego se hace un scoring para cada observación; este score tiene en cuenta la cantidad de cortes que se tuvieron que hacer en el árbol para aislar la observación. Cuanto más fácil haya sido aislar una observación en cada iteración, más probabilidad existe de que sea un outlier. Dependiendo del score, una observación será o no considerada outlier.