El aprendizaje automático se apoya en la asimilación de patrones en datos históricos y utiliza esto para generalizar lo aprendido a nuevas informaciones. Si los datos empleados en la fase de entrenamiento nos representan mal, los sistemas resultantes nos tratarán mal. Esto genera una cadena de complicaciones que pueden hacer que estos sistemas automatizados nos compliquen la vida de varias maneras, algunas de las cuales son analizadas en un artículo del sitio Retina.
Los datos surgidos por ejemplo de un conjunto de fotos de gente de todas las edades en conjunción con un sistema automatizado para detectar sonrisas podría complicar la situación de las mujeres al ser minoría en las imágenes empleadas para entrenar el sistema.
El problema es que el que estés escasamente representada en los datos es solo uno de los factores que pueden complicarte la vida. Esto puede complicar tu vida de formas impensadas: "hoy en día en los modelos de aprendizaje automático datos y algoritmos son indisociables: el algoritmo se adaptará siempre a los datos de entrenamiento, por lo que es en los datos en donde reside el riesgo y donde han de focalizarse las acciones de mitigación de estos riesgos", explica Juan Murillo, del área de estrategia global de datos de BBVA.
Para Harini Suresh y John V. Guttag, investigadores de Instituto Tecnológico de Massachusetts (MIT), existen cinco fuentes de problemas que pueden complicar las decisiones de un algoritmo. La primera debilidad tiene que ver con la inercia de nuestra sociedad imperfecta. Así, unos datos de criminalidad perfectamente recopilados podrían aún reflejar factores históricos que han contribuido a que en los barrios más pobres haya más incidencia. "Aunque un sistema así refleje el mundo con precisión, puede infligir daños en parte de la población", señalan los investigadores.
Un ejemplo claro es el de ImageNet, base de datos de imágenes de uso recurrente para el entrenamiento de sistemas de reconocimiento en la que un 45% de las fotografías se han tomado en Estados Unidos y la mayoría representan a norteamericanos y europeos. En ImageNet, China concentra un 1% de las imágenes.
Cuando se dan estos desequilibrios en la necesaria diversidad de los datos, nos encontramos con un sesgo de representación. "Esto en ocasiones supone un reto porque no todos dejamos una huella digital de un volumen proporcional a nuestra participación demográfica, es el caso de los ancianos. A veces para que sean tenidos en cuenta por los algoritmos hay que sobreponderar la huella digital de colectivos minoritarios", añade Murillo.
En 2016, un algoritmo se hizo llamado COMPAS se hizo tristemente famoso por su tendencia a ver más riesgos de criminalidad en la población de color. Aquí el problema fue el sesgo en las medidas empleadas para entrenar al algoritmo. "Es habitual que las comunidades minoritarias estén sometidas a mayor actividad policial y tengan tasas de detenciones superiores, hay un mapeo distinto desde el crimen hasta la detención en estas comunidades", señalan los investigadores.
"Podría decirse que la manifestación de ciertos sesgos suele ser el resultado de una precipitación en la puesta en producción de una solución analítica, pero no necesariamente apunta a un problema de falta de madurez en la tecnología. Lo que ha fallado en estos casos es el control de calidad antes de poner un algoritmo en producción", razona Murillo.
Uno para todos puede ser un algoritmo que falla precisamente porque incorpora demasiada diversidad e incurre en lo que se conoce como sesgo de agregación. Los investigadores del MIT ponen de ejemplo las complicaciones asociadas a la diabetes y cómo estas varían en función de la etnia de los afectados.
"Es difícil que un único modelo se ajuste a cualquier grupo de población, aunque estén igualmente representados en los datos, porque diferentes factores tienen distintos significados e importancias dentro de una subpoblación", señalan.
La aplicación de controles de calidad tampoco es garantía de que el algoritmo funcione bien, sobre todo cuando los aspectos que evalúan no bastan para certificar su correcto rendimiento. Así lo comprobaron los investigadores del MIT, Joy Buolamwini y Timnit Gebru, al analizar tres sistemas de clasificación de género: las mujeres de color presentaban tasas de error del 34.7%, mientras que los hombres blancos obtenían una tasa del 0,8%.
Esto ocurrió porque las mujeres de color también estaban infrarrepresentadas en los datasets empleados para hacer el control de calidad, porque afectaban muy levemente a la valoración global de la precisión del algoritmo.
En este contexto han surgido herramientas como Aequitas o AI Fairness 360 que "pueden ayudan a industrializar y escalar determinadas verificaciones de control de calidad, comprobando por ejemplo el equilibrio de los colectivos representados en los datasets de entrenamiento, y acelerando controles que hoy en día son manuales, pero hay otras verificaciones que deberán seguir siendo llevadas a cabo por los científicos de datos", asegura Murillo.