Eficiencia y equidad en problemas de clasificación de datos con aplicaciones empresariales

Carlos Santos Mangudo

Ayuda

Eficiencia y equidad en problemas de clasificación de datos con aplicaciones empresariales

Autores: Carlos Santos Mangudo
Directores de la Tesis: Antonio José Heras Martínez (dir. tes.)
Lectura: En la Universidad Complutense de Madrid ( España ) en 2022
Idioma: español
Tribunal Calificador de la Tesis: José Luis Vilar Zanón (presid.), Eva María del Pozo García (secret.), Beatriz Balbás Aparicio (voc.), Isabel Marta Miranda García (voc.), Julio Hernández March (voc.)
Programa de doctorado: Programa de Doctorado en Administración y Dirección de Empresas por la Universidad Complutense de Madrid
Materias:
- Matemáticas
  - Estadística
    - Análisis de datos
- Psicología
  - Estudio psicológico de temas sociales
    - Discriminación
Enlaces
- Tesis en acceso abierto en: Docta Complutense
Resumen
- Gran parte de los problemas de clasificación existentes en el mundo real implican, por un lado, la agrupación y optimización simultánea de varios atributos, los cuales generalmente presentan conflictos entre ellos, es decir, que la mejora en uno de ellos conduce a un deterioro en el otro; y por otro lado que dicha agrupación no incluya ningún tipo de sesgo entre atributos y sobre atributos sensibles o protegidos incluidos en el conjunto de datos inicial, como por ejemplo el género o el sexo, la raza, el estado civil, entre otros.
  
  A lo largo de la historia, la humanidad siempre ha estado dividiendo y clasificando todo cuanto nos rodea, las sociedades, las ciudades, las personas, los animales, la tierra, el universo, etc. La capacidad de clasificar y agrupar cualquier tipo de elemento o entidad, se vio implementada en los últimos años en algoritmos de clasificación, reconocimiento de patrones, reconocimiento de imágenes, toma de decisiones y por supuesto de inteligencia artificial.
  
  En los últimos años, la necesidad de prevenir los sesgos de clasificación debidos a la raza, género, sexo, religión, entre otros, ha aumentado el interés por diseñar algoritmos de clustering justos. La idea principal es asegurar que la salida de un algoritmo de cluster no esté sesgada hacia o contra subgrupos específicos de la población.
  
  Los algoritmos controlan cada vez un mayor número de decisiones relativas a la vida cotidiana de las personas en multitud de ámbitos, como la sanidad, el transporte, la educación, las admisiones universitarias, la contratación de personal, la concesión de préstamos y pólizas de seguros, la justicia, el marketing y muchos otros, por ello es fundamental desarrollar algoritmos que no solo puedan ser precisos, sino que también sean objetivos y justos en la clasificación que realicen.
  
  Presentamos un marco para la equidad algorítmica en la clasificación de datos de tipo categórico puro o de tipo mixto, y su implementación en un paquete software en lenguaje R de uso público, FairMclus®, explorando una nueva metodología que aúna la precisión en el agrupamiento con la equidad de los grupos al tratar atributos sensibles o protegidos, que además de su simplicidad en el diseño para poder seguir su proceso sin dificultad, nos asegure tres ventajas fundamentales: que el método sea transparente y fiable, preciso y equitativo en el momento de formar los grupos o cluster finales.
  
  Para evaluar el desempeño de FairMclus® y su metodología, se realiza el análisis en 16 Bases de Datos de diferentes repòsitorios web públicos, las cuales contienen atributos categóricos y/o numéricos, nueve de ellas son de tipo mixto y las siete restantes son de tipo categórico puro.
  
  Con respecto al objetivo de Estabilidad, muestra la mejor estabilidad en conseguir los mismos grupos con los mismos elementos dentro de cada uno de dichos clusters finales en todos los casos, alcanzando una puntuación máxima del 100% con todas las Bases de Datos utilizadas Con respecto al objetivo de Eficiencia/Precisión, se ha realizado la comparación con algoritmos populares y conocidos, tanto en el tratamiento de datos de tipo categórico puro (K-Modes, Daisy y Pam, Tclust), como en el tratamiento de datos de tipo mixto (K-Prototypes, Kamila, Tclust), utilizando cuatro medidas conocidas de eficiencia y una medida de equidad basada en la distancia entre la distribución final del atributo protegido y su distribución deseada.
  
  Con respecto al objetivo de Equidad, muestra el mejor rendimiento en todos los casos, alcanzando una puntuación máxima del 100% en prácticamente todos ellos, lo que nos permite estar en consonancia con las diferentes normativas existentes en Derechos Humanos, sobre la no discriminación por razones de genero, sexo, edad, raza, etc.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Coordinado por: