Solución del problema de selección de atributos para problemas de clasificación a través de un algoritmo de optimización combinatoria

Ponente(s): Pamela Jocelyn Palomo Martínez, Martha Selene Casas Ramírez

En el contexto del machine learning, el problema de la selección de atributos (feature selection) desempeña un papel fundamental. Este problema consiste en elegir las variables independientes más relevantes para incluir en el modelo para reducir el tiempo de entrenamiento y evitar sesgos. Este trabajo aborda el problema de selección de atributos para tareas de clasificación desde una perspectiva combinatoria. Se asigna a cada atributo una variable de decisión binaria que determina su inclusión o exclusión en el modelo de clasificación, y se minimizan dos objetivos de forma simultánea: el número de atributos seleccionados y la tasa de error de clasificación, siendo este último objetivo equivalente a maximizar el accuracy. Para resolver este problema de optimización multiobjetivo, se propone un algoritmo basado en Adaptive Large Neighborhood Search. Los operadores de destrucción y reparación de este algoritmo están inspirados en estrategias estadísticas del estado del arte para la selección de atributos y se utiliza un algoritmo k-nearest neighbors para calcular la tasa de error de clasificación. En la charla se presentarán los resultados obtenidos a través de experimentos computacionales, utilizando bases de datos de la literatura.