Adaptación del estadístico GAP para determinar el número de clusters partiendo de una matriz de disimilaridad

Ponente(s): Rodrigo Macias Paez, Andrés Felipe Hernández Bustos

Uno de los problemas principales en el análisis de clusters es determinar el número de grupos en los datos. Bajo el escenario donde los datos se encuentran representados en una matriz X N×p existen varios criterios que ayudan a identificar el número de grupos, por ejemplo el estadístico GAP (Tibshirani, Walther y Hastie, 2001), el criterio Calinski- Harabasz (Calinski y Harabasz, 1974), Hartigan (Hartigan, 1975), Silhouette (Kaufman, & Rousseeuw, 1990), entre otros. Pero hay situaciones donde no se conoce la matriz X y solo se dispone de información de disimilaridad entre los pares de individuos organizadas en una matriz Δ N×N. Esto implica la necesidad de considerar otro tipo de estrategias para poder identificar el número de grupos apropiado. En este trabajo se reformula el estadístico GAP para determinar el número de grupos cuando la única información disponible está dada en términos de la matriz de disimilaridad Δ. Para realizar esto, se plantean dos estrategias, la primera enfocada en el uso de distribuciones uniformes y la segunda basada en un remuestreo Bootstrap. Para estudiar el desempeño de los criterios propuestos y su rendimiento respecto a tres de los criterios más utilizados, se realizó un estudio de simulación considerando diferentes parámetros, tomando en cuenta diferentes escenarios y utilizando un algoritmo K-means para disimilaridades. En general, los criterios reformulados del GAP tienen un buen desempeño para recuperar el número de clusters, incluso un desempeño superior al mostrado por dos de los criterios analizados.