Beta - CoRM: un enfoque bayesiano para el análisis de n-gramas

Ponente(s): José Antonio Perusquía Cortés

Los perfiles creados a partir de n-gramas se han utilizado con éxito cuando se requiere estudiar y analizar secuencias de elementos para problemas de clasificación. Un ejemplo de lo anterior es la clasificación de textos, donde cada texto está compuesto de una secuencia de palabras. En la literatura, los algoritmos pertenecientes al campo del machine learning han predominado por su gran capacidad de predicción. Sin embargo, estos algoritmos carecen la capacidad de detectar estructuras latentes, así como proveer una representación probabilística de la incertidumbre, para lo cual los métodos bayesianos son particularmente atractivos. El objetivo de este trabajo es presentar un modelo bayesiano no paramétrico que se ha denominado beta - CoRM, el cual puede ser utilizado dentro del contexto de aprendizaje supervisado para observaciones binarias y el cual admite una generalización para la identificación de las variables más importantes de cada grupo. Más aún, como se verá en esta plática, este modelo puede ser utilizado para encontrar variables latentes dentro de las observaciones lo que permite especificar un método de factorización de matrices binarias.