Las germibetas y parámetros de medición de información en megasecuencias del familioma de Saccharomyces cerevisiae.

Ponente(s): Alejandra Zavala Castillo, Sergio Hernández López, Pedro Miramontes y León Patricio Martínez Castilla.

Durante más de cien años, se ha estudiado las estructuras de las proteínas considerando únicamente las regiones ordenadas (ROs) con estructuras secundarias regulares bien definidas como las hélices, hebras y asas. Sin embargo, se ha demostrado la presencia de regiones intrínsecamente desordenadas (RIDs) que son regiones en las proteínas con una longitud mayor a tres aminoácidos y que carecen de una estructura secundaria regular bien definida pero que al interactuar con otra región de una proteína, DNA, RNA, ligando o metal, en muchos casos adquieren una estructura secundaria regular bien definida o son importantes para que lleven a cabo una función; aún así, los trabajos que integren el estudio de las ROs y las RIDs coordinadamente no son muy frecuentes. En este trabajo se estudia de manera integral las ROs y las RIDs, utilizando todas las secuencias de aminoácidos de las proteínas que se han determinado experimentalmente de la levadura Saccharomyces cerevisiae. Primero, se obtuvieron los dominios de las familias a las que pertenecen cada una de las proteínas de levadura utilizando la base de datos de Pfam, posteriormente, al tener también las secuencias de las proteínas ortólogas de diferentes especies relacionadas evolutivamente con las proteínas de levadura (el familioma), se determinó para todas las secuencias de las levaduras y sus ortólogos, cuáles regiones constituyen ROs y cuáles RIDs; después, para cada familia de dominios ortólogos las secuencias se concatenaron para formar una secuencia de aminoácidos con ROs y las RIDs que fuese lo suficientemente larga y representativa estadísticamente denominada megasecuencia. Las megasecuencias del familioma de levadura se compararon utilizando una función de distribución beta de rango-orden f(r) = (A(N+1-r)^b)/(r^a), también conocida como DGBD, donde a y b son parámetros a encontrar, N es el número de rangos y A es una constante de normalización. Se obtuvieron regiones o islas de manos con la misma identidad, ROs o RIDs, éstas frecuencias se ordenaron de mayor a menor para después ajustar f(r). Los coeficientes a y b obtenidos se utilizaron para representar la distribución de cada familia. Otras medidas usadas para caracterizar estadísticamente al familioma fueron la entropía de Shannon (H(X)) y la complejidad algorítmica de Komogorov (K).Finalmente, se utilizó un mapeo autoorganizado (SOM) para hacer el análisis multivariado de los diferentes vectores obtenidos y se analizó los datos obtenidos de la DGBD, entropía de Shannon, complejidad de Kolmogorov y además propiedades biológicas atribuidas a las funciones propias de los dominios del familioma (a partir de anotaciones de Gene Ontology), para determinar si había algún perfil similar de carácter biológico o relacionados con los parámetros determinados.