Apprentissage de réseaux bayésiens (dynamiques) pour l’identification de réseaux de régulation génétique

La reconstruction de réseaux biologiques à partir de données constitue un des éléments clefs des objectifs scientifiques en biologie moléculaire: le biologiste s’intéresse souvent à la réponse cellulaire d’un organisme ou d’un certain tissu dans un organe à un signal ou stress donné. Il cherche par exemple à définir ou à compléter le réseau de régulation impliqué dans le contrôle de cette réponse en exploitant des données expérimentales (données d’expression de gènes etc.). L’apprentissage automatique intervient alors comme une des composantes de l’activité de découverte scientifique: à partir des données, étant donné une classe de modèles de réseaux de régulation, un algorithme d’apprentissage permet de définir une ou plusieurs solutions candidates (graphe d’interaction et paramètres du modèles) que le biologiste peut ensuite tester en générant d’autres expériences pour vérifier telle ou telle particularité du modèle.

Lorsque l’algorithme fournit le paramétrage complet d’un modèle, il devient possible d’utiliser ce modèle en simulation et donc à nouveau, on peut comparer données simulées et données expérimentales de test. Nous nous plaçons dans le cas où un nombre réduit de variables a déjà été identifié soit par le biologiste soit par les méthodes décrites dans la section précédente.
Dans le cas des réseaux bayésiens dynamiques ou statiques, la plus grande difficulté au niveau de l’apprentissage réside dans la recherche de la structure du réseau, ce problème étant reconnu comme NP-complet. Nous avons poursuivi jusqu’ici deux approches.
Dans le premier modèle linéaire Inertial Dynamic bayesian Network que nous avons proposé (Alche03-bioinfo,Alche-chapt-06,Alche-chapt-05), la structure du graphe d’interactions est encapsulée dans les paramètres de la matrice de transition du processus observé qui est réalisé par un algorithme EM implémentant une approche MAP. Ceci présente l’avantage d’éviter le problème NP-complet de recherche de structure mais se paie par la nécessaire extraction de poids discrets à partir des coefficients continus obtenus. De bons résultats ont été obtenus sur un réseau classique (la réparation de l’ADN chez E. coli à partir de données temporelles d’expression de gènes. Ce travail s’est poursuivi par une étude systématique (quach06a) du comportement de l’algorithme sur des données artificielles à l’aide d’un générateur de réseaux aléatoires de structure “petit-monde”. Cette étude a mis en lumière les conditions dans lesquelles variables cachées peuvent être identifiées mais aussi les limites d’une approche sans connaissance a priori.
Dans le cas de modèles non linéaires, l’apprentissage nécessite une version étendue du filtre de Kalman adaptée aux non linéarités. Minh Quach a développé une approche de type “Unscented filter”, bayésienne,basée sur un échantillonnage de type sigma-points pour estimer les probabilités a posteriori (quach06b). Ce travail doit maintenant être comparé à un travail fondamental réalisé en 2004 et 2005 par Liva Ralaivola et Florence d’Alché (Ralaivola05,Ralaivola04, Ralaivola03-gretsi): la “kernelisation” de l’algorithme du filtre de Kalman. Il s’agit d’analyser la série temporelle dans un espace de Hilbert muni d’un produit scalaire défini directement par une fonction noyau appropriée. Ce traitement permet de ré-utiliser les équations habituellement utilisées dans le cadre linéaire. Ce travail fondamental a été publié dans l’ouvrage associé à la conférence NIPS (Ralaivola04) puis un prolongement dans les actes de la conférence IJCNN 2005 (Ralaivola05) sans toutefois avoir été appliqué aux données biologiques.
Chacun de ces modèles va être testé dans le cadre d’un nouveau jeu de données expérimental, riche en points de mesure, qui est actuellement généré par le laboratoire de Marie Dutreix et qui concerne la levure soumise à un stress d’irradiation.
Enfin, dans le cas des réseaux bayésiens statiques (projet ARN ARA Masse de données “GD2GS”), étudiés dans le contexte d’une collaboration avec le CEA (Service de Génomique fonctionnelle – Evry), un algorithme évolutionnaire qui prend en compte la nature particulière de ses individus (réseaux bayésiens représentant des réseaux génétiques) a été développé par Cédric Auliac (thèse CEA co-encadrée avec Vincent Frouin). Les algorithmes évolutionnaires dotés d’une fonction de “niching” permettent un bon équilibre entre l’exploration de l’espace de recherche et la focalisation sur une solution particulière. Ce travail, testé sur un réseau de régulation de l’insuline, contenant 35 noeuds, donne des résultats supérieurs aux algorithmes classiques a été présenté dans le cadre de l’Ecole de Modélisation des processus biologiques (Auliac06) et va être soumis dans BMC Bioinformatics à la fin du mois d’octobre 2006.

Source: http://www.ibisc.univ-evry.fr/Equipes/AMIS/recherche/theme3

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s