Apprentissage supervisé et sélection de variables pour la reconstruction de réseaux de régulation génétiques à partir de cinétiques d’expression

Comprendre la réponse de la cellule à un signal donné requiert l’élucidation des mécanismes complexes qui gouvernent l’expression génique et donc la synthèse de protéines. Ces mécanismes sont mis en oeuvre par un réseau d’interactions entre les gènes et/ou leurs produits. Identifier ces interactions notamment à partir de mesures expérimentales constitue à l’heure actuelle un problème majeur. Pour résoudre ce problème, l’apprentissage automatique offre un cadre à la fois formel et méthodologique.

Ce travail se focalisera sur la reconstruction de réseaux de régulation génétiques à partir de mesures expérimentales de cinétiques d’expression de gènes. La plupart des méthodes d’analyse de données cinétiques construisent un modèle probabiliste de la dynamique qui fait l’hypothèse markovienne que l’expression d’un gène à l’instant t est fonction de l’expression d’un certain nombre de gènes (régulateurs) à l’instant t-1. Ce problème peut donc être traduit en un problème d’apprentissage supervisé classique où chaque pas de temps constitue un échantillon pour l’apprentissage. On peut le traiter plus naturellement comme un problème de régression (prédiction directe de l’expression) mais également comme un problème de classification (après discrétisation des valeurs d’expression). L’intérêt étant la reconstruction du réseau de régulation, il est nécessaire de combiner cet apprentissage avec une recherche des régulateurs pour chacun des gènes. Dans ce contexte supervisé, cette recherche s’apparente à un problème de sélection de variables.

Ce travail étudiera différentes méthodes d’apprentissage et de sélection de variables pour ce problème. D’abord une revue de la littérature sur la sélection de variables en apprentissage supervisé sera faite, en privilégiant les méthodes à base de noyau et les méthodes d’arbre de décision. Ensuite, on étudiera nombre limité de méthodes, d’abord sur des données simulées, ensuite sur données réelles relatives au cycle cellulaire de la levure.

Renseignements/Encadrement : P. Geurts, L.Wehenkel

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s