Lundi 27 juin 2011 à 10h30,
Mark Segal (Division of Biostatistics, University of California, San Francisco)
Titre : Querying Genomic Databases: Refining the Connectivity Map.
Résumé
The advent of high throughput biotechnologies, that can efficiently
measure gene expression on a global basis, has led to the
creation and population of correspondingly rich databases and
compendia. Such repositories have the potential to add enormous
scientific value beyond that provided by individual studies which, due
largely to cost considerations, are typified by small sample sizes.
Accordingly, substantial effort has been invested in devising analysis
schemes for utilizing gene expression repositories.
Here, we focus on one such scheme, the connectivity map, that was
developed with the express purpose of identifying drugs with putative
efficacy against a given disease, where the disease in question is
characterized by a gene expression signature.
In view of the enormous costs and poor success rates of established
drug development pipelines, the promise seemingly demonstrated by
early use of the connectivity map is of profound importance.
The success of the connectivity map is belied by its simplicity. The
aforementioned signature serves as a query which is applied to a
customized database of (differential) gene expression experiments
designed to elicit response to a wide range of drugs, across of
spectrum of concentrations, durations, and cell lines. Such
application is effected by computing a per experiment score
that measures “closeness” between the signature and the experiment.
Top scoring experiments, and the attendant drug(s), are then deemed
relevant to the disease underlying the query. Inference supporting
such elicitations is pursued via re-sampling. In this paper, we
revisit two key aspects of the connectivity map implementation.
Firstly, we develop new approaches to measuring closeness for the
common scenario wherein the query constitutes an ordered list. These
involve using metrics proposed for analyzing partially ranked data.
Secondly, we advance an alternate inferential approach based on
generating empiric null distributions that exploit the scope, and
capture dependencies, embodied by the database. Using these
refinements we undertake a comprehensive re-evaluation of connectivity
map findings that, in general terms, reveal that accommodating ordered
queries is less critical than the mode of inference.
Titre : Prediction with high-dimensional data in biomedical research.
Jeudi 24 mars à 10h,
Judith Legrand (CNAM, INSERM-UPMC UMR-S 707, Epidémiologie, Systèmes d’Information, Modélisation).
Titre : Modélisation mathématique et statistique dans le domaine de l’épidémiologie des maladies infectieuses.
Mardi 22 mars 2011 à 10h,
Andrea Rau (INRIA, Université Paris Sud).
Titre : Inférence rétrospective de réseaux de gènes avec Approximate Bayesian
Computation (ABC).
Résumé
Les réseaux de gènes régulateurs représentent un ensemble de
gènes qui interagissent, directement ou indirectement, les uns avec
les autres ainsi qu'avec d'autres produits cellulaires. Ces
interactions règlementent le taux de transcription des gènes et la
production subséquente de protéines. Le développement des technologies
telles que les puces à ADN et le séquençage à ultra-haut débit (RNA
sequencing) permettent une étude simultanée de l'expression des
milliers de gènes chez un organisme au cours du temps. Avec ces
données temporelles, il est possible d'inférer (soit «
reverse-engineer ») la structure des réseaux biologiques qui
s'impliquent pendant un processus cellulaire particulier. Cependant,
ces réseaux sont en général très compliqués et difficilement élucidés,
surtout vu le grand nombre de gènes considérés et le peu de répliques
biologiques disponibles dans la plupart des données expérimentales.
Dans cette optique, nous proposons une nouvelle application des
méthodes de Approximate Bayesian Computation (ABC), qui exploitent les
techniques de simulation pour permettre l'inférence des modèles avec
un vraisemblance complexe ou insoluble. Notre méthode, qui s'appelle
ABC for Networks (ABC-Net), est basée sur une procédure de Monte Carlo
par chaînes de Markov (MCMC), qui échantillonne des lois a posteriori
d'un réseau de gènes. Nous étudions le performance de cette approche
avec des simulations et un vrai jeu de données sur un réseau de
réparation génétique chez Escherichia coli.
Mardi 15 mars 2011 à 15h,
Jérome Lapuyade (Supélec et Université Paris Sud).
Titre : Analyse statistique de systèmes biologiques complexes.
Résumé
Le but de cet exposé est de présenter diverses méthodes d'analyse
statistique de systèmes biologiques complexes. Chacune de ces méthodes
répondra à une problématique qui caractérise ce type de système. En
effet, nous considérons les systèmes étudiés comme étant complexes, du
fait de la grande dimensionalité des observations, de la dépendance
entre les variables, de la nature différente des variables mesurées
(par exemple, certaines variables représentent l'expression de gène,
d'autre la température corporelle, etc…) et des causalités entre les
variables. Les méthodes statistiques présentées visent à répondre aux
différentes problématiques
soulevées par la complexité du système. Ainsi, du fait de la
dépendance entre les variables, il sera possible de résumer le système
par un nombre plus réduit de paramètres. Ce nombre réduit de paramètre
pourra être au préalable estimés par des estimateurs de dimension. De
plus, le lien entre les variables mesurées et les paramètres peut être
estimé par des méthodes d'analyse factorielle telles que l'analyse en
composantes principales ou indépendantes. Quant aux dépendances entre
les variables, nous utiliserons des mesures de dépendance telles que
la corrélation de Pearson ou d'autres mesures plus robustes telles que
la corrélation de Kendall ou de Spearman. Les copules seront également
proposées du fait qu'elles contiennent toute l'information sur la
dépendance entre les variables. Ces copules seront également utilisées
afin d'étudier les causalités entre les variables, ces causalités
pouvant être déduites de la factorisation de la loi jointe. Nous ne
traiterons pas en détail de l'hétérogénéité des données qui reste une
question ouverte et qui pourra mener à un projet de recherche à long
terme.
Mardi 08 mars 2011 à 10h,
Pierre Barbillon (Universités d'Orsay et Paris Descartes).
Titre : Estimation de probabilités d’événements rares dans le contexte des expériences simulées.
Résumé
Dans le domaine de la quantification des risques industriels, il est courant d’avoir recours à des expériences simulées qui consistent en des évaluations d’un modèle physique déterministe type boîte noire, coûteux en temps de calcul. Les entrées de ce modèle sont considérées comme des variables aléatoires car entachées d’incertitude. Nous nous intéressons à la probabilité d’un risque de défaillance du système qui correspond au dépassement d’un seuil fixé par la sortie du modèle physique. C’est a priori un événement rare. Un estimateur de Monte-Carlo naïf de sa probabilité, sous la contrainte d’un nombre limité d’évaluations du modèle, n’est pas performant et ne permet pas d’obtenir une borne de confiance précise.
Nous proposons alors deux stratégies d’estimation et de construction de borne de confiance. Elles reposent sur un métamodèle de type krigeage qui revient à poser une loi a priori sur le modèle et à calculer la loi a posteriori à partir d'un nombre limité d’évaluations en des points bien choisis. La première stratégie considère la probabilité de l’événement rare comme la réalisation d’une variable aléatoire. En s’intéressant à la loi a posteriori de cette variable, un estimateur et une borne de crédibilité sont obtenus. La seconde stratégie est un schéma d’échantillonnage préférentiel dont la loi instrumentale s’appuie sur le métamodèle. Ces deux méthodes sont testées sur des exemples jouets et un cas pratique est traité en les combinant.
Mardi 1er février 2011 à 10h :
Robin Genuer (Universités d'Orsay et Paris Descartes).
Titre : Forêts aléatoires : sélection de variables et bornes de risque. Les transparents (accès restreint)
Lundi 06 décembre 2010 à 15 heures :
Geoff McLachlan (University of Queensland, Brisbane).
Titre : Modelling High-Dimensional Data via Factor Models.
Les transparents (accès restreint)
Lundi 22 novembre 2010 à 11 heures :
Laurent Jacob (University of California, Berkeley).
Titre : Two-sample tests of differential expression on gene networks.
Résumé
Measuring gene expressions to study a biological phenomenon or build
prognosis tools is now common practice. When analyzing this type of data, one is
very often interested in detecting pre-defined sets of genes that are known to
work together and are significantly differentially expressed between two
particular conditions. Multivariate statistics allow to test for differential
expression at the gene set level directly which makes them more interpretable than
the widely used gene set enrichment approach. However, they are known to lose
power quickly with increasing dimension. At the same time, an increasing number of
regulation networks are becoming available, specifying, for example, which genes
activate or inhibit the expression of other genes. We intend to use these networks
to build spaces of lower dimension, yet retaining most of the expression shift of
gene sets. This makes the multivariate testing amenable and provably more powerful
under (partly) coherent expression shift assumption.
Lundi 13 septembre 2010 à 11 heures :
Alain Paris (INRA Mét@risk).
Titre : Analyse de données métabolomiques.
Franck Rapaport, Institut Curie.
Classification of microarray data using gene networks
Résumé
Romain Rivière, U.Montreal.
Algorithmes de graphes pour la recherche de blocs de construction pertinents pour la modélisation 3D des ARN.
Résumé
Virginie Bernard, URGV - UM INRA CNRS.
Organisation topologique des séquences régulatrices et activité transcriptionnelle chez Arabidopsis.
Résumé
Christoforos Nikolaou - Genome Bioinformatics Group, CGR Barcelona.
DNA-directed nucleosome positioning. Aspects of nucleosome organization from yeast to human.
Résumé
Adeline Samson, Université Paris Sud.
Estimation dans les modèles mixtes définis par systèmes différentiels: application à la modélisation de l'infection par le VIH
Résumé
Valeri T. Stefanov, School of Mathematics and Statistics, The University of Western Australia.
Distribution of the amount of genetic material, from a chromosomal segment, surviving to the next generation.
Résumé
James C. Fu, Department of Statistics, University of Manitoba Winnipeg, Manitoba, Canada.
Finite Markov Chain Imbedding and Its Application to Matching Probability between Two Markov Dependent Biological Sequences.
Résumé
Gerton Lunter, Oxford.
An Irreversible Context-dependent Substitution Model
Résumé
Marie-Luce Taupin, Paris 5.
Estimation semi-paramétrique du risque instantané dans un modèle avec erreurs sur les covariables
Antoine Chambaz, Paris 5.
Une approche MDL des chaines de Markov cachèes à émissions gaussienne ou poissonienne ; application à l'estimation de l'ordre.
Gesine Reinert, Department of Statistics, Oxford University
Statistics for Watts-Strogatz Small Worlds.
Christian Houdré, Georgia Institute of Technology.
Lois limites pour quelques problemes de plus longues sous-suites croissantes ou communes.
Nicolas Brunel, Paris Dauphine.
Marc Lavielle, Universités Paris 5 et Paris 11, INRIA Futurs.
Détection de ruptures et sélection de modèles.
Laurent Bréhélin,
Une approche bayésienne pour la classification de cinétiques d'expression de gènes.
Ana Arribas-Gil, Université Orsay
Parameter estimation in pair hidden Markov models
Florence Forbes, INRIA Rhône-Alpes
Champs de Markov cachés et fusion de données individuelles et pairées pour l'identification de groupes de gènes
Peggy Cenac, INRIA Rocquencourt
Test de structure de séquences biologiques basé sur la Chaos Game Representation
Wojciech Pieczynski, INT, Evry
Estimation et restauration de sequences par chaines de Markov triplet
Sebastien Hergalant, LORIA Nancy
Classification non supervisée par HMM de sites de fixation de facteurs de transcription chez les bactéries actinomycètes
Brigitte Mangin, Unité de Biométrie et Intelligence Artificielle, INRA, Toulouse
Déséquilibre de liaison et cartographie fine
Aurélien Garivier, Université Orsay Paris-Sud
Chaînes de Markov à ordre variable, applications et identification par critère BIC
Yann Guédon, CIRAD Montpellier
Modèles à structure cachée combinant états markoviens et semi-markoviens et méthodes de diagnostic
Vlad Barbu, LMAC UTCompiègne
Estimation non-paramétrique des chaînes semi-markoviennes et des chaînes semi-markoviennes à variables cachées
Claire Nédellec, INRA-MIG
L'apprentissage automatique pour l'extraction d'information dans les textes en génomique
Marie-Anne Poursat, Université Paris XI
Evolution moléculaire : tester l'hypothèse covarion
Estelle Kuhn,
Estimation par maximum de vraisemblance dans des problèmes inverses non linéaires
Jean-Pierre Raoult, Labo. Analyse et Math.App. Marne La Vallée
Présentation des Réseaux Bayésiens
Christelle Melo de Lima, LaPCS et UMR 5558, Lyon
Modélisation markovienne de la structure des gènes : exons de lois non géométriques et influence du taux de G+C
Francois Kepes, CNRS-Génopole Evry
Réseaux d'interactions moléculaires : propriétés structurales et dynamiques.
Olivier Martin, INRA/LIRMM, Montpellier
Premières approches statistiques pour l'étude des protéomes. Application à l'étude de différents écotypes d'Arabidopsis Thaliana
Eric Rivals, LIRMM
Comparaison de séquences génomiques répétitives et applications
Florence D'Alché-Buc, Epigénomique, Maison genopole des sciences de la complexité, Evry
Apprentissage de réseaux bayésiens dynamiques pour la modélisaition de réseaux d'interactions géniques
Patricia Thébault, BIA Toulouse
Formalisme CSP (Constraint Satisfaction Problem) et localisation de motifs structurés dans les textes génomiques
Laurent Noé, LORIA, Villers-les-Nancy
Filtrage à l'aide de graines pour l'alignement local
Christine Froidevaux, LRI Orsay
Un modèle informatique pour la prédiction de sites de frameshift -1 chez les eucaryotes
Cyril Dalmasso , INSERM U 472
Procédures de comparaisons multiples dans le cadre de l'analyse de données issues de puces à ADN
Gilles Didier,
Segmentation de séquences en zones de compositions homogènes.
Valery Stefanov, Dep. of Mathematics and Statistics The University of Western Australia
The distribution of the intersite distances between pattern occurrences: algorithmic approach.
Pierre Pudlo, Labo. Proba., Combinatoire, Stat., Univ Lyon I
Principe de grandes déviations exactes pour des séquences biologiques.
Elisabeth Pécou, Institut Mathématique de Bourgogne, Dijon
Un certain type de synchronisation dans les chemins de la régulation biochimique.
Alain Arneodo, Laboratoire de physique, ENS de Lyon
A la recherche d'informations structurales et dynamiques dans les séquences d'ADN à l'aide des techniques ondelettes.
Méthodes à noyau en bioinformatique.
Pierre Collet, Centre de Mathématiques Appliquées, Ecole Polytechnique
Techniques d'optimisation par Evolution Artificielle
Didier Piau, LaPCS, Université Lyon-I
Statistique des séquences PCR
Miguel Abadi, Centre de Physique Théorique, Luminy, Marseille.
Poisson approximation and error terms for mixing processes
Alain Denise, IGM et LRI, Université Paris-Sud XI, Orsay
Evaluation de la surreprésentation de motifs dans les séquences : une approche par séries génératrices et grandes déviations
Anne Bergeron, Laboratoire de Combinatoire et d'Informatique Mathématique, UQAM, Montréal et Institut Gaspard-Monge, Université de Marne-la-Vallée
Combinatoire et algorithmique du tri des permutations signées
Yann Guédon, UMR CIRAD/CNRS/INRA/Université Montpellier II, Botanique et Bioinformatique de l'Architecture des Plantes
Construction de processus agrégés à partir de chaînes de Markov
Olivier Bousquet, Ecole Polytechnique
Classification, Support Vector Machines (SVM) et bio-informatique
Marie-Anne Gruet et Hervé Philippe, Universités Paris XI et VI
Amélioration des reconstructions phylogénétiques : l'implémentation d'un modèle d'évolution hétérotache