Équipe Statistique pour la Génomique et la Génétique

(resp. M.-L. Taupin)

Description

Génomique et Séquences biologiques. La génomique étudie le fonctionnement d'un organisme, d'un organe,etc. à l'échelle de l'ensemble du génome. Elle a pour but de cartographier, séquencer et analyser les génomes. Ceci inclut notamment l'analyse des séquences biologiques et de l'ADN.

L’ADN est une chaîne composée de molécules appartenant à un ensemble à quatre éléments, noté par les initiales de leurs noms, {t, c, a, g}. De même une protéine est une suite de molécules choisies dans un ensemble de 20 acides aminés. L’étude des lois selon lesquelles ces “lettres“ se succèdent a longtemps été l’axe principal des recherches du laboratoire.

Formellement ceci conduit à une modélisation de ces séquences par des chaînes de Markov, permettant par exemple de mesurer la présence excessive (resp. trop rare) d’un motif, ce qui correspond souvent à un rôle biologique positif (resp. néfaste) du motif.

De nombreuses variantes de ce modèle ont été étudiées au laboratoire, et tout spécialement celles qui – comme les chaînes de Markov cachées – rendent compte de l’hétérogénéité des séquences (alternance de gènes et de parties non codantes sur un génome, successions de domaines protéiques).

Après l'étude des séquences biologiques, le problème s’est déplacé de la séquence des gènes à la connaissance de leurs fonctions et de leurs éventuelles implications dans la susceptibilité à certaines maladies.

Génomique et Statistique Génétique. L'objectif principal de la statistique génétique est l’identification de facteurs de risque génétiques ou déterminants génétiques de maladies. En relation avec la statistique génétique, la génomique permet l'analyse de l'expression des gènes séquencés et aussi de leur lien avec une maladie. L'expression des gènes est mesurée par l'ensemble des transcrits (ARNs) présents dans la cellule (ou dans un groupe de cellules). Ces mesures permettent d'établir un profil d'expression des cellules et/ou de déterminer des gènes dont l'expression diffère en fonction des conditions expérimentales.

Les maladies monogéniques (rares, souvent sévères) impliquent un seul gène. Pour les maladies complexes ou multifactorielles, les facteurs génétiques sont souvent multiples, avec de faibles effets individuels. De plus ces facteurs génétiques interagissent avec des facteurs environnementaux qui évoluent dans le temps et dans l'espace. La recherche des déterminants génétiques d'une maladie s'effectue généralement par le biais d'études familiales (analyse de liaison) ou par le biais d’études au niveau de la population (études d’association). Par exemple les facteurs génétiques impliqués dans la susceptibilité à une maladie peuvent être détectés via une étude d'association gène-candidat ou par l’étude statistique de l’assocation entre le statut phénotypique de l'individu (malade/sain) et les marqueurs génétiques comme les SNPs (« single nucleotide polymorphism », variants génétiques affectant une seule paire de bases de la séquence du génome d'un individu), les tag-SNPs.

Pour la plupart des maladies, l'identification des facteurs impliqués et l'analyse des données d'expression de gènes est un véritable défi.

Grâce aux technologies de la génomique à haut débit et au développement des outils informatiques et algorithmiques, il est possible de collecter des données de plus en plus riches et nombreuses.

Que ce soit en génomique ou en statistique génétique, cette complexité des situations et des données requiert une réflexion méthodologique sur les stratégies les plus pertinentes. Parmi les aspects de cette réflexion méthodologique qui intéressent tout particulièrement l’équipe de statistique génétique du laboratoire, citons :

  • intégration de données génomiques (méta-analyse)
  • caractérisation d'altération (amplification/délétion) du génome
  • études d'association genome wide
  • réduction de dimension
  • tests d'hypothèses appliqués au données microarray
  • tests multiples
  • modèles de mélange

Collaborations académiques

J.C. Corvol Hôpital Pitié-Salpêtrière ; F. Cornelis GenHotel et CHU Clermont-Ferrand ; E. Petit-Texeira GenHotel et UEVE ; P. Broët (INSERM, Villejuif et Genome Institute of Singapore) ; A. Arribas-Gil, Universidad Carlos III (Madrid) ; A. Guilloux Université Pierre et Marie Curie; A. Samson Université Paris Descartes; J. Dedecker Université Paris Descartes; A. Chambaz Université Paris Descartes; J. Y. Lehesran IRD; E. Lebarbier Agroparistech; Cécile Durot Université Paris Sud; M. Guedj Pharnext; Etienne Roquain Université Paris 6, Pierre et Marie Curie; Henrik Bengtsson University of California at San Francisco

Collaborations industrielles

Publications

Restrict to author: Restrict to theme:

List of publications from Genomics & Genetics ordered by year
to appear
Journal article
  • More Power via Graph-Structured Tests for Differential Expression of Gene Networks
    Jacob, L. and Neuvial, P. and Dudoit, S.
    Annals of Applied Statistics
    http://www.e-publications.org/ims/submission/index.php/AOAS/user/submissionFile/8652?confirm=b67b9b50
  • Single Nucleotide Polymorphism-defined Class-I and Class-III MHC genetic subregions contribute to natural long-term non progression in HIV infection
    Guergnon, J. and Dalmasso, C. and Broet, P. and Meyer, L. and Westrop, S.J. and Imami, N. and Vicenzi, E. and Morsica, G. and Tinelli, M. and Poma, B.Z. and Goujard, C. and Potard, V. and Gotch, F.M. and Casoli, C. and Cossarizza, A. and others, O.
    Journal of Infectious Diseases
2012
Journal article
  • A context dependent pair hidden Markov model for statistical alignment
    Arribas-Gil, A. and Matias, C.
    Statistical applications in genetics and molecular biology Vol. 11 No. 1 pp. Article 5
    http://www.bepress.com/sagmb/vol11/iss1/art5/
  • Subtype and pathway specific responses to anticancer compounds in breast cancer
    Heiser, L.M. and others, O.
    Proceedings of the National Academy of Sciences Vol. 109 No. 12 pp. 2724-2729
    http://www.pnas.org/content/109/8/2724.full
2011
Preprint
Journal article
  • Accounting for Population Stratification in Practice: a Comparison of the Main Strategies Dedicated to Genome-Wide Association Studies
    Bouaziz, M. and Ambroise, C. and Guedj, M.
    PLOS one Vol. 6 No. 12
    http://www.plosone.org/article/info%3Adoi/10.1371/journal.pone.0028845
  • Detection of chromosomal abnormalities using high resolution arrays in clinical cancer research
    Dalmasso, C. and Broët, P.
    Journal of Biomedical Informatics No. doi:10.1016/j.jbi.2011.06.003
    http://www.sciencedirect.com/science/article/pii/S1532046411001031
  • Genomic Profiles Specific to Patient Ethnicity in Lung Adenocarcinoma
    Broet, P. and Dalmasso, C. and Tan, E.H. and Alifano, M. and Zhang, S.L. and Wu, J. and Lee, M.H. and Regnard, J.F. and Lim, W.T. and Koong, H.N. and Agasthian, T. and Miller, L. and Camilleri-Broet, S. and Tan, P.
    Clinical Cancer Research Vol. 17 No. 11 pp. 3542-50
  • Parent-specific copy number in paired tumor-normal studies using circular binary segmentation
    Olshen, A.B. and Bengtsson, H. and Neuvial, P. and Spellman, P.T. and Olshen, R.A. and Seshan, V.E.
    Bioinformatics Vol. 27 No. 15 pp. 2038-2046
    http://bioinformatics.oxfordjournals.org/content/27/15/2038
Thesis
  • De l'art de résumer pour tenter de comprendre en génomique évolutive
    Devauchelle, C.
    Habilitation à diriger des recherches, Université d'Évry val d'Essonne   
2010
Journal article
  • MS4 - Multi-Scale Selector of Sequence Signatures: An alignment-free method for classification of biological sequences
    Corel, E. and Pitschi, F. and Laprevotte, I. and Grasseau, G. and Didier, G. and Devauchelle, C.
    BMC Bioinformatics Vol. 11 pp. 406
    doi:10.1186/1471-2105-11-406
    http://www.biomedcentral.com/1471-2105/11/406
In proceedings
Thesis
  • Modèle d'évolution avec dépendance au contexte et Corrections de statistiques d'adéquation en présence de zéros aléatoires
    Finkler, A.
    Thèse de doctorat, Université de Strasbourg   
2009
Journal article
  • An association study of 22 candidate genes in psoriasis families reveals shared genetic factors with other autoimmune and skin disorders
    Oudot, T. and Lesueur, F. and Guedj, M. and de Cid, R. and McGinn, S. and Heath, S. and Foglio, M. and Prum, B. and Lathrop, M. and Prud'homme, J.F. and Fischer, J.
    J Invest Dermatol. Vol. 129 No. 11 pp. 2637-45
  • Do genetic recombination and gene density shape the pattern of DNA elimination in rice LTR-retrotransposons?
    Tian, Z. and Rizzon, C. and Du, J. and Zhu, L. and Bennetzen, J. and Gaut, B. and Jackson, S. and Ma, J.
    Genome Res. Vol. 19 No. 12 pp. 2221-30
    http://www.ncbi.nlm.nih.gov.gate1.inist.fr/pubmed/19789376?itool=EntrezSystem2.PEntrez.Pubmed.Pubmed_ResultsPanel.Pubmed_RVDocSum&ordinalpos=1
  • Estimating the joint distribution of independent categorical variables via model selection
    Durot, C. and Lebarbier, E. and Tocquet, A.S.
    Bernoulli Vol. 15 No. 2 pp. 475-507
  • Identifiability of parameters in latent structure models with many observed variables
    Allman, E.S. and Matias, C. and Rhodes, J.A.
    Annals of Statistics Vol. 37 No. 6A pp. 3099-3132
    doi:10.1214/09-AOS689
    http://arxiv.org/abs/1006.0826
  • kerfdr: A semi-parametric kernel-based approach to local FDR estimations.
    Guedj, M. and Célisse, A. and Robin, S. and Nuel, G.
    BMC Bioinformatics Vol. 10 pp. 84+
    http://dx.doi.org/10.1186/1471-2105-10-84
  • Number of hidden states and memory: a joint order estimation problem for Markov chains with Markov regime
    Chambaz, A. and Matias, C.
    ESAIM Probab. & Stat. Vol. 13 pp. 38-50
    DOI: 10.1051/ps:2007048
    http://stat.genopole.cnrs.fr/_media/members/cmatias/esaim06-72-revise.pdf
2008
Journal article
In proceedings
  • Libfbat: a C++ library for family based association testing
    Nuel, G. and Slaoui, Y. and Miele, V.
    JOBIM 2008
  • Taking into account missing genotypes and errors in Family Based Association Testing using an Expectation-Maximization framework
    Nuel, G. and Miele, V. and Slaoui, Y. and Rebai, A.
    International Symposium on Biotechnology pp. 508-514
Thesis
  • Chaînes de Markov régulées et approximation de Poisson pour l'analyse de séquences biologiques
    Vergne, N.
    Thèse de doctorat, Université d'Évry val d'Essonne   
  • Parcimonie dans les modèles markoviens et applications à l'analyse des séquences biologiques
    Bourguignon, P.-Y.
    Thèse de doctorat, Université d'Évry val d'Essonne   
  • Statistique asymptotique dans des modèles à variables latentes
    Matias, C.
    Habilitation à diriger des recherches, Université d'Évry val d'Essonne   
Seminar and communication
  • Chaînes de Markov régulées pour l'analyse de séquences biologiques.
    Vergne, N.
    Séminaire de l'Unité MIA-Jouy, Jouy-en-Josas
    http://www.jouy.inra.fr/mia/pratique/seminaire
  • Chaînes de Markov régulées pour l'analyse de séquences biologiques.
    Vergne, N.
    Séminaire Marin Mersenne - Samos, Mathématiques des Systèmes Complexes, Université Paris 1.
    http://samos.univ-paris1.fr/-Mathematiques-des-systemes-
  • Evidence for a strong association between polymorphims of the SLC45A2/MATP gene and melanoma in the french population
    Guedj, M. and Soufir, N.
    5e Journées Mélanome Ile-de-Francer
  • kerfdr: A semi-parametric kernel-based approach to local FDR estimation.
    Guedj, M. and Célisse, A. and Robin, S. and Nuel, G.
    Statistical Methods for Post-Genomics Data 2008, Rennes
  • Poisson approximation for search of rare words in DNA sequences.
    Vergne, N.
    Workshop on "Hitting, returning and matching in dynamical systems, information theory and mathematical biology", Eurandom, Eindhoven.
    http://www.eurandom.tue.nl/workshops/2008/hitting-returning/hitting_returning.htm
2007
Journal article
  • A multiple-marker two-step approach for genome-wide association studies
    Aschard, H. and Guedj, M. and Demenais, F.
    BMC Proceedings Vol. 1 No. S134
    http://www.biomedcentral.com/1753-6561/1/S1/S134
  • Computing power in case-control association studies through the use of quadratic approximations: application to meta-statistics
    Guedj, M. and Della-Chiesa, E. and Picard, F. and Nuel, G.
    Annals of Human Genetics Vol. 71 pp. 262-270
    http://www.blackwell-synergy.com/doi/abs/10.1111/j.1469-1809.2006.00316.x
  • Cumulative Distribution Function of a Geometric Poisson Distribution
    Nuel, G.
    J. Stat. Comp. Sim. Vol. 78 No. 3 pp. 385 &ndash 394
    http://stat.genopole.cnrs.fr/~gnuel/pdf/preprint_geopoi_2006.pdf
  • IRF5 rs2004640-T allele, the new genetic factor for systemic lupus erythematosus, is not associated with rheumatoid arthritis
    Garnier, S. and Dieudé, P. and Michou, L. and al and Bardin, T. and Prum, B. and Cornélis, F.
    Ann. Rheum. Dis. Vol. 66 pp. 828-831
  • Linkage proof for PTPN22, the new rheumatoid arthritis susceptibility gene, a human autoimmunity gene
    Michou, L. and Lasbleiz, S. and al and Prum, B. and Bardin, T. and Dieude, P. and Cornélis, F.
    Proc. Natl. Acad. Sci. USA Vol. 104 pp. 1649-1654
  • The ITGAV rs3738919-C allele is associated with and linked to rheumatoid arthritis in the European Caucasian population: a family-based study
    Jacq, L. and Garnier, S. and Dieudé, P. and Michou, L. and al and Prum, B. and Bardin, T. and Cornélis, F.
    Arthritis Research & Therapy Vol. 9 No. R63
Thesis
  • Méthodes statistiques pour l'analyse des données génétiques d'association à grande échelle
    Guedj, M.
    Thèse de doctorat, Université d'Évry val d'Essonne   
  • Outils et méthodes pour la classification pyramidale des données biologiques
    Vescovo, L.
    Thèse de doctorat, Université d'Évry val d'Essonne   
Seminar and communication
  • kerfdr: a semi-parametric kernel-based estimation of the local FDR
    Guedj, M. and Celisse, A. and Robin, S. and Nuel, G.
    Poster ar IGES 2007, York (UK)
Book
  • Analyse Statistique des Séquences Biologiques
    Nuel, G. and Prum, B.
    Hermes Sciences
2006
Journal article
  • A fast, unbiased and exact allelic test for case-control association studies
    Guedj, M. and Wojcik, J. and Della-Chiesa, E. and Nuel, G. and Forner, K.
    Human Heredity Vol. 61 pp. 210-221
    http://content.karger.com/ProdukteDB/produkte.asp?doi=94776
  • A Reversible Jump Markov Chain Monte-Carlo Algorithm for Bacterial Promoter Motifs Discovery
    Nicolas, P. and Tocquet, A.S. and Miele, V. and Muri, F.
    Journal of Computational Biology Vol. 13 No. 3 pp. 651-667
  • Confirmation of the Shared Epitope Allele Classification
    Michou, L. and Croiseau, P. and al and Prum, B. and Clerget, F. and Cornélis, F.
    Arthritis Research and Therapy Vol. 28 pp. 79-
  • Detecting Local High-Scoring segments: a first-stage approach for genome-wide association studies
    Guedj, M. and Robelin, D. and Hoebeke, M. and Lamarine, M. and Wojcik, J. and Nuel, G.
    Stat App Genet Mol Bio Vol. 5 pp. 1-16
    http://www.bepress.com/sagmb/vol5/iss1/art22/
  • Effective p-value computations using Finite Markov Chain Imbedding (FMCI): application to local score and to pattern statistics
    Nuel, G.
    Algo. Mol. Biol. Vol. 1 No. 1 pp. 5
    http://www.almob.org/content/1/1/5
  • Free Full Text Variation in crossing-over rates across chromosome 4 of Arabidopsis thaliana reveals the presence of meiotic recombination “hot spots”.
    Drouaud, J. and Camilleri, C. and Bourguignon, P.Y. and al and Prum, B. and Quesneville, H. and Mezard, C.
    Genome Research Vol. 16 pp. 106-114
  • Numerical solutions for Patterns Statistics on Markov chains
    Nuel, G.
    Stat. App. Genet. Mol. Biol. Vol. 5 No. 1 pp. 26
    http://www.bepress.com/sagmb/vol5/iss1/art26/
  • Parameter estimation in pair hidden Markov models
    Arribas-Gil, A. and Gassiat, E. and Matias, C.
    Scandinavian Journal of Statistics Vol. 33 No. 4 pp. 651-671
    http://www.blackwell-synergy.com/doi/abs/10.1111/j.1467-9469.2006.00513.x
In proceedings
  • DNA sequence drives nucleosome occupancy of yeast promoters
    Miele, V. and Vaillant, C. and D'Aubenton, Y. and Robelin, D. and Prum, B. and Thermes, C.
    Proceeding of JOBIM
Thesis
  • Le transcriptome : un nouveau domaine d'application pour les statistiques, de nouveaux horizons pour la biologie
    Carpentier, A.-S.
    Thèse de doctorat, Université d'Évry val d'Essonne   
  • PMC pour l'étude des occurrences de motifs dans les séquences markoviennes
    Nuel, G.
    Habilitation à diriger des recherches, Université d'Evry Val d'Essonne   
Seminar and communication
  • Les chaînes de Markov régulées : dérive polynomiale
    Vergne, N.
    Séminaire SCMBB, Bruxelles
  • Les modèles de Markov régulés pour l'étude des séquences biologiques: dérive polynomiale et applications
    Vergne, N.
    Colloque "Jeunes probabilistes et statisticiens", Aussois
  • Les modèles de Markov régulés pour l'étude des séquences biologiques: dérive polynomiale et applications
    Vergne, N.
    6ème Journées Jeunes Chercheurs en Biométrie, Villejuif
Book in a collection of books
  • The use of Markov Models and Hidden Markov Models in genomics
    Prum, B. and Tocquet, A.S.
    Mathematical and computational methods in biology
    Herman
2005
Journal article
  • Identification of programmed translational -1 frameshifting sites in the genome of Saccharomyces cerevisiae
    Bekaert, M. and Richard, H. and Prum, B. and Rousset, J.P.
    Genome Research Vol. 10 pp. 1411-1420
  • seq++: a package for biological sequences analysis with a range of Markov-related models
    Miele, V. and Bourguignon, P.Y. and Robelin, D. and Nuel, G. and Richard, H.
    BioInformatics Vol. 21 No. 11 pp. 2783-2784
Thesis
  • Détection de courts segments inversés dans les génomes - méthodes et applications
    Robelin, D.
    Thèse de doctorat, Université d'Évry val d'Essonne
    http://tel.archives-ouvertes.fr/tel-00010628/fr/
  • Prédiction de la localisation cellulaire des protéines à l'aide de leurs séquences biologiques.
    Richard, H.
    Thèse de doctorat, Université d'Évry val d'Essonne   
Seminar and communication
  • Drifting Markov Models
    Vergne, N.
    ECCB poster, Madrid
  • Les chaînes de Markov régulées
    Vergne, N.
    JOBIM poster, Lyon
2004
In proceedings
  • seq++: a C++ library for sequence storage, Markov modelization abd scoring analysis
    Miele, V. and Robelin, D. and Bourguignon, P.Y. and Nuel, G. and Richard, H.
    Proceedings of International Congress on BioInformatics
Seminar and communication
  • Emploi de chaînes de Markov régulées pourl'analyse de séquences biologiques
    Vergne, N.
    Séminaire SSB, Jouy-en-Josas
Article without referee
  • La recherche de gènes impliqués dans une maladie, collaboration avec Genset-Serono
    Prum, B. and Bourguignon, P.Y. and Guedj, M. and Képès, F. and Matias, C. and Nuel, G. and Omont, N.
    Matapli 74 p23-41
2003
Journal article
  • Short inverse complementary amino-acid sequences generate protein complexity
    Goldstein, D.J. and Fondrat, C. and Muri, F. and Nuel, G. and Saragueta, P. and Tocquet, A.S. and Prum, B.
    C. R. Acad. Sci. Biologie Vol. 326 pp. 339-348
  • SPA: Simple web tool to assess statistical significance of DNA patterns
    Richard, H. and Nuel, G.
    Nucleic Acid Res. (2003). 31 (13): 3679-81. Vol. 31 No. 13 pp. 3679-3681
    application note
    http://nar.oxfordjournals.org/cgi/content/abstract/31/13/3679
Thesis
  • Mise au point et utilisation de modèles de chaînes de Markov cachées pour l'étude des séquences d'ADN
    Nicolas, P.
    Thèse de doctorat, Université d'Evry Val d'Essonne   
2001
Thesis
  • Grandes déviations et chaînes de Markov pour l'étude des occurrences de mots dans les séquences biologiques
    Nuel, G.
    Thèse de doctorat, Université d'Evry Val d'Essonne   
1997
Thesis
  • Comparaison d'algorithmes d'identification de chaînes de Markov cachées et application à la détection de régions homogènes dans les séquences d'ADN
    Muri, F.
    Thèse de doctorat, Université Paris V   
by Stat & Génome
Powered by Driven by DokuWiki