Université Pierre et Marie Curie

Génétique

Introduction
Génes et génomes
Préparation de l’ADN à cloner
Les vecteurs
Ligation
Banque d’ADN génomique
Utilisation des fragments clonés
Caractérisation des clones
Séquençage
Mise en ordre
Génomique
Les gènes
L’analyse des génomes
Recherche de gènes
Polymorphisme
Mutagenèse
Analyse fonctionnelle
Cartographie
Biodiversite, évolution
Applications
Glossaire
Page d'accueilTable des matièresNiveau supérieurPage précédenteBas de la pagePage suivante

Génomique

 

 

On a donc après un certain temps de travail la succession des bases pour la totalité d'un génome (voir figure 1-5). Que peut-on en déduire ?

Sous cette forme RIEN. Il faut maintenant examiner cette succession de nucléotides par parties et y reconnaître des éléments déjà définis tels que des gènes par exemple. Encore une fois cela représente un travail de titan si on le faisait à la main. La bioinformatique propose des programmes pour reconnaître de telles structures, pour annoter le génome.

L'annotation structurale (syntaxique) du génome consiste à établir l'inventaire de l'ensemble des gènes contenus dans ce génome et à les analyser grâce aux outils de la bioinformatique :

Recherche de gène

La phase ouverte (ORF, Open Reading Frame) est la région de l'ADN qui sépare deux codons STOP. Dans celle-ci, une séquence codante (CDS, CoDing Sequence, région traduite en protéine) commence par un codon START, se termine par le codon STOP et est précédée d'un site de liaison aux ribosomes (RBS).

La lecture (traduction en protéine) peut se faire sur les deux brins d'ADN complémentaires et selon trois cadres de lecture possibles pour chaque brin : la recherche des régions codantes doit donc en pratique être effectuée sur six séquences virtuelles différentes.

La recherche de phases ouvertes est un problème crucial en bioinformatique car elle est beaucoup plus rapide et moins cher in silico qu'au laboratoire. Le problème est beaucoup plus simple chez les procaryotes que chez les eucaryotes du fait qu'ils n'ont pas d'intron.

La reconnaissance des gènes est facilitée par l'identification de zones particulières :

  • Prédiction des régions codantes
  • Identification de sites promoteur, sites de terminaison, sites de polyadénylation, sites d'épissage (avec la mise en évidence de sites accepteurs et sites donneurs, voir plus loin)), introns, contenu en GC, etc.
  • Identification de régions codantes par alignements avec des EST, des ADNc, des protéines, etc.
  • Identification d'exons par combinaison des deux approches précédentes.
  • Assemblage des exons
  • Recherche de motifs, de répétitions, etc.

Pour trouver la phase ouverte potentielle, on combine les résultats de plusieurs méthodes complémentaires :

  • La méthode la plus simple pour repérer les gènes consiste à trouver les phases ouvertes de lecture longues, c'est à dire des régions entre deux codons stop en phase, commençant par un codon Start (début de traduction) et de longueur statistiquement improbable. Cette méthode, un peu naïve, élimine tous les gènes de petite taille (< 300 pb). Elle constitue néanmoins un bon point de départ pour les analyses plus fines.
  • Une autre méthode combine la détection des longues ORFs avec les signaux nécessaires à la traduction, en particulier le site de fixation du ribosome (RBS), ainsi que, chez les eucaryotes, les séquences particulières séparant les introns des exons (jonctions intro-exon et exon-intron). Ces motifs qui caractérisent ces signaux ne sont toutefois en règle générale ni universels, ni spécifiques, et c'est pour cela que les systèmes de prédiction sont en général des systèmes à apprentissage (modèles de Markov, basés sur une approche probabiliste). Ils sont en général développés pour un organisme précis (Grail pour l'humain).
  • Une méthode un peu plus fine consiste dans la comparaison du contenu G+C de la troisième position (GC3) (voir code génétique) de la phase ouverte de lecture avec la distribution habituelle dans les gènes. La richesse en GC est souvent révélatrice d'une phase ouverte.
  • Un raffinement important de la méthode GC3 consiste à analyser l'usage de codons ou d'oligonucléotides dans l'ORF afin de le comparer à celui d'un gène typique de l'organisme.
  • En effet, il apparaît que le biais de l'usage du code génétique (qui se traduit par une fréquence d'utilisation spécifique de chacun des codons) est profondément relié à la nature fonctionnelle des gènes. On peut ainsi déduire, par des méthodes statistiques, une carte de distribution des gènes selon l'usage des codons. Il est alors possible d'établir des corrélations entre le biais d'usage des codons et les fonctions biologiques supposées ou connues de ces gènes. (NB: cela peut aussi mettre en évidence des transferts horizontaux ...).
  • Pour compléter la prédiction, il est utile d'isoler et séquencer les ARNm (qui ne contiennent pas d'introns), puis de les comparer aux bases de données de séquences codantes, telles que les banques d'EST. L'identification des gènes est alors facilitée quand il existe des séquences homologues à celle recherchée.
pic015.jpg

Figure 2.37 Résultat d'une recherché d'ORF sur les 6 phases d'une séquence.

Recherche d'autres objets biologiques associés au gène

tels que : les RBS (ribosomal binding site ou site de fixation des ribosomes), les opérons, les promoteurs, les éléments régulateurs de la transcription

Comparaison des séquences avec les banques

Des séquences homologues ont des parentés de fonction.

La génomique structurale (qu'il serait plus judicieux et exact de nommer "protéomique structurale") repose sur une approche expérimentale : c'est un programme de grande échelle (Structural Genomics Initiatives - PSI : Protein Structure Initiative), exploré par des études pilotes aux Etats-Unis, en Europe et en Asie, qui consiste à déterminer, par cristallographie et spectrométrie RMN, la structure 3D d'un ensemble de 10000 à 20000 protéines sélectionnées (représentatives de l'ensemble des familles protéiques structurales) afin d'avoir une meilleure connaissance et compréhension des repliements structuraux types et de la relation structure-fonction.
Les données atomiques produites viendront enrichir la PDB (protein data bank), banque de données de structures des protéines.

Lorsque l'on identifie un gène nouveau on compare sa structure primaire à celles déjà stockées dans la PDB. Si l'on trouve une analogie, il est vraisemblable que la fonction de la nouvelle protéine ressemble beaucoup à celle codée par le gène homologue de la PDB.

 

Page d'accueilTable des matièresNiveau supérieurPage précédenteHaut de la pagePage suivante