On a donc après un certain
temps de travail la succession des bases pour la totalité
d'un génome (voir figure 1-5). Que peut-on en déduire ?
Sous cette forme RIEN. Il
faut maintenant examiner cette succession de nucléotides
par parties et y reconnaître des éléments déjà définis tels
que des gènes par exemple. Encore une fois cela représente
un travail de titan si on le faisait à la main. La bioinformatique
propose des programmes pour reconnaître de telles structures,
pour annoter le génome.
L'annotation structurale
(syntaxique) du génome consiste à établir l'inventaire de
l'ensemble des gènes contenus dans ce génome et à les analyser
grâce aux outils de la bioinformatique :
Recherche de gène
La phase ouverte (ORF,
Open Reading Frame) est la région de l'ADN qui sépare deux
codons STOP. Dans celle-ci, une séquence codante (CDS, CoDing
Sequence, région traduite en protéine) commence par un codon
START, se termine par le codon STOP et est précédée
d'un site de liaison aux ribosomes (RBS).
La lecture (traduction en
protéine) peut se faire sur les deux brins d'ADN complémentaires
et selon trois cadres de lecture possibles pour chaque brin
: la recherche des régions codantes doit donc en pratique
être effectuée sur six séquences virtuelles différentes.
La recherche de phases ouvertes
est un problème crucial en bioinformatique car elle est
beaucoup plus rapide et moins cher in silico qu'au laboratoire.
Le problème est beaucoup plus simple chez les procaryotes
que chez les eucaryotes du fait qu'ils n'ont pas d'intron.
La reconnaissance des gènes
est facilitée par l'identification de zones particulières
:
- Prédiction des régions codantes
- Identification de sites promoteur,
sites de terminaison, sites de polyadénylation,
sites d'épissage (avec la mise en évidence de sites accepteurs
et sites donneurs, voir plus loin)), introns, contenu
en GC, etc.
- Identification de régions codantes
par alignements avec des EST, des ADNc, des protéines,
etc.
- Identification d'exons par combinaison
des deux approches précédentes.
- Assemblage des exons
- Recherche de motifs, de répétitions,
etc.
Pour trouver la phase ouverte
potentielle, on combine les résultats de plusieurs méthodes
complémentaires :
- La méthode la plus simple pour repérer
les gènes consiste à trouver les phases ouvertes de
lecture longues, c'est à dire des régions entre deux
codons stop en phase, commençant par un codon Start (début
de traduction) et de longueur statistiquement improbable.
Cette méthode, un peu naïve, élimine tous les gènes de
petite taille (< 300 pb). Elle constitue néanmoins
un bon point de départ pour les analyses plus fines.
- Une autre méthode combine la détection
des longues ORFs avec les signaux nécessaires à la traduction,
en particulier le site de fixation du ribosome (RBS),
ainsi que, chez les eucaryotes, les séquences particulières
séparant les introns des exons (jonctions intro-exon et
exon-intron). Ces motifs qui caractérisent ces signaux
ne sont toutefois en règle générale ni universels,
ni spécifiques, et c'est pour cela que les systèmes
de prédiction sont en général des systèmes à apprentissage
(modèles de Markov, basés sur une approche probabiliste).
Ils sont en général développés pour un organisme précis
(Grail pour l'humain).
- Une méthode un peu plus fine consiste
dans la comparaison du contenu G+C de la troisième
position (GC3) (voir code génétique) de la phase ouverte
de lecture avec la distribution habituelle dans les gènes.
La richesse en GC est souvent révélatrice d'une phase
ouverte.
- Un raffinement important de la méthode
GC3 consiste à analyser l'usage de codons ou d'oligonucléotides
dans l'ORF afin de le comparer à celui d'un gène typique
de l'organisme.
- En effet, il apparaît que le biais
de l'usage du code génétique (qui se traduit par une fréquence
d'utilisation spécifique de chacun des codons) est profondément
relié à la nature fonctionnelle des gènes. On peut ainsi
déduire, par des méthodes statistiques, une carte de distribution
des gènes selon l'usage des codons. Il est alors possible
d'établir des corrélations entre le biais d'usage des
codons et les fonctions biologiques supposées ou connues
de ces gènes. (NB: cela peut aussi mettre en évidence
des transferts horizontaux ...).
- Pour compléter la prédiction, il est
utile d'isoler et séquencer les ARNm (qui ne contiennent
pas d'introns), puis de les comparer aux bases
de données de séquences codantes, telles que les banques
d'EST.
L'identification des gènes est alors facilitée quand il
existe des séquences
homologues à celle recherchée.

Figure 2.37 Résultat d'une
recherché d'ORF sur les 6 phases d'une séquence.
Recherche d'autres objets
biologiques associés au gène
tels que : les RBS (ribosomal
binding site ou site de fixation des ribosomes), les opérons,
les promoteurs, les éléments régulateurs de la transcription
Comparaison des séquences avec les banques
Des séquences homologues ont des parentés de fonction.
La génomique structurale (qu'il serait plus judicieux et exact de nommer "protéomique structurale") repose sur une approche expérimentale : c'est un programme de grande échelle (Structural Genomics Initiatives - PSI : Protein Structure Initiative), exploré par des études pilotes aux Etats-Unis, en Europe et en Asie, qui consiste à déterminer, par cristallographie et spectrométrie RMN, la structure 3D d'un ensemble de 10000 à 20000 protéines sélectionnées (représentatives de l'ensemble des familles protéiques structurales) afin d'avoir une meilleure connaissance et compréhension des repliements structuraux types et de la relation structure-fonction.
Les données atomiques produites viendront enrichir la PDB (protein data bank), banque de données de structures des protéines.
Lorsque l'on identifie un gène nouveau on compare sa structure primaire à celles déjà stockées dans la PDB. Si l'on trouve une analogie, il est vraisemblable que la fonction de la nouvelle protéine ressemble beaucoup à celle codée par le gène homologue de la PDB.