Le système de score d’un alignement

Supposons que l’on ait deux séquences qui nous intéressent (d’ADN ou de protéines). Nous pouvons aligner globalement ces deux séquences l’une avec l’autre (voir ce billet). Quand on compare comme cela des séquences entre elles, on cherche à savoir si elles ont divergé à partir d’un ancêtre commun sous l’action de processus évolutifs de mutation et sélection.

Les processus mutationnels de base sont les substitutions qui remplacent un résidu par un autre, et les insertion-délétions (indels) qui ajoutent ou enlèvent des résidus (les résidus sont les bases azotées pour l’ADN et les acides aminés pour les protéines). La sélection naturelle joue sur ces variations aléatoires et les crible de telle sorte que certaines modifications vont être plus visibles que d’autres: si une modification est très délétère pour l’individu qui la porte, elle sera contre-sélectionnée, n’apparaîtra pas ou peu dans la génération suivante et disparaîtra (schématiquement…).

Jusqu’à maintenant, pour construire un alignement nous avons utilisé des scores comme par exemple +1 pour le match (deux résidus alignés identiques), 0 pour le mismatch (deux résidus alignés différents) et -1 pour le gap (un résidu aligné avec un gap, dû à un indel). Mais comme nous voulons un système de score qui donne le score le plus élevé à l’alignement le plus plausible biologiquement, il nous faut prendre en compte beaucoup de choses comme l’histoire évolutive de ces séquences, leur structure tridimensionnelle…

Pour cela, nous utilisons un modèle probabiliste, c’est un moyen de simuler l’objet considéré, qui donne différents scénarios possibles avec une probabilité attachée à chacun d’eux. Dans notre cas, les séquences biologiques sont des chaînes de caractères (string en anglais) tirés d’un alphabet de résidus de taille finie (A,T,G,C pour l’ADN). Supposons que le résidu x apparaisse aléatoirement avec la probabilité q_x, indépendamment des autres résidus présents dans la séquence. Si la séquence est notée x_1...x_n, la probabilité d’observer cette séquence est alors le produit q_{x_1}q_{x_2}...q_{x_n}. Dans la suite nous appellerons ce modèle le « modèle de séquence aléatoire », c’est notre hypothèse nulle, contre lequel on comparera les autres modèles.

Concernant notre alignement des deux séquences, le score total correspond à la somme des termes pour chaque paire de résidus alignés plus un terme pour chaque gap. Intuitivement, si nos deux séquences ont un ancêtre commun, on s’attend à ce que les paires de résidus identiques (les identités) soient plus probable que dans le modèle aléatoire et donc contribuent au score par un terme positif, et inversement pour les paires de résidus différents et les gaps. Dans l’interprétation probabiliste, on calcule le logarithme d’un ratio de vraisemblance: la vraisemblance pour les séquences d’avoir un ancêtre commun par rapport à la vraisemblance de ne pas en avoir.

Quelques notations tout d’abord. Considérons deux séquences, x et y, de longueur respective m et n. Le i-ème résidu de x est noté x_i. Les résidus sont tirés d’un alphabet dont les symboles sont représentés par des lettres en minuscule comme a et b.

Vu précédemment, le modèle aléatoire noté R suppose que la probabilité d’avoir les deux séquences correspond au produit des probabilités d’avoir chaque séquence. Formellement, cela donne:

P(x,y/R) = \prod_{i} q_{x_i} q_{y_i}

Dans le modèle alternatif (supposant que les deux séquences ont un ancêtre commun), une paire de résidus alignés est observée avec une probabilité jointe p_{ab}. On peut voir ça comme la probabilité que les résidus a et b dérivent indépendamment tous les deux d’un résidu originel inconnu c qui est leur ancêtre commun. Ainsi:

P(x,y/M) = \prod_{i} p_{x_i y_i}

Les probabilités P(x,y/R) et P(x,y/M) sont des vraisemblances. En probabilité, la vraisemblance est la probabilité d’obtenir les données D sachant le modèle M: P(D/M). Le ratio de vraisemblances est connu sous le nom d’odds ratio:

\frac{P(x,y/M)}{P(x,y/R)} = \prod_{i} \frac{p_{x_i y_i}}{q_{x_i} q_{y_i}}

Pour obtenir un système de score additif, on prend le logarithme de ce ratio (le logarithme d’un produit étant une somme de logarithmes):

S = \sum_{i}{} s(x_i,y_i)

avec: s(x_i,y_i) = \log ( \frac{p_{x_i y_i}}{q_{x_i}q_{y_i}} )

Ici, utiliser un schéma de score additif revient à supposer que les mutations apparaissent indépendamment à chaque site de l’alignement. En probabilité, observer deux événement indépendants revient à multiplier leur probabilité. Et comme le logarithme d’un produit est égal à la somme des logarithmes, on obtient bien notre score additif. Finalement, les scores s(a,b) peuvent être stockés dans une matrice, de taille 4×4 pour l’ADN.

Il est important de voir que lorsqu’un biologiste construit une matrice de substitution ad hoc pour son alignement, il suppose implicitement les probabilités p(a,b) d’obtenir la paire de résidus ab dans son alignement.

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :