Significativité d’un alignement en bayésien

On a vu précédemment comment aligner (globalement) deux séquences l’une avec l’autre et comment calculer le score de l’alignement résultant étant donné un scoring scheme (match, mismatch, gap). Mais bien que l’on sache obtenir un alignement optimal, cela ne nous dit pas si notre alignement est significatif, c’est-à-dire s’il est biologically meaningful

Replaçons nous dans le contexte; nous venons d’obtenir (par des moyens expérimentaux) une nouvelle séquence. Pour en savoir plus sur l’information qu’elle code, on se dit qu’on peut essayer de l’aligner avec une séquence déjà connue. C’est ce que nous faisons et on trouve l’alignement optimal A_1 de score S_1. C’est bien, mais pas suffisant. En effet, nous n’avons (pour l’instant) aucun moyen de savoir si cet alignement est dû au hasard ou bien si ces deux séquences sont homologues, c’est-à-dire si elles ont un ancêtre commun.

Et oui, on peut très bien avoir un alignement A_2 entre notre séquence inconnue et une 2e séquence que l’on connaît déjà, de score S_2 celui-là. Or on aimerait bien avoir un moyen pour juger que deux séquences sont homologues puisque dans ce cas-là on se permettra (grossièrement) d’inférer que la fonction de notre séquence inconnue est la même que la fonction de la séquence qu’on connaît déjà (à peu de choses près).  Dans notre cas, quel alignement doit-on utiliser pour inférer la fonction ? A_1 ou A_2 ?

Et comme toujours, il existe plusieurs approches pour (tenter de) répondre à cette question, l’approche bayésienne (voir ci-dessous) et la distribution du maximum de scores (prochainement dans un autre billet).

On a vu que le score S d’un alignement était un log de ratio de vraisemblances:

S = log( \frac{P(x,y/M)}{P(x,y/R)} )

Mais en fait, au lieu de P(x,y/M), la probabilité d’obtenir les séquences x et y sachant qu’elles ont un ancêtre commun (le match modèle M), ce que l’on veut vraiment, c’est calculer la probabilité que les deux séquences aient un ancêtre commun connaissant ces deux séquences: P(M/x,y). Grâce à la formule de Bayes, on peut calculer cette probabilité:

P(M/x,y) = \frac{P(x,y/M)P(M)}{P(x,y)}

Cependant, au préalable, il faut spécifier les prior: P(M) la probabilité a priori que les deux séquences sont reliées (par un ancêtre commun) et P(R) la probabilité a priori du modèle aléatoire:  P(R) = 1 - P(M).

Ainsi:

P(M/x,y) = \frac{P(x,y/M)P(M)}{P(x,y/M)P(M)+P(x,y/R)P(R)}

P(M/x,y) = \frac{P(x,y/M)P(M) / P(x,y/R)P(R)}{1+P(x,y/M)P(M) / P(x,y/R)P(R)}

Finalement, on pose:

S' = S + log( \frac{P(M)}{P(R)} )

On obtient alors:

P(M/x,y) = \sigma(S') avec \sigma(x)=\frac{\exp^x}{1+\exp^x}

\sigma est la fonction logistique. C’est une sigmoide tendant vers 1 quand x tend vers \infty, et vers 0 quand x tend vers -\infty. Cette fonction est bien utile pour convertir des scores faits de sommes en probabilités.

Une fois qu’on a fait tout ça, on peut comparer la valeur finale de P(M/x,y) à 0 pour savoir si nos séquences sont reliées entre elles ou non. Sans rentrer dans les détails, il faut être bien sûr de travailler avec des probabilités (leur somme sur toutes les paires possibles de séquences doit faire 1), ce qui n’est pas toujours le cas dans un scoring scheme construit de façon ad hoc. De plus, les priors prennent beaucoup d’importance quand on cherche un alignement significatif entre une séquence inconnue et une banque de séquences connues. Dans ce cas-là, il faut prendre en compte la taille de la banque puisque la probabilité d’obtenir, par chance, un bon alignement entre deux séquences non reliées entre elles augmente avec la taille de la banque.

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :