Manuscrits

20 avril 2009

Alors que les manuscrits de Madame Bovary viennent d’être mis en ligne (ici) grâce au dévouement de bénévoles amoureux de Flaubert, nouvelle justement saluée sur la blogosphère, j’en profite pour rappeler qu’une initiative équivalente existe concernant les écrits de Charles Darwin, à feuilleter ici.

test1

La vue de ces vieux parchemins me fait également penser à la métaphore régulièrement utilisée pour introduire la notion de « génome », l’ADN d’un organisme. On dit alors que le génome est une sorte de palimpseste moléculaire portant, au travers des générations, les marques de son évolution. Ne disposant que d’un alphabet restreint (les 4 bases A, T, G, C), cette séquence biologique parvient tout de même à coder l’information génétique nécessaire à la construction de l’organisme qui la possède, puis lui assure survie et reproduction, et par là-même se transmet à travers le temps. Et c’est en scrutant les stigmates mutationnels que sont les substitutions, insertions-délétions, transpositions, inversions, recombinaisons, duplications et autres translocations accumulées progressivement les unes sur les autres en un bric-à-brac sans nom, que certains humains, petit à petit, démêlent l’écheveau des trajectoires évolutives qu’ils ont sous les yeux.

All history was a palimpsest, scraped clean and re-inscribed exactly as often as necessary.

Georges Orwell


Publicités

Le système de score d’un alignement

20 avril 2009

Supposons que l’on ait deux séquences qui nous intéressent (d’ADN ou de protéines). Nous pouvons aligner globalement ces deux séquences l’une avec l’autre (voir ce billet). Quand on compare comme cela des séquences entre elles, on cherche à savoir si elles ont divergé à partir d’un ancêtre commun sous l’action de processus évolutifs de mutation et sélection.

Les processus mutationnels de base sont les substitutions qui remplacent un résidu par un autre, et les insertion-délétions (indels) qui ajoutent ou enlèvent des résidus (les résidus sont les bases azotées pour l’ADN et les acides aminés pour les protéines). La sélection naturelle joue sur ces variations aléatoires et les crible de telle sorte que certaines modifications vont être plus visibles que d’autres: si une modification est très délétère pour l’individu qui la porte, elle sera contre-sélectionnée, n’apparaîtra pas ou peu dans la génération suivante et disparaîtra (schématiquement…).

Jusqu’à maintenant, pour construire un alignement nous avons utilisé des scores comme par exemple +1 pour le match (deux résidus alignés identiques), 0 pour le mismatch (deux résidus alignés différents) et -1 pour le gap (un résidu aligné avec un gap, dû à un indel). Mais comme nous voulons un système de score qui donne le score le plus élevé à l’alignement le plus plausible biologiquement, il nous faut prendre en compte beaucoup de choses comme l’histoire évolutive de ces séquences, leur structure tridimensionnelle…

Pour cela, nous utilisons un modèle probabiliste, c’est un moyen de simuler l’objet considéré, qui donne différents scénarios possibles avec une probabilité attachée à chacun d’eux. Dans notre cas, les séquences biologiques sont des chaînes de caractères (string en anglais) tirés d’un alphabet de résidus de taille finie (A,T,G,C pour l’ADN). Supposons que le résidu x apparaisse aléatoirement avec la probabilité q_x, indépendamment des autres résidus présents dans la séquence. Si la séquence est notée x_1...x_n, la probabilité d’observer cette séquence est alors le produit q_{x_1}q_{x_2}...q_{x_n}. Dans la suite nous appellerons ce modèle le « modèle de séquence aléatoire », c’est notre hypothèse nulle, contre lequel on comparera les autres modèles.

Concernant notre alignement des deux séquences, le score total correspond à la somme des termes pour chaque paire de résidus alignés plus un terme pour chaque gap. Intuitivement, si nos deux séquences ont un ancêtre commun, on s’attend à ce que les paires de résidus identiques (les identités) soient plus probable que dans le modèle aléatoire et donc contribuent au score par un terme positif, et inversement pour les paires de résidus différents et les gaps. Dans l’interprétation probabiliste, on calcule le logarithme d’un ratio de vraisemblance: la vraisemblance pour les séquences d’avoir un ancêtre commun par rapport à la vraisemblance de ne pas en avoir.

Quelques notations tout d’abord. Considérons deux séquences, x et y, de longueur respective m et n. Le i-ème résidu de x est noté x_i. Les résidus sont tirés d’un alphabet dont les symboles sont représentés par des lettres en minuscule comme a et b.

Vu précédemment, le modèle aléatoire noté R suppose que la probabilité d’avoir les deux séquences correspond au produit des probabilités d’avoir chaque séquence. Formellement, cela donne:

P(x,y/R) = \prod_{i} q_{x_i} q_{y_i}

Dans le modèle alternatif (supposant que les deux séquences ont un ancêtre commun), une paire de résidus alignés est observée avec une probabilité jointe p_{ab}. On peut voir ça comme la probabilité que les résidus a et b dérivent indépendamment tous les deux d’un résidu originel inconnu c qui est leur ancêtre commun. Ainsi:

P(x,y/M) = \prod_{i} p_{x_i y_i}

Les probabilités P(x,y/R) et P(x,y/M) sont des vraisemblances. En probabilité, la vraisemblance est la probabilité d’obtenir les données D sachant le modèle M: P(D/M). Le ratio de vraisemblances est connu sous le nom d’odds ratio:

\frac{P(x,y/M)}{P(x,y/R)} = \prod_{i} \frac{p_{x_i y_i}}{q_{x_i} q_{y_i}}

Pour obtenir un système de score additif, on prend le logarithme de ce ratio (le logarithme d’un produit étant une somme de logarithmes):

S = \sum_{i}{} s(x_i,y_i)

avec: s(x_i,y_i) = \log ( \frac{p_{x_i y_i}}{q_{x_i}q_{y_i}} )

Ici, utiliser un schéma de score additif revient à supposer que les mutations apparaissent indépendamment à chaque site de l’alignement. En probabilité, observer deux événement indépendants revient à multiplier leur probabilité. Et comme le logarithme d’un produit est égal à la somme des logarithmes, on obtient bien notre score additif. Finalement, les scores s(a,b) peuvent être stockés dans une matrice, de taille 4×4 pour l’ADN.

Il est important de voir que lorsqu’un biologiste construit une matrice de substitution ad hoc pour son alignement, il suppose implicitement les probabilités p(a,b) d’obtenir la paire de résidus ab dans son alignement.


Ce matin, le soleil perce derrière la brume

4 avril 2009

Il est de ces moments si particuliers que l’on aimerait les partager, tentant d’ignorer l’incommunicabilité intrinsèque de ce type d’expérience personnelle, telle la lecture de quelques pages de « La Route des Flandres », entouré de la symphonie n° 3 de Saint-Saëns qui réchauffe au moins autant que la couette sous laquelle on paresse en ce samedi matin.

Les longues minutes, interminables, pendant lesquelles la sentinelle longe Georges étalé dans le ravin, le regard au niveau des brins d’herbe, attiré par le poulailler à quelques mètres, ce refuge si proche et pourtant si loin, malgré sa décrépitude, le regard qui continue à vagabonder, suivant les sinueuses rigoles le long des tiges, ces lignes au vert moelleux supportant de larges feuilles flasques contrastant avec la rugosité du mur de briques; alors qu’en contrebas du lit, s’échappant doucement des enceintes grillagées, les violons du mouvement II soutiennent envers et contre tout cet espoir ténu mais tenace qui nous habite, suivis quelques pistes plus loin du rire moqueur, mais si attirant, qui sautille d’un bout à l’autre de la Danse Macabre, dehors le soleil perce et


%d blogueurs aiment cette page :