A propos d’une question vieille comme le monde

18 juin 2010

Qu’est-ce que la vie ?

The first molecular biologists, Francis Crick and Jacques Monod, were not wrong when they said that the secret of life had been solved, and the characteristics of organisms explained. The question of life is no longer a mystery. But what remains to be understood is the way these well-defined characteristics have emerged, and been coupled. There has been a dramatic shift in the past fifty years: the question of life is no longer a search for principles of life, but a historical question. The question is no longer “What characteristics are found in organisms but not in inanimate objects?”, but “How were these characteristics progressively associated within objects that we call organisms?”.

This is a dramatic change, because it makes the question of life a scientific question, fully accessible to scientific enquiry. Life is on the way to being “naturalized”. And the most ambitious projects of synthetic biologists, such as those of Craig Venter, will probably be successful in the near future!

Michel Morange, The Resurrection of Life, Orig Life Evol Biosph (2010) 40:179-182

Pour info, Michel Morange définit dans le même article ce qu’il considère être les caractéristiques de la vie: « the capacity to reproduce, the permanent exchange of material and energy with the environment, complex macromolecular structures ».


Modéliser l’évolution des séquences d’ADN

28 mars 2010

Bien que je m’empêche de réagir à chaud, l’actualité médiatique est une source permanente d’inspiration. Alors quand les mathématiciens avertissent du desintérêt croissant pour leur discipline et que l’apparition de virus HINI mutants crée des frayeurs, l’envie me prend de dire quelques mots mêlant modèle mathématique et mutations dans des séquences d’ADN.

Attention le billet est long mais à la fin puisse votre persévérance être récompensée. Non seulement vous connaîtrez une formule estimant la distance entre deux séquences d’ADN, mais vous serez aussi passés par toutes les étapes du calcul (ce qui est généralement négligé partout ailleurs sur internet). Et puis le fait de rentrer dans le coeur d’un modèle, suivant pas à pas la démarche du modélisateur, pourrait réconcilier certains lecteurs avec les maths ? En tout cas moi ça m’a bien servi d’écrire ce billet.

On l’a vu précédemment, l’ADN est la molécule support de l’information génétique. Elle est formée de quatre « briques » appelées nucléotides, chacune symbolisée par une lettre: A, T, G et C. Chaque cellule possède une molécule d’ADN qui est copiée dans son intégralité au moment de la division cellulaire. Or, lors de cette réplication, des erreurs peuvent être commises, par exemple un A remplacé par un G. On parle alors de mutation (de substitution pour être plus précis). Par simplicité on ne traite pas le cas des insertions/délétions.

Depuis les années 1970, avec la possibilité de séquencer de l’ADN, on peut observer un fragment du génome d’un organisme et le comparer avec le même fragment mais provenant d’un autre organisme. En alignant ces deux séquences, on peut avoir une idée du nombre de match (:) et mismatch (*) les séparant, comme le montre l’image ci-dessous:

figure 1: un alignement global entre deux séquences d’ADN

En voyant cela, on se rappelle qu’une séquence d’ADN est une chaîne de caractères de longueur finie. Chaque position est appelée un site. Chaque site est dans un état particulier parmi quatre possibles (A, T, G ou C). Lorsque plusieurs séquences ont un ancêtre commun, on parle de séquence homologues. Sur la figure 1 la séquence S_1 et la séquence S_2 ont la même longueur L, 20 nucléotides, l’alignement résultant a donc 20 sites.

Pour mesurer la distance entre deux séquences, le plus simples est de calculer la proportion de sites différents. Sur la figure 1 une distance de 0.1 sépare la séquence S_1 de la séquence S_2 (2 mismatches sur 20 sites). Le problème c’est qu’en faisant cela on néglige les mutations cachées. Par exemple au site n°2 supposons que l’ancêtre commun ait été le nucléotide A. La séquence S_1 n’a pas eu de mutation mais la séquence S_2 aurait pu en avoir deux, d’abord de A vers C puis de C vers A. Or avec la distance décrite ci-dessus on ne compte pas de mutation puisque les deux séquences sont dans l’état A au 2e site. Dans la même veine, au 8e site supposons que la séquence ancestrale ait été dans l’état G. Aujourd’hui on observe que la séquence S_1 est toujours dans l’état G mais la séquence S_2 est dans l’état A, on compte donc une mutation, mais qui nous dit qu’il n’y en a pas eu plusieurs, par exemple de G vers T puis de T vers A ? Alors allons-y, écrivons un modèle mathématique prenant cela en compte !

On suppose que tous les sites suivent la même distribution de probabilités et que chaque site évolue de façon indépendante des autres. Ainsi la probabilité de passer de la séquence S_1 à la séquence S_2 (toutes les deux de longueur L) est donnée par:

\mathbb{P}( S_1 \rightarrow S_2 ) = \displaystyle \prod_{i = 1} ^L \mathbb{P}( S_1[i] \rightarrow S_2[i] )

Dire que deux probabilités sont indépendantes revient à les multiplier. Comme on suppose que tous les suites suivent la même loi de probabilité, on peut se concentrer sur l’évolution d’un seul site. Grâce à la formule ci-dessus, si on arrive à modéliser \mathbb{P}( S_1[i] \rightarrow S_2[i] ) on arrivera à modéliser \mathbb{P}( S_1 \rightarrow S_2 ).

Supposons maintenant que le temps avance en « tic », comme les aiguilles d’une horloge, et qu’à chaque « tic » une mutation peut subvenir ou non. Pour modéliser cela on va utiliser une chaîne de Markov. Une chaine de Markov est un processus stochastique (synonyme de probabiliste). Par exemple, si on note X l’évènement « le dé jeté affiche la valeur x« , on dit que X est une variable aléatoire prenant les valeurs 1, 2 ... 6. Et bien, si on étudie plusieurs lancés de dé au cours du temps, on se retrouve à étudier un processus probabiliste: pas compliqué…

Si maintenant on considère que la probabilité au temps t_{n+1} ne dépend que de l’état présent, c’est-à-dire du temps t_{n}, et non des états passés, les temps t_{n-1}, t_{n-2}, etc, on dit que le processus possède la propriété de Markov. Résumé d’une autre façon: « le futur ne dépend du passé qu’au travers de l’instant présent ». Et c’est tout naturellement ce qui arrive en génétique: une mutation à la génération des petit-enfants ne va pas dépendre du nucléotide en question à la générations des grand-parents mais uniquement du nucléotide en question à la génération des parents.

Une chaîne de Markov est caractérisée par sa matrice de transition P. Quand on modélise l’évolution d’une séquence d’ADN, la chaîne a 4 états (pour A, T, G et C), et la matrice aura 4 lignes et 4 colonnes. La valeur au croisement de la ligne i et de la colonne j est la probabilité p_{ij} d’être dans l’état i et de passer dans l’état j.

En 1969, Jukes et Cantor proposaient de modéliser l’évolution d’une séquence via une chaîne de Markov sous l’hypothèse que la probabilité f(t) de passer d’un nucléotide à un autre pendant la durée t était constante au cours du temps. Voici la matrice de transition correspondante:

P = \begin{pmatrix}1 - 3f(t) & f(t) & f(t) & f(t) \\ f(t) & 1 - 3f(t) & f(t) & f(t) \\ f(t) & f(t) & 1 - 3f(t) & f(t) \\ f(t) & f(t) & f(t) & 1 - 3f(t) \end{pmatrix}

Je précise de manière arbitraire que les 1e ligne et colonne correspondent au nucléotide A, les 2e au nucléotide T, les 3e à G et les 4e à C: p_{23} à l’intersection de la 2e ligne et de la 3e colonne est la probabilité que le site soit dans l’état T et mute vers l’état G.

i \ne j: \mathbb{P}( i \rightarrow j ) = p_{ij}(t) =f(t)

i = j: \mathbb{P}( i \rightarrow j ) = p_{ii}(t) = 1 - 3f(t)

Si on est à la génération t et que le nucléotide que l’on est en train d’analyser est un « A », deux scénarios sont possibles:

  • il y a une mutation, de A vers T, G ou C, chaque évènement ayant une probability f(t) d’arriver;
  • il n’y a pas de mutation, ceci avec une probabilité 1 - 3f(t) (la somme de tous les évènements doit faire 1).

Maintenant calculons f(t) = p_{ij}(t) et pour ceci commençons par différencier la matrice de transition P, c’est-à-dire regardons ce que vaut cette matrice P à l’instant t + \Delta t (c’est-à-dire très peu de temps après l’instant t) on a:

P( t + \Delta t ) = P(t) \times P(\Delta t)

Donc si maintenant on fait tendre \Delta t vers 0 (ça vous rappelle la définition de la dérivée n’est-ce pas ?):

P'(t) = \lim_{\Delta t \rightarrow 0} \frac{P( t + \Delta t ) - P(t)}{\Delta t}

P'(t) = \lim_{\Delta t \rightarrow 0} \frac{P(t) \times P(\Delta t) - P(t + 0)}{\Delta t}

P'(t) = \lim_{\Delta t \rightarrow 0} \frac{P(t) \times P(\Delta t) - P(t) \times P(0)}{\Delta t}

P'(t) = \lim_{\Delta t \rightarrow 0} P(t) \frac{P(\Delta t) - P(0)}{\Delta t}

P'(t) = P(t) \lim_{\Delta t \rightarrow 0} \frac{P(\Delta t) - P(0)}{\Delta t}

Ainsi: P'(t) = P(t) \times P'(0)

P'(0) = \begin{pmatrix} - 3f'(0) & f'(0) & f'(0) & f'(0) \\ f'(0) & - 3f'(0) & f'(0) & f'(0) \\ f'(0) & f'(0) & - 3f'(0) & f'(0) \\ f'(0) & f'(0) & f'(0) & - 3f'(0) \end{pmatrix}

Posons f'(0) = \alpha, on a alors:

P'(0) = \begin{pmatrix} - 3\alpha & \alpha & \alpha & \alpha \\ \alpha & - 3\alpha & \alpha & \alpha \\ \alpha & \alpha & - 3\alpha & \alpha \\ \alpha & \alpha & \alpha & - 3\alpha \end{pmatrix}

En multipliant, par exemple, la 1e ligne de P(t) avec la 2e colonne de P'(0) on obtient:

p'_{12}(t) = \alpha - 3\alpha f(t) - 3\alpha f(t) + \alpha f(t) + \alpha f(t)

p'_{12}(t) = \alpha - 4 \alpha f(t)

Or on sait aussi que si i \ne j, on a p'_{12}(t) = p'_{ij}(t) = f'(t).

C’est-à-dire: f'(t) = \frac{df}{dt} = \alpha - 4 \alpha f(t)

Et maintenant on intègre cette équation différentielle:

\int \frac{df}{\alpha - 4 \alpha f(t)} = \int dt

\Rightarrow \frac{ln(\alpha - 4 \alpha f(t))}{-4\alpha} = t + c

\Rightarrow ln( \alpha - 4 \alpha f(t) ) = - 4 \alpha t + c

\Rightarrow \alpha - 4 \alpha f(t) = c \exp^{- 4 \alpha t}

\Rightarrow f(t) = \frac{1}{4} - \frac{c}{4 \alpha} \exp^{- 4 \alpha t}

Il nous faut maintenant calculer c qui est la constance d’intégration. Pour cela supposons que f(0) = 0 ce qui signifie qu’au temps t=0 on commence dans un état constant. Par exemple, si à t=0 on est dans l’état A alors la probabilité d’avoir une substitution de ce « A » à t=0 vaut 0. Ainsi:

f(0)=0 \Rightarrow f(0) = \frac{1}{4} - \frac{c}{4\alpha} = 0 \Rightarrow c = \alpha

On a doncf(t) = \frac{1}{4} - \frac{\exp^{- 4 \alpha t}}{4}

Pour calculer \alpha on se place à t=0 puisque \alpha = f'(0), et on appelle \Pi_i la probabilité d’être dans l’état i au temps t=0 (\Pi_i = 1/4):

\sum_{i} \sum_{j \ne i} \Pi_{i} P'(0)_{ij} = 1

\Pi_{A} P'(0)_{AT} + \Pi_{A} P'(0)_{AG} + \Pi_{A} P'(0)_{AC} + \Pi_{T} P'(0)_{TA} + ... = 1

12 \frac{1}{4} \alpha = 1

\alpha = \frac{1}{3}

Finalement:

f(t) = \frac{1}{4} - \frac{exp(-4t/3)}{4}

C’est bien gentil vous allez me dire, on connaît maintenant f(t) mais ça ne résout pas notre problème initial qui était de prendre en compte les mutations cachées… En fait si mais il reste encore un peu de calcul à faire. Pour cela on doit estimer la valeur de la variable t, c’est-à-dire la distance qui sépare nos deux séquences S_1 et S_2. Grâce à notre modèle décrit ci-dessus cette distance est bien sûr reliée aux nombres de mutations observées entre les deux séquences tout en prenant en compte le fait que certaines mutations soient arrivées sans qu’on puisse les voir.

Afin d’estimer t on va appliquer la méthode du maximum de vraisemblance. Je rappelle que la vraisemblance (notée L pour likelihood) est la probabilité d’observer les données sachant le modèle: P(data/model). Dans notre cas on veut calculer la probabilité que la séquence S_1 (de taille n) ait pu évoluer en S_2, ce qui s’écrit:

L = P(S_{1}[1]) P(S_{1}[1] -> S_{2}[1]/t) P(S_{1}[2]) P(S_{1}[2] -> S_{2}[2]/t) ... P(S_{1}[n]) P(S_{1}[n] -> S_{2}[n]/t)

avec P(S_1[i]) la probabilité d’observer le nucléotide en question au i-ème site de la séquence S_1, et P(S_1[i] \rightarrow S_2[i]/t) la probabilité d’avoir muté au i-ème site du nucléotide de S_1 vers le nucléotide de S_2 pendant le temps t.

Quand on a un produit (multiplications) on aime bien le transformer en somme (additions). Pour cela on utilise la fonction logarithme:

ln L = ln P(S_1[1]) + ... + ln P(S_1[n]) + ln P(S_1[1] \rightarrow S_2[1]/t) + ... + ln P(S_1[n] \rightarrow S_2[n]/t)

Afin de trouver le maximum de cette vraisemblance on fait comme au lycée: on dérive la fonction ln L et on cherche les valeurs auxquelles la dérivée s’annule. Les n premiers termes de la formule valent une constante donc leur dérivée est nulle. Pour les n autres on peut poser que m_1 correspond aux mutations d’un nucléotide vers un autre (p_{ij}) et m_2 correspond aux mutations d’un nucléotide vers lui-même (p_{ii}).

\frac{d (ln L)}{dt} = \frac{m_{1}}{p_{ij}(t)} p_{ij}'(t) + \frac{m_{2}}{p_{ii}(t)} p_{ii}'(t) = 0

Comme on a calculé un peu plus haut f(t) et que f(t) = p_{ij}(t) on peut remplacer dans l’équation ci-dessus. Je vous épargne les calculs mais à la fin on obtient:

\hat{t} = -\frac{3}{4} ln ( 1 - \frac{4m_{1}}{3(m_{1}+m_{2})} )

Et pour résoudre enfin notre problème on peut définir p comme étant la proportion de sites différents entre nos deux séquences. Ainsi, alors qu’on a commencé par estimer la distance entre nos deux séquences par:

p = \frac{m_{1}}{m_{1}+m_{2}}

on estime maintenant cette distance par:

\hat{t} = -\frac{3}{4} ln ( 1 - \frac{4}{3} p )

Et c’est cela qu’on appelle la distance de Jukes-Cantor. Dans le cas de la figure 1, p=0.1 alors que \hat{t}=0.107. La distance de Jukes-Cantor est bien légèrement plus grande car elle prend en compte des mutations qui ont pu arriver mais qu’on ne voit pas.

Alors bien sûr, comme toujours en modélisation, on simplifie beaucoup, mais depuis l’article de Jukes Cantor en 1969 les modèles ont été perfectionnés et cela permet de bien mieux comprendre le génome des êtres vivants: vitesse d’apparition des mutations, importance fonctionnelle de certaines séquences, relations phylogénétiques entre les espèces… Mais ce serait trop pour ce billet !

ps: une bonne revue sur ces questions est disponible ici.

 

 

 

 

 

 

 

 


Accrochons-nous…

19 octobre 2009

At most 1% of brilliant ideas turn out to be right in biology (it is, I guess, close to 90% in mathematics) while only few ideas can be tested in a realistic stretch of time: the amount of skilled work going into a serious experiment can hardly even be imagined by a mathematician like myself not to speak of enormity of the background knowledge needed to design such an experiment.

Misha Gromov, IHES

More details here.


Quelques naturalistes français des Lumières

31 mai 2009

En cette fin de semaine, je me suis plonger, avec délices, dans l’histoire de ces penseurs français qui, au XVIIIe et XIXe siècles, ont tenté de comprendre d’où venait l’extraordinaire diversité du monde vivant qui nous entoure et dont nous faisons parti. Que d’efforts pour déchiffrer la nature, révéler les mécanismes à l’œuvre, expérimenter les hypothèses, observer les exceptions et ainsi paver le chemin au XXe siècle qui verra l’explosion de la biologie !

mixBiodiversity

Ce n’est pas sans émotion que l’on découvre les intuitions géniales de Maupertuis qui suggère la présence des mutations avec en toile de fond la sélection naturelle qui ne dit pas son nom, de même les propos de Lamarck qui assied sa compréhension de l’évolution sur de nombreuses observations et une théorisation poussée. Lire ces textes aujourd’hui, repérer les errements de leurs auteurs autant que leurs fulgurances et les confronter aux connaissances les plus récentes, tout ceci est un grand moment de plaisir que je vous laisse savourer. Les citations sont extraites des documents originaux numérisés et disponibles gratuitement sur Internet (merci à la BNF, au CNRS et à Google).  Pour Maupertuis, j’ai simplement remplacé les « f » par des « s » pour faciliter la lecture.

Maupertuis (1698-1759), dans Vénus physique (lien) en 1745:

p. 31, sur la fécondation:

Richesse immense, fécondité sans bornes de la nature! n’êtes -vous pas ici une prodigalité? Et ne peut-on pas vous reprocher trop d’appareil et de dépense? De cette multitude prodigieuse de petits animaux qui nagent dans la liqueur séminale, un seul parvient à l’humanité […]

p. 69, sur l’analogie:

L’Analogie nous délivre de la peine d’imaginer des choses nouvelles; & d’une peine encore plus grande, qui est de demeurer dans l’incertitude. Elle plaît à notre esprit: mais plaît-elle tant à la nature?

à partir de la p. 135, les étonnants prémisses du mutationnisme:

Il ne seroit pas impossible qu’un jour la fuite des oeufs blancs qui peuplent nos régions, venant à manquer, toutes les nations Européennes changeassent de couleur: comme il ne seroit pas impossible aussi que la sources des oeufs noirs étant épuisée, l’Ethipoie n’eût plus que des habitans blancs. C’est ainsi que dans une carrière profonde, lorsque la veine de marbre blanc est épuisée, l’on ne trouve plus que des pierres de différentes couleursqui se succèdent les unes aux autres. C’est ainsi que des races nouvelles d’hommes peuvent paroître sur la terre, & que les anciennes peuvent s’éteindre.

Ce n’est point au blanc & au noir que se réduisent les variétés du genre humain: on en trouve mille autres; & celles qui frappent le plus notre vue, ne coutent peut-être pas plus à la nature que celles que nous n’apercevons qu’à peine. Si l’on pouvait s’en assurer par des expériences décisives, peut-être trouveroit-on aussi rare de voir naitre avec des yeux bleux un enfant dont tous les ancêtres auroient eu les yeux noirs, qu’il l’est de voir naître un enfant blanc de parent negres.

Les enfants d’ordinaire ressemblent leur parents: & les variétés mêmes avec lesquelles ils naissent, sont souvent des effets de cette ressemblance. Ces variétés, si on les pouvait suivre, auroient peut-être leur origine dans quelque ancêtre inconnu. elles se perpétuent par des générations répétées d’individus qui les ont; & s’effacent par des générations d’individus qui ne les ont pas. Mais ce qui est peut-être encore plus étonnant, c’est après une interruption de ces variétés, de les voir reparoître; de voir l’enfant qui ne ressemble ni à son père ni à sa mère, naître avec les traits de son ayeul. Ces faits, tout merveilleux qu’ils sont, sont trop fréquents pour qu’on les puisse révoquer en doute.

p. 140, sur l’apparition de nouvelles espèces:

La Nature contient le fond de toutes ces variétés: mais le hazard ou l’art les mettent en oeuvre. C’est ainsi que ceux dont l’industrie s’applique à satisfaire le gout des curieux, sont, pour ainsi dire, créateurs d’espèces nouvelles. Nous voyons paroître des races de chiens, de pigeons, de serins qui n’étoient point auparavant dans la nature. Ce n’ont été d’abord que des individus fortuits; l’art et les générations répétées en ont fait des especes.

p. 142, la suggestion voilée de la sélection naturelle et du rôle joué par l’environnement:

[…] nous ne voyons que trop souvent des productions qui pour le Physicien sont du même genre; des races de louches, de boîteux, de gouteux, de phtisiques: et malheureusement il ne faut pas pour leur établissement une longue suite de générations. Mais la sage nature, par le dégout qu’elle a inspiré pour ces défauts, n’a pas voulu qu’ils se perpétuassent: les beautés sont plus surements héréditaires, la taille & les jambes que nous admirons, sont l’ouvrage de plusieurs générations où l’on s’est appliqué à les former.

Buffon (1707-1788), sur l’expérimentation, dans la préface de sa traduction de la Statique des végétaux de Stephen Hales en 1779:

C’est par des expériences fines, raisonnées et suivies, que l’on force la nature à découvrir son secret; toutes les autres méthodes n’ont jamais réussi… Les recueils d’expériences et d’observations sont donc les seuls livres qui puissent augmenter nos connaissances.

Lamarck (1744-1829), sur la biologie et l’évolution, dans Recherches sur l’organisation des corps vivants (lien) en 1802:

p. 4, sur l’activité du chercheur

Rassembler les faits observés, et les employer à découvrir des vérités inconnues, c’est, dans l’étude de la nature, la tâche que doit s’imposer d’une manière inébranlable quiconque se dévoue à concourir à ses véritables progrès.

p. 10, sur la nécessité de théoriser l’origine des espèces face à leur simple classification

Sans doute il est utile pour l’avancement de nos connoissances en Histoire naturelle de diviser et sous-diviser suffisamment, à l’aide de caractères communs et plus particuliers, la masse des êtres naturels observés, afin d’arriver jusqu’à la détermination des espèces, dont le nombre paroît être sans bornes dans la nature. […] Mais, ne vous y trompez pas ce n’est point là réellement où doivent se borner les vues du Naturaliste. Combien donc n’importe-t-il pas, pour les progrès et la dignité des sciences naturelles, de diriger nos recherches, non-seulement vers la détermination des espèces, à mesure que l’occasion nous favorise à cet égard; mais encore de les porter vers la connoissance de l’origine, des rapports, et du mode d’existence de toutes les productions naturelles dont nous sommes environnés par-tout !

p. 51, sur la « transformation des espèces » en opposition donc aux thèses fixistes de Linné par exemple

Il faut, pour changer chaque systême intérieur d’organisation, un concours de circonstances plus influentes et de bien plus longue durée, que pour altérer et modifier les organes extérieurs. J’observe néanmoins que lorsque les circonstances l’exigent, la nature passe d’un systême à l’autre, sans faire de saut, pourvu qu’ils soient voisins. C’est en effet par cette faculté qu’elle est parvenue à les former tous successivement, en procédant du plus simple au plus composé.

p. 59, sur le rôle joué par l’environnement dans l’apparition et l’évolution des espèces

Ce ne sont pas les organes, c’est-à-dire la nature et la forme des parties du corps d’un animal, qui ont donné lieu à ses habitudes et à ses facultés particulières ; mais ce sont au contraire ses habitudes, sa manière de vivre, et les circonstances dans lesquelles se sont rencontrés les individus dont il provient, qui ont avec le temps constitué la forme de son corps, le nombre et l’état de ses organes, enfin les facultés dont il jouit. […]

On aperçoit en effet que l’extrême multiplicité de ces ressources naît elle-même de la diversité inexprimable des situations et des circonstances qui, dans tous les points de la surface du globe, influent avec le temps sur chaque corps doué de la vie, et le constituent dans l’état où il se trouve. Cette diversité dans les formes, dans le nombre et le développement des organes ainsi que des facultés, est si considérable, qu’il semble que tout ce qu’il est possible d’imaginer ait effectivement lieu […]

p. 62, encore sur l’évolution des espèces

Si, à deux enfans nouveaux nés et de sexes différens, l’on masquoit l’oeil gauche pendant le cours de leur vie si ensuite on les unissoit ensemble, et l’on faisoit constamment la même chose à l’égard de leurs enfants, ne les unissant jamais qu’entre eux, je ne doute pas qu’au bout d’un grand nombre de générations, l’oeil gauche chez eux ne vînt à s’oblitérer naturellement, et insensiblement à s’effacer. Par la suite même d’un temps énorme, les circonstances nécessaires restant les mêmes, l’oeil droit
parviendroit petit à petit à se déplacer. […] Cependant la taupe, qui par ses habitudes fait très-peu d’usage de la vue, n’a que des yeux très-petits et à peine apparens, parce qu’elle exerce très-peu cet organe.

p. 70, sur l’hérédité des caractères, acquis ou non

Or, chaque changement acquis dans un organe par une habitude d’emploi suffisante pour l’avoir opéré, se conserve ensuite par la génération, s’il est commun aux individus qui dans la fécondation concourent ensemble à la reproduction de leur espèce. Enfin ce changement se propage et passe ainsi dans tous les individus qui se succèdent et qui sont soumis aux mêmes circonstances, sans qu’ils aient été obligés de l’acquérir par la voie qui l’a réellement créé.

p. 77, sur ce que l’on nommerait aujourd’hui la recherche fondamentale

Qui oseroit entreprendre d’assigner les bornes de l’intelligence humaine, et assurer que jamais l’homme n’acquerra telle connoissance ou ne pénétrera tel secret de la nature?

Des intérêts particuliers et les difficultés qu’oppose avec constance l’ignorance toujours intolérante, peuvent à la vérité arrêter ses efforts, ou au moins en borner et même en anéantir les résultats:  je crois malgré cela que tout ami sincère de la vérité, que tout homme patient, capable d’observer, de rassembler les faits, et de réfléchir avec quelque profondeur, doit tout examiner, tenter de tout connoître, et confier ensuite à la postérité l’usage qu’elle jugera convenable de faire de ce qu’il aura su apercevoir.

Cuvier (1769-1832), sur les citations en science, dans ses Leçons d’anatomie comparée (lien) en 1805:

Vous reconnoîtrez, sans doute, dans ces aveux, le desir de rendre un témoignage éclatant de reconnoissance à tous ceux dont les idées ou les travaux m’ ont été utiles ; mais je souhaite encore plus que vous y voyiez celui d’encourager et d’entretenir cet esprit communicatif, si noble, si touchant, qui règne aujourd’hui parmi la plupart des naturalistes. Occupés de défricher ensemble le vaste champ de la nature, ils sont, pour ainsi dire, en communauté de travaux et de succès; et pourvu qu’une découverte soit faite, il leur importe peu qui d’eux ou de leurs amis y attachera son nom.

De Candolle (1778-1841), dans son Essai élémentaire de géographie botanique, tiré du Dictionnaire de sciences naturelles (ADeCandolle_GéographieBotanique), en 1820:

p. 6, sur la compétition inter-espèce:

[…] considérons sous ce rapport les plantes d’un même pays qui offre une grande variété de localités; toutes ces plantes sont dans un état de guerre continuel; les premières qui s’établissent dans un lieu en excluent les autres, les grandes étouffent les petites, les vivaces étouffent celles dont la durée est plus courtes, les plus fécondes chassent celles qui se multiplient plus difficilement […]

p. 15, sur la non-évolution des espèces:

Il est facile  de voir que toute ces discussions sur les lois de la distribution des végétaux dans le monde repose essentiellement sur l’opinion de la permanence des espèces, opinion qu’appuyent de nombreux arguments et qu’on ne peut attaquer qu’en négligeant les faits bien connus et en se rejetant dans les faits mal connus.


Significativité d’un alignement en bayésien

14 mai 2009

On a vu précédemment comment aligner (globalement) deux séquences l’une avec l’autre et comment calculer le score de l’alignement résultant étant donné un scoring scheme (match, mismatch, gap). Mais bien que l’on sache obtenir un alignement optimal, cela ne nous dit pas si notre alignement est significatif, c’est-à-dire s’il est biologically meaningful

Replaçons nous dans le contexte; nous venons d’obtenir (par des moyens expérimentaux) une nouvelle séquence. Pour en savoir plus sur l’information qu’elle code, on se dit qu’on peut essayer de l’aligner avec une séquence déjà connue. C’est ce que nous faisons et on trouve l’alignement optimal A_1 de score S_1. C’est bien, mais pas suffisant. En effet, nous n’avons (pour l’instant) aucun moyen de savoir si cet alignement est dû au hasard ou bien si ces deux séquences sont homologues, c’est-à-dire si elles ont un ancêtre commun.

Et oui, on peut très bien avoir un alignement A_2 entre notre séquence inconnue et une 2e séquence que l’on connaît déjà, de score S_2 celui-là. Or on aimerait bien avoir un moyen pour juger que deux séquences sont homologues puisque dans ce cas-là on se permettra (grossièrement) d’inférer que la fonction de notre séquence inconnue est la même que la fonction de la séquence qu’on connaît déjà (à peu de choses près).  Dans notre cas, quel alignement doit-on utiliser pour inférer la fonction ? A_1 ou A_2 ?

Et comme toujours, il existe plusieurs approches pour (tenter de) répondre à cette question, l’approche bayésienne (voir ci-dessous) et la distribution du maximum de scores (prochainement dans un autre billet).

On a vu que le score S d’un alignement était un log de ratio de vraisemblances:

S = log( \frac{P(x,y/M)}{P(x,y/R)} )

Mais en fait, au lieu de P(x,y/M), la probabilité d’obtenir les séquences x et y sachant qu’elles ont un ancêtre commun (le match modèle M), ce que l’on veut vraiment, c’est calculer la probabilité que les deux séquences aient un ancêtre commun connaissant ces deux séquences: P(M/x,y). Grâce à la formule de Bayes, on peut calculer cette probabilité:

P(M/x,y) = \frac{P(x,y/M)P(M)}{P(x,y)}

Cependant, au préalable, il faut spécifier les prior: P(M) la probabilité a priori que les deux séquences sont reliées (par un ancêtre commun) et P(R) la probabilité a priori du modèle aléatoire:  P(R) = 1 - P(M).

Ainsi:

P(M/x,y) = \frac{P(x,y/M)P(M)}{P(x,y/M)P(M)+P(x,y/R)P(R)}

P(M/x,y) = \frac{P(x,y/M)P(M) / P(x,y/R)P(R)}{1+P(x,y/M)P(M) / P(x,y/R)P(R)}

Finalement, on pose:

S' = S + log( \frac{P(M)}{P(R)} )

On obtient alors:

P(M/x,y) = \sigma(S') avec \sigma(x)=\frac{\exp^x}{1+\exp^x}

\sigma est la fonction logistique. C’est une sigmoide tendant vers 1 quand x tend vers \infty, et vers 0 quand x tend vers -\infty. Cette fonction est bien utile pour convertir des scores faits de sommes en probabilités.

Une fois qu’on a fait tout ça, on peut comparer la valeur finale de P(M/x,y) à 0 pour savoir si nos séquences sont reliées entre elles ou non. Sans rentrer dans les détails, il faut être bien sûr de travailler avec des probabilités (leur somme sur toutes les paires possibles de séquences doit faire 1), ce qui n’est pas toujours le cas dans un scoring scheme construit de façon ad hoc. De plus, les priors prennent beaucoup d’importance quand on cherche un alignement significatif entre une séquence inconnue et une banque de séquences connues. Dans ce cas-là, il faut prendre en compte la taille de la banque puisque la probabilité d’obtenir, par chance, un bon alignement entre deux séquences non reliées entre elles augmente avec la taille de la banque.


Le système de score d’un alignement

20 avril 2009

Supposons que l’on ait deux séquences qui nous intéressent (d’ADN ou de protéines). Nous pouvons aligner globalement ces deux séquences l’une avec l’autre (voir ce billet). Quand on compare comme cela des séquences entre elles, on cherche à savoir si elles ont divergé à partir d’un ancêtre commun sous l’action de processus évolutifs de mutation et sélection.

Les processus mutationnels de base sont les substitutions qui remplacent un résidu par un autre, et les insertion-délétions (indels) qui ajoutent ou enlèvent des résidus (les résidus sont les bases azotées pour l’ADN et les acides aminés pour les protéines). La sélection naturelle joue sur ces variations aléatoires et les crible de telle sorte que certaines modifications vont être plus visibles que d’autres: si une modification est très délétère pour l’individu qui la porte, elle sera contre-sélectionnée, n’apparaîtra pas ou peu dans la génération suivante et disparaîtra (schématiquement…).

Jusqu’à maintenant, pour construire un alignement nous avons utilisé des scores comme par exemple +1 pour le match (deux résidus alignés identiques), 0 pour le mismatch (deux résidus alignés différents) et -1 pour le gap (un résidu aligné avec un gap, dû à un indel). Mais comme nous voulons un système de score qui donne le score le plus élevé à l’alignement le plus plausible biologiquement, il nous faut prendre en compte beaucoup de choses comme l’histoire évolutive de ces séquences, leur structure tridimensionnelle…

Pour cela, nous utilisons un modèle probabiliste, c’est un moyen de simuler l’objet considéré, qui donne différents scénarios possibles avec une probabilité attachée à chacun d’eux. Dans notre cas, les séquences biologiques sont des chaînes de caractères (string en anglais) tirés d’un alphabet de résidus de taille finie (A,T,G,C pour l’ADN). Supposons que le résidu x apparaisse aléatoirement avec la probabilité q_x, indépendamment des autres résidus présents dans la séquence. Si la séquence est notée x_1...x_n, la probabilité d’observer cette séquence est alors le produit q_{x_1}q_{x_2}...q_{x_n}. Dans la suite nous appellerons ce modèle le « modèle de séquence aléatoire », c’est notre hypothèse nulle, contre lequel on comparera les autres modèles.

Concernant notre alignement des deux séquences, le score total correspond à la somme des termes pour chaque paire de résidus alignés plus un terme pour chaque gap. Intuitivement, si nos deux séquences ont un ancêtre commun, on s’attend à ce que les paires de résidus identiques (les identités) soient plus probable que dans le modèle aléatoire et donc contribuent au score par un terme positif, et inversement pour les paires de résidus différents et les gaps. Dans l’interprétation probabiliste, on calcule le logarithme d’un ratio de vraisemblance: la vraisemblance pour les séquences d’avoir un ancêtre commun par rapport à la vraisemblance de ne pas en avoir.

Quelques notations tout d’abord. Considérons deux séquences, x et y, de longueur respective m et n. Le i-ème résidu de x est noté x_i. Les résidus sont tirés d’un alphabet dont les symboles sont représentés par des lettres en minuscule comme a et b.

Vu précédemment, le modèle aléatoire noté R suppose que la probabilité d’avoir les deux séquences correspond au produit des probabilités d’avoir chaque séquence. Formellement, cela donne:

P(x,y/R) = \prod_{i} q_{x_i} q_{y_i}

Dans le modèle alternatif (supposant que les deux séquences ont un ancêtre commun), une paire de résidus alignés est observée avec une probabilité jointe p_{ab}. On peut voir ça comme la probabilité que les résidus a et b dérivent indépendamment tous les deux d’un résidu originel inconnu c qui est leur ancêtre commun. Ainsi:

P(x,y/M) = \prod_{i} p_{x_i y_i}

Les probabilités P(x,y/R) et P(x,y/M) sont des vraisemblances. En probabilité, la vraisemblance est la probabilité d’obtenir les données D sachant le modèle M: P(D/M). Le ratio de vraisemblances est connu sous le nom d’odds ratio:

\frac{P(x,y/M)}{P(x,y/R)} = \prod_{i} \frac{p_{x_i y_i}}{q_{x_i} q_{y_i}}

Pour obtenir un système de score additif, on prend le logarithme de ce ratio (le logarithme d’un produit étant une somme de logarithmes):

S = \sum_{i}{} s(x_i,y_i)

avec: s(x_i,y_i) = \log ( \frac{p_{x_i y_i}}{q_{x_i}q_{y_i}} )

Ici, utiliser un schéma de score additif revient à supposer que les mutations apparaissent indépendamment à chaque site de l’alignement. En probabilité, observer deux événement indépendants revient à multiplier leur probabilité. Et comme le logarithme d’un produit est égal à la somme des logarithmes, on obtient bien notre score additif. Finalement, les scores s(a,b) peuvent être stockés dans une matrice, de taille 4×4 pour l’ADN.

Il est important de voir que lorsqu’un biologiste construit une matrice de substitution ad hoc pour son alignement, il suppose implicitement les probabilités p(a,b) d’obtenir la paire de résidus ab dans son alignement.


Mathématiques et biologie

10 mars 2009

If people do not believe that mathematics is simple, it is only because they do not realize how complicated life is.

John von Neumann

Citation trouvée sur le site web d’Arndt Benecke, chercheur à l’IRI et à l’IHES.

Cette phrase serait-elle destinée aux biologistes ? En entend souvent que « les biologistes ont peur des équations », pourtant, ils sont bien placé pour savoir que la vie est plutôt « complexe » (avec tous les guillemets à mettre autour de ce mot), non ?

D’ailleurs, en parlant de mathématiques et biologie, certains ont des choses à dire sur le sujet:

The lack of real contact between mathematics and biology is either a tragedy, a scandal or a challenge, it is hard do decide with.

Gian-Carlo Rota

Suivi de:

Mathematics is biology’s next microscope, only better; biology is mathematics’ next physics, only better.

J.E. Cohen

Les deux dernières citations viennent de l’article de Bernd Sturmfels « Can Biology lead to new theorems? » que je recommende aux « matheux » intéressés par la biologie.

polytope1


%d blogueurs aiment cette page :