A propos d’une question vieille comme le monde

18 juin 2010

Qu’est-ce que la vie ?

The first molecular biologists, Francis Crick and Jacques Monod, were not wrong when they said that the secret of life had been solved, and the characteristics of organisms explained. The question of life is no longer a mystery. But what remains to be understood is the way these well-defined characteristics have emerged, and been coupled. There has been a dramatic shift in the past fifty years: the question of life is no longer a search for principles of life, but a historical question. The question is no longer “What characteristics are found in organisms but not in inanimate objects?”, but “How were these characteristics progressively associated within objects that we call organisms?”.

This is a dramatic change, because it makes the question of life a scientific question, fully accessible to scientific enquiry. Life is on the way to being “naturalized”. And the most ambitious projects of synthetic biologists, such as those of Craig Venter, will probably be successful in the near future!

Michel Morange, The Resurrection of Life, Orig Life Evol Biosph (2010) 40:179-182

Pour info, Michel Morange définit dans le même article ce qu’il considère être les caractéristiques de la vie: « the capacity to reproduce, the permanent exchange of material and energy with the environment, complex macromolecular structures ».


Modéliser l’évolution des séquences d’ADN

28 mars 2010

Bien que je m’empêche de réagir à chaud, l’actualité médiatique est une source permanente d’inspiration. Alors quand les mathématiciens avertissent du desintérêt croissant pour leur discipline et que l’apparition de virus HINI mutants crée des frayeurs, l’envie me prend de dire quelques mots mêlant modèle mathématique et mutations dans des séquences d’ADN.

Attention le billet est long mais à la fin puisse votre persévérance être récompensée. Non seulement vous connaîtrez une formule estimant la distance entre deux séquences d’ADN, mais vous serez aussi passés par toutes les étapes du calcul (ce qui est généralement négligé partout ailleurs sur internet). Et puis le fait de rentrer dans le coeur d’un modèle, suivant pas à pas la démarche du modélisateur, pourrait réconcilier certains lecteurs avec les maths ? En tout cas moi ça m’a bien servi d’écrire ce billet.

On l’a vu précédemment, l’ADN est la molécule support de l’information génétique. Elle est formée de quatre « briques » appelées nucléotides, chacune symbolisée par une lettre: A, T, G et C. Chaque cellule possède une molécule d’ADN qui est copiée dans son intégralité au moment de la division cellulaire. Or, lors de cette réplication, des erreurs peuvent être commises, par exemple un A remplacé par un G. On parle alors de mutation (de substitution pour être plus précis). Par simplicité on ne traite pas le cas des insertions/délétions.

Depuis les années 1970, avec la possibilité de séquencer de l’ADN, on peut observer un fragment du génome d’un organisme et le comparer avec le même fragment mais provenant d’un autre organisme. En alignant ces deux séquences, on peut avoir une idée du nombre de match (:) et mismatch (*) les séparant, comme le montre l’image ci-dessous:

figure 1: un alignement global entre deux séquences d’ADN

En voyant cela, on se rappelle qu’une séquence d’ADN est une chaîne de caractères de longueur finie. Chaque position est appelée un site. Chaque site est dans un état particulier parmi quatre possibles (A, T, G ou C). Lorsque plusieurs séquences ont un ancêtre commun, on parle de séquence homologues. Sur la figure 1 la séquence S_1 et la séquence S_2 ont la même longueur L, 20 nucléotides, l’alignement résultant a donc 20 sites.

Pour mesurer la distance entre deux séquences, le plus simples est de calculer la proportion de sites différents. Sur la figure 1 une distance de 0.1 sépare la séquence S_1 de la séquence S_2 (2 mismatches sur 20 sites). Le problème c’est qu’en faisant cela on néglige les mutations cachées. Par exemple au site n°2 supposons que l’ancêtre commun ait été le nucléotide A. La séquence S_1 n’a pas eu de mutation mais la séquence S_2 aurait pu en avoir deux, d’abord de A vers C puis de C vers A. Or avec la distance décrite ci-dessus on ne compte pas de mutation puisque les deux séquences sont dans l’état A au 2e site. Dans la même veine, au 8e site supposons que la séquence ancestrale ait été dans l’état G. Aujourd’hui on observe que la séquence S_1 est toujours dans l’état G mais la séquence S_2 est dans l’état A, on compte donc une mutation, mais qui nous dit qu’il n’y en a pas eu plusieurs, par exemple de G vers T puis de T vers A ? Alors allons-y, écrivons un modèle mathématique prenant cela en compte !

On suppose que tous les sites suivent la même distribution de probabilités et que chaque site évolue de façon indépendante des autres. Ainsi la probabilité de passer de la séquence S_1 à la séquence S_2 (toutes les deux de longueur L) est donnée par:

\mathbb{P}( S_1 \rightarrow S_2 ) = \displaystyle \prod_{i = 1} ^L \mathbb{P}( S_1[i] \rightarrow S_2[i] )

Dire que deux probabilités sont indépendantes revient à les multiplier. Comme on suppose que tous les suites suivent la même loi de probabilité, on peut se concentrer sur l’évolution d’un seul site. Grâce à la formule ci-dessus, si on arrive à modéliser \mathbb{P}( S_1[i] \rightarrow S_2[i] ) on arrivera à modéliser \mathbb{P}( S_1 \rightarrow S_2 ).

Supposons maintenant que le temps avance en « tic », comme les aiguilles d’une horloge, et qu’à chaque « tic » une mutation peut subvenir ou non. Pour modéliser cela on va utiliser une chaîne de Markov. Une chaine de Markov est un processus stochastique (synonyme de probabiliste). Par exemple, si on note X l’évènement « le dé jeté affiche la valeur x« , on dit que X est une variable aléatoire prenant les valeurs 1, 2 ... 6. Et bien, si on étudie plusieurs lancés de dé au cours du temps, on se retrouve à étudier un processus probabiliste: pas compliqué…

Si maintenant on considère que la probabilité au temps t_{n+1} ne dépend que de l’état présent, c’est-à-dire du temps t_{n}, et non des états passés, les temps t_{n-1}, t_{n-2}, etc, on dit que le processus possède la propriété de Markov. Résumé d’une autre façon: « le futur ne dépend du passé qu’au travers de l’instant présent ». Et c’est tout naturellement ce qui arrive en génétique: une mutation à la génération des petit-enfants ne va pas dépendre du nucléotide en question à la générations des grand-parents mais uniquement du nucléotide en question à la génération des parents.

Une chaîne de Markov est caractérisée par sa matrice de transition P. Quand on modélise l’évolution d’une séquence d’ADN, la chaîne a 4 états (pour A, T, G et C), et la matrice aura 4 lignes et 4 colonnes. La valeur au croisement de la ligne i et de la colonne j est la probabilité p_{ij} d’être dans l’état i et de passer dans l’état j.

En 1969, Jukes et Cantor proposaient de modéliser l’évolution d’une séquence via une chaîne de Markov sous l’hypothèse que la probabilité f(t) de passer d’un nucléotide à un autre pendant la durée t était constante au cours du temps. Voici la matrice de transition correspondante:

P = \begin{pmatrix}1 - 3f(t) & f(t) & f(t) & f(t) \\ f(t) & 1 - 3f(t) & f(t) & f(t) \\ f(t) & f(t) & 1 - 3f(t) & f(t) \\ f(t) & f(t) & f(t) & 1 - 3f(t) \end{pmatrix}

Je précise de manière arbitraire que les 1e ligne et colonne correspondent au nucléotide A, les 2e au nucléotide T, les 3e à G et les 4e à C: p_{23} à l’intersection de la 2e ligne et de la 3e colonne est la probabilité que le site soit dans l’état T et mute vers l’état G.

i \ne j: \mathbb{P}( i \rightarrow j ) = p_{ij}(t) =f(t)

i = j: \mathbb{P}( i \rightarrow j ) = p_{ii}(t) = 1 - 3f(t)

Si on est à la génération t et que le nucléotide que l’on est en train d’analyser est un « A », deux scénarios sont possibles:

  • il y a une mutation, de A vers T, G ou C, chaque évènement ayant une probability f(t) d’arriver;
  • il n’y a pas de mutation, ceci avec une probabilité 1 - 3f(t) (la somme de tous les évènements doit faire 1).

Maintenant calculons f(t) = p_{ij}(t) et pour ceci commençons par différencier la matrice de transition P, c’est-à-dire regardons ce que vaut cette matrice P à l’instant t + \Delta t (c’est-à-dire très peu de temps après l’instant t) on a:

P( t + \Delta t ) = P(t) \times P(\Delta t)

Donc si maintenant on fait tendre \Delta t vers 0 (ça vous rappelle la définition de la dérivée n’est-ce pas ?):

P'(t) = \lim_{\Delta t \rightarrow 0} \frac{P( t + \Delta t ) - P(t)}{\Delta t}

P'(t) = \lim_{\Delta t \rightarrow 0} \frac{P(t) \times P(\Delta t) - P(t + 0)}{\Delta t}

P'(t) = \lim_{\Delta t \rightarrow 0} \frac{P(t) \times P(\Delta t) - P(t) \times P(0)}{\Delta t}

P'(t) = \lim_{\Delta t \rightarrow 0} P(t) \frac{P(\Delta t) - P(0)}{\Delta t}

P'(t) = P(t) \lim_{\Delta t \rightarrow 0} \frac{P(\Delta t) - P(0)}{\Delta t}

Ainsi: P'(t) = P(t) \times P'(0)

P'(0) = \begin{pmatrix} - 3f'(0) & f'(0) & f'(0) & f'(0) \\ f'(0) & - 3f'(0) & f'(0) & f'(0) \\ f'(0) & f'(0) & - 3f'(0) & f'(0) \\ f'(0) & f'(0) & f'(0) & - 3f'(0) \end{pmatrix}

Posons f'(0) = \alpha, on a alors:

P'(0) = \begin{pmatrix} - 3\alpha & \alpha & \alpha & \alpha \\ \alpha & - 3\alpha & \alpha & \alpha \\ \alpha & \alpha & - 3\alpha & \alpha \\ \alpha & \alpha & \alpha & - 3\alpha \end{pmatrix}

En multipliant, par exemple, la 1e ligne de P(t) avec la 2e colonne de P'(0) on obtient:

p'_{12}(t) = \alpha - 3\alpha f(t) - 3\alpha f(t) + \alpha f(t) + \alpha f(t)

p'_{12}(t) = \alpha - 4 \alpha f(t)

Or on sait aussi que si i \ne j, on a p'_{12}(t) = p'_{ij}(t) = f'(t).

C’est-à-dire: f'(t) = \frac{df}{dt} = \alpha - 4 \alpha f(t)

Et maintenant on intègre cette équation différentielle:

\int \frac{df}{\alpha - 4 \alpha f(t)} = \int dt

\Rightarrow \frac{ln(\alpha - 4 \alpha f(t))}{-4\alpha} = t + c

\Rightarrow ln( \alpha - 4 \alpha f(t) ) = - 4 \alpha t + c

\Rightarrow \alpha - 4 \alpha f(t) = c \exp^{- 4 \alpha t}

\Rightarrow f(t) = \frac{1}{4} - \frac{c}{4 \alpha} \exp^{- 4 \alpha t}

Il nous faut maintenant calculer c qui est la constance d’intégration. Pour cela supposons que f(0) = 0 ce qui signifie qu’au temps t=0 on commence dans un état constant. Par exemple, si à t=0 on est dans l’état A alors la probabilité d’avoir une substitution de ce « A » à t=0 vaut 0. Ainsi:

f(0)=0 \Rightarrow f(0) = \frac{1}{4} - \frac{c}{4\alpha} = 0 \Rightarrow c = \alpha

On a doncf(t) = \frac{1}{4} - \frac{\exp^{- 4 \alpha t}}{4}

Pour calculer \alpha on se place à t=0 puisque \alpha = f'(0), et on appelle \Pi_i la probabilité d’être dans l’état i au temps t=0 (\Pi_i = 1/4):

\sum_{i} \sum_{j \ne i} \Pi_{i} P'(0)_{ij} = 1

\Pi_{A} P'(0)_{AT} + \Pi_{A} P'(0)_{AG} + \Pi_{A} P'(0)_{AC} + \Pi_{T} P'(0)_{TA} + ... = 1

12 \frac{1}{4} \alpha = 1

\alpha = \frac{1}{3}

Finalement:

f(t) = \frac{1}{4} - \frac{exp(-4t/3)}{4}

C’est bien gentil vous allez me dire, on connaît maintenant f(t) mais ça ne résout pas notre problème initial qui était de prendre en compte les mutations cachées… En fait si mais il reste encore un peu de calcul à faire. Pour cela on doit estimer la valeur de la variable t, c’est-à-dire la distance qui sépare nos deux séquences S_1 et S_2. Grâce à notre modèle décrit ci-dessus cette distance est bien sûr reliée aux nombres de mutations observées entre les deux séquences tout en prenant en compte le fait que certaines mutations soient arrivées sans qu’on puisse les voir.

Afin d’estimer t on va appliquer la méthode du maximum de vraisemblance. Je rappelle que la vraisemblance (notée L pour likelihood) est la probabilité d’observer les données sachant le modèle: P(data/model). Dans notre cas on veut calculer la probabilité que la séquence S_1 (de taille n) ait pu évoluer en S_2, ce qui s’écrit:

L = P(S_{1}[1]) P(S_{1}[1] -> S_{2}[1]/t) P(S_{1}[2]) P(S_{1}[2] -> S_{2}[2]/t) ... P(S_{1}[n]) P(S_{1}[n] -> S_{2}[n]/t)

avec P(S_1[i]) la probabilité d’observer le nucléotide en question au i-ème site de la séquence S_1, et P(S_1[i] \rightarrow S_2[i]/t) la probabilité d’avoir muté au i-ème site du nucléotide de S_1 vers le nucléotide de S_2 pendant le temps t.

Quand on a un produit (multiplications) on aime bien le transformer en somme (additions). Pour cela on utilise la fonction logarithme:

ln L = ln P(S_1[1]) + ... + ln P(S_1[n]) + ln P(S_1[1] \rightarrow S_2[1]/t) + ... + ln P(S_1[n] \rightarrow S_2[n]/t)

Afin de trouver le maximum de cette vraisemblance on fait comme au lycée: on dérive la fonction ln L et on cherche les valeurs auxquelles la dérivée s’annule. Les n premiers termes de la formule valent une constante donc leur dérivée est nulle. Pour les n autres on peut poser que m_1 correspond aux mutations d’un nucléotide vers un autre (p_{ij}) et m_2 correspond aux mutations d’un nucléotide vers lui-même (p_{ii}).

\frac{d (ln L)}{dt} = \frac{m_{1}}{p_{ij}(t)} p_{ij}'(t) + \frac{m_{2}}{p_{ii}(t)} p_{ii}'(t) = 0

Comme on a calculé un peu plus haut f(t) et que f(t) = p_{ij}(t) on peut remplacer dans l’équation ci-dessus. Je vous épargne les calculs mais à la fin on obtient:

\hat{t} = -\frac{3}{4} ln ( 1 - \frac{4m_{1}}{3(m_{1}+m_{2})} )

Et pour résoudre enfin notre problème on peut définir p comme étant la proportion de sites différents entre nos deux séquences. Ainsi, alors qu’on a commencé par estimer la distance entre nos deux séquences par:

p = \frac{m_{1}}{m_{1}+m_{2}}

on estime maintenant cette distance par:

\hat{t} = -\frac{3}{4} ln ( 1 - \frac{4}{3} p )

Et c’est cela qu’on appelle la distance de Jukes-Cantor. Dans le cas de la figure 1, p=0.1 alors que \hat{t}=0.107. La distance de Jukes-Cantor est bien légèrement plus grande car elle prend en compte des mutations qui ont pu arriver mais qu’on ne voit pas.

Alors bien sûr, comme toujours en modélisation, on simplifie beaucoup, mais depuis l’article de Jukes Cantor en 1969 les modèles ont été perfectionnés et cela permet de bien mieux comprendre le génome des êtres vivants: vitesse d’apparition des mutations, importance fonctionnelle de certaines séquences, relations phylogénétiques entre les espèces… Mais ce serait trop pour ce billet !

ps: une bonne revue sur ces questions est disponible ici.

 

 

 

 

 

 

 

 


Accrochons-nous…

19 octobre 2009

At most 1% of brilliant ideas turn out to be right in biology (it is, I guess, close to 90% in mathematics) while only few ideas can be tested in a realistic stretch of time: the amount of skilled work going into a serious experiment can hardly even be imagined by a mathematician like myself not to speak of enormity of the background knowledge needed to design such an experiment.

Misha Gromov, IHES

More details here.


Quelques naturalistes français des Lumières

31 mai 2009

En cette fin de semaine, je me suis plonger, avec délices, dans l’histoire de ces penseurs français qui, au XVIIIe et XIXe siècles, ont tenté de comprendre d’où venait l’extraordinaire diversité du monde vivant qui nous entoure et dont nous faisons parti. Que d’efforts pour déchiffrer la nature, révéler les mécanismes à l’œuvre, expérimenter les hypothèses, observer les exceptions et ainsi paver le chemin au XXe siècle qui verra l’explosion de la biologie !

mixBiodiversity

Ce n’est pas sans émotion que l’on découvre les intuitions géniales de Maupertuis qui suggère la présence des mutations avec en toile de fond la sélection naturelle qui ne dit pas son nom, de même les propos de Lamarck qui assied sa compréhension de l’évolution sur de nombreuses observations et une théorisation poussée. Lire ces textes aujourd’hui, repérer les errements de leurs auteurs autant que leurs fulgurances et les confronter aux connaissances les plus récentes, tout ceci est un grand moment de plaisir que je vous laisse savourer. Les citations sont extraites des documents originaux numérisés et disponibles gratuitement sur Internet (merci à la BNF, au CNRS et à Google).  Pour Maupertuis, j’ai simplement remplacé les « f » par des « s » pour faciliter la lecture.

Maupertuis (1698-1759), dans Vénus physique (lien) en 1745:

p. 31, sur la fécondation:

Richesse immense, fécondité sans bornes de la nature! n’êtes -vous pas ici une prodigalité? Et ne peut-on pas vous reprocher trop d’appareil et de dépense? De cette multitude prodigieuse de petits animaux qui nagent dans la liqueur séminale, un seul parvient à l’humanité […]

p. 69, sur l’analogie:

L’Analogie nous délivre de la peine d’imaginer des choses nouvelles; & d’une peine encore plus grande, qui est de demeurer dans l’incertitude. Elle plaît à notre esprit: mais plaît-elle tant à la nature?

à partir de la p. 135, les étonnants prémisses du mutationnisme:

Il ne seroit pas impossible qu’un jour la fuite des oeufs blancs qui peuplent nos régions, venant à manquer, toutes les nations Européennes changeassent de couleur: comme il ne seroit pas impossible aussi que la sources des oeufs noirs étant épuisée, l’Ethipoie n’eût plus que des habitans blancs. C’est ainsi que dans une carrière profonde, lorsque la veine de marbre blanc est épuisée, l’on ne trouve plus que des pierres de différentes couleursqui se succèdent les unes aux autres. C’est ainsi que des races nouvelles d’hommes peuvent paroître sur la terre, & que les anciennes peuvent s’éteindre.

Ce n’est point au blanc & au noir que se réduisent les variétés du genre humain: on en trouve mille autres; & celles qui frappent le plus notre vue, ne coutent peut-être pas plus à la nature que celles que nous n’apercevons qu’à peine. Si l’on pouvait s’en assurer par des expériences décisives, peut-être trouveroit-on aussi rare de voir naitre avec des yeux bleux un enfant dont tous les ancêtres auroient eu les yeux noirs, qu’il l’est de voir naître un enfant blanc de parent negres.

Les enfants d’ordinaire ressemblent leur parents: & les variétés mêmes avec lesquelles ils naissent, sont souvent des effets de cette ressemblance. Ces variétés, si on les pouvait suivre, auroient peut-être leur origine dans quelque ancêtre inconnu. elles se perpétuent par des générations répétées d’individus qui les ont; & s’effacent par des générations d’individus qui ne les ont pas. Mais ce qui est peut-être encore plus étonnant, c’est après une interruption de ces variétés, de les voir reparoître; de voir l’enfant qui ne ressemble ni à son père ni à sa mère, naître avec les traits de son ayeul. Ces faits, tout merveilleux qu’ils sont, sont trop fréquents pour qu’on les puisse révoquer en doute.

p. 140, sur l’apparition de nouvelles espèces:

La Nature contient le fond de toutes ces variétés: mais le hazard ou l’art les mettent en oeuvre. C’est ainsi que ceux dont l’industrie s’applique à satisfaire le gout des curieux, sont, pour ainsi dire, créateurs d’espèces nouvelles. Nous voyons paroître des races de chiens, de pigeons, de serins qui n’étoient point auparavant dans la nature. Ce n’ont été d’abord que des individus fortuits; l’art et les générations répétées en ont fait des especes.

p. 142, la suggestion voilée de la sélection naturelle et du rôle joué par l’environnement:

[…] nous ne voyons que trop souvent des productions qui pour le Physicien sont du même genre; des races de louches, de boîteux, de gouteux, de phtisiques: et malheureusement il ne faut pas pour leur établissement une longue suite de générations. Mais la sage nature, par le dégout qu’elle a inspiré pour ces défauts, n’a pas voulu qu’ils se perpétuassent: les beautés sont plus surements héréditaires, la taille & les jambes que nous admirons, sont l’ouvrage de plusieurs générations où l’on s’est appliqué à les former.

Buffon (1707-1788), sur l’expérimentation, dans la préface de sa traduction de la Statique des végétaux de Stephen Hales en 1779:

C’est par des expériences fines, raisonnées et suivies, que l’on force la nature à découvrir son secret; toutes les autres méthodes n’ont jamais réussi… Les recueils d’expériences et d’observations sont donc les seuls livres qui puissent augmenter nos connaissances.

Lamarck (1744-1829), sur la biologie et l’évolution, dans Recherches sur l’organisation des corps vivants (lien) en 1802:

p. 4, sur l’activité du chercheur

Rassembler les faits observés, et les employer à découvrir des vérités inconnues, c’est, dans l’étude de la nature, la tâche que doit s’imposer d’une manière inébranlable quiconque se dévoue à concourir à ses véritables progrès.

p. 10, sur la nécessité de théoriser l’origine des espèces face à leur simple classification

Sans doute il est utile pour l’avancement de nos connoissances en Histoire naturelle de diviser et sous-diviser suffisamment, à l’aide de caractères communs et plus particuliers, la masse des êtres naturels observés, afin d’arriver jusqu’à la détermination des espèces, dont le nombre paroît être sans bornes dans la nature. […] Mais, ne vous y trompez pas ce n’est point là réellement où doivent se borner les vues du Naturaliste. Combien donc n’importe-t-il pas, pour les progrès et la dignité des sciences naturelles, de diriger nos recherches, non-seulement vers la détermination des espèces, à mesure que l’occasion nous favorise à cet égard; mais encore de les porter vers la connoissance de l’origine, des rapports, et du mode d’existence de toutes les productions naturelles dont nous sommes environnés par-tout !

p. 51, sur la « transformation des espèces » en opposition donc aux thèses fixistes de Linné par exemple

Il faut, pour changer chaque systême intérieur d’organisation, un concours de circonstances plus influentes et de bien plus longue durée, que pour altérer et modifier les organes extérieurs. J’observe néanmoins que lorsque les circonstances l’exigent, la nature passe d’un systême à l’autre, sans faire de saut, pourvu qu’ils soient voisins. C’est en effet par cette faculté qu’elle est parvenue à les former tous successivement, en procédant du plus simple au plus composé.

p. 59, sur le rôle joué par l’environnement dans l’apparition et l’évolution des espèces

Ce ne sont pas les organes, c’est-à-dire la nature et la forme des parties du corps d’un animal, qui ont donné lieu à ses habitudes et à ses facultés particulières ; mais ce sont au contraire ses habitudes, sa manière de vivre, et les circonstances dans lesquelles se sont rencontrés les individus dont il provient, qui ont avec le temps constitué la forme de son corps, le nombre et l’état de ses organes, enfin les facultés dont il jouit. […]

On aperçoit en effet que l’extrême multiplicité de ces ressources naît elle-même de la diversité inexprimable des situations et des circonstances qui, dans tous les points de la surface du globe, influent avec le temps sur chaque corps doué de la vie, et le constituent dans l’état où il se trouve. Cette diversité dans les formes, dans le nombre et le développement des organes ainsi que des facultés, est si considérable, qu’il semble que tout ce qu’il est possible d’imaginer ait effectivement lieu […]

p. 62, encore sur l’évolution des espèces

Si, à deux enfans nouveaux nés et de sexes différens, l’on masquoit l’oeil gauche pendant le cours de leur vie si ensuite on les unissoit ensemble, et l’on faisoit constamment la même chose à l’égard de leurs enfants, ne les unissant jamais qu’entre eux, je ne doute pas qu’au bout d’un grand nombre de générations, l’oeil gauche chez eux ne vînt à s’oblitérer naturellement, et insensiblement à s’effacer. Par la suite même d’un temps énorme, les circonstances nécessaires restant les mêmes, l’oeil droit
parviendroit petit à petit à se déplacer. […] Cependant la taupe, qui par ses habitudes fait très-peu d’usage de la vue, n’a que des yeux très-petits et à peine apparens, parce qu’elle exerce très-peu cet organe.

p. 70, sur l’hérédité des caractères, acquis ou non

Or, chaque changement acquis dans un organe par une habitude d’emploi suffisante pour l’avoir opéré, se conserve ensuite par la génération, s’il est commun aux individus qui dans la fécondation concourent ensemble à la reproduction de leur espèce. Enfin ce changement se propage et passe ainsi dans tous les individus qui se succèdent et qui sont soumis aux mêmes circonstances, sans qu’ils aient été obligés de l’acquérir par la voie qui l’a réellement créé.

p. 77, sur ce que l’on nommerait aujourd’hui la recherche fondamentale

Qui oseroit entreprendre d’assigner les bornes de l’intelligence humaine, et assurer que jamais l’homme n’acquerra telle connoissance ou ne pénétrera tel secret de la nature?

Des intérêts particuliers et les difficultés qu’oppose avec constance l’ignorance toujours intolérante, peuvent à la vérité arrêter ses efforts, ou au moins en borner et même en anéantir les résultats:  je crois malgré cela que tout ami sincère de la vérité, que tout homme patient, capable d’observer, de rassembler les faits, et de réfléchir avec quelque profondeur, doit tout examiner, tenter de tout connoître, et confier ensuite à la postérité l’usage qu’elle jugera convenable de faire de ce qu’il aura su apercevoir.

Cuvier (1769-1832), sur les citations en science, dans ses Leçons d’anatomie comparée (lien) en 1805:

Vous reconnoîtrez, sans doute, dans ces aveux, le desir de rendre un témoignage éclatant de reconnoissance à tous ceux dont les idées ou les travaux m’ ont été utiles ; mais je souhaite encore plus que vous y voyiez celui d’encourager et d’entretenir cet esprit communicatif, si noble, si touchant, qui règne aujourd’hui parmi la plupart des naturalistes. Occupés de défricher ensemble le vaste champ de la nature, ils sont, pour ainsi dire, en communauté de travaux et de succès; et pourvu qu’une découverte soit faite, il leur importe peu qui d’eux ou de leurs amis y attachera son nom.

De Candolle (1778-1841), dans son Essai élémentaire de géographie botanique, tiré du Dictionnaire de sciences naturelles (ADeCandolle_GéographieBotanique), en 1820:

p. 6, sur la compétition inter-espèce:

[…] considérons sous ce rapport les plantes d’un même pays qui offre une grande variété de localités; toutes ces plantes sont dans un état de guerre continuel; les premières qui s’établissent dans un lieu en excluent les autres, les grandes étouffent les petites, les vivaces étouffent celles dont la durée est plus courtes, les plus fécondes chassent celles qui se multiplient plus difficilement […]

p. 15, sur la non-évolution des espèces:

Il est facile  de voir que toute ces discussions sur les lois de la distribution des végétaux dans le monde repose essentiellement sur l’opinion de la permanence des espèces, opinion qu’appuyent de nombreux arguments et qu’on ne peut attaquer qu’en négligeant les faits bien connus et en se rejetant dans les faits mal connus.


Significativité d’un alignement en bayésien

14 mai 2009

On a vu précédemment comment aligner (globalement) deux séquences l’une avec l’autre et comment calculer le score de l’alignement résultant étant donné un scoring scheme (match, mismatch, gap). Mais bien que l’on sache obtenir un alignement optimal, cela ne nous dit pas si notre alignement est significatif, c’est-à-dire s’il est biologically meaningful

Replaçons nous dans le contexte; nous venons d’obtenir (par des moyens expérimentaux) une nouvelle séquence. Pour en savoir plus sur l’information qu’elle code, on se dit qu’on peut essayer de l’aligner avec une séquence déjà connue. C’est ce que nous faisons et on trouve l’alignement optimal A_1 de score S_1. C’est bien, mais pas suffisant. En effet, nous n’avons (pour l’instant) aucun moyen de savoir si cet alignement est dû au hasard ou bien si ces deux séquences sont homologues, c’est-à-dire si elles ont un ancêtre commun.

Et oui, on peut très bien avoir un alignement A_2 entre notre séquence inconnue et une 2e séquence que l’on connaît déjà, de score S_2 celui-là. Or on aimerait bien avoir un moyen pour juger que deux séquences sont homologues puisque dans ce cas-là on se permettra (grossièrement) d’inférer que la fonction de notre séquence inconnue est la même que la fonction de la séquence qu’on connaît déjà (à peu de choses près).  Dans notre cas, quel alignement doit-on utiliser pour inférer la fonction ? A_1 ou A_2 ?

Et comme toujours, il existe plusieurs approches pour (tenter de) répondre à cette question, l’approche bayésienne (voir ci-dessous) et la distribution du maximum de scores (prochainement dans un autre billet).

On a vu que le score S d’un alignement était un log de ratio de vraisemblances:

S = log( \frac{P(x,y/M)}{P(x,y/R)} )

Mais en fait, au lieu de P(x,y/M), la probabilité d’obtenir les séquences x et y sachant qu’elles ont un ancêtre commun (le match modèle M), ce que l’on veut vraiment, c’est calculer la probabilité que les deux séquences aient un ancêtre commun connaissant ces deux séquences: P(M/x,y). Grâce à la formule de Bayes, on peut calculer cette probabilité:

P(M/x,y) = \frac{P(x,y/M)P(M)}{P(x,y)}

Cependant, au préalable, il faut spécifier les prior: P(M) la probabilité a priori que les deux séquences sont reliées (par un ancêtre commun) et P(R) la probabilité a priori du modèle aléatoire:  P(R) = 1 - P(M).

Ainsi:

P(M/x,y) = \frac{P(x,y/M)P(M)}{P(x,y/M)P(M)+P(x,y/R)P(R)}

P(M/x,y) = \frac{P(x,y/M)P(M) / P(x,y/R)P(R)}{1+P(x,y/M)P(M) / P(x,y/R)P(R)}

Finalement, on pose:

S' = S + log( \frac{P(M)}{P(R)} )

On obtient alors:

P(M/x,y) = \sigma(S') avec \sigma(x)=\frac{\exp^x}{1+\exp^x}

\sigma est la fonction logistique. C’est une sigmoide tendant vers 1 quand x tend vers \infty, et vers 0 quand x tend vers -\infty. Cette fonction est bien utile pour convertir des scores faits de sommes en probabilités.

Une fois qu’on a fait tout ça, on peut comparer la valeur finale de P(M/x,y) à 0 pour savoir si nos séquences sont reliées entre elles ou non. Sans rentrer dans les détails, il faut être bien sûr de travailler avec des probabilités (leur somme sur toutes les paires possibles de séquences doit faire 1), ce qui n’est pas toujours le cas dans un scoring scheme construit de façon ad hoc. De plus, les priors prennent beaucoup d’importance quand on cherche un alignement significatif entre une séquence inconnue et une banque de séquences connues. Dans ce cas-là, il faut prendre en compte la taille de la banque puisque la probabilité d’obtenir, par chance, un bon alignement entre deux séquences non reliées entre elles augmente avec la taille de la banque.


Le système de score d’un alignement

20 avril 2009

Supposons que l’on ait deux séquences qui nous intéressent (d’ADN ou de protéines). Nous pouvons aligner globalement ces deux séquences l’une avec l’autre (voir ce billet). Quand on compare comme cela des séquences entre elles, on cherche à savoir si elles ont divergé à partir d’un ancêtre commun sous l’action de processus évolutifs de mutation et sélection.

Les processus mutationnels de base sont les substitutions qui remplacent un résidu par un autre, et les insertion-délétions (indels) qui ajoutent ou enlèvent des résidus (les résidus sont les bases azotées pour l’ADN et les acides aminés pour les protéines). La sélection naturelle joue sur ces variations aléatoires et les crible de telle sorte que certaines modifications vont être plus visibles que d’autres: si une modification est très délétère pour l’individu qui la porte, elle sera contre-sélectionnée, n’apparaîtra pas ou peu dans la génération suivante et disparaîtra (schématiquement…).

Jusqu’à maintenant, pour construire un alignement nous avons utilisé des scores comme par exemple +1 pour le match (deux résidus alignés identiques), 0 pour le mismatch (deux résidus alignés différents) et -1 pour le gap (un résidu aligné avec un gap, dû à un indel). Mais comme nous voulons un système de score qui donne le score le plus élevé à l’alignement le plus plausible biologiquement, il nous faut prendre en compte beaucoup de choses comme l’histoire évolutive de ces séquences, leur structure tridimensionnelle…

Pour cela, nous utilisons un modèle probabiliste, c’est un moyen de simuler l’objet considéré, qui donne différents scénarios possibles avec une probabilité attachée à chacun d’eux. Dans notre cas, les séquences biologiques sont des chaînes de caractères (string en anglais) tirés d’un alphabet de résidus de taille finie (A,T,G,C pour l’ADN). Supposons que le résidu x apparaisse aléatoirement avec la probabilité q_x, indépendamment des autres résidus présents dans la séquence. Si la séquence est notée x_1...x_n, la probabilité d’observer cette séquence est alors le produit q_{x_1}q_{x_2}...q_{x_n}. Dans la suite nous appellerons ce modèle le « modèle de séquence aléatoire », c’est notre hypothèse nulle, contre lequel on comparera les autres modèles.

Concernant notre alignement des deux séquences, le score total correspond à la somme des termes pour chaque paire de résidus alignés plus un terme pour chaque gap. Intuitivement, si nos deux séquences ont un ancêtre commun, on s’attend à ce que les paires de résidus identiques (les identités) soient plus probable que dans le modèle aléatoire et donc contribuent au score par un terme positif, et inversement pour les paires de résidus différents et les gaps. Dans l’interprétation probabiliste, on calcule le logarithme d’un ratio de vraisemblance: la vraisemblance pour les séquences d’avoir un ancêtre commun par rapport à la vraisemblance de ne pas en avoir.

Quelques notations tout d’abord. Considérons deux séquences, x et y, de longueur respective m et n. Le i-ème résidu de x est noté x_i. Les résidus sont tirés d’un alphabet dont les symboles sont représentés par des lettres en minuscule comme a et b.

Vu précédemment, le modèle aléatoire noté R suppose que la probabilité d’avoir les deux séquences correspond au produit des probabilités d’avoir chaque séquence. Formellement, cela donne:

P(x,y/R) = \prod_{i} q_{x_i} q_{y_i}

Dans le modèle alternatif (supposant que les deux séquences ont un ancêtre commun), une paire de résidus alignés est observée avec une probabilité jointe p_{ab}. On peut voir ça comme la probabilité que les résidus a et b dérivent indépendamment tous les deux d’un résidu originel inconnu c qui est leur ancêtre commun. Ainsi:

P(x,y/M) = \prod_{i} p_{x_i y_i}

Les probabilités P(x,y/R) et P(x,y/M) sont des vraisemblances. En probabilité, la vraisemblance est la probabilité d’obtenir les données D sachant le modèle M: P(D/M). Le ratio de vraisemblances est connu sous le nom d’odds ratio:

\frac{P(x,y/M)}{P(x,y/R)} = \prod_{i} \frac{p_{x_i y_i}}{q_{x_i} q_{y_i}}

Pour obtenir un système de score additif, on prend le logarithme de ce ratio (le logarithme d’un produit étant une somme de logarithmes):

S = \sum_{i}{} s(x_i,y_i)

avec: s(x_i,y_i) = \log ( \frac{p_{x_i y_i}}{q_{x_i}q_{y_i}} )

Ici, utiliser un schéma de score additif revient à supposer que les mutations apparaissent indépendamment à chaque site de l’alignement. En probabilité, observer deux événement indépendants revient à multiplier leur probabilité. Et comme le logarithme d’un produit est égal à la somme des logarithmes, on obtient bien notre score additif. Finalement, les scores s(a,b) peuvent être stockés dans une matrice, de taille 4×4 pour l’ADN.

Il est important de voir que lorsqu’un biologiste construit une matrice de substitution ad hoc pour son alignement, il suppose implicitement les probabilités p(a,b) d’obtenir la paire de résidus ab dans son alignement.


Mathématiques et biologie

10 mars 2009

If people do not believe that mathematics is simple, it is only because they do not realize how complicated life is.

John von Neumann

Citation trouvée sur le site web d’Arndt Benecke, chercheur à l’IRI et à l’IHES.

Cette phrase serait-elle destinée aux biologistes ? En entend souvent que « les biologistes ont peur des équations », pourtant, ils sont bien placé pour savoir que la vie est plutôt « complexe » (avec tous les guillemets à mettre autour de ce mot), non ?

D’ailleurs, en parlant de mathématiques et biologie, certains ont des choses à dire sur le sujet:

The lack of real contact between mathematics and biology is either a tragedy, a scandal or a challenge, it is hard do decide with.

Gian-Carlo Rota

Suivi de:

Mathematics is biology’s next microscope, only better; biology is mathematics’ next physics, only better.

J.E. Cohen

Les deux dernières citations viennent de l’article de Bernd Sturmfels « Can Biology lead to new theorems? » que je recommende aux « matheux » intéressés par la biologie.

polytope1


Invasion d’ETs

8 mars 2009

Chaque cellule vivante possède un génome, la molécule d’ADN, qui contient l’information génétique nécessaire à sa survie (voir ce billet). On a vu précédemment que, selon les organismes, la taille du génome pouvait beaucoup varier (voir ce billet), et que ces variations entre génomes sont principalement dues aux éléments transposables, les ETs (voir ce billet).

En biologie, lorsque l’on s’intéresse à quelque chose sous l’angle de l’évolution, se posent généralement deux questions: l’origine (comment c’est apparu) et la maintenance (pourquoi ça s’est maintenu au cours du temps). Prenons l’exemple d’une famille d’ETs dans un génome. On parle de « famille » parce qu’un ET est capable de transposer (de changer de place) au sein du génome-hôte et, par extension, de se multiplier: on dit alors que toutes les copies ayant pour ancêtre commun cet ET-là forment une famille. Mais à l’origine, cet ET, il vient d’où ?

Mettons de côté la question de l’origine du tout premier ET (que j’ai brièvement abordée ici) et considérons simplement un organisme, par exemple le poisson rouge qui tourne dans son bocal. Si l’on séquence son génome, on y trouvera des ETs. Ils viennent  soit de son père et/ou de sa mère, comme tout autre constituant de son génome (transmission verticale), soit d’ailleurs (transmission horizontale), et bien sûr, c’est plus amusant de s’intéresser au deuxième cas… Mais avant de savoir si les ETs de notre poisson rouge lui viennent de l’espace, on peut déjà se demander si ça arrive fréquemment que des ETs soient transmis horizontalement.

En 2008, des chercheurs ont répondu à cette question dans le cas des animaux en montrant qu’une famille d’ETs (appelée SPIN pour SPace INvaders…) avait envahie par transferts horizontaux plusieurs génomes de mammifères au cours de centaines de millions d’années (voir cet article). Mais au juste, comment fait-on ça ?

Depuis quelques années, on a les moyens techniques pour séquencer des génomes appartenant à beaucoup d’espèces différentes. Dans notre cas, les auteurs de l’étude recherchaient les ETs présents dans le génome d’un lémurien, Otolemur garnettii (la jolie petite bête photographiée ci-dessous). Ils ont utilisé une approche bioinformatique d’alignement de séquences et ont trouvé un ET qu’ils ne connaissaient pas très bien, appartenant a priori à la famille des hAT. Pour en savoir plus, ils ont regardé si cet ET n’était pas présent chez d’autres espèces comme l’homme, la souris, l’éléphant, le chien, la chauve-souris… et ils l’ont trouvé chez certains d’entre eux mais pas tous ! Ça met la puce à l’oreille, vous en conviendrez… En effet, la phylogénie (l’arbre généalogique) ci-dessous montre que les SPINs sont présents dans 6 génomes de tétrapodes mais pas dans les autres (les barres verticales indiquent la distribution des copies en fonction de leur âge).

transferts horizontaux d'ETS chez les mammifères

On peut imaginer tout d’abord que l’ancêtre de tous les génomes analysés (à la racine de l’arbre, donc il a vécu il y a environ 350 millions d’années) possédait déjà cet ET et qu’au cours du temps, de nouvelles espèces sont apparues, certaines perdant cet ET pour diverses raisons, tandis que d’autres le gardaient. Dans ce cas-là, les copies de l’ET devraient être très anciennes et toutes avoir à peu près le même âge. L’autre possibilité est d’imaginer que plusieurs transferts horizontaux sont arrivés dans les différentes branches de l’arbre et donc que les ETs sont beaucoup plus jeunes et que les copies d’un génome peuvent avoir un âge différent de celles dans un autre génome (c’est-à-dire le long d’une autre branche de l’arbre). Tenez vous bien: on trouve justement que les copies d’ETs sont jeunes et que, par exemple, les copies chez la chauve-souris sont plus jeunes que celles chez le rat !

Tout ça veut donc dire qu’il y a eu des transferts horizontaux, et ce plusieurs fois, au cours de l’évolution menant à ces espèces. On ne sait pas très bien comment de telles choses arrivent, certains supposent qu’un parasite d’une espèce peut en parasiter une autre et qu’il peut faire la navette de l’une à l’autre en transférant du matériel génétique de temps en temps, ce qui pourait être le cas des poux ou bien des achariens, mais rien n’a encore été observé. Comme quoi, les morceaux d’ADN aussi ça aime se balader… !


Genome dark matter

23 février 2009

On a cru pendant longtemps que la complexité d’un organisme allait de pair avec la taille de son génome (voir ce billet). Puis l’on s’est rendu compte que c’était faux en mesurant la taille du génome de beaucoup d’organismes différents, mais ce n’est pas pour autant qu’on a compris pourquoi certains organismes avaient un génome beaucoup plus grand que d’autres… En parallèle de ça, une chercheuse travaillant sur des chromosomes de maïs a découvert dans les années 1950 des éléments génétiques un peu particuliers. On est tous plus ou moins familier avec l’ADN qui code pour une protéine, ce que l’on appelle le dogme de la biologie moléculaire (si vous ne savez pas ce que c’est, lisez d’abord l’article de Wikipédia) mais il existe des morceaux d’ADN capables de se multiplier dans les génomes: on appelle ça des éléments transposables (ETs).

nrg703-i1

Imaginons un morceau d’ADN qui code pour une protéine capable de reconnaître un motif d’ADN bien précis, par exemple le motif « CCAATG », et que lorsque la protéine s’attache à ce motif, elle soit capable de couper l’ADN à cet endroit et de le réinsérer ailleurs. Maintenant imaginons que, par hasard, à un moment donné, dans un organisme quelconque, le morceau d’ADN qui code pour cette protéine se retrouve avec, de part et d’autre, c’est-à-dire sur sa gauche et sur sa droite, le motif en question. Par un mécanisme proche du « couper-coller », ce morceau d’ADN, par l’intermédiaire de la protéine pour laquelle il code, peut se déplacer d’un endroit à un autre du génome (d’un locus à un autre).  Et si jamais ce bout d’ADN est répliqué lorsque la cellule se prépare à entrer en division, et qu’après avoir été répliqué il se déplace et s’insère à un autre locus qui n’a pas encore été répliqué, alors, lorsque ce deuxième locus sera lui aussi répliqué, le morceau d’ADN sera en deux exemplaires dans le génome. Et c’est peut-être ainsi que le premier élément transposables est né, il y a de ça plusieurs milliards d’années !

En continuant à imaginer un peu, on comprend bien que, tant que l’ET se déplace et/ou se multiplie sans gêner le reste du génome, il peut augmenter en nombre de copies jusqu’à représenter une très grande proportion du génome entier. De nombreux travaux en génétique des populations ont d’ailleurs cherché les conditions pour lesquelles un ET pouvait se maintenir dans une population (voir le graphique ci-dessous de l’évolution du nombre moyen d’ETs par individu dans une population). Et depuis la fin du XXe siècle, comme il devient de plus en plus « facile » de séquencer un génome entier, on peut rechercher les ETs et tenter de comprendre non seulement leur dynamique évolutive mais également leur impact sur la structure et la fonction du reste du génome (mmm, un beau sujet de thèse…).

dynamique d'une famille d'ETs

Pour en revenir au titre de ce billet, on a longtemps parlé de junk DNA concernant les ETs parce qu’en fin de compte, s’ils ne font que se multiplier, ils ne sont pas d’un grand intérêt pour l’organisme qui les porte dans son génome. De plus, la communauté scientifique a commencé à s’y intéresser en même temps que la théorie du gène égoïste, théorie selon laquelle chaque gène ne se préoccupe que de son succès évolutif propre, et non de celui de l’organisme qui le transmet. Et dans ce cadre, les ETs sont les parasites ultimes… Si l’on prend comme exemple le génome humain, on estime à 45% la portion du génome faite d’ETs. Si l’on sait également que moins de 1.5% du génome humain code pour des protéines, on estime alors que le reste corresponds en fait à d’anciens ETs très divergents mais plus reconnaissables en tant que tel. Et le plus étonnant, c’est que la majorité de cet ADN est transcrit: on appelle ça la dark matter des génomes…


Génomes et complexité

21 février 2009

On pense généralement que les humains sont tout en haut de la pyramide de l’évolution, qu’ils représentent le sommet ultime de la complexité. Bon, on sait maintenant depuis 150 ans qu’il est possible d’avoir des formes de vies très complexes sans recourir à un créateur, et d’ailleurs, depuis ce temps-là, les chercheurs établissent des théories et les valident régulièrement (voir cet article de Nature, en libre accès). Mais malgré cela, lorsque l’on observe l’éventail du vivant, on a quand même l’impression que certaines formes de vie sont plus complexes que d’autres. Et comme l’on sait que tout organisme vivant possède un génome, on a naturellement pensé que cette complexité se cachait au sein du génome, par exemple un organisme complexe possède un plus grand génome qu’un organisme peu complexe.

Considérons par exemple une liste d’organismes vivants: la levure Saccharomices cerevisae (utilisée pour la fermentation), la mouche Drosophila melanogaster (chouchou des généticiens) et le mammifère Homo sapiens (nous…). La levure a un génome de 13 Mb (13 millions de paires de bases), la mouche de 165 Mb et l’homme de 3 Gb. Jusque là, ça marche, mais si l’on considère le blé Triticum aestivum, son génome fait… 17 Gb ! Surprise: le blé que l’on a tendance à considérer comme « moins complexe » que nous a un génome plus de 5 fois plus grand ! De cette observation est né le « paradoxe de la valeur C« , la lettre C désignant la taille du génome haploïde d’un organisme, c’est-à-dire la taille du génome contenu dans un gamète. La figure 1 montre la distribution de la valeur C chez plusieurs ensembles d’organismes (sur ce graphique, la valeur C est en picogramme et non pas en paire de bases, mais le résultat est identique).

cvalues1

On a ensuite pensé au nombre de gènes de chaque organisme, mais ça n’a pas donné grand chose non plus à part un autre paradoxe, de la valeur « G » cette fois. Ceux qui veulent en savoir plus et jouer avec les données sous R peuvent suivre le tutoriel proposé par les chercheurs de l’Université de Lyon.

Cette question de la complexité continue à alimenter de grands débats mais maintenant les chercheurs essaient d’abord de comprendre ce que signifie « être plus complexe qu’un autre ». Les recherches ont considérablement étendu leur portée et impliquent maintenant les notions d’auto-organisation, émergence, entropie, etc… empruntées à l’informatique théorique, la physique, et les mathématiques (voir par exemple le nouvel Institut des Systèmes Complexes à Paris).

Cependant, en parallèle, d’autres recherches ont beaucoup avancé, notamment sur notre connaissance du génome, et ont permis de résoudre enfin ce fameux paradoxe de la valeur C. Suite au prochain numéro… !


%d blogueurs aiment cette page :