Déterminisme, science et justice

23 août 2010

Quelques idées de-ci de-là mélangeant lectures diverses et variées pendant l’été.

Extrait du livre The extended phenotype de Richard Dawkins:

[…] of the two effects that genes have on the world – manufacturing copies of themselves, and influencing phenotypes – the first is inflexible apart from the rare possibility of mutation; the second way may be exceedingly flexible. I think a confusion between evolution and development is, then, partly responsible for the myth of genetic determinism.

[…] I made extensive use of the analogy of computer chess in order to explain the point that genes do not control behaviour directly in the sense of interfering in its performance. They only control behaviour in the sense of programming the machine in advance of performance. It was this association with the word robot that I wanted to invoke, not the association with mindless inflexibility.

[…] Philosophers may debate the ultimate determinacy of computers programmed to behave in artificially intelligent ways, but if we are going to get into that level of philosophy many would apply the same arguments to human intelligence (Turing 1950). What is a brain, they would ask, but a computer, and what is education but a form of programming? It is very hard to give a non-supernatural account of the human brain and human emotions, feelings and apparent free will, without regarding the brain as, in some sense, the equivalent of a programmed, cybernetic machine. The astronomer Sir Fred Hoyle (1964) expresses very vividly what, it seems to me, any evolutionist must think about nervous systems:

Looking back [at evolution] I am overwhelmingly impressed by the way in which chemistry has gradually given way to electronics. It is not unreasonable to describe the first living creatures as entirely chemical in character. Although electrochemical processes are important in plants, organized electronics, in the sense of data processing, does not enter or operate in the plant world. But primitive electronics begins to assume importance as soon as we have a creature that moves around […] The first electronic system possessed by primitive animals were essentially guidance systems, analogous to sonar or radar. As we pass to more developed animals we find electronic systems being used not merely for guidance but for directing the animal toward food […]

The situation is analogous to a guided missile, the job of which is to intercept and destroy another missile. Just as in our modern world attach and defense become more and more subtle in their methods, so it was the case with animals. And with increasingly subtlety, better and better systems of electronics become necessary. What happened in nature has a close parallel with the development of electronics in modern military applications […] I find it a sobering thought that but for the tooth-and-claw existence of the jungle we should not possess our intellectual capabilities, we should not be able to appreciate a symphony of Beethoven […] Viewed in this light, the question that is sometimes asked – can computer think? – is somewhat ironic. Here of course I mean the computers that we ourselves make out of inorganic materials. What on earth do those who ask such a question think they themselves are? Simply computers, but vastly more complicated ones than anything we have yet learned to make. Remember that our man-made computer industry is a mere two or three decades old, whereas we ourselves are the products of an evolution that has operated over hundred of millions of years.

Others may disagree with this conclusion, although I suspect that the only alternatives to it are religious ones. Whatever the outcome of that debate, to return to genes and the main point of this chapter, the issue of determinism versus free will is just not affected one way or the other by whether or not you happen to be considering genes as causal agents rather than environmental determinisms.

[…] Genes do indeed blend, as far as their effects on developing phenotypes are concerned. But, as I have already emphasized sufficiently, they do not blend as they replicate and recombine down the generations.

[…] Of course genes are not directly visible to selection. Obviously they are selected by virtue of their phenotypic effects in concert with hundred of other genes. But it is the thesis of this book that we should not be trapped into assuming that those phenotypic effects are best regarded as being neatly wrapped up in discrete bodies (or other discrete vehicles). The doctrine of the extended phenotype is that the phenotypic effect of a gene (genetic replicator) is best seen as an effect upon the world at large, and only incidentally upon the individual organism – or any other vehicle – in which it happens to sit.

* * *

Dans son livre The extended phenotype datant de 1982, Dawkins a bien fait de préciser sa pensée concernant le déterminisme génétique, initialement évoquée dans The selfish gene datant de 1976. Utiliser la métaphore de l’ordinateur et de la programmation comme il l’entend ci-dessus, est évocatrice et donne une bonne idée de la façon dont on peut (tenter de) comprendre les relations de causalité entre les gènes, l’organisme pris dans sa globalité (leur véhicule) et les interactions entre cet organisme et le monde extérieur. Pour autant, il est nécessaire de préciser qu’utiliser le terme « programmed machine » pourrait être quelque peu abusif étant donné qu’on programme une machine afin d’effectuer un calcul (computation) et que la théorie de la calculabilité donne un sens bien précis à ce qu’est un calcul et à ce que l’on peut calculer. A ce sujet, les conférences de Gérard Berry au Collège de France sont très instructives.

Cette manière dont on a actuellement d’expliquer les organismes comme étant les véhicules des gènes a des implications très importantes sur la façon dont on a de se percevoir en tant qu’être humain et donc sur la façon dont on désire organiser la société, notamment parce qu’elle touche à la question du déterminisme. Est-on déterminé par ses gènes ? Peut-on dire que l’on « veut » quelque chose ? Doit-on être tenu pour responsable de ses actes ? A la première question, Dawkins répond oui, mais en précisant que le terme « déterminé » doit être compris dans son sens faible étant donné l’extrême flexibilité résultant de l’action de tous les gènes de l’organisme. Ainsi pour lui, le fait que l’on soit déterminé par ses gènes n’affecte en aucune façon la place que l’on peut accorder au « free will », et il s’arrête là pour en revenir à son idée du phénotype étendu.

Depuis l’Antiquité au moins, les hommes se posent la question de savoir si le « free will » existe bel et bien, et le débat continue. Par exemple, en janvier 2010, les comptes rendus de l’académie des sciences des États-Unis ont été le théâtre d’une correspondance animée portant sur la question du « free will ». Tout a commencé avec l’article d’Anthony Cashmore (biologiste à l’université de Pennsylvanie) dont voici le résumé:

It is widely believed, at least in scientific circles, that living systems, including mankind, obey the natural physical laws. However, it is also commonly accepted that man has the capacity to make “free” conscious decisions that do not simply reflect the chemical makeup of the individual at the time of decision—this chemical makeup reflecting both the genetic and environmental history and a degree of stochasticism. Whereas philosophers have discussed for centuries the apparent lack of a causal component for free will, many biologists still seem to be remarkably at ease with this notion of free will; and furthermore, our judicial system is based on such a belief. It is the author’s contention that a belief in free will is nothing other than a continuing belief in vitalism—something biologists proudly believe they discarded well over 100 years ago.

Vous imaginez bien que les réactions ont été immédiates. Voici les titres des réponses:

  • Has biology disproved free will and moral responsibility? (lien)
  • Reply to Anckarsater: A belief in free will is based on faith (lien)
  • A justice system that denies free will is not based on justice (lien)
  • Reply to McEvoy: The judicial system is based on a false understanding of the biology of human behavior (lien)

Au sujet de l’article qui a tout déclenché, Konrad Hinsen nous explique dans un billet que la question du « free will » ne peut être posée en des termes scientifiques: « The scientific method is based on identifying conditions from which exact predictions can be made. The decisions of an agent that possesses free will are by definition unpredictable, and therefore any theory about a system containing such an agent would be impossible to verify. […] It also means that a hard-core scientist, who considers the scientific method as the only way to establish truth, has to deny the existence of free will, or else accept that some important aspects of our universe are forever inaccessible to scientific investigation. »

Je ne suis pas d’accord avec ce point de vue. Premièrement, dans son travail quotidien, le scientifique ne peut pas toujours faire de prédictions « exactes », cela ne l’empêche pas pour autant de travailler. Bien souvent concernant des systèmes complexes,  la science n’apporte pas de preuves définitives mais plutôt un faisceau d’indices concordants. Deuxièmement, même si l’on suppose l’existence du « free will », de nombreuses expériences de psychologie expérimentale et de biologie comportementale (ainsi que tout ce qui est compris sous le vocable « sciences cognitives ») sont menées et arrivent, me semble-t-il, à mettre à jour des régularités permettant de mieux comprendre les ressorts des comportements (choix d’un partenaire sexuel, mise en place du leadership, dynamique des rivalités, compréhension des mécanismes d’apprentissage, etc). Troisièmement, notre méconnaissance actuelle de la façon dont les gènes agissent de concert lors de la vie d’une cellule et du développement d’un organisme (le « genes do blend » de Dawkins) nous empêche de bien comprendre les relations causales entre gènes, environnement et stochasticité (les trois forces gouvernant les systèmes biologiques selon Cashmore). Mais la recherche est intense sur ce point et nous devrions y voir plus clair dans les prochaines décennies, que ce soit à travers l’analyse des réseaux de gènes ou grâce aux approches de biologie synthétique. Quatrièmement, la biologie évolutive a montré la différence existant entre expliquer et prédire (cf. Mayr 1961). Donc il est possible, et même très vraisemblable, que tout organisme vivant soit entièrement déterminé par ses gènes, son environnement et un brin de stochasticité (auxquelles je rajouterai explicitement les contraintes physiques), sans que pour autant on arrive à prédire son comportement. Formellement, l’analyse des systèmes dynamiques (chaos déterministe, attracteurs, etc), par exemple en météorologie, nous apprend que l’on ne pourra jamais prédire le temps à plus de quelques jours, une très petite augmentation de cette durée nécessitant une augmentation démesurée de la précision des mesures (impossible en pratique).

En fin de compte, la survie du « free will » réside donc peut-être dans le fait que, les systèmes biologiques étant dynamiques par nature, nous ne parviendrons jamais à en prédire exactement le comportement (c’est-à-dire, en termes statistiques, à en expliquer 100% de la variance, comme le fait remarquer H. Anckarstäter dans PNAS), mais seulement à en décrire les grands lignes.

Là o`u je suis d’accord avec K. Hinsen, mais mon argument est différent, c’est que la méthode scientifique ne peut pas prouver l’inexistence de quelque chose. Non seulement parce que les sciences naturelles, à la différence des mathématiques, ne prouvent jamais rien (cf. le problème de l’inférence, la science ne fait qu’apporter un faisceau d’indices concordants), mais aussi parce qu’en choisissant toujours l’explication la plus parcimonieuse (rasoir d’Occam), le scientifique contemporain est amené à ne jamais considérer l’existence du « free will ». Son inexistence n’est donc pas « prouvée » pour autant.

Dans un commentaire de son propre billet, K. Hinsen précise cependant: « Both sides agree that science can’t fully explain human behaviour at the moment, but disagree about the conclusions that should be drawn. Personally, I’d prefer not to draw any conclusion at all. » Je ne suis pas très au fait du fonctionnement exact des systèmes judiciaires français et américain mais, comme le note Cashmore, les systèmes judiciaires actuels conduisent à une « sur-incarcération » qui est loin d’être optimale. Par contre, pour moi, ce n’est pas tant l’attention théorique accordée à l’existence du « free will » qu’il faudrait modifier mais plutôt l’attention empririque accordée aux efforts de réinsertion (un point que Cashmore ne mentionne même pas !). Cependant, j’ai l’impression que le fait de croire au « free will » amène à  mettre l’accent sur la faute, et donc sur la punition (l’incarcération), bien plus que sur la compréhension des raisons diverses et variées (génétiques, environnementales, etc) ayant amené à contrevenir à la loi, et donc sur les efforts  de réinsertion à mettre en œuvre. Et c’est en cela qu’il serait pertinent de remettre en cause l’importante du « free will » dans notre façon de rendre la justice.

Pour résumé, les connaissances scientifiques actuelles n’ont pas besoin de faire appel au « free will » pour expliquer grand nombre de comportements. Pour autant, cette question ne pourra vraisemblablement jamais être résolue sans ambiguïté étant donné les propriétés intrinsèques des systèmes biologiques. Indépendamment de cela, le système judiciaire actuel promeut l’incarcération au détriment de la réinsertion et l’Etat finance préférentiellement la punition au détriment de la solidarité. Si cela est lié à l’importance accordée au « free will », je rejoins Cashmore dans l’idée de remettre à plat notre conception de la justice mais regrette de n’avoir pas trouvé dans son article de suggestions plus précises.

En effet, de manière générale, je ne pense pas qu’il faille aborder de tels sujets uniquement à travers des remises en cause théoriques mais toujours proposer en parallèle la mise en place d’expérimentations pratiques et innovantes. Sur ce point, une association comme le Genepi a sûrement plein d’idées.

Cas concret de frictions entre science et société

17 août 2010

Les faits

Une soixantaine de faucheurs venus de toute la France ont saccagé 70 pieds de vigne transgénique dans l’unité de Colmar de l’Institut national de recherche agronomique (Inra) dans la nuit de samedi à dimanche, « un acte gravissime pour la recherche » selon le directeur du site. (extrait d’une dépêche AFP)

Dans un autre style, voici un extrait d’une pétition de soutien aux faucheurs:

« Aujourd’hui, 15 août 2010, une vigne génétiquement modifiée résistante au court noué a été neutralisée par les Faucheurs Volontaires à l’INRA de Colmar. »


Ce n’est pas la première fois que des vignes OGM se font arrachées à l’INRA de Colmar. L’historique de toute l’affaire est disponible ici sur le site web de l’INRA. A lire absolument si on veut comprendre quelque chose de concret (ne pas se contenter uniquement des articles de la presse grand publique !). C’est écrit par l’un des protagonistes de l’affaire (en l’occurrence l’INRA) alors certains peuvent craindre que ce ne soit pas objectif, mais lisez quand même, c’est très instructif…

La question

Que doit-on penser de tout ça ? Qui est responsable de quoi ? Qui croire ? Comment sortir de cette situation ?

La (piste de) réflexion

C’est bien compliqué… Je ne saurai discourir ici sur les bienfaits et méfaits accompagnant toute innovation technique. Par contre, je peux partager quelques informations utiles à ce débat sur la vigne OGM, informations qui se trouvent être disponibles grâce à internet, sur lesquelles je peux porter un regard critique et qui me semblent nécessaires à la compréhension du sujet. Ces informations une fois partagées et discutées nous entraîneront vers une perspective qui saura, je l’espère, susciter votre intérêt pour « aller plus loin ».

* * *

Le premier point concerne le fait que l’INRA a petit à petit intégré dans sa manière de faire la concertation avec la société civile. Exemple de cette prise de conscience, un article paru dans le journal scientifique Nature en 2007:

The public should be consulted on contentious research and development early enough for their opinions to influence the course of science and policy-making.

Pierre-Benoit Joly (directeur de recherche INRA)

Arie Rip (professeur de philosophie des sciences aux Pays-Bas)

Nature volume  450 (8 November 2007)

Afin d’avoir une bonne idée du processus de concertation, je ne saurai trop recommander la lecture du (court) rapport « Mettre les choix scientifiques et techniques en débat » écrit par des membres du laboratoire TSV (« Transformations sociales et politiques liées au vivant ») de l’INRA d’Ivry.

* * *

Le deuxième point concerne la vigne OGM elle-même. Le but des recherches de l’INRA de Colmar en mettant au point des plantes OGM est de mieux comprendre la maladie dit du « court noué ». Cette maladie est due à un virus qui est transmis de plante en plante par un ver du sol (un nématode). Pour en savoir plus, rien de mieux que de lire la description que font les chercheurs de leur travail. Là encore, allez lire ce qu’ils ont écrit, après tout ce sont eux les spécialistes et ils savent aussi écrire de telle sorte que ce soit compréhensible par à peu près tout le monde.

Dans la pétition de soutien aux faucheurs, on peut lire: « L’intérêt scientifique de cette expérimentation est également mis en doute par le fait que cette maladie est mineure et que l’on sait déjà la gérer: on arrache les pieds infectés puis on laisse reposer la terre pendant plusieurs années. » Or dans un billet de blog du site Libération j’apprends que « des travaux récents montrent que 4 ans après l’arrachage d’une vigne court-nouée, des nématodes porteurs du virus sont toujours présents dans le sol ». Alors qui croire ?

S’il y a des résultats scientifiques récents concernant la présence dans le sol du virus même après avoir arraché les vignes infectées, je devrais pouvoir les trouver. Ni une ni deux, je vais sur Google Scholar et je tape « soil grapevine virus ». En effet, je tombe sur l’article suivant intitulé « Survival of Xiphinema index in Vineyard Soil and Retention of Grapevine fanleaf virus Over Extended Time in the Absence of Host Plants ». Cet article se trouve être même en accès libre (au format pdf).

Des chercheurs de l’INRA travaillant sur le virus de la vigne en question ainsi que sur les nématodes (vers de terre porteurs du virus) ont collaboré et ont conclu dans cette étude de 2005 que: « Our findings on the long-term survival of viruliferous X. index under adverse conditions emphasize the need for new control strategies against GFLV. »

Alors, quoi faire ? Et bien si laisser les sols au repos pendant quatre ans n’est pas suffisant, on peut toujours ce dire qu’il faut attendre plus longtemps. Je veux bien croire que le secteur viticole français soit en surproduction (bien que la situation ait changé depuis 2007), mais quand on sait que 30% du vignoble français subi le « court noué », c’est un régime peut-être un peu drastique que de dire à tous ces producteurs d’attendre plusieurs années avant de recommencer à produire. En pratique, cela me paraît quelque peu difficile à réaliser.

On peut aussi penser que les conclusions des chercheurs ne sont que partiellement vraies, qu’ils n’ont pas tout bien regarder, etc. Mais c’est une accusation très forte et je n’ai pas l’impression que l’on puisse faire cela dans notre cas. La question se repose donc: quoi faire ? Et bien, peut-être qu’en introduisant une résistance génétique dans le génome des cépages on pourra améliorer un peu les choses ? Ou bien peut-être qu’en comprenant les déterminants moléculaires de la transmission du virus par le nématode, on pourra utiliser des moyens de lutte biologiques (des prédateurs des nématodes) plus adaptés, ou encore mettre au point des agents chimiques plus spécifiques ?

Mais avant de faire ça, il faut bien faire des recherches pour voir au moins si c’est possible parce que sinon, on juge avant même d’avoir des éléments de réponse. Et là, ce qui se passe, c’est que l’INRA ne peut même pas faire ces recherches. Malgré le fait qu’un processus de concertation ait été mis en place impliquant vignerons, chercheurs, conseillers scientifiques, etc. Une consultation publique a même été organisée. Le risque est de complètement braquer les chercheurs, de creuser le fossé entre eux et le reste de la société civile. D’un autre côté, le risque est de financer certaines recherches sous l’influence d’un scientisme ambiant qui n’est pas toujours de bon augure.

* * *

Le but n’est pas ici de savoir si une vigne OGM doit être commercialisée mais plutôt comment on gère l’effort de recherche en agronomie. Je ne vois pas d’autre solution que de continuer la recherche et d’augmenter l’effort de concertation, encore et toujours, d’améliorer les interactions entre les différents intervenants, car tous, chercheurs et citoyens, ont à y gagner, à condition que chacun essaie de se mettre à la place de l’autre.

Le nœud du problème concerne les relations entre science et société. Tous les chercheurs sont confrontés à cela, à plus ou moins grande échelle, et particulièrement à l’INRA, organisme de recherche finalisée, dont les trois domaines de recherche sont l’agriculture, l’environnement et la nutrition.

Au sujet des relations entre science et société, beaucoup de choses sont à construire, ce qui est d’autant plus passionnant. Alors si ce sujet vous intéresse, jetez un coup d’œil au manifeste en construction Revoluscience dont le sous-titre est « Pour une médiation scientifique émancipatrice, autocritique et responsable« . Pour le coup, c’est pile dans le sujet, c’est très actuel et vous pouvez même participer à son amélioration !

Modéliser l’évolution des séquences d’ADN

28 mars 2010

Bien que je m’empêche de réagir à chaud, l’actualité médiatique est une source permanente d’inspiration. Alors quand les mathématiciens avertissent du desintérêt croissant pour leur discipline et que l’apparition de virus HINI mutants crée des frayeurs, l’envie me prend de dire quelques mots mêlant modèle mathématique et mutations dans des séquences d’ADN.

Attention le billet est long mais à la fin puisse votre persévérance être récompensée. Non seulement vous connaîtrez une formule estimant la distance entre deux séquences d’ADN, mais vous serez aussi passés par toutes les étapes du calcul (ce qui est généralement négligé partout ailleurs sur internet). Et puis le fait de rentrer dans le coeur d’un modèle, suivant pas à pas la démarche du modélisateur, pourrait réconcilier certains lecteurs avec les maths ? En tout cas moi ça m’a bien servi d’écrire ce billet.

On l’a vu précédemment, l’ADN est la molécule support de l’information génétique. Elle est formée de quatre « briques » appelées nucléotides, chacune symbolisée par une lettre: A, T, G et C. Chaque cellule possède une molécule d’ADN qui est copiée dans son intégralité au moment de la division cellulaire. Or, lors de cette réplication, des erreurs peuvent être commises, par exemple un A remplacé par un G. On parle alors de mutation (de substitution pour être plus précis). Par simplicité on ne traite pas le cas des insertions/délétions.

Depuis les années 1970, avec la possibilité de séquencer de l’ADN, on peut observer un fragment du génome d’un organisme et le comparer avec le même fragment mais provenant d’un autre organisme. En alignant ces deux séquences, on peut avoir une idée du nombre de match (:) et mismatch (*) les séparant, comme le montre l’image ci-dessous:

figure 1: un alignement global entre deux séquences d’ADN

En voyant cela, on se rappelle qu’une séquence d’ADN est une chaîne de caractères de longueur finie. Chaque position est appelée un site. Chaque site est dans un état particulier parmi quatre possibles (A, T, G ou C). Lorsque plusieurs séquences ont un ancêtre commun, on parle de séquence homologues. Sur la figure 1 la séquence S_1 et la séquence S_2 ont la même longueur L, 20 nucléotides, l’alignement résultant a donc 20 sites.

Pour mesurer la distance entre deux séquences, le plus simples est de calculer la proportion de sites différents. Sur la figure 1 une distance de 0.1 sépare la séquence S_1 de la séquence S_2 (2 mismatches sur 20 sites). Le problème c’est qu’en faisant cela on néglige les mutations cachées. Par exemple au site n°2 supposons que l’ancêtre commun ait été le nucléotide A. La séquence S_1 n’a pas eu de mutation mais la séquence S_2 aurait pu en avoir deux, d’abord de A vers C puis de C vers A. Or avec la distance décrite ci-dessus on ne compte pas de mutation puisque les deux séquences sont dans l’état A au 2e site. Dans la même veine, au 8e site supposons que la séquence ancestrale ait été dans l’état G. Aujourd’hui on observe que la séquence S_1 est toujours dans l’état G mais la séquence S_2 est dans l’état A, on compte donc une mutation, mais qui nous dit qu’il n’y en a pas eu plusieurs, par exemple de G vers T puis de T vers A ? Alors allons-y, écrivons un modèle mathématique prenant cela en compte !

On suppose que tous les sites suivent la même distribution de probabilités et que chaque site évolue de façon indépendante des autres. Ainsi la probabilité de passer de la séquence S_1 à la séquence S_2 (toutes les deux de longueur L) est donnée par:

\mathbb{P}( S_1 \rightarrow S_2 ) = \displaystyle \prod_{i = 1} ^L \mathbb{P}( S_1[i] \rightarrow S_2[i] )

Dire que deux probabilités sont indépendantes revient à les multiplier. Comme on suppose que tous les suites suivent la même loi de probabilité, on peut se concentrer sur l’évolution d’un seul site. Grâce à la formule ci-dessus, si on arrive à modéliser \mathbb{P}( S_1[i] \rightarrow S_2[i] ) on arrivera à modéliser \mathbb{P}( S_1 \rightarrow S_2 ).

Supposons maintenant que le temps avance en « tic », comme les aiguilles d’une horloge, et qu’à chaque « tic » une mutation peut subvenir ou non. Pour modéliser cela on va utiliser une chaîne de Markov. Une chaine de Markov est un processus stochastique (synonyme de probabiliste). Par exemple, si on note X l’évènement « le dé jeté affiche la valeur x« , on dit que X est une variable aléatoire prenant les valeurs 1, 2 ... 6. Et bien, si on étudie plusieurs lancés de dé au cours du temps, on se retrouve à étudier un processus probabiliste: pas compliqué…

Si maintenant on considère que la probabilité au temps t_{n+1} ne dépend que de l’état présent, c’est-à-dire du temps t_{n}, et non des états passés, les temps t_{n-1}, t_{n-2}, etc, on dit que le processus possède la propriété de Markov. Résumé d’une autre façon: « le futur ne dépend du passé qu’au travers de l’instant présent ». Et c’est tout naturellement ce qui arrive en génétique: une mutation à la génération des petit-enfants ne va pas dépendre du nucléotide en question à la générations des grand-parents mais uniquement du nucléotide en question à la génération des parents.

Une chaîne de Markov est caractérisée par sa matrice de transition P. Quand on modélise l’évolution d’une séquence d’ADN, la chaîne a 4 états (pour A, T, G et C), et la matrice aura 4 lignes et 4 colonnes. La valeur au croisement de la ligne i et de la colonne j est la probabilité p_{ij} d’être dans l’état i et de passer dans l’état j.

En 1969, Jukes et Cantor proposaient de modéliser l’évolution d’une séquence via une chaîne de Markov sous l’hypothèse que la probabilité f(t) de passer d’un nucléotide à un autre pendant la durée t était constante au cours du temps. Voici la matrice de transition correspondante:

P = \begin{pmatrix}1 - 3f(t) & f(t) & f(t) & f(t) \\ f(t) & 1 - 3f(t) & f(t) & f(t) \\ f(t) & f(t) & 1 - 3f(t) & f(t) \\ f(t) & f(t) & f(t) & 1 - 3f(t) \end{pmatrix}

Je précise de manière arbitraire que les 1e ligne et colonne correspondent au nucléotide A, les 2e au nucléotide T, les 3e à G et les 4e à C: p_{23} à l’intersection de la 2e ligne et de la 3e colonne est la probabilité que le site soit dans l’état T et mute vers l’état G.

i \ne j: \mathbb{P}( i \rightarrow j ) = p_{ij}(t) =f(t)

i = j: \mathbb{P}( i \rightarrow j ) = p_{ii}(t) = 1 - 3f(t)

Si on est à la génération t et que le nucléotide que l’on est en train d’analyser est un « A », deux scénarios sont possibles:

  • il y a une mutation, de A vers T, G ou C, chaque évènement ayant une probability f(t) d’arriver;
  • il n’y a pas de mutation, ceci avec une probabilité 1 - 3f(t) (la somme de tous les évènements doit faire 1).

Maintenant calculons f(t) = p_{ij}(t) et pour ceci commençons par différencier la matrice de transition P, c’est-à-dire regardons ce que vaut cette matrice P à l’instant t + \Delta t (c’est-à-dire très peu de temps après l’instant t) on a:

P( t + \Delta t ) = P(t) \times P(\Delta t)

Donc si maintenant on fait tendre \Delta t vers 0 (ça vous rappelle la définition de la dérivée n’est-ce pas ?):

P'(t) = \lim_{\Delta t \rightarrow 0} \frac{P( t + \Delta t ) - P(t)}{\Delta t}

P'(t) = \lim_{\Delta t \rightarrow 0} \frac{P(t) \times P(\Delta t) - P(t + 0)}{\Delta t}

P'(t) = \lim_{\Delta t \rightarrow 0} \frac{P(t) \times P(\Delta t) - P(t) \times P(0)}{\Delta t}

P'(t) = \lim_{\Delta t \rightarrow 0} P(t) \frac{P(\Delta t) - P(0)}{\Delta t}

P'(t) = P(t) \lim_{\Delta t \rightarrow 0} \frac{P(\Delta t) - P(0)}{\Delta t}

Ainsi: P'(t) = P(t) \times P'(0)

P'(0) = \begin{pmatrix} - 3f'(0) & f'(0) & f'(0) & f'(0) \\ f'(0) & - 3f'(0) & f'(0) & f'(0) \\ f'(0) & f'(0) & - 3f'(0) & f'(0) \\ f'(0) & f'(0) & f'(0) & - 3f'(0) \end{pmatrix}

Posons f'(0) = \alpha, on a alors:

P'(0) = \begin{pmatrix} - 3\alpha & \alpha & \alpha & \alpha \\ \alpha & - 3\alpha & \alpha & \alpha \\ \alpha & \alpha & - 3\alpha & \alpha \\ \alpha & \alpha & \alpha & - 3\alpha \end{pmatrix}

En multipliant, par exemple, la 1e ligne de P(t) avec la 2e colonne de P'(0) on obtient:

p'_{12}(t) = \alpha - 3\alpha f(t) - 3\alpha f(t) + \alpha f(t) + \alpha f(t)

p'_{12}(t) = \alpha - 4 \alpha f(t)

Or on sait aussi que si i \ne j, on a p'_{12}(t) = p'_{ij}(t) = f'(t).

C’est-à-dire: f'(t) = \frac{df}{dt} = \alpha - 4 \alpha f(t)

Et maintenant on intègre cette équation différentielle:

\int \frac{df}{\alpha - 4 \alpha f(t)} = \int dt

\Rightarrow \frac{ln(\alpha - 4 \alpha f(t))}{-4\alpha} = t + c

\Rightarrow ln( \alpha - 4 \alpha f(t) ) = - 4 \alpha t + c

\Rightarrow \alpha - 4 \alpha f(t) = c \exp^{- 4 \alpha t}

\Rightarrow f(t) = \frac{1}{4} - \frac{c}{4 \alpha} \exp^{- 4 \alpha t}

Il nous faut maintenant calculer c qui est la constance d’intégration. Pour cela supposons que f(0) = 0 ce qui signifie qu’au temps t=0 on commence dans un état constant. Par exemple, si à t=0 on est dans l’état A alors la probabilité d’avoir une substitution de ce « A » à t=0 vaut 0. Ainsi:

f(0)=0 \Rightarrow f(0) = \frac{1}{4} - \frac{c}{4\alpha} = 0 \Rightarrow c = \alpha

On a doncf(t) = \frac{1}{4} - \frac{\exp^{- 4 \alpha t}}{4}

Pour calculer \alpha on se place à t=0 puisque \alpha = f'(0), et on appelle \Pi_i la probabilité d’être dans l’état i au temps t=0 (\Pi_i = 1/4):

\sum_{i} \sum_{j \ne i} \Pi_{i} P'(0)_{ij} = 1

\Pi_{A} P'(0)_{AT} + \Pi_{A} P'(0)_{AG} + \Pi_{A} P'(0)_{AC} + \Pi_{T} P'(0)_{TA} + ... = 1

12 \frac{1}{4} \alpha = 1

\alpha = \frac{1}{3}


f(t) = \frac{1}{4} - \frac{exp(-4t/3)}{4}

C’est bien gentil vous allez me dire, on connaît maintenant f(t) mais ça ne résout pas notre problème initial qui était de prendre en compte les mutations cachées… En fait si mais il reste encore un peu de calcul à faire. Pour cela on doit estimer la valeur de la variable t, c’est-à-dire la distance qui sépare nos deux séquences S_1 et S_2. Grâce à notre modèle décrit ci-dessus cette distance est bien sûr reliée aux nombres de mutations observées entre les deux séquences tout en prenant en compte le fait que certaines mutations soient arrivées sans qu’on puisse les voir.

Afin d’estimer t on va appliquer la méthode du maximum de vraisemblance. Je rappelle que la vraisemblance (notée L pour likelihood) est la probabilité d’observer les données sachant le modèle: P(data/model). Dans notre cas on veut calculer la probabilité que la séquence S_1 (de taille n) ait pu évoluer en S_2, ce qui s’écrit:

L = P(S_{1}[1]) P(S_{1}[1] -> S_{2}[1]/t) P(S_{1}[2]) P(S_{1}[2] -> S_{2}[2]/t) ... P(S_{1}[n]) P(S_{1}[n] -> S_{2}[n]/t)

avec P(S_1[i]) la probabilité d’observer le nucléotide en question au i-ème site de la séquence S_1, et P(S_1[i] \rightarrow S_2[i]/t) la probabilité d’avoir muté au i-ème site du nucléotide de S_1 vers le nucléotide de S_2 pendant le temps t.

Quand on a un produit (multiplications) on aime bien le transformer en somme (additions). Pour cela on utilise la fonction logarithme:

ln L = ln P(S_1[1]) + ... + ln P(S_1[n]) + ln P(S_1[1] \rightarrow S_2[1]/t) + ... + ln P(S_1[n] \rightarrow S_2[n]/t)

Afin de trouver le maximum de cette vraisemblance on fait comme au lycée: on dérive la fonction ln L et on cherche les valeurs auxquelles la dérivée s’annule. Les n premiers termes de la formule valent une constante donc leur dérivée est nulle. Pour les n autres on peut poser que m_1 correspond aux mutations d’un nucléotide vers un autre (p_{ij}) et m_2 correspond aux mutations d’un nucléotide vers lui-même (p_{ii}).

\frac{d (ln L)}{dt} = \frac{m_{1}}{p_{ij}(t)} p_{ij}'(t) + \frac{m_{2}}{p_{ii}(t)} p_{ii}'(t) = 0

Comme on a calculé un peu plus haut f(t) et que f(t) = p_{ij}(t) on peut remplacer dans l’équation ci-dessus. Je vous épargne les calculs mais à la fin on obtient:

\hat{t} = -\frac{3}{4} ln ( 1 - \frac{4m_{1}}{3(m_{1}+m_{2})} )

Et pour résoudre enfin notre problème on peut définir p comme étant la proportion de sites différents entre nos deux séquences. Ainsi, alors qu’on a commencé par estimer la distance entre nos deux séquences par:

p = \frac{m_{1}}{m_{1}+m_{2}}

on estime maintenant cette distance par:

\hat{t} = -\frac{3}{4} ln ( 1 - \frac{4}{3} p )

Et c’est cela qu’on appelle la distance de Jukes-Cantor. Dans le cas de la figure 1, p=0.1 alors que \hat{t}=0.107. La distance de Jukes-Cantor est bien légèrement plus grande car elle prend en compte des mutations qui ont pu arriver mais qu’on ne voit pas.

Alors bien sûr, comme toujours en modélisation, on simplifie beaucoup, mais depuis l’article de Jukes Cantor en 1969 les modèles ont été perfectionnés et cela permet de bien mieux comprendre le génome des êtres vivants: vitesse d’apparition des mutations, importance fonctionnelle de certaines séquences, relations phylogénétiques entre les espèces… Mais ce serait trop pour ce billet !

ps: une bonne revue sur ces questions est disponible ici.









Invasion d’ETs

8 mars 2009

Chaque cellule vivante possède un génome, la molécule d’ADN, qui contient l’information génétique nécessaire à sa survie (voir ce billet). On a vu précédemment que, selon les organismes, la taille du génome pouvait beaucoup varier (voir ce billet), et que ces variations entre génomes sont principalement dues aux éléments transposables, les ETs (voir ce billet).

En biologie, lorsque l’on s’intéresse à quelque chose sous l’angle de l’évolution, se posent généralement deux questions: l’origine (comment c’est apparu) et la maintenance (pourquoi ça s’est maintenu au cours du temps). Prenons l’exemple d’une famille d’ETs dans un génome. On parle de « famille » parce qu’un ET est capable de transposer (de changer de place) au sein du génome-hôte et, par extension, de se multiplier: on dit alors que toutes les copies ayant pour ancêtre commun cet ET-là forment une famille. Mais à l’origine, cet ET, il vient d’où ?

Mettons de côté la question de l’origine du tout premier ET (que j’ai brièvement abordée ici) et considérons simplement un organisme, par exemple le poisson rouge qui tourne dans son bocal. Si l’on séquence son génome, on y trouvera des ETs. Ils viennent  soit de son père et/ou de sa mère, comme tout autre constituant de son génome (transmission verticale), soit d’ailleurs (transmission horizontale), et bien sûr, c’est plus amusant de s’intéresser au deuxième cas… Mais avant de savoir si les ETs de notre poisson rouge lui viennent de l’espace, on peut déjà se demander si ça arrive fréquemment que des ETs soient transmis horizontalement.

En 2008, des chercheurs ont répondu à cette question dans le cas des animaux en montrant qu’une famille d’ETs (appelée SPIN pour SPace INvaders…) avait envahie par transferts horizontaux plusieurs génomes de mammifères au cours de centaines de millions d’années (voir cet article). Mais au juste, comment fait-on ça ?

Depuis quelques années, on a les moyens techniques pour séquencer des génomes appartenant à beaucoup d’espèces différentes. Dans notre cas, les auteurs de l’étude recherchaient les ETs présents dans le génome d’un lémurien, Otolemur garnettii (la jolie petite bête photographiée ci-dessous). Ils ont utilisé une approche bioinformatique d’alignement de séquences et ont trouvé un ET qu’ils ne connaissaient pas très bien, appartenant a priori à la famille des hAT. Pour en savoir plus, ils ont regardé si cet ET n’était pas présent chez d’autres espèces comme l’homme, la souris, l’éléphant, le chien, la chauve-souris… et ils l’ont trouvé chez certains d’entre eux mais pas tous ! Ça met la puce à l’oreille, vous en conviendrez… En effet, la phylogénie (l’arbre généalogique) ci-dessous montre que les SPINs sont présents dans 6 génomes de tétrapodes mais pas dans les autres (les barres verticales indiquent la distribution des copies en fonction de leur âge).

transferts horizontaux d'ETS chez les mammifères

On peut imaginer tout d’abord que l’ancêtre de tous les génomes analysés (à la racine de l’arbre, donc il a vécu il y a environ 350 millions d’années) possédait déjà cet ET et qu’au cours du temps, de nouvelles espèces sont apparues, certaines perdant cet ET pour diverses raisons, tandis que d’autres le gardaient. Dans ce cas-là, les copies de l’ET devraient être très anciennes et toutes avoir à peu près le même âge. L’autre possibilité est d’imaginer que plusieurs transferts horizontaux sont arrivés dans les différentes branches de l’arbre et donc que les ETs sont beaucoup plus jeunes et que les copies d’un génome peuvent avoir un âge différent de celles dans un autre génome (c’est-à-dire le long d’une autre branche de l’arbre). Tenez vous bien: on trouve justement que les copies d’ETs sont jeunes et que, par exemple, les copies chez la chauve-souris sont plus jeunes que celles chez le rat !

Tout ça veut donc dire qu’il y a eu des transferts horizontaux, et ce plusieurs fois, au cours de l’évolution menant à ces espèces. On ne sait pas très bien comment de telles choses arrivent, certains supposent qu’un parasite d’une espèce peut en parasiter une autre et qu’il peut faire la navette de l’une à l’autre en transférant du matériel génétique de temps en temps, ce qui pourait être le cas des poux ou bien des achariens, mais rien n’a encore été observé. Comme quoi, les morceaux d’ADN aussi ça aime se balader… !

Le problème de Darwin

11 février 2009

Darwin est connu, entre autre, pour la théorie de la sélection naturelle. Mais il lui a manqué toute sa vie une théorie convaincante de l’hérédité. Comme beaucoup à son époque, il croyait que les caractères des parents se mélangeaient dans leur descendance. Le problème, c’est qu’une telle théorie aboutit à une uniformisation de la population après quelques générations, mais sans variation la sélection naturelle ne peut pas agir…

De plus, il existait une controverse quant à la nature des changements évolutifs sous l’action de la sélection. Darwin était un « gradualiste », il pensait que les modifications étaient graduelles, incrémentales. D’autres comme Galton étaient plutôt des « saltationnistes », l’évolution progressant par sauts. A la suite de ses réflexions, Galton a introduit les concepts statistiques de corrélation et de régression: la génétique des populations (ainsi que l’association entre biologie et statistique) commençait à pointer le bout de son nez.

Les deux écoles de pensée se sont combattues pendant tout le début du XXe siècle, surtout avec la redécouverte des lois de Mendel en 1900. Mais petit à petit, il apparu clairement que le darwinisme (la théorie de la sélection naturelle) et le mendélisme (la génétique comme théorie de l’hérédité) étaient intimement liés. Pour s’en rendre compte, il suffit de voir l’équilibre de Hardy-Weinberg. En effet, s’il n’y a aucun force évolutive agissant au sein de la population, la variation ne va pas disparaître: la critique concernant la théorie du mélange ne s’applique pas à l’hérédité mendélienne. La loi de Hardy-Weinberg montre que darwinisme et mendélisme, loin d’être incompatibles, sont quasiment inséparables ! Et comme le dit Ewens dans son fameux livre « Mathematical Population Genetics« :

Il serait difficile d’imaginer un processus héréditaire autre que le schéma quantal mendélien [le gène est l’unité discrète d’hérédité] dans lequel la sélection naturelle pourrait agir avec suffisamment d’efficacité alors que d’un autre côté les différences de valeur sélectives entre génotypes conduiront normalement à des changements des fréquences alléliques et ainsi à l’évolution.

Séquences d’ADN

2 janvier 2009

Tous les êtres vivants possèdent de l’information génétique. On appelle ça l’ADN (pour « acide désoxyribonucléique », terme à consonance plutôt chimique) ou « génome » (terme à consonance plutôt biologique). C’est une grande molécule présente dans chaque cellule sur Terre, mais sa grande particularité, ce qui la rend unique entre toutes (!), c’est de renfermer l’information indispensable à la cellule pour vivre.

Mais d’ailleurs, pourquoi parle-t-on de « séquences » d’ADN ? En fait, l’ADN ressemble à une échelle qui s’entortille sur elle-même, on l’appelle aussi la « double hélice« . Et comme pour chaque échelle, ce qui est important, ce sont les barreaux… Chaque barreau de l’échelle correspond à deux molécules se faisant face l’une l’autre. Elles sont au nombre de quatre: adénine, thymine, guanine et cytosine. On les appelle des « nucléotides » ou « bases azotées » (raccourci en « bases »). La particularité des ces molécules qui forment les barreaux de l’échelle est d’être complémentaires deux à deux: A va avec T et G avec C, et pas autrement.

En fin de compte, si on imagine devant soi une copie de notre ADN, on aura une sorte d’échelle dont le premier barreau est fait, par exemple, d’une adénine et d’une thymine, puis le deuxième d’une cytosine et d’une guanine, puis le troisième… On aura vite simplifié la description en remarquant que si l’on connaît toutes les bases rattachées à un montant de l’échelle, on connaît également celles rattachées à l’autre montant, puisque elles sont complémentaires deux à deux. Une séquence d’ADN, c’est donc quelque chose comme ça: AAGTGCCGTGACAGTACGA…

Mais après tout, si ce n’est que ça, pourquoi attacher tant d’importance à l’ADN ? c’est une simple séquence, oui, mais pas n’importe laquelle: elle porte en elle l’information génétique. L’ADN est une molécule particulière qui sait s’auto-répliquer. Elle sait exprimer par elle-même l’information qu’elle contient pour se répliquer, et sa structure en échelle s’enroulant sur elle-même protège par là même l’information qu’elle possède.

Cette propriété fondamentale de l’ADN la rend très particulière, si particulière que les premiers à avoir réalisé les implications d’une telle propriété ont révolutionné la façon de voir les organismes vivants et leur évolution. Au lieu de dire qu’un organisme se reproduit en transmettant son ADN, on doit dire que l’ADN se reproduit en fabriquant un organisme qui saura le transmettre. Disparu le paradoxe de l’oeuf ou la poule. Et au cours de l’évolution, les molécules d’ADN qui étaient à l’intérieur des « meilleurs » organismes se sont retrouvées dans la génération suivante, et ainsi de suite… Oui, je sais, au début, quand on lit ça pour la première fois, ça fait bizarre, mais vous verrez, on s’y fait, et même si on voit la vie bien différemment après, on peut toujours la trouver aussi belle qu’avant, voire plus.

Quoi qu’il en soit, je suis sûr que vous imaginez aisément que, depuis que l’homme sait comment séquencer de l’ADN, il essaie de décrypter l’information qui s’y trouve… !


28 décembre 2008

La génétique des populations a développé un tas de modèles théoriques afin d’expliquer l’effet des forces évolutives (mutation, sélection, migration…) sur le polymorphisme génétique au sein d’une population. C’est bien beau tous ces modèles théoriques mais si ça ne correspond pas à la réalité… C’est pour ça que certains chercheurs vont sur le terrain échantillonner des individus (entre autres, parce que le chercheur aime bien aussi quitter la pénombre de son labo pour aller au contact de la nature).

Il va donc sur le terrain pour récolter des échantillons d’ADN afin de les comparer à son petit modèle. Par exemple, si une population se reproduit de façon très consanguine, on devrait le voir par le déficit en hétérozygotes qu’un tel régime de reproduction entraîne.

Selon la population étudiée, fougère, méduse, tapir ou homme (pour ne citer que ceux-là), les conditions d’échantillonnage diffèrent un peu. Par exemple, concernant l’homme, des considérations éthiques sont généralement requises. Quant aux plantes, elles sont plus faciles à attraper que les tapirs…

Une fois que le chercheur a bien crapahuté, il rentre au labo pour analyser et confirmer (de temps à autres) les belles hypothèses qu’il a dans la tête. Pour ce faire, il commence par extraire l’ADN des échantillons. En gros, cette étape ressemble à de la cuisine, mais il faut bien remettre tous les ingrédients à leur place…

Ensuite, pour chaque échantillon, il génotype plusieurs locus. Un locus est une position le long d’un morceau d’ADN. Et donc, lorsque l’on dit « j’ m’en vais génotyper un locus », on entend par là qu’on cherche à savoir comment est l’ADN à cette position-là précisément. Le but final est de connaître comment est l’ADN en une position donnée chez tous nos individus (cad dans tous les échantillons récoltés). Si les individus sont très proches les uns des autres (dans le sens d' »apparentés »: frère-soeur, père-fils…), il y a une forte chance qu’ils aient le même ADN a un locus donné, c’est-à-dire le même « génotype ». La phase de génotypage consiste donc à révéler le génotype d’un individu à locus donné.

Il existe plusieurs façons de regarder le génotype d’un individu à un locus donné mais je ne vais en détailler qu’une. Généralement, on travaille avec des « microsatellites ». Ces petites bêtes-là sont des séquences de dinucléotides répétés à la queue leu leu un grand nombre de fois, par exemple CACACACACACACA, simplifié en (CA)_7. Disons que le chercheur s’intéresse à 10 locus. Dans certains échantillons, le même locus sera sous la forme (CA)_7, dans d’autres (CA)_9 et peut-etre même dans quelque uns sous la forme (CA)_6. Et ainsi de suite pour chacun des 10 locus. Un même locus peut donc prendre différentes formes (ou types, ou ce que vous voulez), on parle d’« allèles ». On dira par exemple que (CA)_7 correspond à l’allèle 1, (CA)_9 à l’allèle 2, etc…

Une fois que c’est fait, le chercheur est tout content parce qu’il dispose de DONNÉES ! Voici à quoi ça ressemble:

  • l’individu 1 possède l’allèle 1 au locus 1, l’allèle 3 au locus 2 et l’allèle 2 au locus 3;
  • l’individu 2 possède l’allèle 2 au locus 1, l’allèle 3 au locus 2 et l’allèle 2 au locus 3;
  • l’individu 3 possède l’allèle 1 au locus 1, l’allèle 2 au locus 2 et l’allèle 3 au locus 3;

Et avec tous ces beaux chiffres, le chercheur va pouvoir analyser plein de choses: le système de reproduction, la différentiation de la population, les distances génétiques, le déséquilibre de liaison… mais j’y reviendrai dans d’autres billets !

Images: Veronique Debord, kqedquest, gfish3000 (N.B.: son image de gel est à l’envers mais elle est plutôt jolie…)

%d blogueurs aiment cette page :