Génotypage

28 décembre 2008

La génétique des populations a développé un tas de modèles théoriques afin d’expliquer l’effet des forces évolutives (mutation, sélection, migration…) sur le polymorphisme génétique au sein d’une population. C’est bien beau tous ces modèles théoriques mais si ça ne correspond pas à la réalité… C’est pour ça que certains chercheurs vont sur le terrain échantillonner des individus (entre autres, parce que le chercheur aime bien aussi quitter la pénombre de son labo pour aller au contact de la nature).

Il va donc sur le terrain pour récolter des échantillons d’ADN afin de les comparer à son petit modèle. Par exemple, si une population se reproduit de façon très consanguine, on devrait le voir par le déficit en hétérozygotes qu’un tel régime de reproduction entraîne.

Selon la population étudiée, fougère, méduse, tapir ou homme (pour ne citer que ceux-là), les conditions d’échantillonnage diffèrent un peu. Par exemple, concernant l’homme, des considérations éthiques sont généralement requises. Quant aux plantes, elles sont plus faciles à attraper que les tapirs…

Une fois que le chercheur a bien crapahuté, il rentre au labo pour analyser et confirmer (de temps à autres) les belles hypothèses qu’il a dans la tête. Pour ce faire, il commence par extraire l’ADN des échantillons. En gros, cette étape ressemble à de la cuisine, mais il faut bien remettre tous les ingrédients à leur place…

Ensuite, pour chaque échantillon, il génotype plusieurs locus. Un locus est une position le long d’un morceau d’ADN. Et donc, lorsque l’on dit « j’ m’en vais génotyper un locus », on entend par là qu’on cherche à savoir comment est l’ADN à cette position-là précisément. Le but final est de connaître comment est l’ADN en une position donnée chez tous nos individus (cad dans tous les échantillons récoltés). Si les individus sont très proches les uns des autres (dans le sens d' »apparentés »: frère-soeur, père-fils…), il y a une forte chance qu’ils aient le même ADN a un locus donné, c’est-à-dire le même « génotype ». La phase de génotypage consiste donc à révéler le génotype d’un individu à locus donné.

Il existe plusieurs façons de regarder le génotype d’un individu à un locus donné mais je ne vais en détailler qu’une. Généralement, on travaille avec des « microsatellites ». Ces petites bêtes-là sont des séquences de dinucléotides répétés à la queue leu leu un grand nombre de fois, par exemple CACACACACACACA, simplifié en (CA)_7. Disons que le chercheur s’intéresse à 10 locus. Dans certains échantillons, le même locus sera sous la forme (CA)_7, dans d’autres (CA)_9 et peut-etre même dans quelque uns sous la forme (CA)_6. Et ainsi de suite pour chacun des 10 locus. Un même locus peut donc prendre différentes formes (ou types, ou ce que vous voulez), on parle d’« allèles ». On dira par exemple que (CA)_7 correspond à l’allèle 1, (CA)_9 à l’allèle 2, etc…

Une fois que c’est fait, le chercheur est tout content parce qu’il dispose de DONNÉES ! Voici à quoi ça ressemble:

  • l’individu 1 possède l’allèle 1 au locus 1, l’allèle 3 au locus 2 et l’allèle 2 au locus 3;
  • l’individu 2 possède l’allèle 2 au locus 1, l’allèle 3 au locus 2 et l’allèle 2 au locus 3;
  • l’individu 3 possède l’allèle 1 au locus 1, l’allèle 2 au locus 2 et l’allèle 3 au locus 3;

Et avec tous ces beaux chiffres, le chercheur va pouvoir analyser plein de choses: le système de reproduction, la différentiation de la population, les distances génétiques, le déséquilibre de liaison… mais j’y reviendrai dans d’autres billets !

Images: Veronique Debord, kqedquest, gfish3000 (N.B.: son image de gel est à l’envers mais elle est plutôt jolie…)


Europeana

28 décembre 2008

Le site web Europeana a réouvert. Ce portail permet d’accéder aux collections de grands musées européens, sous formes de textes, d’images, de bande-sons et de vidéos. Mais je préfère la façon dont c’est présenté sur le site:

Europeana.eu is about ideas and inspiration.

On peut notamment y voir ce magnifique portrait de Charles Darwin par Karl Klietsch:

Le site n’indique pas la date de l’œuvre ni si c’est une peinture ou une photo. En farfouillant sur internet, on peut cependant trouver que Karl Klietsch a vécu de 1841 à 1926 et s’est distingué en inventant une méthode de photogravure très précise.

Mais ça me fait aussi penser à un autre débat. C’est amusant de voir ce portrait qui représente bien le grand savant tel qu’on se l’imagine: une barbe longue et fournie surmontée d’un crâne volumineux et chauve au travers duquel perce deux yeux tournés vers l’horizon. Une telle image façonne la perception qu’a le grand public de ce qu’est un chercheur, voire même de ce qu’il doit être. Cela peut amener certains à critiquer la manière désinvolte qu’ont certains jeunes chercheurs à parler de la science… (voir ce billet du Bacterioblog, la réponse à la question 2 plus précisément).

Quoi qu’il en soit, laissons les grincheux de côté et allons explorer Europeana ! On peut y trouver, dans le désordre:


Feuilles de route

25 décembre 2008

L’enseignement et la recherche ne se confondent pas […] avec l’apprentissage d’un métier. C’est leur grandeur et leur misère que d’être soit un refuge, soit une mission.

Claude Lévi-Strauss, Tristes tropiques (1955)

Un soir de décembre, sortant du labo à la nuit tombée et longeant la route comme attiré par le ronronnement du RER au loin, cette phrase a soudain pris tout son sens…


Population

21 décembre 2008

Au début de l’un de ses récents billets, Enro indique qu’il est possible de parler de choses fondamentales sur un blog de science: heureusement ! Mais c’est bien de souligner qu’un blog ne parle pas forcément (que) d’actualités… Du coup, ça m’a donné envie de discuter l’une de mes dernières lectures, d’autant plus que ça concerne bien ce dont j’ai parlé sur mon blog jusqu’à maintenant, c’est-à-dire de biologie, d’évolution et de génétique des populations.

Voici déjà quelques extraits comme entrée en matière (celui qui trouve l’auteur de ces lignes et le livre duquel elles sont issues, je lui lève un toast en cette période de fête):

[…] causation in nature is regulated by laws that can be stated in mathematical terms.

With Plato, it gave rise to essentialism, with Galileo to a mechanistic world picture, and with Descartes to the deductive method.

It was not until the ninetenth century that a new and different way of thinking about nature began to spread, so-called population thinking.

There is no ‘typical’ individual, and mean values are abstractions.

The statistics of the essentialist are quite different from those of the populationnist.

The most interesting parameter in the statistics of natural population is the actual variation, its amount, and its nature.

Ces quelques lignes mettent en exergue la différence profonde, fondamentale, qu’il y a entre étudier le constituant X sachant que tous les X du monde se valent (l’atome d’hydrogène par exemple), et étudier une population d’entités X_i, entités plus ou moins similaires à leur « moyenne » X (les individus d’une même espèce par exemple).

Et de ce constat découlent les deux dernières phrases citées, que l’on peut grossièrement paraphraser en disant que la variation n’a pas le même statut en physique qu’en biologie. Dans le premier cas, on parle de « variation » en terme de mesure et précision (par exemple, ma taille est de 1,90 m +- 1 cm), c’est un paramètre; dans le deuxième cas, la variation fait partie intrinsèque du phénomène étudié, c’est un opérateur.

C’est peut-être là le malentendu qui a mené certains à essayer de « réduire » la biologie à la physique, et d’autres à distinguer formellement « biologie fonctionnelle » et « biologie évolutive ». Car c’est justement en parlant d’évolution que le « population thinking » apparaît. C’est ce qui sous-tend la théorie de la sélection naturelle de Darwin:

Grâce à cette lutte [pour la vie], les variations, quelque faibles qu’elles soient et de quelque cause qu’elles proviennent, tendent à préserver les individus d’une espèce et se transmettent ordinairement à leur descendance, pourvu qu’elles soient utiles à ces individus dans leur rapports infiniment complexes avec les autres êtres organisés et avec la nature extérieure. Les descendants auront, eux aussi, en vertu de ce fait, une plus grande chance de persister; car, sur les individus d’une espèce quelconque nés périodiquement , un bien petit nombre peu survivre. J’ai donné à ce principe, en vertu duquel une variation si insignifiante qu’elle soit se conserve et se perpétue, si elle est utile, le nom de sélection naturelle.

Charles Darwin, L’Origine des espèces (1859), Flammarion, traduction d’Edmond Barbier, pp.110-111.

Certains vont même encore plus loin:

Evolutionary dynamics act on populations. Neither genes, nor cells, nor individual evolve; only population evolve.

Lieberman, E., C. Hauert, and M. A. Nowak (2005, January). Evolutionary dynamics on graphs. Nature 433 (7023), 312-316.

Voilà comment je l’entend: parler d’évolution revient à parler du changement de fréquence de quelque chose, et comme on ne parle de fréquence que dans une population… En fin de compte, c’est bien la population dans son ensemble qui évolue, et non les entités qui la composent. Mais bon, selon moi, ces auteurs formulent mal leur idée: il faut quand même que certaines entités changent dans la population pour que l’on puisse dire si celle-ci évolue… Et donc, de là à dire que les gènes n’évoluent pas…

Quoi qu’il en soit, il existe bel et bien une différence entre « l’essentialisme » de Platon et le « population thinking » de Darwin, et ça ouvre énormément de sujets à discuter (cool !):

  • des aspects historiques, et l’auteur de s’interroger sur pourquoi l’homme a-t-il commencé par conceptualiser sa connaissance à la sauce « essentialiste »;
  • des aspects pratiques comme la question de la « classification » (s’arracher les cheveux sur la définition d’une espèce);
  • des aspects mathématiques, les études de populations étant très souvent liées à la théorie des systèmes dynamiques.

Croissance logistique


Intro aux F-stats

19 décembre 2008

A la fin du billet sur l’autofécondation, on a vu que dans la nature, les espèces qui s’autofécondent le font généralement partiellement, dans le sens où elles peuvent aussi se croiser avec d’autres individus. On parle d’autofécondation partielle. On va donc supposer que chaque individu produit des descendant en autofécondation en proportion s et des descendants en allofécondation en proportion (1-s) (on suppose la panmixie pour cette fraction d’individus).

On sait déjà que l’autofécondation complète conduit à une disparition progressive et totale des hétérozygotes. Là, en autofécondation partielle, on s’attend donc à un déficit en hétérozygotes par rapport aux proportions de Hardy-Weinberg (le modèle « nul » de la génétique des populations). Ainsi on définit la quantité F_{IS} dans la formule donnant le nombre d’hétérozygotes observés dans la population:

H_{obs} = 2pq( 1 - F_{IS} )

et donc:

F_{IS} = 1 - \frac{H_{obs}}{2pq}

Quant aux homozygotes, puisque: p = D + \frac{H}{2}:

D = p - pq( 1 - F_{IS} ) = p - pq + pqF_{IS} = p^2 + pqF_{IS}

De la même manière:

R = q^2 + pqF_{IS}

Voilà à quoi ça ressemble lorsque l’on trace les fréquences génotypiques en fonction des fréquences alléliques (les pointillés correspondent à l’équilibre de Hardy-Weinberg):

Autofécondation partielle avec un taux de 30%

Autofécondation partielle avec un taux de 30%

Et plus on augmente le taux d’autofécondation (s), plus la proportion d’hétéroygotes est faible. Voici pour un taux de 50%:

Autofécondation partielle avec un taux de 50%

Autofécondation partielle avec un taux de 50%

Et voilà pour un taux de 70%:

Autofécondation partielle avec un taux de 70%

Autofécondation partielle avec un taux de 70%

C’est bien tout ça, mais comment les fréquences génotypiques évoluent-elles au cours du temps ? D’après les hypothèses de notre modèle, un individu s’autoféconde avec une proba s et s’alloféconde avec une proba 1 - s. Si on considère un individu au génotype AA à la génération t+1, il peut être issu soit d’une autofécondation d’un individu AA ou d’un individu Aa, soit d’une allofécondation:

D(t+1) = sD(t) + s\frac{H(t)}{4} + ( 1 - s )p(t)^2

Avec le même raisonnement:

H(t+1) = s\frac{H(t)}{2} + ( 1 - s )2p(t)q(t)

A l’équilibre, quand les fréquences génotypiques ne changent plus d’une génération sur l’autre (H(t+1) = H(t) = H):

H = 2pq\frac{1-s}{1-s/2}

Or, on a défini F_{IS} de la manière suivante:

F_{IS} = 1 - \frac{H_{obs}}{2pq}

On obtient donc la formule:

F_{IS} = \frac{s}{2-s}

Si s=0, on n’a pas d’autofécondation, que de l’allofécondation en panmixie: F_{IS} = 0.

Si s=1, c’est de l’autofécondation complète: F_{IS} = 1.

$latex F_{IS}$ à l'équilibre

F_{IS} à l'équilibre

Dans les F-statistiques (eh oui, il y en a plusieurs), F_{IS} mesure l’écart à la panmixie dû à la consanguinité du régime de reproduction.

Un point important à noter: l’autofécondation, et plus largement les régimes de reproduction entre apparentés, augmentent l’homozygotie à l’échelle de tout le génome. C’est important parce que, selon le phénomène analysé, on ne peut pas toujours dire que tout le génome est touché, parfois c’est seulement une région locale du génome. Enfin, dans notre cas actuel d’autofécondation, on peut donc déduire de la valeur de F_{IS} (en l’estimant à partir de données expérimentales) le taux d’autofécondation moyen dans la population:

s_{moy} = \frac{1 + F_{IS}}{2F_{IS}}

Ces paramètres populationnels peuvent être estimés à partir d’échantillons naturels, et la modélisation telle qu’on l’a décrite ici permet d’avoir une idée sur les phénomènes évolutifs responsables de telle ou telle valeur estimée.


Autofécondation

14 décembre 2008

En génétique des populations, l’équilibre de Hardy-Weinberg est atteint pour une population ne subissant aucune force évolutive, c’est-à-dire pas de mutation, pas de migration, pas de dérive, ni de sélection. Bien sûr, ce n’est quasiment jamais le cas dans une population naturelle. Par exemple, le régime de reproduction des individus peut avoir une grande influence; prenons le cas d’une population dont les individus s’autofécondent.

Supposons une autofécondation complète, cela signifie qu’un individu se reproduit forcément avec lui-même: la conséquence est la diminution de 50% des hétérozygotes à chaque génération. En effet, après une génération, les individus homozygotes AA ne donnent que des descendants AA, les homozygotes BB ne donnent que des descendants BB, alors que les hétérozygotes AB donnent 50% de AB, 25% de AA et 25% de BB.

Tableau de croisement d'un hétérozygote en autofécondation

Tableau de croisement d'un hétérozygote en autofécondation

On a donc:

D(t+1) = D(t) + \frac{H(t)}{4}

H(t+1) = \frac{H(t)}{2}

R(t+1) = R(t) + \frac{H(t)}{4}

Calculons maintenant les fréquences alléliques à la génération suivante. D’après la définition, on sait que:

p(t+1) = D(t+1) + \frac{H(t+1)}{2}

On remplace par la valeur de D(t+1) et H(t+1) et on obtient:

p(t+1) = D(t) + \frac{H(t)}{4} + \frac{1}{2}\frac{H(t)}{2} = D(t) + \frac{H(t)}{2} = p(t) = p

Les fréquences alléliques restent donc constantes au cours du temps, contrairement aux fréquences génotypiques pour lesquelles les hétérozygotes AB disparaissent petit à petit:

H(t) = \frac{H(t-1)}{2} = \frac{H(t-2)}{2^2} = ... = \frac{H(0)}{2^t}

Concernant les homozygotes:

p = p(t) = D(t) + \frac{H(t)}{2}

D’où:

D(t) = p - \frac{H(t)}{2}

Au cours du temps, comme H(t) tend vers 0, D(t) tend vers p. De la même manière, R(t) tend vers q.

Pour voir comment diminue la proportion d’hétérozygotes au cours du temps, prenons un exemple. On imagine une population à l’équilibre de Hardy-Weinberg avec une fréquence p = 0.45 pour l’allèle A (et donc q = 0.55 pour l’allèle B), et D = 0.2 pour les homozygotes AA, H = 0.5 pour les hétérozygotes AB et R = 0.3 pour les homozygotes BB. On suppose maintenant qu’à partir de la génération 0 tous les individus de cette population se mettent à l’autofécondation. A quelle vitesse les hétérozygotes disparaissent-ils ?

Evolution des fréquences génotypiques en autofécondation complète

Evolution des fréquences génotypiques en autofécondation complète

Au bout de 10 générations environ, la population est formée quasi totalement d’homozygotes, tous les hétérozygotes ayant peu à peu disparu.

Alors, sur le plan de l’évolution, qu’est-ce que ça signifie tout ça ? On vient de voir que l’autofécondation augment drastiquement la consanguinité ce qui n’est généralement pas très bon pour une population: on parle de « dépression de consanguinité« . Par ailleurs, si deux individus ayant des génotypes éloignés se reproduisent l’un avec l’autre, leur descendants hétérozygotes possèdent souvent une plus grande valeur que la moyenne de leur parents pour de nombreux caractères: on parle de « vigueur hybride » (mis à profit par les sélectionneur de maïs). D’un autre côté, l’autofécondation est avantageuse si l’on prend le « point de vue évolutif  » des gènes d’un individu: avec l’autofécondation, ils sont sûr d’être transmis à la génération suivante.

Les modèles théoriques prédisent donc dans la plupart des cas soit une autofécondation complète soit une  allofécondation complète comme stratégies de reproduction évolutivement stables. Mais dans la nature, beaucoup d’espèces ne font de l’autofécondation que partiellement… Traiter ces cas-là sera l’occasion d’introduire les « F-statistiques » !


L’équilibre de Hardy-Weinberg

12 décembre 2008

Commençons par décrire la population étudiée en terme de fréquences. On considère une population de N individus hermaphrodites. Chaque individu possède deux chromosomes (diploïdie). Un chromosome ne porte qu’un seul gène, celui ayant deux allèles (« état ») possibles, A ou B (locus bi-allélique). Un individu peut donc être de génotype AA, AB ou BB, N_{AA} étant le nombre d’individus ayant le génotype AA. A partir de maintenant, on s’intéresse aux fréquences génotypiques (AA, AB et BB) et aux fréquences alléliques (A et B):

D = freq_{AA} = \frac{N_{AA}}{N}

H = freq_{AB} = \frac{N_{AB}}{N}

R = freq_{BB} = \frac{N_{BB}}{N}

p = freq_A = \frac{2N_{AA} + N_{AB}}{2N} = D + \frac{H}{2}

q = freq_B = \frac{2N_{BB} + N_{AB}}{2N} = R + \frac{H}{2}

On vérifie que:

D + H + R = p + q = 1

Pour essayer de comprendre l’évolution de ces fréquences au cours du temps (noté t), on fait encore d’autres hypothèses simplificatrices:

  • les individus se croisent au hasard (panmixie);
  • les individus participant à la reproduction appartiennent à la même génération (générations non-chevauchantes);
  • la population est isolée (pas de migration entre sous-population);
  • la population est de taille infinie (N est « très grand »);
  • il n’y a pas de mutation pouvant faire passer un allèle A en allèle B, ou réciproquement;
  • il n’y a pas de sélection au locus considéré (chaque individu a la même chance de se reproduire, indépendamment de son génotype).

Le cycle de vie de nos individus est très simple (voir le schéma). Commençons au stade « diploïde » (2N) correspondant aux individus eux-mêmes. Leur cellules germinales subissent la méiose (étape fondamentale suivant les lois de Mendel) pour former des gamètes haploïdes (N). Puis ces gamètes vont s’apparier au hasard pour former de nouveaux individus diploïdes (2N), et ainsi de suite !

Cycle de vie d'un diploïde

Cycle de vie d'un diploïde

A la génération t, on a un certain nombre d’individus AA qui ne peuvent former que des gamètes A, des individus BB qui ne donnent que des gamètes B, et des individus AB qui donnent 50% de gamètes A et 50% de gamètes B (selon les lois de Mendel). D’où, si dans notre population d’individus, on a une fréquence p d’allèles A (répartis entre les individus AA et les AB), on aura également une fréquence p de gamètes A. En effet, les fréquences alléliques parmi les gamètes sont égales aux fréquences alléliques parmi les adultes qui les ont produits…

Maintenant, les croisements à proprement parler (voir le tableau). Pour « faire » un individu AA, on a besoin de deux gamètes A. Puisque les gamètes s’apparient au hasard, la probabilité de former un individus AA, c’est la probabilité de tirer un premier gamète A au hasard dans la population, c’est-à-dire p, puis la probabilité de tirer pareil un deuxième gamète A, p aussi. Ainsi, la proportion d’individus AA à la génération t+1 vaut p^2. De la même manière, la fréquence d’individus BB sera de q^2. Quant aux individus AB, on a besoin de tirer par exemple en premier un gamète A puis en deuxième un gamète B (pq), ou bien en premier un gamète B puis en deuxième un gamète A (qp), soit au final 2pq.

Tableau des croisements

Tableau des croisements

Voici les formules des fréquences génotypiques, appelées « proportions de Hardy-Weinberg » (atteintes en une seule génération dans notre population diploïde):

D(t+1) = p(t) . p(t) = p(t)^2

H(t+1) = p(t) . q(t) + q(t) . p(t) = 2p(t)q(t)

R(t+1) = q(t) . q(t) = q(t)^2

Concernant les fréquences alléliques, c’est encore plus simple. Quant on fait les calculs, on s’aperçoit qu’elles sont constantes d’une génération à l’autre ! Par exemple pour la fréquence de l’allèle A:

p(t+1) = D + \frac{H}{2} = p(t)^2 + p(t)q(t) = p(t)( p(t) + q(t) ) = p(t)

Cela permet de tracer le fameux graphique des fréquences génotypiques en fonction des fréquences alléliques:

Fréquences génotypiques fonction des fréquences alléliques à l'équilibre de Hardy-Weinberg

Fréquences génotypiques fonction des fréquences alléliques à l'équilibre de Hardy-Weinberg

Dans la nature, pour savoir si un locus est à l’équilibre de Hardy-Weinberg dans une population, on séquence le locus en question chez plusieurs individus et l’on compte le nombre d’allèles A et B, ainsi que le nombre de génotypes AA, AB et BB. Mais attention, il est important de noter que l’équilibre de Hardy-Weinberg peut être respecté même avec très peu de polymorphisme, par exemple avec p = 0.95 et D = 0.90.

Finalement, je vais peut-être vous décevoir mais l’équilibre de Hardy-Weinberg n’est que très rarement, voire jamais, atteint, pour la bonne et simple raison que les populations naturelles ne respectent pas les différentes hypothèses nécessaires à cet équilibre. C’est ainsi que l’on appelle « forces évolutives » toute phénomène qui change les fréquences alléliques. Les forces évolutives sont a nombre de quatre:

  • la mutation;
  • les flux de gènes, entre individus d’une même population (régime de reproduction) ou entre populations (migration);
  • la dérive génétique (variation stochastique due aux effets d’échantillonnage);
  • la sélection naturelle.

Ce billet aura été un peu long mais il permet d’introduire le modèle qui va nous servir de base pour toute la suite, comme par exemple le cas de l’autofécondation. De même, les exemples naturels ont été plutôt rare (!): je me rattaperai dans les prochains billets 😉


%d blogueurs aiment cette page :