A-t-on déjà modélisé le silencing des ETs ?

7 novembre 2009

L’histoire est longue mais je fais faire court: les éléments transposables (ETs) sont des séquences d’ADN qui peuvent bouger d’un endroit à un autre du génome, comme ça, en « sautant ». Bien sûr, c’est dangereux parce qu’ils peuvent se réinsérer quelque part o`u ils n’auraient pas dû… dans un gène par exemple. Donc au cours de l’évolution certains mécanismes sont apparus pour empêcher les ETs de bouger. En franglish, on appelle ça le silencing. Cela marche via des petites ARNs, via la méthylation de l’ADN et des histones, etc…

Comme toujours en science, on a besoin d’un modèle, dans le sens d’une représentation schématique, hypothétique, simplificatrice du phénomène d’intérêt. Cela « aide à penser ». Dans le cas du silencing des ETs, Hannon et ses collègues ont proposé en 2007 le modèle « ping-pong »:

pingpong

C’est la figure 7 de leur papier paru dans Cell, dont la légende est: « The piRNA Ping-Pong Model. Illustrated is the amplification loop consisting of Piwi/Aub complexes, Ago3 complexes, piRNA cluster transcripts, and transcripts of active transposons. Nucleotide cleavage events are shown as scissors. Potential sources of primary piRNAs are piRNA cluster transcripts and maternally inherited piRNA complexes. » En gros, un endroit du génome avec plein d’ETs dans tous les sens génère des longs transcrits reconnus comme venant de répétitions génomiques, et donc découpés en petits ARNs qui vont s’hybrider aux transcrits d’ETs, en anti-sens, et finalement les ARNs double-brins sont ensuite dégradés.

Si vous voulez en savoir plus sur ces noms bizarres tels piRNA, Aub, Ago3… je vous laisse lire la revue « The Piwi-piRNA Pathway Provides an Adaptive Defense in the Transposon Arms Race » de Aravin, Hannon et Brennecke, parue dans Science en 2007.

Depuis ce papier, nombreux sont ceux qui essayent de valider ou non ce modèle, de comprendre vraiment comment ça marche, de voir ce qu’il a dans le tripe (le modèle, pas Hannon…). D’après Google Scholar, l’article de Hannon et al. a déjà été cité 245 fois. Beaucoup d’approches différentes ont été utilisées mais je suis sûr qu’il en reste encore à explorer.

Pour l’instant je me demande juste si on a déjà essayé de modéliser formellement tout cela. Par formellement j’entends l’utilisation d’un modèle mathématique. Par exemple, dispose-t-on aujourd’hui d’équations pouvant répondre aux questions suivantes: combien de protéines Ago3 et Aub y a-t-il dans la cellule ? A quelle vitesse sont-elles produites ? Sont-elles en surnombre ? Les différentes familles d’ETs doivent-elles coopérer entre elles afin de submerger de transcrits la machinerie protéique du silencing ? A quel taux les piRNAs sont-ils produits ? Y aurait-il des boucles de feed-backs positifs ou négatifs qui n’ont pas identifiés expérimentalement ?

J’ai cherché dans la littérature mais je n’ai pas trouvé grand chose à part:

Les deux premiers sont parus avant l’article de Hannon donc a priori ne sont pas directement concernés. Par contre le dernier semble très intéressant, je vais le lire dès que possible (comprendre: « dans le RER en allant au labo lundi matin ») mais apparemment il est beaucoup plus orienté « génétique des populations » que « biologie moléculaire ».

Maintenant que je vous ai montré (succinctement) comment un chercheur fait sa biblio, vous vous imaginez bien que j’ai une idée en tête. Ce serait bien mieux de faire de la biblio à plusieurs ! Par exemple le site CiteULike indique à ses utilisateurs quels articles seraient à même de les intéresser, mais ce n’est pas encore hyper pertinent à tous les coups.

Alors c’est à vous, je fais appel à votre sagacité: connaissez-vous des articles modélisant formellement le silencing des ETs ? Si oui, lesquels ? Ce serait quand même incroyable qu’il n’y en ait quasiment pas… !!

ps: pour les initiés, un papier qui vient de sortir ajoute un nouveau joueur dans le modèle, la protéine Rhino


Se faire séquencer son génome, intéressé ?

20 juin 2009

En 2009, tout chercheur en génomique connaît le nom d’Illumina. Cette société implantée à San Diego a été créée en 1988 et s’est vite positionnée au début des années 2000 sur le marché du génotypage de SNPs (single nucleotide polymorphism).

Un petit paragraphe pour expliquer: chaque être humain possède un génome proche de celui de son voisin, ils appartiennent tous deux à l’espèce Homo sapiens, avec cependant quelques différences. Par exemple, dans la portion du génome codant pour la protéine permettant de transporter l’oxygène dans le sang, l’hémoglobine, un individu I1 va avoir la séquence AGGCGGTGCAG… alors qu’un individu I2 aura la séquence AGGAGGTGCAG… Si cette différence C<->A atteint une fréquence supérieure à 1% dans la population, on parle de polymorphisme génétique. Et comme cette différence correspond au fait que l’on ait un nucléotide C ou un nucléotide A à cette position, on parle de single nucleotide.

Maintenant, imaginez que l’on découvre que les individus atteints de la maladie X ont une combinaison de SNPs le long de leur génome (un haplotype) statistiquement différente de celle d’individus sains. On peut donc supposer qu’un bon moyen de connaître la prédisposition à cette maladie serait de connaître la combinaison de SNPs le long du génome: on parle alors de génotyper le génome d’un individu.

En 2002, le projet HapMap est lancé sous les auspices du National Human Genome Research Institute américain. Son objectif est de dresser un inventaire des similitudes et différences génétiques entre êtres humains à l’échelle du globe. N’hésitez pas à aller naviguer sur le site web du projet, il regorge d’information! En parallèle, les entreprises de biotechnologie se mettent à proposer ce genre d’analyse et vous pouvez depuis un ou deux ans vous faire génotyper votre propre génome. Si vous êtes intéressés, allez voir les entreprises deCODEme ou bien 23AndMe. La première propose de génotyper un million de SNPs pour $1000, l’autre 500,000 pour $400.

Mais vous avouerez que ce serait encore mieux de pouvoir connaître la séquence de tout son génome, et pas seulement de quelques SNPs aussi nombreux soient-ils. Dans ce but, Illumina a racheté Solexa pour 600 millions de dollars en novembre 2006. Ce rachat a été motivé par la technologie de séquençage à haut-débit mise au point par les équipes de Solexa. Finalement, depuis début juin, Illumina vous propose d’obtenir la séquence de votre génome pour$50,000. Pourquoi feriez-vous cela ? Voici la réponse d’Illumina: « every genome tells a story, what’s yours? ». Bien sûr, ça reste un peu cher mais Knome le concurrent d’Illumina propose le même service à $100,000 et les prix ne font que baisser donc qui sait, lorsqu’on atteindra $10,000 ça devrait tenter pas mal de monde…

séquenceur Solexa

Techniquement parlant, Illumina séquence votre génome en quelques heures avec une couverture de 30x (chaque base de votre génome est séquencé 30 fois en moyenne). Comme le génome humain est très répété (45% d’éléments transposables au moins), environ 10% du génome ne sera pas présent dans la séquence finale mais les 90% restant le seront avec une précision de 99%. Et comme la séquence de votre génome, c’est quand même 3 milliards de bases, Illumina vous donne pour le même prix un Mac pour stocker tout ça.

genome browser du projet "1000 genomes"

Scientifiquement parlant, la technologie d’Illumina est largement utilisée par les chercheurs pour leur propre travaux. De plus, le projet 1000 genomes qui, comme son nom l’indique a pour but de séquencer entièrement le génome de 1000 individus, a choisit cette technologie.

Socialement parlant, tout ça provoque des débats houleux, passionnés, voire enflammés. Les médias ont tendance à proclamer que l’on décrypte un génome alors qu’on ne fait que le séquencer, ce qui est loin d’avoir le même sens, vous en conviendrez. De plus, le client lambda assez riche pour se payer un tel service ne va généralement pas comprendre qu’on lui fournit des chiffres estimant la prédisposition à une maladie et non un risque avéré même si les entreprises ont l’air de faire beaucoup d’efforts pour gérer ça. L’implication des chercheurs reste indispensable pour expliquer leur travail et comprendre en retour les attentes de la société.

Enfin, en séquençant tous ces génomes, on peut aussi remonter les traces de nos ancêtres qui ont peuplé la Terre et savoir un peu plus précisément de qui l’on descend et avec qui l’on partage une partie de son génome. Sympa, non ?

schéma de coalescence

Sources des images: Nature, 1000genomes, Allan Wilson Centre


Manuscrits

20 avril 2009

Alors que les manuscrits de Madame Bovary viennent d’être mis en ligne (ici) grâce au dévouement de bénévoles amoureux de Flaubert, nouvelle justement saluée sur la blogosphère, j’en profite pour rappeler qu’une initiative équivalente existe concernant les écrits de Charles Darwin, à feuilleter ici.

test1

La vue de ces vieux parchemins me fait également penser à la métaphore régulièrement utilisée pour introduire la notion de « génome », l’ADN d’un organisme. On dit alors que le génome est une sorte de palimpseste moléculaire portant, au travers des générations, les marques de son évolution. Ne disposant que d’un alphabet restreint (les 4 bases A, T, G, C), cette séquence biologique parvient tout de même à coder l’information génétique nécessaire à la construction de l’organisme qui la possède, puis lui assure survie et reproduction, et par là-même se transmet à travers le temps. Et c’est en scrutant les stigmates mutationnels que sont les substitutions, insertions-délétions, transpositions, inversions, recombinaisons, duplications et autres translocations accumulées progressivement les unes sur les autres en un bric-à-brac sans nom, que certains humains, petit à petit, démêlent l’écheveau des trajectoires évolutives qu’ils ont sous les yeux.

All history was a palimpsest, scraped clean and re-inscribed exactly as often as necessary.

Georges Orwell



Invasion d’ETs

8 mars 2009

Chaque cellule vivante possède un génome, la molécule d’ADN, qui contient l’information génétique nécessaire à sa survie (voir ce billet). On a vu précédemment que, selon les organismes, la taille du génome pouvait beaucoup varier (voir ce billet), et que ces variations entre génomes sont principalement dues aux éléments transposables, les ETs (voir ce billet).

En biologie, lorsque l’on s’intéresse à quelque chose sous l’angle de l’évolution, se posent généralement deux questions: l’origine (comment c’est apparu) et la maintenance (pourquoi ça s’est maintenu au cours du temps). Prenons l’exemple d’une famille d’ETs dans un génome. On parle de « famille » parce qu’un ET est capable de transposer (de changer de place) au sein du génome-hôte et, par extension, de se multiplier: on dit alors que toutes les copies ayant pour ancêtre commun cet ET-là forment une famille. Mais à l’origine, cet ET, il vient d’où ?

Mettons de côté la question de l’origine du tout premier ET (que j’ai brièvement abordée ici) et considérons simplement un organisme, par exemple le poisson rouge qui tourne dans son bocal. Si l’on séquence son génome, on y trouvera des ETs. Ils viennent  soit de son père et/ou de sa mère, comme tout autre constituant de son génome (transmission verticale), soit d’ailleurs (transmission horizontale), et bien sûr, c’est plus amusant de s’intéresser au deuxième cas… Mais avant de savoir si les ETs de notre poisson rouge lui viennent de l’espace, on peut déjà se demander si ça arrive fréquemment que des ETs soient transmis horizontalement.

En 2008, des chercheurs ont répondu à cette question dans le cas des animaux en montrant qu’une famille d’ETs (appelée SPIN pour SPace INvaders…) avait envahie par transferts horizontaux plusieurs génomes de mammifères au cours de centaines de millions d’années (voir cet article). Mais au juste, comment fait-on ça ?

Depuis quelques années, on a les moyens techniques pour séquencer des génomes appartenant à beaucoup d’espèces différentes. Dans notre cas, les auteurs de l’étude recherchaient les ETs présents dans le génome d’un lémurien, Otolemur garnettii (la jolie petite bête photographiée ci-dessous). Ils ont utilisé une approche bioinformatique d’alignement de séquences et ont trouvé un ET qu’ils ne connaissaient pas très bien, appartenant a priori à la famille des hAT. Pour en savoir plus, ils ont regardé si cet ET n’était pas présent chez d’autres espèces comme l’homme, la souris, l’éléphant, le chien, la chauve-souris… et ils l’ont trouvé chez certains d’entre eux mais pas tous ! Ça met la puce à l’oreille, vous en conviendrez… En effet, la phylogénie (l’arbre généalogique) ci-dessous montre que les SPINs sont présents dans 6 génomes de tétrapodes mais pas dans les autres (les barres verticales indiquent la distribution des copies en fonction de leur âge).

transferts horizontaux d'ETS chez les mammifères

On peut imaginer tout d’abord que l’ancêtre de tous les génomes analysés (à la racine de l’arbre, donc il a vécu il y a environ 350 millions d’années) possédait déjà cet ET et qu’au cours du temps, de nouvelles espèces sont apparues, certaines perdant cet ET pour diverses raisons, tandis que d’autres le gardaient. Dans ce cas-là, les copies de l’ET devraient être très anciennes et toutes avoir à peu près le même âge. L’autre possibilité est d’imaginer que plusieurs transferts horizontaux sont arrivés dans les différentes branches de l’arbre et donc que les ETs sont beaucoup plus jeunes et que les copies d’un génome peuvent avoir un âge différent de celles dans un autre génome (c’est-à-dire le long d’une autre branche de l’arbre). Tenez vous bien: on trouve justement que les copies d’ETs sont jeunes et que, par exemple, les copies chez la chauve-souris sont plus jeunes que celles chez le rat !

Tout ça veut donc dire qu’il y a eu des transferts horizontaux, et ce plusieurs fois, au cours de l’évolution menant à ces espèces. On ne sait pas très bien comment de telles choses arrivent, certains supposent qu’un parasite d’une espèce peut en parasiter une autre et qu’il peut faire la navette de l’une à l’autre en transférant du matériel génétique de temps en temps, ce qui pourait être le cas des poux ou bien des achariens, mais rien n’a encore été observé. Comme quoi, les morceaux d’ADN aussi ça aime se balader… !


Genome dark matter

23 février 2009

On a cru pendant longtemps que la complexité d’un organisme allait de pair avec la taille de son génome (voir ce billet). Puis l’on s’est rendu compte que c’était faux en mesurant la taille du génome de beaucoup d’organismes différents, mais ce n’est pas pour autant qu’on a compris pourquoi certains organismes avaient un génome beaucoup plus grand que d’autres… En parallèle de ça, une chercheuse travaillant sur des chromosomes de maïs a découvert dans les années 1950 des éléments génétiques un peu particuliers. On est tous plus ou moins familier avec l’ADN qui code pour une protéine, ce que l’on appelle le dogme de la biologie moléculaire (si vous ne savez pas ce que c’est, lisez d’abord l’article de Wikipédia) mais il existe des morceaux d’ADN capables de se multiplier dans les génomes: on appelle ça des éléments transposables (ETs).

nrg703-i1

Imaginons un morceau d’ADN qui code pour une protéine capable de reconnaître un motif d’ADN bien précis, par exemple le motif « CCAATG », et que lorsque la protéine s’attache à ce motif, elle soit capable de couper l’ADN à cet endroit et de le réinsérer ailleurs. Maintenant imaginons que, par hasard, à un moment donné, dans un organisme quelconque, le morceau d’ADN qui code pour cette protéine se retrouve avec, de part et d’autre, c’est-à-dire sur sa gauche et sur sa droite, le motif en question. Par un mécanisme proche du « couper-coller », ce morceau d’ADN, par l’intermédiaire de la protéine pour laquelle il code, peut se déplacer d’un endroit à un autre du génome (d’un locus à un autre).  Et si jamais ce bout d’ADN est répliqué lorsque la cellule se prépare à entrer en division, et qu’après avoir été répliqué il se déplace et s’insère à un autre locus qui n’a pas encore été répliqué, alors, lorsque ce deuxième locus sera lui aussi répliqué, le morceau d’ADN sera en deux exemplaires dans le génome. Et c’est peut-être ainsi que le premier élément transposables est né, il y a de ça plusieurs milliards d’années !

En continuant à imaginer un peu, on comprend bien que, tant que l’ET se déplace et/ou se multiplie sans gêner le reste du génome, il peut augmenter en nombre de copies jusqu’à représenter une très grande proportion du génome entier. De nombreux travaux en génétique des populations ont d’ailleurs cherché les conditions pour lesquelles un ET pouvait se maintenir dans une population (voir le graphique ci-dessous de l’évolution du nombre moyen d’ETs par individu dans une population). Et depuis la fin du XXe siècle, comme il devient de plus en plus « facile » de séquencer un génome entier, on peut rechercher les ETs et tenter de comprendre non seulement leur dynamique évolutive mais également leur impact sur la structure et la fonction du reste du génome (mmm, un beau sujet de thèse…).

dynamique d'une famille d'ETs

Pour en revenir au titre de ce billet, on a longtemps parlé de junk DNA concernant les ETs parce qu’en fin de compte, s’ils ne font que se multiplier, ils ne sont pas d’un grand intérêt pour l’organisme qui les porte dans son génome. De plus, la communauté scientifique a commencé à s’y intéresser en même temps que la théorie du gène égoïste, théorie selon laquelle chaque gène ne se préoccupe que de son succès évolutif propre, et non de celui de l’organisme qui le transmet. Et dans ce cadre, les ETs sont les parasites ultimes… Si l’on prend comme exemple le génome humain, on estime à 45% la portion du génome faite d’ETs. Si l’on sait également que moins de 1.5% du génome humain code pour des protéines, on estime alors que le reste corresponds en fait à d’anciens ETs très divergents mais plus reconnaissables en tant que tel. Et le plus étonnant, c’est que la majorité de cet ADN est transcrit: on appelle ça la dark matter des génomes…


Génomes et complexité

21 février 2009

On pense généralement que les humains sont tout en haut de la pyramide de l’évolution, qu’ils représentent le sommet ultime de la complexité. Bon, on sait maintenant depuis 150 ans qu’il est possible d’avoir des formes de vies très complexes sans recourir à un créateur, et d’ailleurs, depuis ce temps-là, les chercheurs établissent des théories et les valident régulièrement (voir cet article de Nature, en libre accès). Mais malgré cela, lorsque l’on observe l’éventail du vivant, on a quand même l’impression que certaines formes de vie sont plus complexes que d’autres. Et comme l’on sait que tout organisme vivant possède un génome, on a naturellement pensé que cette complexité se cachait au sein du génome, par exemple un organisme complexe possède un plus grand génome qu’un organisme peu complexe.

Considérons par exemple une liste d’organismes vivants: la levure Saccharomices cerevisae (utilisée pour la fermentation), la mouche Drosophila melanogaster (chouchou des généticiens) et le mammifère Homo sapiens (nous…). La levure a un génome de 13 Mb (13 millions de paires de bases), la mouche de 165 Mb et l’homme de 3 Gb. Jusque là, ça marche, mais si l’on considère le blé Triticum aestivum, son génome fait… 17 Gb ! Surprise: le blé que l’on a tendance à considérer comme « moins complexe » que nous a un génome plus de 5 fois plus grand ! De cette observation est né le « paradoxe de la valeur C« , la lettre C désignant la taille du génome haploïde d’un organisme, c’est-à-dire la taille du génome contenu dans un gamète. La figure 1 montre la distribution de la valeur C chez plusieurs ensembles d’organismes (sur ce graphique, la valeur C est en picogramme et non pas en paire de bases, mais le résultat est identique).

cvalues1

On a ensuite pensé au nombre de gènes de chaque organisme, mais ça n’a pas donné grand chose non plus à part un autre paradoxe, de la valeur « G » cette fois. Ceux qui veulent en savoir plus et jouer avec les données sous R peuvent suivre le tutoriel proposé par les chercheurs de l’Université de Lyon.

Cette question de la complexité continue à alimenter de grands débats mais maintenant les chercheurs essaient d’abord de comprendre ce que signifie « être plus complexe qu’un autre ». Les recherches ont considérablement étendu leur portée et impliquent maintenant les notions d’auto-organisation, émergence, entropie, etc… empruntées à l’informatique théorique, la physique, et les mathématiques (voir par exemple le nouvel Institut des Systèmes Complexes à Paris).

Cependant, en parallèle, d’autres recherches ont beaucoup avancé, notamment sur notre connaissance du génome, et ont permis de résoudre enfin ce fameux paradoxe de la valeur C. Suite au prochain numéro… !


Congrès de génomique

20 janvier 2009

L’une des facettes de la vie du chercheur est de rencontrer ses collègues lors de congrès un peu partout dans le monde. Certains congrès sont de grands rassemblements pouvant atteindre plusieurs milliers de chercheurs, par exemple ceux concernant les recherches sur la Drosophile ou bien celui concernant les génomes de plantes et d’animaux. Ce dernier se déroule tous les ans en janvier à San Diego., dans un hôtel plutôt sympa…

Town & Country Hotel à San Diego

Les chercheurs viennent du monde entier bien qu’une majorité travaillent aux Etats-Unis. Les ateliers (workshop en anglais) tournent autour de la génomique structurale, fonctionnelle et comparative chez un bon paquet d’espèces. On y parle de génomes de blé, poulet, papaye, cacao, cochon, and so on

Ce congrès est aussi activement soutenu par de grosses compagnies privées comme Applied Biosystems, Roche et Illumina. En effet, dans le cadre d’une compétition acharnée, ces entreprises ont réalisé d’immenses avancées depuis 2004 en terme de séquençage au débit. il suffit de suivre les stats du Sanger Institute. On parle aussi de Loi de Moore pour le séquençage de l’ADN: les nouvelles techniques rendent possible le séquençage d’un génome humain pour quelques milliers de dollars (et ça continue à diminuer), et donc le séquençage d’une multitude d’espèces. Je reviendrai sur l’historique du séquençage de l’ADN ainsi que les techniques actuelles répondant aux doux noms de 454–Multiplex, Solexa, SOLiD et Polonator.

Aujourd’hui, quasiment chaque labo peut séquencer le génome de l’espèce sur lequel il travaille en déposant un projet de quelques milliers d’euros à une agence de financement: par exemple l’ANR en France, le Welcome Trust au Royaume-Uni, les NSF et NIH aux Etats-Unis. Cela implique de grands bouleversements que certains résument par la phrase suivante: « rocket science is for kids, bioinformatics is for scientists ».

On parle maintenant de big science pour désigner les grands projets de séquençage, les articles scientifiques à plusieurs dizaines d’auteurs, les bases de données dépassant allègrement le tera-octet, les analyses informatiques lancées sur des clusters surpuissants… Ca en effraie (ou énerve) plus d’uns qui se demandent alors si la big science est toujours de la good science, mais laissons-les parler; pendant ce temps-là les données de génomiques s’accumulent amenant dans leur sillage une floppée de nouvelles questions !


%d blogueurs aiment cette page :