Le modèle linéaire (1) – présentation

11 octobre 2010

Motivation

Lorsque l’on étudie un phénomène naturel, on se retrouve souvent à mesurer quelque chose, la variable d’intérêt, par exemple la taille du géranium sur le balcon du voisin, et on aimerait bien savoir si cette chose (ici la taille du géranium) change en fonction d’une autre chose, par exemple selon qu’il est à la lumière ou à l’ombre (facteur qualitatif), ou bien selon la quantité d’eau que le voisin lui verse tous les jours (facteur quantitatif), etc.

Bien sur, en faisant une expérience et en regardant bien tous les jours, on aura peut-être la réponse à notre question. Mais pour être plus confiant dans nos conclusions, surtout quand le phénomène semble compliqué, c’est mieux de construire un modèle statistique et de tester une hypothèse, par exemple dans notre cas « le fait que le géranium soit au soleil ou à l’ombre influe sur sa taille ».

Dans l’exemple ci-dessus, notre variable d’intérêt est la taille du géranium et elle dépend de l’expérience: le géranium sera plus ou moins grand s’il y a eu plus ou moins de soleil le mois où on l’a planté. Initialement, on ne sait pas quelle taille le géranium aura au bout d’une semaine, deux semaines, etc.: la mesure de la taille peut prendre plusieurs valeurs selon le temps qu’il fait, c’est-à-dire selon le résultat de l’expérience. On parle alors de variable aléatoire. Soit Y la variable aléatoire correspondant à la taille du géranium, mesurée en centimètre. Elle suit une loi de probabilité, que l’on ne connaît pas a priori, mais à chaque évènement est associé une probabilité. A l’évènement « le géranium mesure 15 cm » est associé la probabilité P( Y = 15 ), idem pour toutes les tailles possibles.

Comme Y est une variable aléatoire, on peut représenter sa loi en représentant la distribution de ses valeurs, c’est-à-dire en traçant un histogramme. On peut aussi calculer son espérance (valeur moyenne de sa distribution) et sa variance (mesure de la dispersion de sa distribution).

Définition

Le modèle linéaire est le modèle statistique le plus simple cherchant à expliquer une variable observée à l’aide de variables explicatives. Il s’écrit de la manière suivante:

y_{tj} = m_t + e_{tj}

  • les y_{tj} sont les valeurs prises par notre variable aléatoire Y lors de n expériences, ce sont les observations;
  • t est l’indice d’un traitement, un traitement étant une combinaison de niveaux de facteurs qualitatifs et quantitatifs utilisés lors des n expériences (un traitement est donc fixe, non aléatoire);
  • j est un indice de répétition;
  • m_t est l’espérance de y_{tj};
  • les e_{tj} sont les résidus entre les valeurs observées et ce qui est expliqué par m_t, correspondant à la variabilité du matériel expérimental, celle due aux facteurs non contrôlés, aux erreurs de mesure et à la randomisation.

Le modèle linéaire repose sur deux grandes hypothèses:

  • la partie fixe du modèle, m_t, est linéaire;
  • la partie aléatoire du modèle, e_{tj}, suit une loi normale d’espérance 0 et de variance \sigma^2.

Ceci suppose que, si l’on modélise un phénomène naturel avec ce modèle-là, il faut vérifier que les hypothèses sont vérifiées, sinon on ne peut pas tirer de conclusion.

Le modèle linéaire a une écriture plus générale sous forme matricielle:

y = X \Theta + e

  • y est un vecteur de dimension n (matrice colonne à n lignes) dans lequel on range les observations (l’ordre est arbitraire);
  • e est aussi un vecteur de dimension n dans lequel on range les variables résiduelles du modèle (même ordre que pour y bien sûr…);
  • \Theta est une matrice à p lignes, contenant les p paramètres;
  • X est une matrice à n lignes et p colonnes contenant les valeurs des facteurs qualitatifs et/ou quantitatifs, c’est la matrice du plan d’expérience.

Avant d’aller plus loin, voyons ce que signifie « plan d’expérience » et « randomisation« .

Prenons un cas bateau où y correspond au rendement d’une variété de blé que l’on cherche à expliquer à l’aide de k facteurs: y = f( x_1, x_2, ..., x_k). Selon la méthode classique, on fixe tous les facteurs sauf un que l’on fait varier, et ainsi de suite pour chaque facteur. Si k = 7 et que l’on veuille 5 répétitions de l’expérience afin d’avoir une bonne précision de mesure, on a 5^7 = 78125 expériences à faire: beaucoup trop… Grâce à la méthode du plan d’expérience, on fait varier les niveaux de tous les facteurs à la fois à chaque expérience, ce qui permet d’explorer une bonne partie des combinaisons sans pour autant réaliser toutes les expériences possibles.

Supposons maintenant que l’on ait un variable V_1 à deux niveaux A, B et une variable V_2 à deux niveaux C, D. Dans quel ordre doit on faire l’expérience ? V_1 = A puis V_1 = B puis V_2 = C puis V_2 = D ? Si on fait ça on risque une distribution non aléatoire des erreurs; pour l’éviter, on tire au sort. La randomisation consiste à déterminer aléatoirement l’ordre des expériences lors d’une étude statistique avec plan d’expérience. Cela augmente un peu l’erreur expérimentale mais diminue les biais.

Exemples

Voici maintenant quelques exemples pour illustrer ces notions.

Exemple 1: plan complètement randomisé à un facteur qualitatif

y: rendement d’une variété de blé

facteur qualitatif: mode de semis (par exemple labour ou semis direct)

randomisation: trois répétitions sur deux parcelles chacune, avec tirage au sort

Pour un exemple de ce type, on utilise le modèle dit d’analyse de la variance (ANOVA):

y_{ij} = \mu_{i} + e_{ij} ou bien y_{ij} = \mu + \alpha_{i} + e_{ij}

avec i = 1, ..., I=2 et j = 1, ..., J=3

Cela revient à écrire E(y_{ij}) = \mu_{i} avec le premier paramétrage et E(y_{ij}) = \mu + \alpha_{i} avec le deuxième.

On peut remarquer que le modèle est indéterminé dans le deuxième paramétrage puisque pour une valeur \lambda quelconque:

\mu + \alpha_i = ( \mu + \lambda) + (\alpha_i - \lambda) = \mu' + \alpha_i'

Ainsi, pour déterminer les paramètres et leur donner un sens, il faudra rajouter une contrainte. Mais par contre, la différence \alpha_i - \alpha_i' ne dépend pas de la contrainte choisie.

En écriture matricielle, dans le cas du premier paramétrage ça donne:

y = X_{(1)} \Theta_{(1)} + e

\begin{pmatrix}y_{11}\\ y_{12}\\ y_{13}\\ y_{21}\\ y_{22}\\  y_{23}\end{pmatrix} =  \begin{pmatrix}1&0\\1&0\\1&0\\ 0&1\\ 0&1\\ 0&1\end{pmatrix}  \begin{pmatrix}\mu_1\\\mu_2\end{pmatrix} +  \begin{pmatrix}e_{11}\\e_{12}\\e_{13}\\e_{21}\\e_{22}\\e_{23}\end{pmatrix}

ce qui équivaut au système d’équations y_{11} = \mu_1 + e_{11}, y_{12} = \mu_1 + e_{12}, et ainsi de suite

Et dans le cas du deuxième paramétrage:

y = X_{(2)} \Theta_{(2)} + e

\begin{pmatrix}y_{11}\\ y_{12}\\ y_{13}\\ y_{21}\\ y_{22}\\ y_{23}\end{pmatrix} = \begin{pmatrix}1&1&0\\1&1&0\\1&1&0\\1&0&1\\1&0&1\\1&0&1\end{pmatrix} \begin{pmatrix}\mu\\\alpha_1\\\alpha_2\end{pmatrix} + \begin{pmatrix}e_{11}\\e_{12}\\e_{13}\\e_{21}\\e_{22}\\e_{23}\end{pmatrix}

Dans les équations concises ci-dessus, il est nécessaire de distinguer X_{(1)} et X_{(2)} ainsi que \Theta_{(1)} et \Theta_{(2)} pour montrer qu’elles sont différentes, mais pas e puisque cette matrice reste inchangée.

Exemple 2: plan complètement randomisé à un facteur quantitatif

y: nombre d’épis par pied d’une certaine variété de blé

facteur quantitatif: dose d’engrais azoté, en kg

randomisation: on attribue au hasard chacune des I valeurs x_i de doses choisies à chacune des I parcelles expérimentales

On peut choisir un modèle de régression simple:

y_i = a + bx_i + e_{i(1)} avec i = 1, .., I = 5

ou bien un modèle de régression polynomiale par exemple de degré 2:

y_i = a_0 + a_1x_i + a_2x_i^2+ e_{i(2)} avec i = 1, .., I = 5

Dans le premier cas, E(y_i) = a + bx_i et dans le deuxième E(y_i) = a_0 + a_1x_1 + a_2x_2.

En écriture matricielle pour le premier modèle:

y = X_{(1)} \Theta_{(1)} + e_{(1)}

\begin{pmatrix}y_1\\y_2\\y_3\\y_4\\y_5\end{pmatrix} = \begin{pmatrix}1&x_1\\1&x_2\\1&x_3\\1&x_4\\1&x_5\end{pmatrix} \begin{pmatrix}a\\b\end{pmatrix} + \begin{pmatrix}e_{1(1)}\\e_{2(1)}\\e_{3(1)}\\e_{4(1)}\\e_{5(1)}\end{pmatrix}

Et pour le deuxième modèle:

y = X_{(2)} \Theta_{(2)} + e_{(2)}

\begin{pmatrix}y_1\\y_2\\y_3\\y_4\\y_5\end{pmatrix} =  \begin{pmatrix}1&x_1&x_1^2\\1&x_2&x_2^2\\1&x_3&x_3^2\\1&x_4&x_4^2\\1&x_5&x_5^2\end{pmatrix}  \begin{pmatrix}a_0\\a_1\\a_2\end{pmatrix} +  \begin{pmatrix}e_{1(2)}\\e_{2(2)}\\e_{3(2)}\\e_{4(2)}\\e_{5(2)}\end{pmatrix}

Ici on distingue aussi e_{(1)} et e_{(2)} car on change de modèle et pas seulement de paramétrage. On peut d’ailleurs s’attendre à ce que la variance de e_{(2)} soit un plus faible que celle de e_{(1)} car on a rajouté dans l’espérance E(y_i) l’effet du carré de x_i.

Exemple 3: plan en blocs complets randomisés à un facteur qualitatif.

à faire

Exemple 4: plan en blocs incomplets randomisés à un facteur qualitatif.

à faire

Exemple 5: plan en blocs complets randomisés à un facteur quantitatif.

à faire

Exemple 6: plan factoriel à deux facteurs qualitatifs.

à faire

Exemple 7: plan factoriel à deux facteurs quantitatifs.

à faire

Exemple 8: plan factoriel à un facteurs qualitatif et un facteur quantitatif.

à faire

Exemple 9: plan factoriel à deux facteurs hiérarchisés.

à faire

Suite: « Le modèle linéaire – estimation des paramètres (2) »

Source: polycopié « Le Modèle Linéaire » de Camille Duby, mai 2003, INA P-G + quelques ajouts


Why modeling?

2 août 2010

People are very sceptical about modeling. They say we can’t model, because we don’t know everything yet. But this is precisely why we need to model. Rather than describing something we already understand, a simulation tool helps in approaching understanding. The model is becoming more of a reasoning instrument. It’s a way of arguing and groping towards consensus knowledge.

Walter Fontana, Bulletin of the Sante Fe Institute, 2009


Le théorème du taux de croissance

18 juillet 2010

As every individual, therefore, endeavours as much as he can both to employ his capital in the support of domestic industry, and so to direct that industry that its produce may be of the greatest value; every individual necessarily labours to render the annual revenue of the society as great as he can. He generally, indeed, neither intends to promote the public interest, nor knows how much he is promoting it. By preferring the support of domestic to that of foreign industry, he intends only his own security; and by directing that industry in such a manner as its produce may be of the greatest value, he intends only his own gain, and he is in this, as in many other cases, led by an invisible hand to promote an end which was no part of his intention. Nor is it always the worse for the society that it was no part of it. By pursuing his own interest he frequently promotes that of the society more effectually than when he really intends to promote it.

Adam Smith, An Inquiry into the Nature and Causes of the Wealth of Nations (1776)

Cité par Edwards dans son article « The fundamental theorem of natural selection » (Biol. Rev. 1994), qui cite également un propos de Sober (The nature of selection, 1984):

The Scottish economists offered a non-biological model in which a selection process improves a population as an unintended consequence of individual optimization.

Edwards mentionne également ce qu’il appelle le théorème du taux de croissance:

In a subdivided population the rate of change in the overall growth-rate is proportional to the variance in growth rates.

Ce qui donne en français: dans une population subdivisée, le taux auquel le taux de croissance global change est proportionnel à la variance des taux de croissance de chaque sous-population.

Ce théorème élémentaire est applicable partout tant qu’il y a des taux de croissance différentiels, par exemple en biologie ou en économie. Et en reliant taux et variance, il donne une piste pour comprendre le théorème fondamental de la sélection naturelle dû à Fisher. Mais tenons-nous en ici à démontrer ce théorème du taux de croissance.

Considérons une population subdivisée en k sous-populations avec les proportions p_i (i = 1, 2, ..., k). Laissons la i-éme sous-population changer de taille avec un facteur w_i par unité de temps (son taux de croissance). Le taux de croissance global vaut: w = \sum p_i w_i. A la fin du premier intervalle de temps, la nouvelle proportion de la i-éme sous-population sera:

p'_i = p_i \frac{w_i}{w}

Le nouveau taux de croissance global w' = \sum p'_i w_i est donc égal à \sum p_i \frac{w_i^2}{w}, et le changement de ce taux global vaut donc:

w' - w = \sum p_i \frac{w_i^2}{w} - \sum p_i w_i

w' - w = \frac{1}{w} ( \sum p_i w_i^2 - w \sum p_i w_i )

w' - w = \frac{1}{w} ( \sum p_i w_i^2 - w^2 )

Soit finalement: \Delta w = \frac{1}{w} Var(w_i)

Le numérateur de cette expression correspond exactement à la variance des w_i, le dénominateur n’étant qu’une constante de proportionnalité, le théorème est donc démontré.

Ce théorème, bien que simple, est important car il exprime clairement l’idée selon laquelle plus les taux de croissance sont différents entre sous-populations, plus rapidement les sous-populations à forte croissance vont dominer les autres. In fine, la prédominance de la plus rapide sera totale, toute la variabilité disparaîtra et le taux de croissance globale n’augmentera plus. Un peu comme si l’évolution « consommait » la variabilité.

Et ce qu’a fait Fisher, c’est « simplement » adapter ce théorème à la génétique des populations, le présentant comme l’un des résultats les plus fondamentaux de toute la biologie. Affaire à suivre…


De Wall Street à arXiv

24 avril 2010

Après la santé, Obama s’attaque à la finance. Voici un Worlde de son discours du 22 avril 2010:

Encore un grand sujet…

Et tout président qu’il soit, certains travers actuels semblent bel et bien hors de sa portée. Au sujet de ce dernier billet (« trop de maths en cursus d’éco et pas assez d’histoire »), je me dis qu’un tel argument pourrait être employé envers certains modélisateurs venant de cursus de maths ou physique et se mettant à la biologie. Par exemple, je me suis abonné au flux RSS de la section « quantitative biology » d’arXiv depuis un certain temps déjà. Et pourtant, je ne vais quasiment jamais jusqu’à ouvrir un article; la plupart du temps je parcours le résumé en diagonale, voire je les coche tous en « déjà lus ».

A posteriori j’ai l’impression que l’immense majorité de ces papiers correspond à des sujets déjà bien compris par les biologistes, ou bien concerne toujours les même sujets (réseaux de neurones, cycles circadiens, ADN et théorie de l’information, systèmes dynamiques en écologie, etc), ou encore arrive sans lien avec une quelconque expérience. D’un autre côté, je trouve que c’est bien de fonctionner avec des « e-prints », il faudrait alors que les expérimentateurs prennent l’habitude de consulter ce type de site web pour se tenir informé des modèles théoriques qui portent sur leur sujet d’étude. Et ça touche bien sûr aussi au « publish or perish » bien implanté dans les sciences du vivant.

Je n’aimerai pas résumer en posant la question « qui, du modélisateur et de l’expérimentateur, doit faire le premier pas ? ». Croire qu’une seule et même personne peut (bien) faire les deux est illusoire. Mais d’un autre côté, initier le dialogue entre les deux domaines est une sorte de sacerdoce, quant à le pérenniser, n’en parlons pas…

Pour finir sur une note taquine, notre amie du blog « Immune modelling » a-t-elle lu l’article intitulé « Modelling immunological memory » sur arXiv (ici) ?


%d blogueurs aiment cette page :