Motivation
Lorsque l’on étudie un phénomène naturel, on se retrouve souvent à mesurer quelque chose, la variable d’intérêt, par exemple la taille du géranium sur le balcon du voisin, et on aimerait bien savoir si cette chose (ici la taille du géranium) change en fonction d’une autre chose, par exemple selon qu’il est à la lumière ou à l’ombre (facteur qualitatif), ou bien selon la quantité d’eau que le voisin lui verse tous les jours (facteur quantitatif), etc.
Bien sur, en faisant une expérience et en regardant bien tous les jours, on aura peut-être la réponse à notre question. Mais pour être plus confiant dans nos conclusions, surtout quand le phénomène semble compliqué, c’est mieux de construire un modèle statistique et de tester une hypothèse, par exemple dans notre cas “le fait que le géranium soit au soleil ou à l’ombre influe sur sa taille”.
Dans l’exemple ci-dessus, notre variable d’intérêt est la taille du géranium et elle dépend de l’expérience: le géranium sera plus ou moins grand s’il y a eu plus ou moins de soleil le mois où on l’a planté. Initialement, on ne sait pas quelle taille le géranium aura au bout d’une semaine, deux semaines, etc.: la mesure de la taille peut prendre plusieurs valeurs selon le temps qu’il fait, c’est-à-dire selon le résultat de l’expérience. On parle alors de variable aléatoire. Soit la variable aléatoire correspondant à la taille du géranium, mesurée en centimètre. Elle suit une loi de probabilité, que l’on ne connaît pas a priori, mais à chaque évènement est associé une probabilité. A l’évènement “le géranium mesure 15 cm” est associé la probabilité
, idem pour toutes les tailles possibles.
Comme est une variable aléatoire, on peut représenter sa loi en représentant la distribution de ses valeurs, c’est-à-dire en traçant un histogramme. On peut aussi calculer son espérance (valeur moyenne de sa distribution) et sa variance (mesure de la dispersion de sa distribution).
Définition
Le modèle linéaire est le modèle statistique le plus simple cherchant à expliquer une variable observée à l’aide de variables explicatives. Il s’écrit de la manière suivante:
- les
sont les valeurs prises par notre variable aléatoire
lors de
expériences, ce sont les observations;
est l’indice d’un traitement, un traitement étant une combinaison de niveaux de facteurs qualitatifs et quantitatifs utilisés lors des
expériences (un traitement est donc fixe, non aléatoire);
est un indice de répétition;
est l’espérance de
;
- les
sont les résidus entre les valeurs observées et ce qui est expliqué par
, correspondant à la variabilité du matériel expérimental, celle due aux facteurs non contrôlés, aux erreurs de mesure et à la randomisation.
Le modèle linéaire repose sur deux grandes hypothèses:
- la partie fixe du modèle,
, est linéaire;
- la partie aléatoire du modèle,
, suit une loi normale d’espérance
et de variance
.
Ceci suppose que, si l’on modélise un phénomène naturel avec ce modèle-là, il faut vérifier que les hypothèses sont vérifiées, sinon on ne peut pas tirer de conclusion.
Le modèle linéaire a une écriture plus générale sous forme matricielle:
est un vecteur de dimension
(matrice colonne à
lignes) dans lequel on range les observations (l’ordre est arbitraire);
est aussi un vecteur de dimension
dans lequel on range les variables résiduelles du modèle (même ordre que pour
bien sûr…);
est une matrice à
lignes, contenant les
paramètres;
est une matrice à
lignes et
colonnes contenant les valeurs des facteurs qualitatifs et/ou quantitatifs, c’est la matrice du plan d’expérience.
Avant d’aller plus loin, voyons ce que signifie “plan d’expérience” et “randomisation“.
Prenons un cas bateau où correspond au rendement d’une variété de blé que l’on cherche à expliquer à l’aide de
facteurs:
. Selon la méthode classique, on fixe tous les facteurs sauf un que l’on fait varier, et ainsi de suite pour chaque facteur. Si
et que l’on veuille
répétitions de l’expérience afin d’avoir une bonne précision de mesure, on a
expériences à faire: beaucoup trop… Grâce à la méthode du plan d’expérience, on fait varier les niveaux de tous les facteurs à la fois à chaque expérience, ce qui permet d’explorer une bonne partie des combinaisons sans pour autant réaliser toutes les expériences possibles.
Supposons maintenant que l’on ait un variable à deux niveaux
et une variable
à deux niveaux
. Dans quel ordre doit on faire l’expérience ?
puis
puis
puis
? Si on fait ça on risque une distribution non aléatoire des erreurs; pour l’éviter, on tire au sort. La randomisation consiste à déterminer aléatoirement l’ordre des expériences lors d’une étude statistique avec plan d’expérience. Cela augmente un peu l’erreur expérimentale mais diminue les biais.
Exemples
Voici maintenant quelques exemples pour illustrer ces notions.
Exemple 1: plan complètement randomisé à un facteur qualitatif
: rendement d’une variété de blé
facteur qualitatif: mode de semis (par exemple labour ou semis direct)
randomisation: trois répétitions sur deux parcelles chacune, avec tirage au sort
Pour un exemple de ce type, on utilise le modèle dit d’analyse de la variance (ANOVA):
ou bien
avec et
Cela revient à écrire avec le premier paramétrage et
avec le deuxième.
On peut remarquer que le modèle est indéterminé dans le deuxième paramétrage puisque pour une valeur quelconque:
Ainsi, pour déterminer les paramètres et leur donner un sens, il faudra rajouter une contrainte. Mais par contre, la différence ne dépend pas de la contrainte choisie.
En écriture matricielle, dans le cas du premier paramétrage ça donne:
ce qui équivaut au système d’équations ,
, et ainsi de suite
Et dans le cas du deuxième paramétrage:
Dans les équations concises ci-dessus, il est nécessaire de distinguer et
ainsi que
et
pour montrer qu’elles sont différentes, mais pas
puisque cette matrice reste inchangée.
Exemple 2: plan complètement randomisé à un facteur quantitatif
: nombre d’épis par pied d’une certaine variété de blé
facteur quantitatif: dose d’engrais azoté, en kg
randomisation: on attribue au hasard chacune des valeurs
de doses choisies à chacune des
parcelles expérimentales
On peut choisir un modèle de régression simple:
avec
ou bien un modèle de régression polynomiale par exemple de degré 2:
avec
Dans le premier cas, et dans le deuxième
.
En écriture matricielle pour le premier modèle:
Et pour le deuxième modèle:
Ici on distingue aussi et
car on change de modèle et pas seulement de paramétrage. On peut d’ailleurs s’attendre à ce que la variance de
soit un plus faible que celle de
car on a rajouté dans l’espérance
l’effet du carré de
.
Exemple 3: plan en blocs complets randomisés à un facteur qualitatif.
à faire
Exemple 4: plan en blocs incomplets randomisés à un facteur qualitatif.
à faire
Exemple 5: plan en blocs complets randomisés à un facteur quantitatif.
à faire
Exemple 6: plan factoriel à deux facteurs qualitatifs.
à faire
Exemple 7: plan factoriel à deux facteurs quantitatifs.
à faire
Exemple 8: plan factoriel à un facteurs qualitatif et un facteur quantitatif.
à faire
Exemple 9: plan factoriel à deux facteurs hiérarchisés.
à faire
Suite: “Le modèle linéaire – estimation des paramètres (2)”
Source: polycopié “Le Modèle Linéaire” de Camille Duby, mai 2003, INA P-G + quelques ajouts
Publié par walrus 