Le modèle linéaire (1) – présentation

Motivation

Lorsque l’on étudie un phénomène naturel, on se retrouve souvent à mesurer quelque chose, la variable d’intérêt, par exemple la taille du géranium sur le balcon du voisin, et on aimerait bien savoir si cette chose (ici la taille du géranium) change en fonction d’une autre chose, par exemple selon qu’il est à la lumière ou à l’ombre (facteur qualitatif), ou bien selon la quantité d’eau que le voisin lui verse tous les jours (facteur quantitatif), etc.

Bien sur, en faisant une expérience et en regardant bien tous les jours, on aura peut-être la réponse à notre question. Mais pour être plus confiant dans nos conclusions, surtout quand le phénomène semble compliqué, c’est mieux de construire un modèle statistique et de tester une hypothèse, par exemple dans notre cas « le fait que le géranium soit au soleil ou à l’ombre influe sur sa taille ».

Dans l’exemple ci-dessus, notre variable d’intérêt est la taille du géranium et elle dépend de l’expérience: le géranium sera plus ou moins grand s’il y a eu plus ou moins de soleil le mois où on l’a planté. Initialement, on ne sait pas quelle taille le géranium aura au bout d’une semaine, deux semaines, etc.: la mesure de la taille peut prendre plusieurs valeurs selon le temps qu’il fait, c’est-à-dire selon le résultat de l’expérience. On parle alors de variable aléatoire. Soit Y la variable aléatoire correspondant à la taille du géranium, mesurée en centimètre. Elle suit une loi de probabilité, que l’on ne connaît pas a priori, mais à chaque évènement est associé une probabilité. A l’évènement « le géranium mesure 15 cm » est associé la probabilité P( Y = 15 ), idem pour toutes les tailles possibles.

Comme Y est une variable aléatoire, on peut représenter sa loi en représentant la distribution de ses valeurs, c’est-à-dire en traçant un histogramme. On peut aussi calculer son espérance (valeur moyenne de sa distribution) et sa variance (mesure de la dispersion de sa distribution).

Définition

Le modèle linéaire est le modèle statistique le plus simple cherchant à expliquer une variable observée à l’aide de variables explicatives. Il s’écrit de la manière suivante:

y_{tj} = m_t + e_{tj}

  • les y_{tj} sont les valeurs prises par notre variable aléatoire Y lors de n expériences, ce sont les observations;
  • t est l’indice d’un traitement, un traitement étant une combinaison de niveaux de facteurs qualitatifs et quantitatifs utilisés lors des n expériences (un traitement est donc fixe, non aléatoire);
  • j est un indice de répétition;
  • m_t est l’espérance de y_{tj};
  • les e_{tj} sont les résidus entre les valeurs observées et ce qui est expliqué par m_t, correspondant à la variabilité du matériel expérimental, celle due aux facteurs non contrôlés, aux erreurs de mesure et à la randomisation.

Le modèle linéaire repose sur deux grandes hypothèses:

  • la partie fixe du modèle, m_t, est linéaire;
  • la partie aléatoire du modèle, e_{tj}, suit une loi normale d’espérance 0 et de variance \sigma^2.

Ceci suppose que, si l’on modélise un phénomène naturel avec ce modèle-là, il faut vérifier que les hypothèses sont vérifiées, sinon on ne peut pas tirer de conclusion.

Le modèle linéaire a une écriture plus générale sous forme matricielle:

y = X \Theta + e

  • y est un vecteur de dimension n (matrice colonne à n lignes) dans lequel on range les observations (l’ordre est arbitraire);
  • e est aussi un vecteur de dimension n dans lequel on range les variables résiduelles du modèle (même ordre que pour y bien sûr…);
  • \Theta est une matrice à p lignes, contenant les p paramètres;
  • X est une matrice à n lignes et p colonnes contenant les valeurs des facteurs qualitatifs et/ou quantitatifs, c’est la matrice du plan d’expérience.

Avant d’aller plus loin, voyons ce que signifie « plan d’expérience » et « randomisation« .

Prenons un cas bateau où y correspond au rendement d’une variété de blé que l’on cherche à expliquer à l’aide de k facteurs: y = f( x_1, x_2, ..., x_k). Selon la méthode classique, on fixe tous les facteurs sauf un que l’on fait varier, et ainsi de suite pour chaque facteur. Si k = 7 et que l’on veuille 5 répétitions de l’expérience afin d’avoir une bonne précision de mesure, on a 5^7 = 78125 expériences à faire: beaucoup trop… Grâce à la méthode du plan d’expérience, on fait varier les niveaux de tous les facteurs à la fois à chaque expérience, ce qui permet d’explorer une bonne partie des combinaisons sans pour autant réaliser toutes les expériences possibles.

Supposons maintenant que l’on ait un variable V_1 à deux niveaux A, B et une variable V_2 à deux niveaux C, D. Dans quel ordre doit on faire l’expérience ? V_1 = A puis V_1 = B puis V_2 = C puis V_2 = D ? Si on fait ça on risque une distribution non aléatoire des erreurs; pour l’éviter, on tire au sort. La randomisation consiste à déterminer aléatoirement l’ordre des expériences lors d’une étude statistique avec plan d’expérience. Cela augmente un peu l’erreur expérimentale mais diminue les biais.

Exemples

Voici maintenant quelques exemples pour illustrer ces notions.

Exemple 1: plan complètement randomisé à un facteur qualitatif

y: rendement d’une variété de blé

facteur qualitatif: mode de semis (par exemple labour ou semis direct)

randomisation: trois répétitions sur deux parcelles chacune, avec tirage au sort

Pour un exemple de ce type, on utilise le modèle dit d’analyse de la variance (ANOVA):

y_{ij} = \mu_{i} + e_{ij} ou bien y_{ij} = \mu + \alpha_{i} + e_{ij}

avec i = 1, ..., I=2 et j = 1, ..., J=3

Cela revient à écrire E(y_{ij}) = \mu_{i} avec le premier paramétrage et E(y_{ij}) = \mu + \alpha_{i} avec le deuxième.

On peut remarquer que le modèle est indéterminé dans le deuxième paramétrage puisque pour une valeur \lambda quelconque:

\mu + \alpha_i = ( \mu + \lambda) + (\alpha_i - \lambda) = \mu' + \alpha_i'

Ainsi, pour déterminer les paramètres et leur donner un sens, il faudra rajouter une contrainte. Mais par contre, la différence \alpha_i - \alpha_i' ne dépend pas de la contrainte choisie.

En écriture matricielle, dans le cas du premier paramétrage ça donne:

y = X_{(1)} \Theta_{(1)} + e

\begin{pmatrix}y_{11}\\ y_{12}\\ y_{13}\\ y_{21}\\ y_{22}\\  y_{23}\end{pmatrix} =  \begin{pmatrix}1&0\\1&0\\1&0\\ 0&1\\ 0&1\\ 0&1\end{pmatrix}  \begin{pmatrix}\mu_1\\\mu_2\end{pmatrix} +  \begin{pmatrix}e_{11}\\e_{12}\\e_{13}\\e_{21}\\e_{22}\\e_{23}\end{pmatrix}

ce qui équivaut au système d’équations y_{11} = \mu_1 + e_{11}, y_{12} = \mu_1 + e_{12}, et ainsi de suite

Et dans le cas du deuxième paramétrage:

y = X_{(2)} \Theta_{(2)} + e

\begin{pmatrix}y_{11}\\ y_{12}\\ y_{13}\\ y_{21}\\ y_{22}\\ y_{23}\end{pmatrix} = \begin{pmatrix}1&1&0\\1&1&0\\1&1&0\\1&0&1\\1&0&1\\1&0&1\end{pmatrix} \begin{pmatrix}\mu\\\alpha_1\\\alpha_2\end{pmatrix} + \begin{pmatrix}e_{11}\\e_{12}\\e_{13}\\e_{21}\\e_{22}\\e_{23}\end{pmatrix}

Dans les équations concises ci-dessus, il est nécessaire de distinguer X_{(1)} et X_{(2)} ainsi que \Theta_{(1)} et \Theta_{(2)} pour montrer qu’elles sont différentes, mais pas e puisque cette matrice reste inchangée.

Exemple 2: plan complètement randomisé à un facteur quantitatif

y: nombre d’épis par pied d’une certaine variété de blé

facteur quantitatif: dose d’engrais azoté, en kg

randomisation: on attribue au hasard chacune des I valeurs x_i de doses choisies à chacune des I parcelles expérimentales

On peut choisir un modèle de régression simple:

y_i = a + bx_i + e_{i(1)} avec i = 1, .., I = 5

ou bien un modèle de régression polynomiale par exemple de degré 2:

y_i = a_0 + a_1x_i + a_2x_i^2+ e_{i(2)} avec i = 1, .., I = 5

Dans le premier cas, E(y_i) = a + bx_i et dans le deuxième E(y_i) = a_0 + a_1x_1 + a_2x_2.

En écriture matricielle pour le premier modèle:

y = X_{(1)} \Theta_{(1)} + e_{(1)}

\begin{pmatrix}y_1\\y_2\\y_3\\y_4\\y_5\end{pmatrix} = \begin{pmatrix}1&x_1\\1&x_2\\1&x_3\\1&x_4\\1&x_5\end{pmatrix} \begin{pmatrix}a\\b\end{pmatrix} + \begin{pmatrix}e_{1(1)}\\e_{2(1)}\\e_{3(1)}\\e_{4(1)}\\e_{5(1)}\end{pmatrix}

Et pour le deuxième modèle:

y = X_{(2)} \Theta_{(2)} + e_{(2)}

\begin{pmatrix}y_1\\y_2\\y_3\\y_4\\y_5\end{pmatrix} =  \begin{pmatrix}1&x_1&x_1^2\\1&x_2&x_2^2\\1&x_3&x_3^2\\1&x_4&x_4^2\\1&x_5&x_5^2\end{pmatrix}  \begin{pmatrix}a_0\\a_1\\a_2\end{pmatrix} +  \begin{pmatrix}e_{1(2)}\\e_{2(2)}\\e_{3(2)}\\e_{4(2)}\\e_{5(2)}\end{pmatrix}

Ici on distingue aussi e_{(1)} et e_{(2)} car on change de modèle et pas seulement de paramétrage. On peut d’ailleurs s’attendre à ce que la variance de e_{(2)} soit un plus faible que celle de e_{(1)} car on a rajouté dans l’espérance E(y_i) l’effet du carré de x_i.

Exemple 3: plan en blocs complets randomisés à un facteur qualitatif.

à faire

Exemple 4: plan en blocs incomplets randomisés à un facteur qualitatif.

à faire

Exemple 5: plan en blocs complets randomisés à un facteur quantitatif.

à faire

Exemple 6: plan factoriel à deux facteurs qualitatifs.

à faire

Exemple 7: plan factoriel à deux facteurs quantitatifs.

à faire

Exemple 8: plan factoriel à un facteurs qualitatif et un facteur quantitatif.

à faire

Exemple 9: plan factoriel à deux facteurs hiérarchisés.

à faire

Suite: « Le modèle linéaire – estimation des paramètres (2) »

Source: polycopié « Le Modèle Linéaire » de Camille Duby, mai 2003, INA P-G + quelques ajouts

Un commentaire pour Le modèle linéaire (1) – présentation

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :