On souhaite "mesurer" l'écart entre une distribution donnée et celle que l'on aurait, en théorie, si certaines hypothèses étaient vérifiées. Dans notre cas, l'hypothèse est que deux variables sont indépendantes, et on voudrait savoir si cette hypothèse est probablement vraie ou probablement fausse.
Le test du khi2 nous permet d'avoir une réponse. Ce test consiste à calculer un nombre à partir des deux distributions, réelle et théorique. Ce nombre est ensuite à comparer avec des tables, que l'on trouve dans tous les manuels de statistiques, et sans doute aussi sur le web (vous pourriez chercher une adresse pour votre page "utilisateur"). Selon la valeur de ce nombre, le nombre de modalités des variables, et le degré de confiance voulu, la table dit si l'hypothèse est statistiquement raisonnable ou non.
n11 | n12 | n13 | n1. |
n21 | n22 | n23 | n2. |
n.1 | n.2 | n.3 | n |
D'autre part, on note nij*
l'effectif que l'on aurait si les variables étaient
indépendantes.
Dans ces conditions,
le khi2 est donné par la formule suivante, où la somme
porte sur toutes les lignes et toutes les colonnes du tableau (dans le tableau ci-dessus, on a i=2 et j=3):
Par définition de l'indépendance (proportionnalité, produits en croix égaux... vous vous souvenez!), on sait que
En remplaçant et avec un petit peu de calcul, la formule du khi2 précédente peut s'écrire
sous cette forme un peu plus simple, et surtout beaucoup plus facile à programmer sur tableur:
Téléchargez le fichier suivant. Il pourra vous servir de modèle pour les formules de votre projet.
Il y a dans la feuille "formule2" une distribution jointe
(observée) de deux variables, avec ses totaux marginaux. La population est de 800 enfants et les variables sont leur ville de résidence et le nombre de jours qu'il leur faut en général pour se débarrasser d'un rhume.
En-dessous se trouve le tableau de la distribution (théorique)
que l'on aurait si les variables étaient indépendantes. Il n'est là que pour information.
A droite, on a un tableau auxiliaire pour le
calcul du khi2. Ce tableau calcule les termes de la somme
dans la deuxième formule donnée ci-dessus. La somme est calculée en dernier, dans la cellule contenant le khi2.
Dans la feuille "formule2" le khi2 est calculé selon la première formule. Cette fois-ci, on a besoin d'avoir d'abord fabriqué le tableau des effectifs théoriques. Le résultat est évidemment le même... mais il y a plus de travail à faire.