La statistique a pour objet de recueillir des observations portant sur des sujets présentant une certaine propriété et de traduire ces observations par des nombres qui permettent d’avoir des renseignements sur cette propriété.
Le but de la statistique descriptive est de structurer et de représenter l’information contenue dans les données, de décrire de façon synthétique et parlante des données observées pour mieux les analyser.
Avant de les représenter, il est important de bien comprendre la nature des données.
Commençons donc par un peu de cours pour reprendre ces notions.
Une enquête sur la pratique des jeux vidéo chez les jeunes de 12 à 16 ans a été menée en notant le genre (fille ou garçon), l’âge exact, ainsi que la dépense mensuelle consacrée aux jeux vidéo. Parmi les conclusions du sondage, on note les informations suivantes :
Êtes-vous d’accord avec les affirmations suivantes ? Justifiez chacune de vos réponses.
La Société Nationale des Bois (SNB), dont l’activité est l’aménagement de la forêt, la production forestière, la transformation de la ressource forestière et le négoce de bois, cherche à mieux connaître les besoins de ses clients.
Elle interroge par conséquent l’ensemble de ses clients et relève les informations ci-après :
Êtes-vous d’accord avec les affirmations suivantes ? Justifiez chacune de vos réponses.
À partir d'un questionnaire, il a pu être mesuré le degré́ de satisfaction d’un échantillon de clients d'un site de e-commerce. Les résultats suivants ont été́ obtenus :
0121330212
3332102011
3232212203
1312033121
2021232123
0231210203
4 candidats se présentent à une élection locale. Les résultats sont donnés dans le tableau suivant :
Candidats | A | B | C | D |
% de voies obtenues | 26,56 | 34,65 | 20,43 | 18,36 |
Nous nous demandons dans cette section comment visualiser graphiquement la répartition des individus sur les modalités d’une variable.
Les chiffres et statistiques sont parfois utilisés à mauvais escient dans la presse, la publicité ou le monde politique, par erreur ou par manipulation délibérée. De son côté, le public peine parfois à appréhender ces données. Les experts parlent même d’innumérisme, l’équivalent mathématique de l’illettrisme.
Commençons par une liste de cas problématiques issus des sites et lemonde et letemps.ch présentés ici. Il est important que vous soyez critiques quand vous rencontrez de telles visualisations !
À chaque type de variables correspond un graphe particulier que nous allons décrire dans ce cours.
Dans cet exercice, vous utilisez le classeur comptoir.xls. Il est constitué de 8 feuilles :
Avec les tableaux croisés dynamiques, on relie des données entre elles afin d’en dégager des informations synthétiques.
Dans notre cas pratique, on peut ainsi répondre à une question du type : dans quels pays, chacun des employés arrive à vendre le plus ?
Les données source d'un TCD doivent obligatoirement être ordonnées de la façon suivante :
Parcourir les menus pour trouver la fonction Tableaux Croisés Dynamiques.
La correction de cet exercice est disponible ici.
La construction d’indices statistiques vise à résumer la distribution de la variable, i.e. la répartition des valeurs observées.
Les valeurs étant numériques, on peut alors s’intéresser à résumer la distribution de 2 façons :
Ces 2 types d’indices renseignent sur des notions très différentes.
Commençons par un peu de cours.
Télécharger le jeu de données ici.
Il est essentiel de bien comprendre chaque variable avant tout traitement des données.
Pour chaque variable vous allez calculer :
Pour la variable tmax, tracer le diagramme « Boites à moustaches ».
La correction de cet exercice est disponible ici.
Un test du khi2 est un test d'hypothèse qui compare la loi de distribution observée de vos données à une loi attendue.
Il existe plusieurs types de tests du khi2. Dans cette rapide introduction, nous allons nous intéresser aux Tests d'indépendance qui permettent de déterminer si la valeur observée d'une variable dépend de la valeur observée d'une autre variable. Par exemple, vous pouvez vérifier si le vote d'une personne pour un candidat est indépendant du sexe de l'électeur.
Commençons par un peu de cours.
Dans cet exercice, nous travaillons sur des données issues d’une enquête menée par une DRH qui s’interroge sur le lien entre le sexe des employés et le stress ressenti au travail. Les données de cet exercice sont disponibles ici. Dans le tableau de données, dans la colonne sexe, un 1 signifie homme et un 0 signifie femme. Dans la colonne stress, un 1 signifie que l’individus s’est déclaré stressé et un 0 non.
Nous allons voir comment réaliser un test du khi2. Il s’agit d’un test d’indépendance entre deux variables. Pour réaliser le test du khi2 (ou khi carré) nous allons effectuer 5 étapes :
Nous allons construire un tableau croisé dynamique pour connaitre la répartition des deux variables (les deux réponses de formulaires). Ainsi, nous serons, combien de femmes ont répondu oui ou non et combien d’hommes ont répondu oui ou non. Le tableau à obtenir doit ressembler au tableau ci-dessous.
Les fréquences théoriques correspondent aux fréquences que l’on obtiendrait si nos deux variables étaient indépendantes. Autrement dit, sans lien entre nos variables sexe et stress, nous devrions logiquement obtenir le même pourcentage de réponses positives et négatives chez les hommes et chez les femmes.
Le résultat est le suivant :
Nous allons passer au calcul du khi2. Il faut une nouvelle fois recopier le tableau.
(femmes_stressées – freq_theorique_femmes_stressées)² / freq_theorique_femmes_stressées
En Excel, le chapeau suivi du deux permet de calculer le carré.
Pour calculer les colonnes total, il suffit de faire pour chaque colonne du tableau la somme et de même pour chaque ligne. Le khi2 apparaît dans la somme des colonnes et lignes « total » : 6,60.
Nous allons maintenant pouvoir tester l’indépendance de nos variables. Pour cela, nous allons rechercher la valeur critique du khi2. Nous formulons deux hypothèses :
Nous allons calculer deux valeurs du khi2 critique avec la fonction KHIDEUX.INVERSE. Cette fonction prend deux paramètres :
Dans notre cas, chaque variable compte deux catégories (hommes / femmes et la réponse oui / non) donc cela donne dl = (2-1) * (2-1) = 1 * 1 = 1. Notre degrés_liberté est donc 1.
Le résultat avec le paramètre probabilité à 5% (donc 0,05) est 3,841458821.
Les conclusions que l’on peut en tirer sont les suivantes :
Une correction de cet exercice est disponible ici.