Exemple1

1. Exemple de données ouvertes

Connectez-vous sur le site ici.

Étudiez le site et les informations présentes. Ci-suivent une liste non exhaustives de points qui peuvent être examinés :

2. Récupérez les données

2.1. Récupérez le fichier au format CSV disponible sur le site. (En cas d'indisponibilité du site, vous pouvez aussi récupérer les données ici).

Remarque : des explications sur le format CSV sont disponibles ici et notamment des explications sur l'ouverture d'un fichier au format CSV avec Open Office/Libre Office et avec Microsoft Excel.

2.2. Ouvrez le fichier CSV avec le logiciel de votre choix).

2.3. Ajoutez une feuille que vous nommerez source et dans laquelle vous écrirez l'URL du site où vous avez récupéré les données (utile si nous avons besoin de revenir au site ou de le citer ultérieurement) et, si ce n'est pas le même site, le site originel des données.

2.4. Sauvegardez les données dans un format plus adéquat (ods si vous utilisez Libre Office Calc ou Apache Open Office Calc ; xlsx si vous utilisez Microsoft Excel). Pensez par la suite à enregistrer régulièrement votre fichier (apprenez le raccourci clavier d'enregistrement).

2.5. Supprimez la colonne K intitulée geom.

2.6. Observez que le format des nombres de la colonne J intitulée prix_de_revient_moyen_en_eur_ttc_logt_2016_2018 est incorrect : le séparateur de décimales est le point et non la virgule comme d'usage en France (si la langue de base de votre tableur n'est pas le français, vous pouvez ne pas rencontrer ce problème). En écrivant en L2 la formule =J2+1, vous pouvez vérifier que le nombre est considéré comme du texte et non comme un nombre (une erreur se produit). Pour la suite, supprimez cette formule. Notons que nous aurions pu éviter ce problème lors de l'ouverture du fichier CSV mais, en pratique, on découvre souvent le problème après ouverture.

Pour corriger ce problème, remplacez les points par des virgules dans toutes les cellules de la colonne K et uniquement dans ces cellules (sélectionnez la colonne et utiliser la fonction de recherche-remplacement).

Si vous n'avez pas réussi les manipulations précédentes, vous pouvez continuer la suite de l'exemple en travaillant avec ce fichier au format xlsx ou celui-ci au format ods.

3. Appréhendez et structurez les données (sans formules)

  1. Modifiez les en-têtes de colonne de manière à ne pas avoir de tiret bas et en remettant les accents.
  2. Centrez horizontalement les noms de colonne et mettez les en gras.
  3. Retrouvez les unités manquantes dans les en-têtes de colonne (voir le site originel).
  4. Adaptez les largeurs des colonnes à leur contenu ?
    • Si nécessaire, formatez les cellules de titre pour obliger une écriture sur plusieurs lignes.
    • Centrez les titres verticalement.
    • Si nécessaire, redimensionnez la ligne de titre
  5. Assurez-vous que les 4 colonnes contenant des pourcentages aient la même largeur ?
  6. Allez en J96. À quoi correspond la valeur de cette cellule ?
  7. Placez des volets de manière à faciliter la lecture des données ? (Que pensez-vous de se placer en E4 avant de ne placer les volets (figer/fixe lignes et colonnes) ?)
  8. Placez un autofiltre. Utilisez-le pour détecter (ou vérifier) la colonne qui n'a qu'une seule valeur. Reportez cette valeur dans la feuille source puis supprimer la colonne.
  9. Est-ce que tous les codes de département sont définis ? Si non, sélectionnez les départements concernés et saisissez leurs codes ? Si nécessaire, alignez à gauche les codes.
  10. Pour les colonnes indiquant des pourcentages de financement où des prix de revient ne sont pas indiqués, saisissez le texte NR.
  11. Formatez les cellules de prix de revient en format monétaire avec un chiffre après la virgule. Si des ### apparaissent, que signifient-ils ?
  12. Séparez les latitudes et longitudes dans la colonne de géolocalisation (utiliser Données/Convertir avec Microsoft Excel et Données/Texte en colonnes avec Libre Office Calc ou Apache Open Office Calc).
  13. Appelez latitude département et longitude département les colonnes contenant des données de géolocalisation (de manière cohérente aux données).
  14. Formatez les largeurs de colonne de manère adaptée au contenu. Alignez les valeurs à droite.
  15. Formatez les cellules de manière à encadrer tout le tableau d'un gros trait bleu et les traits internes en pointillés rouge fins.
  16. Faites en sorte que la bordure sous les titres soient également un gros trait bleu.

4. Quelques interrogations (et réponses) sur les données (toujours sans calcul)

  1. Quel est le département dont le prix de revient moyen d'un logement est le plus cher ?
  2. Quel est le département dont le prix de revient moyen d'un logement est le moins cher ?
  3. Quel est le nombre de départements ayant moins de 3% de financement en fond propres ?
  4. Quel est le nombre de départements ayant plus de 25% de financement en fond propres ?
  5. Triez les données par ordre décroissant des prix de revient des départements. Puis :
    • Observez les effets sur le formatage des cellules. Quel conseil pouvons-nous en déduire pour le futur ? Réponse ici
    • Observez en particulier le formatage sur la colonne longitude. Quel problème révèle-t-il ?.
    • Annulez l'opération de tri. Replacez l'auto-filtre. Re-triez les données.
    • Triez les données par ordre croissant des numéros de département. Est-ce que cela s'est passé correctement ? Regardez ici si vous ne voyez pas ce qui pose souci
    • Transformez tous les codes de département en texte et alignez-les à droite.
    • Ré-effectuez le tri sur les codes de département et analysez les problèmes (avec Libre Office Calc, vous pouvez essayer le tri naturel pour améliorer le résultat du tri).
    • Triez les données par ordre croissant des numéros des régions et pour chaque région par ordre croissant des noms des départements.

5. Vérification de cohérence des données

Vous trouverez ci-après l'état des fichiers après la réalisation des 5 premières étapes au format xlsx, soit au format ods.

Ces fichiers peuvent vous servir de correction. Vous pouvez continuer. Il peut être Pour continuer, vous êtes invités à travailler avec les fichiers contenant une correction de ce qui précède disponibles, selon votre choix, soit

Quelques notions et manipulations générales vues ou revues pendant les 5 premières étapes

6. Transformation des données en pourcentage

Usuellement dans un tableur, les cellules contenant des pourcentages sont affichés via des options de format suivi du symbole %. Faites en sorte que ce soit le cas.
Pour cela, vous aurez besoin d'utiliser des cellules intermédiaires pour : diviser les valeurs par 100. Le changement des cellules de données s'obtiendra via un collage spécial de valeurs avant de formater les cellules.
Aspect avancé. On peut observer qu'il y a un problème pour les cellules qui contiennent du texte. Il est possible de traiter les cellules contenant du texte avec la fonction SIERREUR.
Remarque. On peut se demander ce qu'il se serait passer si on n'avait pas écrit NR dans des cellules. N'aurions-nous pas introduit une erreur dans la transformation proposée précédemment ?

Ci-suit une correction de cette étape : au format xlsx, au format ods.

7. Un tableau de bord

Nos données sont prêtes (on pourrait refaire un formatage des cellules). Faisons quelques calculs de synthèse.

  1. Créez une feuille appelée synthèse. Dans la suite, travaillez la présentation des données dans cette feuille.
  2. Calculez le nombre de départements concernés par l'étude (indication : utilisez la fonction NBVAL).
  3. Calculez le nombre de départements pour lesquels les données de prix de revient sont renseignées (indication : utilisez la fonction NB).
  4. Pour chaque source de financement, calculez le pourcentage moyen d'utilisation sur l'ensemble des départements. Présentez les résultats dans un tableau.
  5. Ajoutez dans ce tableau les pourcentages médians pour chaque source de financement.
  6. Utilisez un graphique pour afficher les moyennes contenues dans le tableau précédent.
  7. Créez un tableau permettant de calculer à partir des données la moyenne des prix de revient par région (indication : utilisez un tableau croisé dynamique) : affichez les résultats en face des noms de région.
    Attention ! Ici nous réalisons un calcul qui n'est pas économiquement interprétable. Pour avoir une moyenne plus exacte, il faudrait revenir aux données initiales (que nous n'avons pas) sur les logements et, pour chaque région, sélectionner les logements et calculer la moyenne de ces prix de revient.
    Remarque : le tableau croisé dynamique nous permet de récupérer entre autres la liste des noms de région
  8. Calculez la moyenne des moyennes obtenues dans le tableau. Est-ce que c'est la même que la moyenne globale indiquée ? (Normalement non et cela souligne le problème indiqué précédemment)
    Cachez ce dernier calcul de moyenne. Nous n'allons pas l'afficher dans notre synthèse.
  9. Question avancée. Obtenez le même tableau que précédemment en n'utilisant pas un tableau croisé dynamique mais en utilisant la fonction MOYENNE.SI.

Ci-suit une correction de cette étape : au format xlsx, au format ods.

Reproduire le travail précédent ?

Le site data.gouv.fr consulté en début d'exemple indiquait que les données mises à disposition existait aussi pour la période 2017-2019. Le travail précédent pourrait être repris.

Si les données sont présentées de la même manière, en copiant-collant les données de 2017-2019 à la place des données 2016-2018, notre tableau de bord devrait effectuer la synthèse 2017-2019 sans avoir à réécrire de formule (mais peut-être en réactualisant les tableaux croisés dynamiques).

Il est également possible de chercher à regrouper les informations sur un même tableau et d'étudier l'évolution mais cela nécessite d'autres techniques.

flèche page précédente