30/10/2020

Données ouvertes

Qu'est-ce qu'une donnée ouverte ?

Il existe de multiples sites indiquant ce que sont des données ouvertes. Effectuez une recherche rapide pour savoir ce dont il s'agit.

De très nombreux organismes (communes, départements, états, europes, entreprises…) peuvent mettre à disposition de telles données.

Format CSV

Ces données peuvent être fournies dans des formats variés mais le format CSV est fréquent. Il s'agit d'un format texte seulement (lisible avec un éditeur de texte comme BlocNotes, NotePad++, Atom, gedit, BBedit, …) mais structuré de telle manière à simuler le contenu d'un tableau. CSV signifie Comma-Separated Values, c'est-à-dire, valeurs séparées par une virgule : la virgule joue le rôle de séparateur de cases.

En pratique, le séparateur peut être autre chose que la virgule : un point-virgule, une espace, un caractère de tabulation… Cela peut poser des soucis pour une ouverture correcte d'un fichier CSV.

Un autre problème pratique rencontré lors de l'ouverture d'un fichier est l'encodage des caractères. Comme vu au niveau Standard, il existe plusieurs tables d'encodage des caractères : UFT8, Ascii… La bonne table doit être précisé lors de l'ouverture d'un fichier. Cela est parfois difficle mais pragmatiquement on sait qu'on n'a pas ouvert avec la bonne table si des caractères accentués ou particuliers ne s'affichent pas correctement

Exercice

Dans l'exercice suivant, on s'intéresse à un jeu de données ouvertes (le mot jeu est utilisé pour désigner un ensemble de données) récupérable avec un fichier CSV. Nous réalisons quelques manipulations de révisions.

Nous nous intéressons à la carte des licenciés sportifs dans les Hauts-de-Seine disponible sur le site data.gouv.fr.

Récupérez ici les données que nous avons téléchargée le 15/10/2020 (les données sur le site évolue, si vous travaillez avec les données du site, les résultats précis aux opérations à suivre peuvent varier).

Ouverture avec LibreOffice

Ouvrez-le fichier avec LibreOffice. Déterminez le bon séparateur et le bon encodage (jeu de caractères). Ci-suivent quelques points de vérifications de l'ouverture correcte du fichier :

Enregistrez le fichier au format ods et au format xlsx.

Ouverture avec Excel

L'ouverture d'un fichier au format csv avec Excel ne doit pas se faire par l'opération d'ouverture de fichier habituelle même si elle est possible. Avec cette opération (n'hésitez pas à tester pour vérifier), Excel ne propose pas de choisir le séparateur et l'encodage (du moins c'est le cas avec les versions testées avant la rédaction de ce support). Il est donc possible que l'ouverture ne se passe pas bien et que le tableau se présente mal ou que des caractères accentués soient mal affichés.

Pour pouvoir maîtriser l'import des données à partir d'un fichier au format csv, il faut ouvrir un document vierge. il faut ensuite aller dans le menu Fichier puis l'entrée Importer (la fonctionnalité peut être ailleurs dans certaines versions de tableur). Après avoir choisi le format csv, un assistant vous guide dans l'import.

Travail sur les données

Selon votre préférence, travaillez avec le fichier ods ou le fichier xlsx obtenu à partir de LibreOffice.

Nous faisons un point de vérification sur la qualité des données et désirons vérifier que le nombre de licences en 2011 (colonne F) est bien égal à la somme des informations dans les colonnes "moins_de_20_ans", "entre_20_et_60_ans" et "plus_de_60_ans" (colonne G à H). Pour cela, suivez les consignes suivantes.

fleche page précédente      fleche page suivante