02/11/2024
Il existe de multiples sites indiquant ce que sont des données ouvertes. Effectuez une recherche rapide pour savoir ce dont il s'agit.
De très nombreux organismes (communes, départements, états, europes, entreprises…) peuvent mettre à disposition de telles données.
Ces données peuvent être fournies dans des formats variés mais le format CSV est fréquent. Il s'agit d'un format texte seulement (lisible avec un éditeur de texte comme BlocNotes, NotePad++, Atom, gedit, BBedit, …) mais structuré de telle manière à simuler le contenu d'un tableau. CSV signifie Comma-Separated Values, c'est-à-dire, valeurs séparées par une virgule : la virgule joue le rôle de séparateur de cases.
En pratique, le séparateur peut être autre chose que la virgule : un point-virgule, une espace, un caractère de tabulation… Cela peut poser des soucis pour une ouverture correcte d'un fichier CSV.
Un autre problème pratique rencontré lors de l'ouverture d'un fichier est l'encodage des caractères. Comme vu au niveau Standard, il existe plusieurs tables d'encodage des caractères : UFT8, Ascii… La bonne table doit être précisé lors de l'ouverture d'un fichier. Cela est parfois difficle mais pragmatiquement on sait qu'on n'a pas ouvert avec la bonne table si des caractères accentués ou particuliers ne s'affichent pas correctement
Dans l'exercice suivant, on s'intéresse à un jeu de données ouvertes (le mot jeu est utilisé pour désigner un ensemble de données) récupérable avec un fichier CSV. Nous réalisons quelques manipulations de révisions.
Nous nous intéressons à la carte des licenciés sportifs dans les Hauts-de-Seine disponible sur le site data.gouv.fr.
Récupérez ici les données que nous avons téléchargée le 15/10/2020 (les données sur le site évolue, si vous travaillez avec les données du site, les résultats précis aux opérations à suivre peuvent varier).
Ouvrez-le fichier avec LibreOffice. Déterminez le bon séparateur et le bon encodage (jeu de caractères). Ci-suivent quelques points de vérifications de l'ouverture correcte du fichier :
code_insee.
licences_en_2011.
36(si vous avez la valeur
FF de tir à l'arc, vous avez du ouvrir le fichier avec deux séparateurs alors qu'il ne faut l'ouvrir qu'avec un seul)
Enregistrez le fichier au format ods
et au format xlsx
.
L'ouverture d'un fichier au format csv
avec Excel ne doit pas se faire par l'opération d'ouverture de fichier habituelle même si elle est possible. Avec cette opération (n'hésitez pas à tester pour vérifier), Excel ne propose pas de choisir le séparateur et l'encodage (du moins c'est le cas avec les versions testées avant la rédaction de ce support). Il est donc possible que l'ouverture ne se passe pas bien et que le tableau se présente mal ou que des caractères accentués soient mal affichés.
Pour pouvoir maîtriser l'import des données à partir d'un fichier au format csv
, il faut ouvrir un document vierge. Il faut ensuite aller dans l'onglet Données
menu Obtenir des données
sous-menu À partir d’un fichier
sous-sous-menu À partir d’un fichier Texte/CSV
(la fonctionnalité peut être ailleurs dans certaines versions de tableur). Après avoir choisi le format csv
, un assistant vous guide dans l'import. Dans les versions récentes, le processus d'import dans Excel se fait sous forme d'une notion spécifique à Excel avec laquelle il ne faut pas travailler dans le cadre du module (mais il peut être intéressant de l'étudier en autonomie car elle présente des intérêts). Pour supprimer l'aspect Tableau. Placez-vous dans le tableau. Un onglet Tableau
apparaît. Dans cet onglet, choisissez Convertir en plage
. L'onglet Tableau disparaît car la plage contenant les données n'est pas considérée comme un Tableau au sens d'Excel. La mise en forme est toutefois conservée. À vous de voir si vous voulez la conserver.
Selon votre préférence, travaillez avec le fichier ods
ou le fichier xlsx
obtenu à partir de LibreOffice.
Nous faisons un point de vérification sur la qualité des données et désirons vérifier que le nombre de licences en 2011 (colonne F
) est bien égal à la somme des informations dans les colonnes "moins_de_20_ans
", "entre_20_et_60_ans
" et "plus_de_60_ans
" (colonne G
à H
). Pour cela, suivez les consignes suivantes.
F
(licences_en_2011
) et la colonne G
(moins_de_20_ans
).G1
, saisissez "recalcul somme
".G
, pour chaque ligne, calculez la somme des valeurs des colonnes du tableau "moins_de_20_ans
", "entre_20_et_60_ans
" et "plus_de_60_ans
" (colonne I
à K
) sur la ligne.H1
, saisissez "verif
".H2
, saisissez une formule affichant le texte ok
si F2
est égal à G2
et affichant le texte pb
sinon.H2:H2222
.