22/02/2021

2. Quelques aspects de format

2.1. Format texte seulement

Préambule

Dans le TD 2, nous avons vu qu'il était possible d'ouvrir un fichier au format HTML avec LibreOffice/Apache OpenOffice ou avec Microsoft Word. Nous avons toutefois changé le format du fichier en Open Document ou Open XML. En effet, même si les logiciels de traitement de texte mentionnés ci-avant peuvent éditer et gérer des fichiers HTML, ce ne sont pas les meilleurs outils pour cela. Par exemple, le code généré par Microsoft Word est très lourd. Celui généré par LibreOffice est encore en HTML 4 (du moins au moment où nous écrivons ce paragraphe).

Le format HTML est, à la base, un fichier au format texte seulement (ou texte brut) contenant des instructions compréhensibles notamment par un navigateur web.

Quand on n'a pas besoin de mise en forme ou d'insertion d'image, un fichier au format texte seulement pourra être plus intéressant. Techniquement il est préférable d'utiliser un éditeur de texte plutôt qu'un logiciel de traitement de texte pour gérer des fichiers dans ce type de format. Ci-suivent une liste non exhaustive d'éditeurs de texte : Atom (multiplateformes), gedit (Linux), NotePad++ (Windows ; aussi Bloc-notes mais qui est très rudimentaire), BBedit ou Sublime Tex (Mac OS).

Voyons ce qu'il se passe si on ouvre un fichier au format texte seulement avec un logiciel de traitement de texte (Word ou Writer).

Exercice

  1. Récupérez le fichier exemple.txt accessible ici.
  2. Ouvrez-le avec un logiciel de traitement de texte.
  3. Mettez un mot en gras.
  4. Enregistrez le document sans changer son format (il devrait y avoir un message laissant entendre qu'on est train de faire une erreur, mais tant pis).
  5. Ré-ouvrez le fichier et constatez la disparition du gras.

Conclusions de l'exercice. Il ne faut pas gérer les fichiers aux formats texte seulement avec un logiciel de traitement de texte. Avec un tel logiciel, on peut ouvrir le fichier, mais il faut penser ensuite à enregistrer le document dans un format de fichier qui pourra enregistrer les enrichissements de texte.


2.2. odt et docx, des formats compressés

Les formats Open Document (comme odt) et Open XML (comme docx) sont en fait des dossiers compressé au format zip, que l’on peut décompresser comme n’importe quel autre fichier zip. Il contient des fichiers (au format xml, lisibles et éditables via un éditeur de texte), ainsi que les images et les autres médias éventuellement placés dans le document.

Manipulations.

  1. Récupérez, selon votre préférence, le fichier une_plante.odt ou le fichier une_plante.docx.
  2. Remplacez le suffixe odt ou docx par zip.
  3. Décompresser et désarchivez le fichier.
  4. Recherchez l'image et le texte dans l'archive.

Dans l'exercice précédent, la deuxième consigne consiste à modifier l'extension d'un fichier (opération à ne faire que quand on est sûr de ce qu'on fait).

  • Avec Windows, il faudra vérifier que dans l’onglet Affichage du bandeau de l’explorateur de fichiers, l’option « Extensions de noms de fichiers » doit être cochée.
  • Avec Mac OS :
    • il faut vérifier que l'option Afficher toutes les extensions de fichiers est cochée dans l'onglet Options avancées des préférences du Finder).
    • Il est possible que le gestionnaire de fichier par défaut (pré-installé) ne sache pas désarchiver le fichier une_plante.zip. Dans ce cas, vous pouvez installer un autre gestionnaire d'archives compressées (il en existe des gratuits comme, par exemple, TheUnarchiver.app ou 7zX.app).

Indice. Le texte de la 4ème question est dans un fichier au format XML (pour lire un fichier de ce format, vous pourrez utiliser le logiciel Firefox).

fleche page précédente      fleche page suivante