10/10/14
Le fichier HTML d'une page web doit respecter une certain nombre de conditions :
Le langage HTML définit donc quelles balises sont disponibles et la façon de les utiliser.
Il existe d'autres langages de balisage, par exemple le XML.
Lorsque votre navigateur ouvre un fichier html, il interprête les balises du fichier pour construire la page Web.
Le document ci-dessous est en html.
<html>
<head>
<title>Ma page Web</title></head>
<body>
<h1>Mon CV sur le Web</h1>
<p>Mon nom est Martin</p>
<p>J'habite Montpellier</p>
</body>
</html>
Saisissez ce texte avec un éditeur de texte dans un document appelé index et testez le avec un navigateur.
Les mots p, html, body, sont des balises
du html. Certaines balises (body,
h1, p, ...) marchent par paire : une balise d'ouverture et une balise de fermeture,
dans ce cas elles s'appliquent au texte qu'elles encadrent.
Un document html comprend deux parties, l'en-tête (encadré par la balise head) et le corps (encadré par la balise body).
C'est dans le corps que se trouve le texte à afficher dans la page Web. Le texte du corps (ci-dessus par exemple : Mon nom est Martin) est structuré à l'aide des balises html (par exemple ci-dessus Mon nom est martin est encadré par la balise p). Une balise html pour le texte indique la structure sémantique du texte à afficher (titre, sous titre, liste, ...)
Par ailleurs vous remarquerez qu'à chaque balise de texte (p, h1, h2, ... ) est associée une mise une forme particulière du texte.
Lorsque l'on balise le texte d'une page, il faut choisir les éléments html en fonction de la sémantique du texte et non de l'apparence que l'on veut obtenir.
D'autres types de commandes (ce que l'on appelle les styles CSS) permettent de modifier cette apparence.
Rédigez votre CV en html. Vous devez être attentif à la qualité du balisage.
Chaque caractère que vous saisissez dans un fichier est codé par le logiciel que vous utilisez puis enregistré dans le fichier. En HTML ce codage peut être important si vous souhaitez pouvoir composer des pages multilingues, c'est à dire contenant des textes dans plusieurs langues comme ci-dessous :
Dans le code source de cette page HTML , vous trouverez par exemple dans l'en-tête:
<meta charset="UTF-8" />
C'est une balise META , la deuxième partie est un complément que l'on appelle ATTRIBUT de la balise, cet attribut s'appelle ici CHARSET et a pour valeur UTF-8. Cet attribut sert à informer votre navigateur du codage des caractères de la page.
Les jeux de caractères sont associés à la notion de région linguistique.
Vous avez déjà remarqué que le clavier d'un ordinateur est régionalisé (clavier QWERTY ou AZERTY, ou autre ...). Le système d'exploitation d'un ordinateur est lui aussi régionalisé dans la langue où vous travaillez. En fonction de ce choix de langue :
Lorsque vous tapez un "A" au clavier, ce n'est pas "A" qui est enregistré dans le fichier mais le code numérique de la lettre A tel qu'il a été défini dans le CHARSET.
Historiquement les premiers Charset ne pouvaient contenir que 256 caractères. Aussi chaque région linguistique a créé son Charset indépendamment des autres régions. Ces différents charsets sont toujours utilisés aujourd'hui et ont été normalisés par des organismes internationaux.
Par exemple, Le jeu de caractère appelé ISO-8859-1 (aussi appelé IS0-Latin-1) permet de représenter la plupart des caractères utilisés en Europe occidentale. Parmi ceux-ci, on retrouve les alphabets pour l'albanais, l'allemand, l'anglais, le catalan, le danois, l'espagnol, le féroïen, le finnois, le français, le galicien, l'irlandais, l'islandais, l'italien, le néerlandais, le norvégien, le portugais et le suédois.
Une page HTML ne peut utiliser qu'un seul Charset et donc, avec les codages ci-dessus, une page est difficilement multilingue (mélanger du russe et du français par exemple) car les codages des différents CHARSET sont incompatibles entre eux.
On peut aujourd'hui utiliser un Charset multilingue (non limité à 256 caractères). C'est ce que l'on appelle un codage de type UNICODE.
Le CHARSET de type UNICODE principalement utilisé sur le Web aujourd'hui est le Charset appelé utf-8.
Remarque : lorsque vous enregistrez un document avec un logiciel, la plupart du temps vous n'avez pas le choix du CHARSET : le logiciel utilise automatiquement celui de votre système d'exploitation. Mais certains logiciels permettent ce choix, en général par une option des préférences ou bien au moment de l'enregistrement du document. (Pour Blocnotes regardez lors de l'enregistrement du fichier.)
Si on utilise le codage utf-8 on peut mélanger des textes de différentes langues dans la même page Web. En HTML, la balise META et son attribut CHARSET précisent au navigateur le codage utilisé pour le document.
Remarquez qu'il ne suffit pas que vous ajoutiez une balise META avec un charset="UTF-8" dans le fichier html pour que votre document soit codé réellement dans ce charset. C'est uniquement le logiciel que vous utilisez qui fait le codage au moment de l'enregistrement.
Remarque : en l'absence de la balise META et l'attribut CHARSET dans un document html, le navigateur se débrouillera de son mieux pour choisir le charset (il essaie de deviner) si ça ne se passe pas bien, le visiteur de votre page pourra toujours essayer de forcer un autre décodage en changeant le choix du navigateur par le menu approprié.