DE LA TRANSFORMATION
DES DOCUMENTS AU FORMAT HTML
par Gwenaëlle
Table des matières
Quelques
précisions...
Les
navigateurs
L'interprétation
des documents
Les
logiciels de traitement de textes et de Pao
Les outils de
développement HTML
Petit historique
du langage HTML
Quelques précisions...
Le HTML - ou
Hypertext Markup Language - est un langage de description de
documents. Contrairement à ce que l'on entend
souvent, ce n'est pas un langage de programmation.
A ce titre, le HTML se contente de décrire les
structures logiques d'un document : le texte, les titres,
les images. En font également partie les liens,
chapitres, sections, listes, tableaux, feuilles de style,
éléments multimédias.
Pour donner à un fichier HTML une portée
dépassant les limites du texte pur, cette description
du document doit être interprétée. Pour
cela, il faut un navigateur. C'est lui qui se chargera
d'afficher à l'écran les différents
objets en fonction de leur signification.
Un fichier HTML se compose de texte pur, dit ASCII, ce qui
le rend indépendant de la plateforme qui va le
recevoir. Une page Web peut donc être lue sur un PC,
un Mac, un poste de travail Linux, UNIX ou n'importe quel
ordinateur connecté à l'Internet. Seul le
navigateur est dépendant de la plateforme.
Les
navigateurs
Les deux
navigateurs ou "browsers" les plus répandus sont
Internet explorer et Netscape communicator. Gratuit et
téléchargeable depuis le web, chacun
s'accompagne d'une suite logicielle permettant - outre la
navigation - le traitement du courrier électronique
et la création de pages web. Ils sont
généralement livrés avec des extensions
autorisant la lecture d'éléments
multimédias ou autres : plug-ins pour lire les sons
et les vidéos (Winamp, Windows Media Player, Real
audio...), les animations (Shockwave et flash), les
instructions utilisant du java.
Il n'est jamais inutile d'avoir plusieurs navigateurs, que
ce soient des programmes concurrents et/ou
différentes versions du même programme, pour
tester ses documents. D'abord parce que les pages peuvent
s'afficher différemment selon le browser
utilisé et ensuite parce que tous les internautes ne
suivent pas le rythme soutenu des nouveautés et des
mises à jour. A titre indicatif, il faut savoir que
la dernière version de IE "pèse" 70 Mo et
celle de Netscape 19 Mo ! Bon courage à ceux qui ne
possèdent pas le câble ! D'ailleurs, les
nouvelles versions ne sont pas forcément les
meilleures, les versions dites "bêta" (à
l'essai avant d'éventuelles corrections) et les
premières versions finales sont truffées de
bogues et plus le paquet est volumineux et plus il y en a.
En outre, la majorité des internautes ne peut
s'aligner du jour au lendemain sur le nouveau standard HTML.
Il n'est pas possible de modifier 50 millions de pages en
quelques semaines ; pages qui ne seront d'ailleurs
probablement jamais mises à jour.
C'est pourquoi, afin de
satisfaire le plus grand nombre, mieux vaut s'assurer du bon
affichage de sa page sous les deux principaux navigateurs,
dans des versions intermédiaires.
L'interprétation des
documents
A la base, les
disparités d'affichage d'une page HTML tiennent
à l'interprétation qu'en fait le navigateur.
Plusieurs
possibilités :
- la version du HTML est
trop récente et le navigateur ne sait pas
interpréter certains codes.
- pour des raisons
essentiellement commerciales, le navigateur ne peut lire
un code spécialement " créé " pour
son concurrent.
- l'interprétation
n'est pas une " science exacte ". La qualité et la
justesse d'affichage dépendent aussi du bon
vouloir ou des caprices d'un navigateur.
Les logiciels de
traitement de textes
Cela fait
beaucoup de paramètres, que l'on ne maîtrise
pas forcément et qui sont capables de perturber la
mise en forme d'une page web.
C'est pourquoi plus le code est " propre ", plus on aura de
chances de voir le document apparaître conforme
à ce que l'on souhaite. Autrement dit, moins on met
d'intermédiaires entre le texte de base et sa
transformation en HTML, moins le résultat est
aléatoire.
A l'heure actuelle, les
traitements de textes fournissent une commande permettant de
convertir un document au format Web. Pour cela, ils
utilisent un filtre de leur crû dont les performances
laissent la plupart du temps à désirer.
(cliquez les noms des logiciels pour voir les
résultats de la convertion).
- Word (version 97) de Microsoft transforme
d'office les tableaux d'un document en image gif et
l'affuble d'un nom qu'il a lui-même choisi. C'est
aussi le cas du logiciel de mise en page
Publisher.
- Wordpro de
Lotus (édition millenium) dédouble les
listes à puces.
- Wordperfect de
Corel (version 7.5) impose le fond gris.
- StarOffice
Ce ne sont là que
quelques exemples. Plus généralement, chaque
filtre de traitement de textes alourdit le code et accentue
les probabilités d'erreur d'affichage.
En conclusion, le plus
sûr est encore de travailler sur du texte pur, que
l'on met en forme par la suite, dans un éditeur HTML
prévu à cet effet.
Les outils de
développement HTML
On peut classer
les utilitaires HTML en trois catégories :
- Les weboffice, outils
rudimentaires évoqués ci-dessus, sont les
filtres et autres assistants livrés avec les
traitements de textes. Il ne faut pas en attendre
grand-chose. Ils ne connaissent qu'une infime partie de
la version HTML courante.
- Les éditeurs de
texte ont la préférence des concepteurs de
pages web car ils permettent de travailler directement le
code. La maîtrise du document et de sa mise en
forme n'en est que plus grande. Cette méthode
suppose cependant une bonne connaissance du langage HTML.
- Les éditeurs
HTML, contrairement aux filtres, ne convertissent pas les
documents existants mais facilitent la création
directe grâce à diverses fonctions
intégrées. L'une de leurs principales
qualités est leur fonctionnalité WISIWYG :
What you see is what you get - ce que vous voyez est ce
que vous obtenez.
Les modèles haut de gamme offrent le confort des
menus et des barres d'outils, des macros, des
modèles et des assistants d'aide à la
création. En outre, ils permettent l'accès
au code et fournissent un navigateur interne pour
visualiser les évolutions de la mise en page ;
cependant ce dernier est peu fiable. Il vaut mieux
appeler sa page directement dans IE ou Netscape pour
avoir une idée plus juste du
résultat.
Un bon compromis consiste
à posséder un éditeur HTML WISIWYG pour
dégrossir le travail et un éditeur de texte
pour garder la mainmise sur le code.
Petit historique du langage
HTML
Le World Wide
Web Consortium (W3C) basé à Genève,
lui-même issu de la World Wide Web Organisation (W3O),
est depuis toujours à l'origine de la norme HTML et
du réseau mondial que l'on appelle le Web.
En 1991, le W3C présente HTML 1.0 ; langage
très simple mais indépendant, donc capable de
s'exécuter sur pratiquement tous les ordinateurs.
Cette version ne permet de créer qu'un système
" hypertextuel " capable de contenir, outre du simple texte
et des graphiques, des liens hypertexte, donc des renvois
à d'autres documents. Elle prévoit
déjà la définition
d'éléments de structuration comme les titres,
listes et chapitres.
La version 2.0 du HTML ne fait son apparition qu'en 1995,
intégrant essentiellement les particularités
du navigateur Mosaïc. Il introduit bon nombre de
possibilités de mise en page comme les
en-têtes, les lignes de titre, les différents
niveaux de titres mais aussi les liens hypertexte, mises en
relief, instructions permettant une insertion flexible de
graphiques, tableaux, listes et formulaires.
Peu après la version 2.0, le standard 3.0 est
adopté par le W3C sans faire l'unanimité. Ce
n'est qu'en 1996 que ce dernier peut présenter la
version 3.2. Cette nouvelle mouture, réalisée
en collaboration avec des sociétés comme
Novell, Microsoft, Netscape, SoftQuad, Sun Microsystems,
prend en charge :
- les tableaux avec
présentation structurée des
documents
- la taille des couleurs
et des polices
- la mise en exposant ou
en indice des caractères
- l'agencement de texte
autour des images
- l'insertion des applets
Java et des Javascripts
Le nouveau standard HTML 4.0
inclut notamment différentes résolutions, des
attributs de couleurs, des possiblités de saisie et
d'affichage plus flexibles (par exemple naviguer à
l'aide des touches), des commandes vocales et des
informations sonores. Un autre aspect important est
l'internationalisation. Il est par exemple possible
désormais d'utiliser les accents français.
Selon ce nouveau standard, l'internationalisation ne
dépend plus de la prise en charge de ces
caractères par le système d'exploitation. HTML
4.0 contient aussi une série de nouveaux
éléments et extensions pour la création
de tableaux, pour l'utilisation de feuilles de style qui
définiront la présentation d'un document
web.
|