DE LA TRANSFORMATION
DES DOCUMENTS AU FORMAT HTML

par Gwenaëlle

Table des matières

Quelques précisions...
Les navigateurs
L'interprétation des documents
Les logiciels de traitement de textes et de Pao

Les outils de développement HTML
Petit historique du langage HTML
 


 

Quelques précisions...

Le HTML - ou Hypertext Markup Language - est un langage de description de documents. Contrairement à ce que l'on entend souvent, ce n'est pas un langage de programmation.
A ce titre, le HTML se contente de décrire les structures logiques d'un document : le texte, les titres, les images. En font également partie les liens, chapitres, sections, listes, tableaux, feuilles de style, éléments multimédias.
Pour donner à un fichier HTML une portée dépassant les limites du texte pur, cette description du document doit être interprétée. Pour cela, il faut un navigateur. C'est lui qui se chargera d'afficher à l'écran les différents objets en fonction de leur signification.
Un fichier HTML se compose de texte pur, dit ASCII, ce qui le rend indépendant de la plateforme qui va le recevoir. Une page Web peut donc être lue sur un PC, un Mac, un poste de travail Linux, UNIX ou n'importe quel ordinateur connecté à l'Internet. Seul le navigateur est dépendant de la plateforme.

 

Les navigateurs

Les deux navigateurs ou "browsers" les plus répandus sont Internet explorer et Netscape communicator. Gratuit et téléchargeable depuis le web, chacun s'accompagne d'une suite logicielle permettant - outre la navigation - le traitement du courrier électronique et la création de pages web. Ils sont généralement livrés avec des extensions autorisant la lecture d'éléments multimédias ou autres : plug-ins pour lire les sons et les vidéos (Winamp, Windows Media Player, Real audio...), les animations (Shockwave et flash), les instructions utilisant du java.
Il n'est jamais inutile d'avoir plusieurs navigateurs, que ce soient des programmes concurrents et/ou différentes versions du même programme, pour tester ses documents. D'abord parce que les pages peuvent s'afficher différemment selon le browser utilisé et ensuite parce que tous les internautes ne suivent pas le rythme soutenu des nouveautés et des mises à jour. A titre indicatif, il faut savoir que la dernière version de IE "pèse" 70 Mo et celle de Netscape 19 Mo ! Bon courage à ceux qui ne possèdent pas le câble ! D'ailleurs, les nouvelles versions ne sont pas forcément les meilleures, les versions dites "bêta" (à l'essai avant d'éventuelles corrections) et les premières versions finales sont truffées de bogues et plus le paquet est volumineux et plus il y en a. En outre, la majorité des internautes ne peut s'aligner du jour au lendemain sur le nouveau standard HTML. Il n'est pas possible de modifier 50 millions de pages en quelques semaines ; pages qui ne seront d'ailleurs probablement jamais mises à jour.

C'est pourquoi, afin de satisfaire le plus grand nombre, mieux vaut s'assurer du bon affichage de sa page sous les deux principaux navigateurs, dans des versions intermédiaires.

 

L'interprétation des documents

A la base, les disparités d'affichage d'une page HTML tiennent à l'interprétation qu'en fait le navigateur.

Plusieurs possibilités :

  • la version du HTML est trop récente et le navigateur ne sait pas interpréter certains codes.
  • pour des raisons essentiellement commerciales, le navigateur ne peut lire un code spécialement " créé " pour son concurrent.
  • l'interprétation n'est pas une " science exacte ". La qualité et la justesse d'affichage dépendent aussi du bon vouloir ou des caprices d'un navigateur.

 

Les logiciels de traitement de textes

Cela fait beaucoup de paramètres, que l'on ne maîtrise pas forcément et qui sont capables de perturber la mise en forme d'une page web.
C'est pourquoi plus le code est " propre ", plus on aura de chances de voir le document apparaître conforme à ce que l'on souhaite. Autrement dit, moins on met d'intermédiaires entre le texte de base et sa transformation en HTML, moins le résultat est aléatoire.

A l'heure actuelle, les traitements de textes fournissent une commande permettant de convertir un document au format Web. Pour cela, ils utilisent un filtre de leur crû dont les performances laissent la plupart du temps à désirer.
(cliquez les noms des logiciels pour voir les résultats de la convertion).

  • Word (version 97) de Microsoft transforme d'office les tableaux d'un document en image gif et l'affuble d'un nom qu'il a lui-même choisi. C'est aussi le cas du logiciel de mise en page Publisher.
  • Wordpro de Lotus (édition millenium) dédouble les listes à puces.
  • Wordperfect de Corel (version 7.5) impose le fond gris.
  • StarOffice

Ce ne sont là que quelques exemples. Plus généralement, chaque filtre de traitement de textes alourdit le code et accentue les probabilités d'erreur d'affichage.

En conclusion, le plus sûr est encore de travailler sur du texte pur, que l'on met en forme par la suite, dans un éditeur HTML prévu à cet effet.

 

Les outils de développement HTML

On peut classer les utilitaires HTML en trois catégories :

  • Les weboffice, outils rudimentaires évoqués ci-dessus, sont les filtres et autres assistants livrés avec les traitements de textes. Il ne faut pas en attendre grand-chose. Ils ne connaissent qu'une infime partie de la version HTML courante.
  • Les éditeurs de texte ont la préférence des concepteurs de pages web car ils permettent de travailler directement le code. La maîtrise du document et de sa mise en forme n'en est que plus grande. Cette méthode suppose cependant une bonne connaissance du langage HTML.
  • Les éditeurs HTML, contrairement aux filtres, ne convertissent pas les documents existants mais facilitent la création directe grâce à diverses fonctions intégrées. L'une de leurs principales qualités est leur fonctionnalité WISIWYG : What you see is what you get - ce que vous voyez est ce que vous obtenez.
    Les modèles haut de gamme offrent le confort des menus et des barres d'outils, des macros, des modèles et des assistants d'aide à la création. En outre, ils permettent l'accès au code et fournissent un navigateur interne pour visualiser les évolutions de la mise en page ; cependant ce dernier est peu fiable. Il vaut mieux appeler sa page directement dans IE ou Netscape pour avoir une idée plus juste du résultat.

Un bon compromis consiste à posséder un éditeur HTML WISIWYG pour dégrossir le travail et un éditeur de texte pour garder la mainmise sur le code.

 

Petit historique du langage HTML

Le World Wide Web Consortium (W3C) basé à Genève, lui-même issu de la World Wide Web Organisation (W3O), est depuis toujours à l'origine de la norme HTML et du réseau mondial que l'on appelle le Web.
En 1991, le W3C présente HTML 1.0 ; langage très simple mais indépendant, donc capable de s'exécuter sur pratiquement tous les ordinateurs. Cette version ne permet de créer qu'un système " hypertextuel " capable de contenir, outre du simple texte et des graphiques, des liens hypertexte, donc des renvois à d'autres documents. Elle prévoit déjà la définition d'éléments de structuration comme les titres, listes et chapitres.
La version 2.0 du HTML ne fait son apparition qu'en 1995, intégrant essentiellement les particularités du navigateur Mosaïc. Il introduit bon nombre de possibilités de mise en page comme les en-têtes, les lignes de titre, les différents niveaux de titres mais aussi les liens hypertexte, mises en relief, instructions permettant une insertion flexible de graphiques, tableaux, listes et formulaires.
Peu après la version 2.0, le standard 3.0 est adopté par le W3C sans faire l'unanimité. Ce n'est qu'en 1996 que ce dernier peut présenter la version 3.2. Cette nouvelle mouture, réalisée en collaboration avec des sociétés comme Novell, Microsoft, Netscape, SoftQuad, Sun Microsystems, prend en charge :

  • les tableaux avec présentation structurée des documents
  • la taille des couleurs et des polices
  • la mise en exposant ou en indice des caractères
  • l'agencement de texte autour des images
  • l'insertion des applets Java et des Javascripts

Le nouveau standard HTML 4.0 inclut notamment différentes résolutions, des attributs de couleurs, des possiblités de saisie et d'affichage plus flexibles (par exemple naviguer à l'aide des touches), des commandes vocales et des informations sonores. Un autre aspect important est l'internationalisation. Il est par exemple possible désormais d'utiliser les accents français. Selon ce nouveau standard, l'internationalisation ne dépend plus de la prise en charge de ces caractères par le système d'exploitation. HTML 4.0 contient aussi une série de nouveaux éléments et extensions pour la création de tableaux, pour l'utilisation de feuilles de style qui définiront la présentation d'un document web.