Logo Inria
Recommandations sur les formats d'échange de documents

Moyens Informatiques INRIA

Version 3

Date de dernière modification: 2 décembre 1999

Ont contribué plus particulièrement à la réalisation de ce document : Denis Buffenoir, Florence Codet, Bertrand Decouty, Mathias Herberts, Didier Lamballais, Philippe Louarn, Laurent Mirtain, Luc Ottavj, Laurent Pierron, Christian Rossi, Karl Tombre.

Ce document donne quelques recommandations sur la manière de transmettre des documents lisibles par tous, sous forme électronique via le réseau Internet. Il s'adresse aussi bien aux utilisateurs néophites qu'aux plus avertis.

Pour toute critique, correction, suggestion, encouragement : Laurent Mirtain ou Bertrand Decouty


Tables des matières


Introduction

Le principe de base de l'échange de documents est d'utiliser un format de document dont on est sûr que le ou les destinataires disposent de l'outil qui permet de le visualiser.

Il existe deux approches selon que le document est diffusé pour consultation seulement ou pour être modifié par ses interlocuteurs. Dans le premier cas, il suffit d'utiliser un format qui contienne le texte -éventuellement les images- et les informations de mise en page (police de caractère, tailles, poids...), dans le second cas il faut utiliser un format qui permette d'accéder au « source » du document pour pouvoir en modifier aussi bien le contenu que la mise en forme.

Selon le cas, on optera donc pour des formats différents :


1   Diffusion de documents pour consultation Table des matières

Par consultation on entend : lecture seule du document, pas de modification à y apporter directement. C'est le cas des documents mis à disposition sur un site Web ou sur un site ftp public, ou envoyé pour information à une communauté d'usagers (exemples: compte-rendus).

Ce mode ne s'applique donc pas aux documents transmis pour avis et dont le destinataire est susceptible de le modifier puis le renvoyer à l'expéditeur. Ce mode est décrit à la rubrique "édition coopérative"

Pour diffuser un document, cinq formats sont envisageables : texte, PDF, PostScript, HTML et DVI (sans compter SGML, XML etc.).

1.1   Texte

Dans le cas où il ne s'agit pas d'un document avec un formatage élaboré, on peut envisager de le diffuser sous un format texte. On utilise dans ce cas les éditeurs intégrés dans les outils de courrier électronique ou de forum ou un éditeur externe dédié (Emacs). Dans le cas d'un traitement de texte, il faut, lors de la sauvegarde du document [Sauvegarder/Enregistrer sous], sélectionner l'option de format texte.

1.1.1.  Générer un document texte avec Word sous Windows 95/NT 4.0

Le format texte fait partie des formats proposés dans le menu  Fichier->Enregistrer sous.... Vous avez le choix entre Texte seulement, Texte seulement avec sauts de ligne, Texte avec mise en page à choisir selon votre besoin.

1.1.2.  Générer un document texte avec FrameMaker

Dans le menu Fichier->Sauvegarder sous... choisir le format Texte seulement...

1.1.3.  Générer un document texte depuis un document LaTeX

Utiliser des outils tels que detex, delatex ou l2a qui enlèvent les commandes TeX d'un texte. La commande dvi2tty essaie de préserver la structure (sections, sous-sections listes... sommaire) du document dvi initial.

1.1.4.  Générer un document texte depuis un document PostScript

Sous UNIX, les commandes ps2ascii et pstotext (qui marche aussi avec du pdf) permettent d'extraire la partie texte d'un fichier PostScript.

1.2   PDF

Le format PDF (Portable Document Format), développé par Adobe, est un format de présentation de documents, plus que d'impression. Il a pour but de faciliter le transfert de documents entre plate-formes différentes. Sa description est disponible gratuitement sur le web.

Le logiciel de lecture de fichiers PDF (Acrobat Reader -acroread-) est universel ( disponibilité gratuite du lecteur d'Adobe pour quasiment toutes les plateformes du marché) et plus facile à utiliser que la série des GhostScript/GSview/GV. Les documents sont lisibles à l'écran (zoom, mode plein écran, liens hypertextes, ...) ce qui évite d'imprimer systématiquement.

Avantages de PDF par rapport à PostScript :

Si la lecture d'un fichier PDF est gratuite, en revanche sa création nécessite soit d'acheter le produit Adobe Acrobat, soit d'utiliser le logiciel libre GhostScript dont les dernières versions (au 4 avril 1998, la dernière version est la 5.10) supportent le format PDF. Le principe de création d'un fichier PDF est de distiller un fichier PostScript.

1.2.1.  Générer un document PDF à partir d'une application Windows (95 ou NT)

Il faut procéder en deux étapes: Cependant, il existe, pour un usage courant, une méthode plus directe qui consiste à utiliser l'imprimante fictive de nom PDFWriter, qui génère directement, en une seule étape, le fichier PDF. La principale différence entre cette solution et la précédente est que vous n'avez pas accès à tous les paramètres de création du fichier (compression des images en particulier). Mais pour convertir un document simple, c'est la méthode à utiliser. PDFWriter fait partie de la livraison d'Adobe Acrobat et s'installe automatiquement.

Adobe Acrobat inclut  des macros pour Word et Excel permettant d'insérer la commande « Create Adobe PDF » (Créer un fichier PDF Adobe) dans leur menu Fichier. Le choix de cette commande active le gestionnaire PDFWriter, crée le fichier PDF, puis revient au gestionnaire d'imprimante précédemment en service. Pour Word97, une autre macro (PDFMaker) est disponible sur le web, permettant une création automatique de liens et de signets (signets sur en-tetes de paragraphes, liens hypertexte sur URL, références croisées, etc.)

1.2.2.  Générer un document PDF avec FrameMaker

Utiliser la commande "Fichier->Imprimer...". Cliquer dans les options "Imprimer sur fichier:" et "Générer les données Acrobat" (qui permet d'initialiser les signets ou bookmarks), puis convertir le fichier PostScript obtenu en format PDF suivant la méthode expliquée en 1.2.3.

La version 5.5 génère directement du PDF (utilisation transparente du distiller).

1.2.3.  Générer un fichier PDF à partir d'un fichier PostScript

L'outil Acrobat Distiller (payant) permet de convertir tout document PostScript au format PDF. On peut également générer du PDF gratuitement avec Ghostscript. Sous UNIX, la commande (fournie avec GhostScript) ps2pdf (et sa soeur pdf2ps) permet de passer d'un format à l'autre.

1.2.4.  Générer un fichier PDF à partir d'un fichier (La)TeX

En plus de la possibilité de passer par PostScript, on peut tester des outils qui commencent à être disponibles, tels que tex2pdf (modification du moteur TeX) ou dvi2pdf. Ces outils nécessitent malgré tout d'avoir un générateur de PDF (ps2pdf ou le distiller d'Adobe)

1.3   PostScript

PostScript est un langage de description de page, conçu par Adobe en 1985, largement utilisé dans le domaine de la production de documents et de la typographie. C'est principalement un langage destiné à l'impression de documents, plus qu'à leur affichage.

S'il s'agit de diffuser un document avec un formatage élaboré, PostScript présente les avantages suivants :

Par contre, à l'inverse de PDF, on ne peut pas copier le texte PostScript affiché à l'écran pour le coller dans une autre application. On peut dans certains cas le récupérer, mais sans aucune information de style. Voir 1.1.4.

Le principe d'indépendance de PostScript envers le dispositif de reproduction a malheureusement volé en éclat avec l'arrivée en masse des micro-ordinateurs et de modèles d'imprimantes. Ainsi, sur ces plateformes, les pilotes (drivers) d'impression génèrent souvent un fichier PostScript optimisé pour l'imprimante utilisée, en incluant par exemple les commandes de sélection de bacs, de papier, ou de résolution d'impression. Ces mêmes pilotes génèrent aussi un fichier PostScript dont le niveau (1, 2 voire maintenant 3) est adapté à l'imprimante. Ainsi un fichier PostScript niveau 2 sera généré si on utilise le pilote pour la série des imprimantes HP4 ou HP5, mais il ne s'imprimera pas sur une vieille imprimante PostScript niveau 1, du type Apple LaserWriter.

Ces fichiers PostScript peuvent parfois inclure ces commandes dans un langage n'ayant rien à voir avec PostScript. C'est en particulier le cas pour les imprimantes Hewlett-Packard à partir d'une plateforme Windows (utilisation de PJL [Printer Job Language], d'origine HP). Naturellement, ces commandes génèreront une erreur sur toute imprimante autre que HP!

Enfin, à partir de Windows, il faut savoir qu'un pilote pour imprimante monochrôme génèrera un fichier PostScript noir et blanc. Pour conserver la couleur, il est impératif d'utiliser un pilote pour une imprimante couleur (Tektronix, Lexmark, QMS, etc.)

Toutes ces considérations font que la transmission d'un fichier PostScript d'origine micro-ordinateur n'est plus du tout une solution recommandable aujourd'hui. Si les outils d'affichage vous montreront bien le contenu du document (ils rejettent la plupart des commandes qui ne leur sont pas destinées), en revanche votre imprimante PostScript a de fortes chances de refuser de les imprimer ! Si vous voulez néanmoins utiliser ce format, installez le pilote pour une imprimante de référence, par exemple : Apple LaserWriter (une des premières imprimantes PostScript disponible sur le marché). Ensuite, imprimez dans un fichier en utilisant systématiquement ce pilote.

UNIX : un shell script est disponible pour nettoyer les fichiers PostScript d'origine Windows. Ce script supprime les commandes susceptibles de nuire à une bonne impression du document sur une imprimante PostScript quelconque.

Il existe de nombreux logiciels permettant d'afficher du PostScript et ils sont disponibles sur les plates-formes les plus courantes : Macintosh, station Unix ou poste Windows, en particulier, les logiciels libres Ghostscript, GV/Ghostview (Unix) et Gsview (Windows).

Dernière recommandation: avant d'envoyer ou de mettre à disposition sur un site Web ou ftp un fichier PostScript, vérifiez qu'il est correct en le visualisant et/ou l'imprimant !

1.3.1.  Générer un document PostScript sous Windows 95/NT 4.0

Il faut déclarer une imprimante locale fictive de type « Apple LaserWriter » utilisant le port « FILE: ». Sous Word, il suffira d'imprimer le document sur cette imprimante pour créer le fichier PostScript. Word insiste pour créer le fichier avec l'extension « .prn », il faudra la changer en « .ps » avant de transmettre le document. Pour éviter que l'extension « .prn » se rajoute systématiquement, sélectionner l'option « Tous les fichiers (*.*) » dans « Type de fichier » et enregistrer le document en lui mettant le suffixe « .ps », pour que le type de document, déterminé en fonction de son suffixe, soit correct.

Sous Excel, la boîte de dialogue d'enregistrement du fichier est différente : l'extension « .prn » n'est pas systématique, mais il est impossible de choisir le dossier où l'on veut enregistrer le fichier sauf en donnant le chemin complet.

S'il s'agit d'un document couleur, il est impératif de déclarer une imprimante fictive couleur, mais le PostScript risque alors d'inclure des directives spécifiques à ce type d'imprimante.

Vous pouvez aussi utiliser votre imprimante habituelle en cliquant sur la case Imprimer dans un fichier. La couleur n'est rendue que si l'imprimante est un modèle couleur.

De plus, si une page de garde est habituellement imprimée, vous la retrouverez dans le fichier PostScript produit !

1.3.2.  Générer un document PostScript sous FrameMaker

Utiliser le choix "Fichier->Imprimer..." et cliquer dans l'option "Imprimer sur fichier:". Le nom du fichier doit contenir l'extension « .ps ».
ATTENTION : au moment de l'impression, le fichier PostScript d'origine FrameMaker insiste pour s'imprimer sur le même format de papier que celui qui celui utilisé pour sa création. C'est pourquoi il est parfois difficile d'imprimer en France les documents américains, qui utilisent le format Letter.
Le message imprimé sur le papier est le suivant :
Can't select requested paper size for Frame print job!
(fichiers d'origine FrameMaker version 4.x) ou
The requested paper size is not available in any currently-installed tray
(fichiers d'origine FrameMaker version 5.x).
D'autre part, les documents en mode paysage (landscape) s'affichent mal avec ghostview/GV (partie droite tronquée).

SOLUTION : utilisez la commande fixfm5 (shell script Unix) qui supprime du fichier le test sur la taille de papier disponible (et peut transformer, par la même occasion, le fichier PostScript en un fichier EPSF [Encapsulated PostScript]).

1.3.3.  Générer un document PostScript depuis LaTeX

La commande Unix "dvips -o fichier.ps fichier.dvi" convertit un fichier TeX DVI au format PostScript .

1.4   HTML

HTML (HyperText Makup Language) est le langage utilisé pour la diffusion de documents par les serveurs Web. C'est un langage normalisé par le consortium W3C  et qui est issu du langage SGML (dont il est une définition de type de document), lui-même un standard ISO (ISO 8879:1986).

Un fichier HTML est visualisable par un logiciel de navigation Web (browser). Ces logiciels sont nombreux, disponibles pour toutes les plates-formes et la plupart du temps gratuits. On peut donc envisager d'utiliser HTML comme format d'échange. Cependant évitez de l'utiliser comme format par défaut pour le courrier électronique et les forums de discussion. Ce choix par défaut est normalement paramétrable depuis votre outil de messagerie électronique. Pour le logiciel Netscape Communicator, ce paramètre est accesible à partir du choix "Edit->Preferences", puis "Mail&Groups->Messages", boite "Message properties".

Le format XML (Extensible Markup Language), développé sous contrôle du W3C, commence à pointer et on peut penser qu'il devienne prépondérant dans les années à venir. Schématiquement, il consiste en un sous-ensemble de SGML prévu pour être plus simple à analyser.

Pour la création de documents ou pages Web il est préférable d'utiliser un éditeur HTML spécialisé plutôt que d'écrire du code HTML. On peut aussi composer son document avec son traitement de texte préféré (LaTeX, Word, FrameMaker, PowerPoint, Excel, etc...) et le convertir au format HTML.

1.4.1.  Générer un document HTML avec Word sous Windows 95/NT 4.0

Word 97 : le format HTML fait partie des formats proposés dans le menu "Fichier->Enregistrer sous...". Il y a aussi  l'accès direct "Fichier->Enregistrer au format HTML...".

Word 95 : il faut installer l'assistant Internet pour Word.

ATTENTION : le code html produit par Word est codé windows-1252, qui est un sur-ensemble de l'ISO8859-1. En particulier, il est susceptible d'inclure des caractères non affichables sur toutes les plateformes. Ceci concerne notamment les caractères quote-droite et quote-gauche (ressemblant aux accents aigu "'" et grave "`", et utilisé, pour la quote-droite, à la place de l'apostrophe), oe et OE collés, qui se trouvent dans les positions 128-159 du jeu de caractères Windows. Un exemple est donné ici (pas encore prêt). Avec la version Sun/Solaris de Netscape Communicator (et très certainement avec toutes les versions X-Windows de Netscape Communicator), ces caractères apparaissent comme des "?".
Pour plus de détails sur l'internationalisation de HTML, on lira ce document.
L'article de Jamie Zawinski <jwz@netscape.com> (il a depuis quitté Netscape Corp.) paru dans les news le 18 décembre 1997 explique très bien le problème en comparant les jeux de caractères Latin-1 (utilisé sur les plateformes Unix), CP-1252 (Windows) et MacRoman (Macintosh).
Un script shell Unix (win2iso) permet de remplacer certains de ces caractères par une approximation lisible partout.

Une façon de ne pas produire de tels caractères est d'invalider le remplacement automatique des guillemets " par des guillemets « ». Ceci se fait de la manière suivante, testée avec Word97/PC :

1.4.2.  Générer un document HTML avec FrameMaker.

Passer par un convertisseur extérieur (fm2html, fm2web) ou par celui intégré à FrameMaker à partir de la version 5.5 (Menu "Fichier->Sauvegarder sous...").

1.4.3.  Générer un document HTML depuis un fichier LaTeX

Utiliser un convertisseur LaTeX vers HTML ( latex2html). Il existe aussi Hyperlatex, un autre package de conversion de LaTeX vers HTML. Dans l'autre sens il y a Html2latex.

1.5   DVI

Un fichier DVI (DeVice-Independent) est le résultat de la compilation d'un fichier TeX. C'est un format intermédiaire destiné à être transformé par un programme pilote DVI en un fichier affichable à l'écran (de type PostScript ou PDF) ou envoyé à une imprimante. Le programme X-Windows xdvi permet cependant d'afficher directement un fichier DVI à l'écran.
Pour visualiser un fichier DVI, il est indispensable d'avoir une installation du progiciel TeX/LaTeX, ce qui n'est pas quelque chose de trivial. 

2   Travail à plusieurs sur un même document Table des matières

La recommandation, dans ce cas, est que l'ensemble des intervenants travaillent en utilisant le même format de document.

2.1   Édition coopérative avec Word

Au fur et à mesure des nouvelles versions, le format des documents produits par Word a évolué. C'est le cas de la dernière version de Word (Word97), qui utilise un format différent des versions précédentes (Word 6.0/95).

À noter que Word97 n'est pas (encore) disponible pour Macintosh, et que la dernière version de Word (incluse dans Office 4.2.1 pour Macintosh) est la 6.0.1. Office98 pour Macintosh vient cependant d'être annoncée.

Il est donc recommandé de s'enquérir de quelle version de Word disposent vos interlocuteurs.

Word97 intègre un convertisseur permettant de sauvegarder un document dans le format Word 6.0/95. Il est appelé automatiquement lorsque vous utilisez le menu "Fichier->Enregistrer sous..." et que vous spécifiez comme "Type de fichier : Word 6.0/95". C'est d'ailleurs ce que vous conseille de faire l'assistant de Word97.

Cependant, la conversion n'est pas sans conséquences : (extrait de l'aide de Word 97)

« Les listes hiérarchisées et la numérotation automatique des titres sont converties en texte ordinaire mais conservent leur aspect. »

Ce qui signifie concrètement que l'on perd la fonction de numérotation, donc on ne peut pas travailler de manière transparente sur un même document avec les deux versions d'Office différentes.

ATTENTION : ce problème n'est pas visuellement décelable, il faut se positionner sur une numérotation et se déplacer caractère par caractère. (NDLR : La difficulté de faire de l'édition coopérative avec Word montre bien que ce n'est pas l'outil universel qu'on a tendance à croire).

Une documentation plus complète sur la conversion Word 97 vers Word 6.0/95 est disponible ici, La dernière version de ce convertisseur est disponible dans ce document. D'autres convertisseurs sont accessibles à partir de cette page.
 

2.2   Édition coopérative avec FrameMaker

La seule contrainte est au niveau des versions : il n'y a pas de compatibilité descendante. Dans ce cas, il faut utiliser le format MIF (Maker Interchange Format). Certaines fonctionalités de la version 5 sont bien évidemment perdues à l'ouverture dans la version 4.

2.3   Édition coopérative avec LaTeX

Il n'y a aucune difficulté de fond pour travailler ensemble en LaTeX. C'est d'ailleurs un des très grands avantages de la famille TeX. Certains points à noter toutefois :

2.4   Conversions de formats

Dans le cas où le correspondant ne dispose pas du même traitement de texte, il est encore possible de sauvegarder le document dans un format pivot, commun aux deux (ou plus) logiciels. Par exemple SGML, bientôt XML (?), RTF (Rich Text Format) ou MIF (Maker Interchange Format). Ces formats conservent les informations relatives au texte, aux graphiques et à leur mise en page avec un minimum de dégradations (on perd généralement les parties concernant les fonctions avancées du logiciel).

Il se peut également que votre traitement de texte puisse importer des documents issus d'un autre logiciel, mais bien souvent il s'agit des formats d'anciennes versions ou bien il permet juste d'inclure le fichier mais vous ne pouvez pas modifier le texte. Enfin, il existe parfois des convertisseurs d'un format vers un autre. Ceux qui vous seront les plus utiles :


3   Pour résumer

L'application de ces quelques principes par vous-même et par vos interlocuteurs devrait éviter tout problème pour transmettre et visualiser un document.

Montrez l'exemple, mais n'hésitez pas non plus à réclamer de la part de vos correspondants le respect de ces mêmes règles.

Pour résumer :

Pour plus d'information sur les outils mentionnés dans ce document et leur disponibilité, veuillez vous mettre en rapport avec les moyens informatiques de votre centre.

4   Comment transmettre un document ? Table des matières

4.1   Par le mail ou les news

La messagerie sur Internet ne permet de transporter de manière fiable que du texte codé au format ASCII, pour la rendre très interopérable. Le protocole MIME (MultiPurpose Internet Mail Extension) a été introduit pour dépasser ces limites du codage et faciliter l'attachement de documents de formats divers à des messages électroniques.

MIME est un standard multi-plateforme qui règle les problèmes d'échange entre platesformes hétérogènes. Son rôle est de décrire pour chaque partie du message la nature des données transportées (texte, images, son, vidéo, application...), le format de ces données (gif, mpeg, html, postscript, PDF....) et le type de codage qui a été utilisé pour transformer le format initial en un format « transportable » par la messagerie (base64, uuencode...).

La plupart du temps, les logiciels utilisent l'extension du nom du fichier pour déterminer la nature des données (champ « application/type » de MIME) et, à chaque type (« application/postscript » pour PostScript, « image/gif » pour une image gif, « application/msword » pour un document Word, ...), associent une méthode correspondante (un programme) pour visualiser les données.

De plus en plus d'outils de messagerie utilisent MIME (Eudora, NetscapeMail, elm, Emacs-vm...) soit par défaut, soit en le précisant lors de la configuration (Eudora). Mais il arrive encore trop souvent que certains ne l'utilisent pas.

Quelques principes à respecter :

4.2  Par des pointeurs

Chaque fois que possible stockez vos documents dans un espace accessible par les destinataires et par eux seuls (serveurs web, afs, ftp) et transmettez des pointeurs (URL...) plutôt que des documents eux-mêmes. N'oubliez de mettre les bons droits d'accès aux documents !

4.2.1.  Par le Web

Le Web permet de rendre accessible de manière simple des documents HTML, PostScript ou PDF. Les navigateurs Web (Netscape et autres) savent reconnaître ces formats et d'autres encore et appeler l'application, si elle est installée, qui permet de les visualiser (soit sous la forme de l'appel à un programme extérieur soit en appelant un programme intégré appelé plug-in).

4.2.2.  Par ftp

Vous pouvez prendre contact avec l'administrateur ftp de votre site pour qu'il vous attribue un espace de distribution sur le serveur ftp anonyme de votre site. Il sera alors accessible à tout le monde.

Il est possible de faire des accès authentifiés sur les serveurs ftp distants, alors l'ensemble des destinataires devra être enregistré sur le serveur, cette procédure n'est pas généralisable à l'ensemble des utilisateurs de tous les sites.

Plutôt que de déposer le document sur votre serveur vous pouvez le déposer sur le serveur de votre correspondant sans y être enregistré, en effet, les sites INRIA ont mis en place sur leurs serveurs ftp des espaces cachés accessibles en écriture en ftp anonyme.


5   Références Table des matières

Les références au site www-interne.irisa.fr sont d'un accès restreint à la communauté Inria.
Production de documents à l'IRISA
http://www-interne.irisa.fr/atelier/logiciel/proddoc.html
(La)TeX Navigator - le monde (La)TeX et tous les outils associés
http://www.loria.fr/tex/
FrameMaker
http://www-interne.irisa.fr/info/FrameMaker/Welcome.html
Word
http://www-interne.irisa.fr/info/word/
HTML
http://www.w3.org/MarkUp/
http://www.imag.fr/Multimedia/miroirs/manuelhtml/manuelhtml.html
SGML
http://www-tei.uic.edu/orgs/tei/sgml/teip3sg/index.html
XML
http://www.w3.org/XML/
Adobe Acrobat - PDF
http://www.adobe.fr/products/acrobat (en français)
RTF
http://www.primate.wisc.edu/software/RTF/
Convertisseurs (La)TeX
http://www.kfa-juelich.de/isr/1/texcnven.html
Convertisseurs HTML
http://www.w3.org/Tools/Word_proc_filters.html
Le courrier MIME
http://www-rocq.inria.fr/sir/Mail/mime.html
World Wide Web Consortium (W3C)
http://www.w3.org/