Table des matières

Les différents formats de documents ouverts

OpenDocument


OpenDocument: Avantages

OpenDocument: Inconvénients


OpenDocument: Éditeurs libres

Installation de Abiword:

sudo apt-get install abiword

OpenDocument: Références



 : Avantages


 : Inconvénients


Distributions de

Installation de TeX Live (attention, prévoir environ 3 Go de données et 1h !):

sudo apt-get install texlive-full

 : Éditeurs libres


 : Références


Markdown


Markdown: Éditeurs libres


Markdown: Références


DocBook

DocBook: Références


Pandoc

Pandoc est un outil et une librairie écrit en Haskell qui permet de convertir des documents entre plusieurs formats ouverts.

Il y a aussi une librairie très utilisée par plusieurs autres logiciels. Si votre éditeur permet d'exporter votre travail dans une multitude de formats, c'est probablement du à Pandoc.

Pandoc est multi-plateformes, mais certaines fonctionnalités peuvent être limitées. Par exemple, il faut avoir Microsoft Word ou LibreOffice pour produire des DOCX.

Installation

sudo apt-get install pandoc

Installation avec Cabal, pour avoir la version la plus récente:

cabal install pandoc

Pandoc: Formats d'entrée

Les formats d'entrée incluent:


Pandoc: Formats de sortie

Les formats de sortie incliuent:


Pandoc Markdown

Le Pandoc Markdown est un des formats d'entrée les plus vertatiles. Il s'agit d'une variante de Markdown supportant plusieurs fonctionnalités additionnelles.

Référence: Anthoring Pandoc Markdown


Pandoc Markdown: Blocs de lignes

Les blocs de lignes permettent de séparer le texte manuellement. Par exemple, pour les adresses:

Code:

| Centre de loisirs St-Louis-de-France
| 1560 Route De L’Église
| Québec, G1W 3P5

Résultat:

Centre de loisirs St-Louis-de-France
1560 Route De L’Église
Québec, G1W 3P5


Pandoc Markdown: Tables simples

Il faut spécifier l'extension +simple_tables

Code:

Droite    Gauche   Centre    Defaut
-------   ------ ----------  ------
     12   12        12          12
    123   123       123        123

Table:  Demonstration de la syntaxe des tables simples.

Résultat:

Demonstration de la syntaxe des tables simples.

Droite Gauche Centre Defaut
12 12 12 12
123 123 123 123

Pandoc Markdown: métadonnées

Les métadonnées permettent d'identifier le titre, l'auteur et la date dans l'entête du document. On utilise l'extension +pandoc_title_block

Code:

% Les formats de documents ouverts
% François Pelletier
% 25 novembre 2017

Pandoc Markdown: mathématiques

Pandoc permet de traiter les équations mathématiques saisies avec la syntaxe LaTeX à l'aide de différents outils tout dépendamment du format de document en sortie.

Les principaux outils utilisés sont MathML et AMS


Pandoc Markdown: mathématiques

On saisis les contenus mathématiques entre signes $ ou $$ pour les expressions multilignes.

Code:

$$
{\begin{aligned}/home/francois/nextCloud/LinuQ/20171025_pandoc/20171025_formats_ouverts
&\gamma _{ij}(x,t) \\ 
=&\sum _{k=1}^{N}\sigma _{ik}(x,t)\sigma _{jk}(x,t)
\end{aligned}}
$$

Résultat:

$$ {\begin{aligned} &\gamma _{ij}(x,t)
=&\sum _{k=1}^{N}\sigma _{ik}(x,t)\sigma _{jk}(x,t) \end{aligned}} $$


Produire des présentations facilement

Un exemple: cette présentation a été écrite avec le langage Markdown et exportée en PDF et en HTML avec Pandoc.

#!/bin/bash
pandoc -f markdown+simple_tables+pandoc_title_block \
 -t beamer -s presentation.md -o presentation.pdf
pandoc -f markdown+simple_tables+pandoc_title_block \
 -t slidy -s presentation.md -o presentation.html

Publier sur un wiki ou un site web

Il est aussi possible d'exporter le contenu d'un document vers la syntaxe dokuwiki, ce qui peut être très utile !

pandoc -f markdown+simple_tables+pandoc_title_block \
 -t dokuwiki -s presentation.md -o presentation.dokuwiki

Numériser un document papier: Simple Scan

Simple Scan est un logiciel de numérisation de documents qui s'utilise avec un numériseur à plat ou avec alimentation automatique. Il permet de créer des documents PDF facilement. Cette application est développée par le projet GNOME.

Source: GitHub: GNOME/simple-scan

Numériser un document papier: Tesseract

Tesseract est un logiciel libre de reconnaissance optique de caractères. Il est très utile pour extraire le contenu d'un document numérisé.

Installation:

sudo apt-get install tesseract-ocr tesseract-ocr-fra

Il faut au préalable préparer le document à la reconnaissance des caractères.


Exemple de document

doc-20171024-215135.jpg


Exemple de document (suite 1)

En utilisant ImageMagick, on peut aligner le document. On utilise ensuite Tesseract pour extraire le texte. On peut combiner les deux commandes en utilisant un pipe.

Code:

convert DOC-20171024-215135.jpg -deskew 40% jpg:- | \
 tesseract stdin -l fra -psm 1 DOC-20171024-215135

Exemple de document (suite 2)

Résultat:

Les pâtes Caielii Smari® soni une source trè:æ élevée
_ de fibres alimentaires. Voici une manièm déiicic‘sum
__ _‘3_/ d'augmenter votre apport en iihrea ei d'améliumr vuinî
£J’ alimentation. il suffit de préparer les pâtes Cai9iii Smart“
dela même manière que les pâtes ordinaires et de proiitg;
ensuite d'un goût exceptionneiiement savoureux. Voilà la umyun
d'obtenir plus de fibres pour toute la iamiiie.

Manipuler des documents PDF: pdftk

pdftk est un outil qui permet de manipuler des fichiers PDF. Il permet de:

pdftk a1.pdf a2.pdf cat output a1+a2.pdf
pdftk a1+a2.pdf cat 1 output b1.pdf
pdftk a1+a2.pdf burst

On peut ajouter une image en superposition en utilisant l'option stamp. Par exemple, pour identifier un document comme confidentiel.

Code:

pdftk presentation.pdf stamp confidentiel.pdf \
 output presentation-conf.pdf

Versionnement de documents

Il existe plusieurs logiciels de versionnement de code, dont git, qui peuvent aussi être utilisés pour versionner les documents avec un syntaxe en format texte, tels que markdown, et les formats Wiki. Cependant, il peut être difficile de versionner des documents de format OpenDocument ou PDF, car ils incluent de la compression de données ou des insertions binaires qui ne sont pas réversibles avec un outil tel que Pandoc.


Outils de versionnement

Une solution est d'utiliser un extracteur de texte. En voici quelques uns: