Lors de la conversion d’un ebook, mal formaté, il n’est pas improbable que votre convertisseur favoris retourne une erreur de codage. La cause est souvent un mauvais respect du codage en UTF-8. Qu’est-ce que l’UTF-8? Il s’agit d’un format de codage de caractères où chaque caractère ou graphème est représenté dans un répertoire universel. Ainsi, l’unicode (l’autre nom de l’UTF-8) permet une compatibilité avec toutes les langues et alphabets (notamment les langues asiatiques et le cyrillique. Le nombre de caractères supporté est assez impressionnant.
C’est aussi l’occasion de rappeler qu’aujourd’hui encore certains readers tels que le Kindle ne sont pas entièrement compatible avec le standard UTF-8. C’est un détail qui gêne rarement l’utilisateur européen mais pose des problèmes aux amateurs de russe ou de langues asiatiques. Du coup, il est nécessaire de passer par l’installation de hacks pour un support complet de ce format sur le Kindle 3. Allez Amazon, encore un petit effort…










5 commentaires
@nxD4n dit:
31 May 2011
Qui a dit œ?
Hervé dit:
31 May 2011
L’œ était déjà disponible dans les normes françaises avant qu’Unicode se généralise (ISO 8859-15 pour mémoire).
Mais je voulais dire que UTF-8 n’est pas l’autre nom d’Unicode mais une représentation des nombres associés à chaque caractère Unicode par un octet (8 bits), plus si nécessaire.
Il y a aussi UTF-16 (2 octets) et UTF-32 (4 octets). Pourquoi différentes représentations ? parce que les caractères latins ont un nombre bas, donc nos textes occidentaux sont plus compacts en UTF-8 alors que les textes russes et asiatiques qui sont en bout de tableau avec des nombres élevés ont une représentation plus compacte en UTF-16 ou 32.
nemolivier dit:
31 May 2011
Malheureusement, dans toute cette multitude, unicode n’intègre toujours pas le copyleft (qui signale les contenus non soumis au droit d’auteur). http://fr.wikipedia.org/wiki/Copyleft
(et puis j’en profite pour placer que le clavier azerty « classique » ne comporte pas tous les symboles nécessaires à taper (dactylo-typographier) en français… le bépo, si ! http://bepo.fr)
selyana dit:
2 Aug 2011
"Malheureusement, dans toute cette multitude, unicode n’intègre toujours pas le copyleft "
Faites une proposition pour l'ajouter au répertoire …
Par rapport à l'article:
Unicode = répertoire de caractères (plus de 2 millions en théorie) + des moyens de codage (UTF-8, UTF-16x, UTF-32) + des régles d'association / comptage / traitement de ces caractères + une représentation indicative de chacun de ces caractères
le répertoire c'est la liste qui dit que le caractère numéro 233 est la "lettre latine minuscule e avec accent aigüe"
UTF-8 c'est le codage qui dit que ce caractère 233 peut se stocker sous forme des 2 octets consécutifs 195 et 169
Unicode c'est tout ça plus des règles qui disent par exemple qu'il vaut mieux utiliser le caractère tout-fait "é" plutot que le caractère "e" additionné d'un caractère "accent aigue combinant"
jedaifou dit:
31 May 2011
Cet article relaie certaines confusion autour d'Unicode et d'utf-8…
Unicode est le standard qui définit le jeu de caractères "universel" qu'on souhaite utiliser dans le futur et qui attribue un index numérique à tous ces caractères, plus quelques règles sur les combinaisons de caractères ou l'inclusion de texte de droite à gauche.
UTF-8 n'est qu'une méthode de codage de ces index numérique sur une mémoire informatique binaire qui permet donc d'utiliser le jeu de caractère d'Unicode dans nos ordinateurs. C'est la plus répandue mais pas la seule de ces méthodes de codage.
Généralement les readers sont aujourd'hui parfaitement compatibles avec UTF-8 mais les polices de caractères qu'ils contiennent ne disposent pas de caractère pour tout Unicode ce qui n'est pas étonnant vu leur nombre cependant même des caractères relativement courants manquent (les anglais ne sont pas gênés, nous si et ne parlons pas des asiatiques…). Je rappelle qu'une police de caractère ne dépend pas de la méthode de codage utilisée (ASCII, latin-1, UTF-8, UTF-16, …), il s'agit seulement d'un fichier contenant les informations nécessaire pour dessiner des caractères à l'écran.