Debook

Epub > TEI — Debook délie un livre électronique (epub) pour essayer de reconstituer un texte cohérent en XML/TEI. Afin de constituer un corpus, il est parfois utile de partir de fichiers epub. Nativement, il s’agit de pages HTML, avec cet avantage relativement à un site web, que les pages ne comportent pas de navigations parasites, et que l’ordre est nscrit dans un fichier de configuration (epub/content.opf). Beaucoup d’attention a été prêté pour reconstituer la hiérarchie des chapitres, mais l’expérience enseigne, sur plusieurs milliers de fichiers, que les éditeurs restent très créatifs sur leurs structures HTML, et se préoccupent plus d’apparences que de structuration sémantique. La conversion demande donc toujours une vérification humaine, mais fait gagner du temps.

Partager cet article