Le registre ReLIRE se présente comme une solution alternative à Google et d'autres sociétés qui « ont tendance à confondre production culturelle et contenus exploitables
», soulignait Alain Absire, président de la Sofia. Le projet a
également pour vocation de prévenir une exception, qui se place au
niveau européen, et autoriserait les bibliothèques à numériser les œuvres indisponibles. Le président évoque alors une « expropriation des droits des auteurs », puisque les livres seraient mis en accès gratuit pour les internautes.
Les conditions de numérisation des œuvres pour le projet
ReLIRE, qui vise la numérisation des œuvres indisponibles du XXe
siècle, sont déjà connues. La Sofia avait diffusé un document en septembre 2013, pour en préciser les contours et les modalités.
La qualité de la numérisation et l'exactitude des données devront répondre aux exigences techniques les plus hautes ;- l'exploitation pourra se faire en mode texte (aux formats epub, xml, html…) et/ou en mode image (aux formats PDF image, PNG…) ;- le livre devra a minima être disponible dans un format non propriétaire, sur une pluralité de canaux de vente représentatifs ;- chaque livre devra être commercialisé à l'unité et dans son intégralité auprès des particuliers. Il pourra être commercialisé auprès des collectivités ;- des mesures techniques de protection seront mises en place pour assurer l'accomplissement des modalités d'exploitation prévues par la licence, dans le respect des droits et des intérêts légitimes des ayants droit.
Au cours de sa présentation, Régis Habert, chargé
de mission livres indisponibles du XXe siècle, pour le Cercle de la
Librairie, à qui a été confiée la constitution de la société de projet,
est revenu sur cette problématique qualitative et technique. Les œuvres subiront une numérisation homothétique, autrement dit, le
produit de la numérisation sera identique à la version papier. Deux
formats seront proposés :
- ePub pour les documents textes (littérature, essais, …) – qualité éditoriale (OCR à 99,999%) Format prioritaire pour la SDP
- PDF pour les documents à mise en page structurée avec couche texte cachée (OCR à 99,50 %)
Une erreur par page après numérisation
Le rythme de numérisation doit être de 1000 œuvres par
semaine, pour parvenir au nombre de 50.000 par an, et l'ensemble de
cette réalisation durera neuf années, avec un financement qui
aujourd'hui est prévu pour 200.000 livres. Or, une double interrogation
se pose :
L'explication est simple : pour la constitution des fichiers EPUB, « la relecture humaine a un coût, qui aujourd'hui n'est pas prévu ». Autrement dit, les fichiers EPUB seront délivrés bruts de décoffrage. Alain Absire souligne : « Il n'y a pas de relecture, puisqu'il n'y a pas d'épreuves. » Avant d'ajouter que l'on devrait arriver à un seuil maximum « d'une erreur par page ». Autrement
dit, un mot par page qui serait erroné, après la numérisation, et le
passage par la reconnaissance optique de caractère, en vue de
transformer le fichier image en fichier texte. Un maximum, insiste le
président de la Sofia, « tout à fait acceptable ».
« C'est intolérable », entend-on alors dans la salle.
Christian Roblin, directeur de la Sofia, interviendra pour tenter une meilleure explication. « En réalité, quand on a un fichier PDF, c'est une photo. Après, il y a des erreurs qui sont dans l'OCRisation [NdR : processus de passage du fichier image au fichier texte]
du texte pour la recherche par mot. Mais quand vous accédez à la photo,
elle reproduit intégralement le texte que vous avez sous les yeux.
Donc, il n'y a pas d'erreur. En tout cas, pour le PDF, il n'y a pas
d'erreur. »
Selon lui, on peut trouver « une petite erreur dans le fichier cache », mais attendu que l'on effectue une recherche par mot clef,
« il y a de très fortes chances d'accéder au texte, malgré cette petite
erreur. Mais vous aurez, dans le fichier PDF, un respect intégral de
l'oeuvre telle qu'elle apparaît ».
« Une erreur par page, sur un livre numérisé qui a
déjà été édité, et qui a donc déjà été corrigé a priori (au XXe siècle,
il y avait encore des correcteurs chez les éditeurs) ! Donc en fait,
leur numérisation ne va pas laisser un mot erroné par page, mais va
ajouter un mot erroné par page depuis un livre qui n'en contenait pas a
priori », souligne un éditeur numérique.
A la recherche du droit moral
On se réfugierait volontiers vers le Code de la propriété
intellectuelle pour rétorquer que le droit moral semble quelque peu mis à
mal. En effet, l'article L121-1 souligne que « L'auteur jouit du droit au respect de son nom, de sa qualité et de son oeuvre ».
A ce titre, une numérisation qui contiendrait une erreur par page -
sans compter celles que le livre pourrait déjà contenir en soi, est
assez peu compatible avec le fait même du respect de ce droit moral, et
du respect de l'oeuvre.
[Illustration : CC BY SA 2.0 - source : www.actualitte.com]
Sem comentários:
Enviar um comentário