Jean Guy Meunier, Le texte numérique : enjeux herméneutiques, revue en ligne Digital humanities quaterly , décembre 2018

, par valerie Marchand

Lu par Valérie Marchand

Références

Jean Guy Meunier, Le texte numérique : enjeux herméneutiques, revue en ligne Digital humanities quaterly , décembre 2018 : http://www.digitalhumanities.org/dhq/vol/12/1/000362/000362.html

Abstract

  • Abstract en ligne sur DHQ

"La numérisation des textes est omniprésente dans les humanités numériques. Elle semble se présenter uniquement comme une modification du support matériel : du texte sur papier au texte numérique. Mais elle fait plus que cela. La numérisation touche aussi le texte en tant qu’objet sémiotique. Or, les multiples opérations de cette technologie mettent en œuvre des décisions interprétatives qui ne sont pas sans affecter le texte sémiotique, c’est-à-dire celui qui se donne à lire et à analyser. En ce sens, la numérisation des textes n’est pas neutre. Elle est un moment important d’une herméneutique matérielle."

  • Abstract de la recension

On assiste aujourd’hui à une numérisation massive de documents textuels et au projet de construction d’une bibliothèque numérique universelle permettant un partage des connaissances et l’accès, où qu’on se trouve, à un patrimoine textuel de plus en plus riche. Jean Guy Meunier (Université du Québec à Montréal) montre dans cette contribution que la numérisation n’est pas neutre. L’article dégage les enjeux herméneutiques du texte numérique et décrit les différentes étapes qui mènent d’un texte source écrit sur un support traditionnel (parchemin, article de journal, livre, manuscrit …) au texte numérisé donné en lecture et offert à l’analyse. A chacune de ces étapes sont prises des "décisions interprétatives" qui ont des incidences sur le texte offert au lecteur. La numérisation ne produit donc pas une simple copie "numérique" du texte : il s’agit davantage d’une traduction. L’intérêt de cet article est aussi de donner des définitions très utiles qui permettent de savoir de quoi on parle lorsqu’on utilise les termes numérisation, numérisé, numérique.

Citations / Extraits

Sur la définition du terme numérisation et sur la distinction numérisé/numérique

« Le terme numérisation, dans un contexte informatique, revêt d’abord une double signification. Dans une première acception, il renvoie à une technologie qui convertit un signal physique (sonore, lumineux, mécanique, etc.) en un signal dit numérique qu’un ordinateur peut traiter. De multiples technologies effectuent de la numérisation : par exemple, les systèmes d’alarme, les ouvertures automatiques de portes, l’imagerie médicale, etc. Lorsque cette technologie est appliquée à des documents textuels, la numérisation fait référence aux divers processus physiques (optiques, mécaniques, électroniques, etc.) que réalise un périphérique informatique appelé un numériseur ou un scanneur.
Dans une seconde acception, la numérisation renvoie plutôt au traitement formel, c’est-à-dire aux processus algorithmiques qui opèrent dans un numériseur ou scanneur. En ce sens, la numérisation est un ensemble d’opérations de transformations qui, appliquées à des symboles ou signes linguistiques déposés sur un support physique (papier, microfiches, etc.), le transforment en un autre type de symboles ou signes qu’un programme peut traiter. Comprise ainsi, la numérisation produit un texte dit numérisé. Par exemple, si les symboles choisis sont des chiffres 0 et 1 (un encodage binaire,) alors le texte numérisé est un texte numérique à proprement parler (en anglais, digital), mais dans certains cas, les symboles choisis peuvent être des images formant des mots : comme dans le texte affiché sur un écran. Autrement dit, tout texte numérisé n’est pas nécessairement uniquement un texte numérique. »

Conclusion de l’article

« Au fil de cette analyse, nous avons voulu mieux préciser la nature du texte non pas numérique, mais du texte numérisé. Le texte numérique n’est qu’une des formes d’encodage particulier qu’un texte peut recevoir au sein du processus de numérisation. Celle-ci , en effet, est un processus complexe qui permet de multiples transformations d’un texte. Elle produit le texte numérisé. Chaque opération de ce processus en est une de transformation d’un document textuel vers une autre forme de document textuel. Au départ, le texte source est transformé en un texte matériel : le texte encodé de manière électronique. Ensuite, celui-ci est transformé en divers types de textes sémiotiques : un premier, le texte « numérique » à proprement parler encode le texte par des symboles 0 et 1. Celui-ci, comme texte, est normalement illisible par des humains ; un second, dit « texte image », peut être affiché sur écran ou imprimé sur papier et lu en tant que tel, mais l’analyse y est surtout « manuelle » ; viennent ensuite le texte dynamique, le texte annoté et le texte édité. Enfin apparaît le texte à lire et à analyser. Ainsi, partant d’un texte source sélectionné parmi une collection de textes, la numérisation produit non pas une copie unique dite « numérique » du texte, mais bien une véritable galaxie de textes numérisés. Interreliés et organisés hiérarchiquement, les textes numérisés formant cette galaxie ouvrent ainsi à des parcours nouveaux de lecture et d’analyse.

Dans une telle perspective, une critique ou une valorisation de la textualité numérisée doit être prudente. Les défauts et les qualités, les solutions et les problèmes, les avantages et les désavantages du texte numérisé ne s’appliquent pas à tous et de la même manière. Chaque format ou type de texte présente sa signature. Et il faut en saisir la forme, l’usage, la portée, la pertinence, pour en souligner les problèmes ou la valeur.

Enfin, la lecture et l’analyse des textes numérisés, quelle qu’en soit la richesse ou la finesse, ne peuvent jamais se faire de manière totalement automatisée, l’ordinateur ne pouvant ici jouer qu’un rôle d’assistance. Même à l’ère numérique, la lecture et l’analyse des textes demeureront une activité humaine. Elles ne peuvent être réduites à un processus intégralement algorithmique. Tout dans le monde n’est pas un modèle complètement computationnel. »

Recension

On assiste aujourd’hui à une numérisation massive de documents textuels et au projet de construction d’une bibliothèque numérique universelle permettant un partage des connaissances et l’accès, où qu’on se trouve, à un patrimoine textuel de plus en plus riche. Jean Guy Meunier (Université du Québec à Montréal) montre dans cette contribution que la numérisation n’est pas neutre. L’article dégage les enjeux herméneutiques du texte numérique et décrit les différentes étapes qui mènent d’un texte source écrit sur un support traditionnel (parchemin, article de journal, livre, manuscrit …) au texte numérisé donné en lecture et offert à l’analyse. A chacune de ces étapes sont prises des "décisions interprétatives" qui ont des incidences sur le texte offert au lecteur. La numérisation ne produit donc pas une simple copie "numérique" du texte : il s’agit davantage d’une traduction. L’intérêt de cet article est aussi de donner des définitions très utiles qui permettent de savoir de quoi on parle lorsqu’on utilise les termes numérisation, numérisé, numérique.

La numérisation comme technologie et comme herméneutique

Avant de dégager les enjeux herméneutiques de la numérisation, l’auteur précise que le terme numérisation a une double signification.
1. la numérisation est d’abord "une technologie qui convertit un signal physique (sonore, lumineux, mécanique, etc.) en un signal dit numérique qu’un ordinateur peut traiter". C’est cette opération qu’effectue un scanneur.

2. "La numérisation est un ensemble d’opérations de transformations qui, appliquées à des symboles ou signes linguistiques déposés sur un support physique (papier, microfiches, etc.), le transforment en un autre type de symboles ou signes qu’un programme peut traiter. Comprise ainsi, la numérisation produit un texte dit numérisé". Si l’encodage est binaire, on a affaire à un texte numérique. Un texte numérisé n’est pas nécessairement uniquement un texte numérique.

Le terme texte a également plusieurs significations.

1. Le mot texte peut d’abord désigner un objet physique, c’est-à-dire ce qui sert « de support aux inscriptions scripturales (effectuées au moyen de crayons, d’encre, etc.), et constituant, une fois relié, un document textuel à part entière » (ex : livre, brochure …). Avec l’informatique, le support n’est plus le même (clé USB, disque dur etc…, écran), mais le texte demeure un objet physique, un "contenant".

2. Le mot texte renvoie aussi au "contenu proprement dit, c’est-à-dire à un ensemble organisé de signes linguistiques".

L’auteur pose ensuite deux questions : 1) Quelles sont les grands types d’opérations physiques et algorithmiques que la numérisation des textes met en œuvre ? 2) Quels effets ces opérations ont - elles sur la lecture et l’analyse des textes ?

Les opérations et produits de la numérisation

Le processus de numérisation de texte est bien plus complexe qu’il n’y paraît et il existe "plusieurs types de textes numérisés, chacun étant le résultat d’un type spécifique d’opération". L’auteur illustre ses propos par un schéma.

>>>> http://www.digitalhumanities.org/dhq/vol/12/1/000362/resources/images/figure02.png>>>

L’identification de ces diverses opérations s’avère utile pour dégager les enjeux herméneutiques de la numérisation des documents.

La collection des textes et le corpus textuel

Il faut distinguer dans un projet de numérisation entre la constitution d’une collection de textes sources disponibles et la constitution d’un corpus.

Exemple : "la collection Tc des œuvres écrites de Jean -Paul Sartre pourrait contenir uniquement les œuvres publiées, délaissant la correspondance, les manuscrits, les cahiers de notes, etc. Et un projet de recherche pourrait ne retenir comme corpus Tp que les textes qui sont de nature philosophique. "

L’auteur insiste sur le fait qu’aucun corpus n’est neutre : toute sélection de textes est déterminée par une pratique ou une théorie. Le corpus différera selon que l’équipe d’un projet de recherche est composée de littéraires, d’archivistes, de linguistes etc..
Ces collections ou corpus ne sont pas sans effets sur "le sens des autres textes avec lesquels ils sont réunis".
En outre, l’état physique des textes doit être également pris en compte. (textes anciens délicats à numériser, ou bien si un texte contient des commentaires, le choix doit être fait de les conserver ou non….)

Tout corpus met en relation des textes avec d’autres textes : par conséquent, il sera interprété d’une autre façon que s’il s’agissait d’un texte isolé.

La transduction : le texte électronique (Te)

Il s’agit ici des opérations qui précédent l’encodage binaire, et qui sont une suite "d’inscriptions électroniques".

Durant cette opération, certaines informations du texte original peuvent être perdues. "Une numérisation de papyrus ou de vieux codex est particulièrement sensible à ce type de traitement : qu’il s’agisse d’un manuscrit médiéval ou d’un parchemin retrouvé dans une ancienne mosquée, l’omission d’une marque ou d’un signe particulier peut donner lieu à des interprétations radicalement différentes" ; C’est pourquoi il est nécessaire que des experts vérifient qu’il n’y a pas eu ajout ou perte d’informations cruciales.

L’encodage : le texte numérique (Tn)

Pour que le texte électronique soit un texte numérique, il faut un encodage binaire. Il s’agit du seul format qui peut être pris en charge par un ordinateur. Là encore cette étape peut donner lieu à des modifications (ajouts, pertes).

L’affichage : le texte image (Ti)

"Ce dernier document textuel numérique n’est normalement pas « lisible » (en tant que chiffres) par des humains." Il faut donc le convertir en un format lisible. Ce document textuel image est "comme une photographie du document textuel original".
Cependant, ce document peut n’être pas fidèle à l’original ; "Dans un projet paléographique, un petit trou dans le manuscrit original peut apparaitre comme une marque sémio-linguistique importante (exemple : dans les documents textes anciens)".
Chacune des étapes peut modifier le texte source et ajouter ou enlever une information.

La reconnaissance linguistique : le texte dynamique (Td)

Le texte-image est figé, statique. Pour des finalités de lectures, d’analyse, d’édition, le texte-image doit donc être transformé en "texte dynamique (Td)".

Le texte peut alors être enregistré sous des formats comme TXT, RTF, ou encore Word, Open-office etc…Le texte peut alors être corrigé, annoté, commenté etc…

Ici encore la lecture et l’analyse seront affectées… Des modifications importantes auront lieu "Par exemple, de multiples informations textuelles, tels le soulignement, le surlignage, les polices de caractères, la mise en italique, en gras ou en page, la pagination, les notes et commentaires peuvent être conservées ou éliminées.". Des erreurs de reconnaissance peuvent encore avoir lieu lors de cette transformation.

L’annotation : le texte annoté (Ta)

Il existe plusieurs types d’annotations, l’auteur en présente quelques unes :

 Le "péritexte" : Ce terme renvoie "à l’ensemble des signes qui, sous la responsabilité de l’auteur jouent un rôle externe, mais immédiat relativement au contenu du texte. Par exemple, sont dits membres du péritexte tous les mots ou passages référant à l’un des éléments ou dimensions textuels suivants : le titre, l’auteur, la date de publication, la référence, la pagination, les chapitres et sections, les épigraphes, la dédicace, la table des matières, les index et la couverture. Ce type d’annotations s’avère essentiel à la manipulation informatique du texte numérique. Par exemple, les marqueurs indiquant le numéro des pages ou des sections et des titres seront d’une importance cruciale pour le rappel, le résumé, la classification comme d’un point de vue rhétorique ou argumentatif. "

 Les annotations intratextuelles peuvent marquer le statut linguistique des signes, les citations, le genre du texte etc… Seront aussi inclus des commentaires, remarques etc..

Les opérations d’annotation peuvent avoir des effets importants sur l’interprétation du contenu du texte, sur son sens. Il est difficile par ailleurs de proposer des types universels d’annotations, car chaque projet de recherche s’inscrit dans un domaine spécifique. En fait, l’annotation est "une forme déguisée d’interprétation".

Autre difficulté : sur un support papier, les annotations sont visibles, ce qui n’est pas toujours le cas dans le cadre numérique…

L’édition : le texte édité (Ts)

Les éditions électroniques créent des textes en ligne à partir de lignes de textes.
Le texte édité invente de nouvelles formes de présentation, qui diffèrent de celles du livre. Par exemple, dans des textes édités pour des sites web (voir les sites web consacrés à de grands auteurs), on retrouve certes des lignes de textes similaires à celles qui existent dans l’édition papier, mais « on trouve aussi des textes décomposés en de multiples sous-textes qui deviennent tabulaires, réticulaires, empilés, gigognes, juxtaposés, hypertextualisés, navigables, etc. Dans ses formes fragmentées, le parcours du texte n’est plus uniquement linéaire, mais multidirectionnel »

Le texte édité peut être aussi une "agrégation de segments de textes autonomes, qui, par exemple dans Wikipédia, peuvent provenir d’auteurs et de sources diverses". Il peut être à tout moment modifié.

Ici se pose le problème de la qualité du travail éditorial : est-il fait par des experts ? Sinon, il y a le risque que les ressources proposées au lecteur soient de piètre qualité, voire inauthentiques.

La lecture et l’analyse : le texte à lire analyser et interpréter (Tl)

Seuls les textes-images, les textes annotés, les textes dynamiques et les texte édités sont des textes à lire, analyser et interpréter.

Or des études ont montré que selon qu’un texte est lu sur le moniteur d’un ordinateur de bureau, sur une tablette ou sur un portable, le lecteur vit « des expériences textuelles différentes. ». Certes la lecture sur papier est la plupart du temps encore préférée à la lecture sur écran, mais en l’absence d’équivalents papier, le texte numérisé gagne du terrain, surtout qu’il offre une très grande "flexibilité". On peut y opérer des transformations, on peut y pratiquer une lecture gigogne, on peut adopter des stratégies de lecture différentes etc…

On peut penser que ce nouveau format textuel numérisé finira par être préféré.

L’auteur s’appuie sur l’édition en ligne de l’ouvrage l’Origine des espèces de Darwin. "Par les annotations et surtout l’hypertextualisation, le lecteur peut accéder tout au long de sa lecture à un corpus paratextuel et épitextuel formé de plus de 63 éditions différentes de l’ouvrage et de plus de 1500 sources secondaires. La lecture classique est ainsi rompue au profit de parcours de textes multiples, diversifiés et participant à interconnexion textuelle véritablement révolutionnaire."
Par ailleurs, le texte numérisé permet d’effectuer un plus grand nombre d’approches analytiques (stylistiques, concetuelles ) réalisées par l’ordinateur.

Enfin, la numérisation des textes a un impact sur la diffusion et le partage du savoir.

Conclusion :

"Ainsi, partant d’un texte source sélectionné parmi une collection de textes, la numérisation produit non pas une copie unique dite numérique du texte, mais bien une véritable galaxie de textes numérisés" qui sont reliés les uns et autres et permettent plusieurs parcours de lecture. A chaque étape ont été effectués des choix.

Partager

Imprimer cette page (impression du contenu de la page)