Difficulté : moyenne
Utilisateurs : enseignants 2nd degré
Niveau scolaire : collège et lycée
Présentation et intérêt pédagogique
Mettre en données un texte, c'est en extraire des données organisées : un nombre de mots dans une phrase, dans le corpus; les occurrences d'un mot; la liste des mots les plus présents dans le texte (index); le nombre de mots de telle catégorie grammaticale; un compte d'interactions entre tel et tel personnage; le nombre d'occurrences d'un mot à côté d'un autre, etc.
Ces données textuelles peuvent alors être compilées dans des tableaux et comparées, analysées, représentées graphiquement avec des outils de visualisation de données.
En classe, cette approche permet d'analyser un grand volume de texte, de dépasser les capacités de lecture. La méthode s'appuie également sur des visualisations : elles mettent en évidence des aspects du corpus, étayent une argumentation. Les données textuelles peuvent ainsi ouvrir de nouvelles pistes sur le corpus ou asseoir une théorie.
Exemple d'utilisation⚓
Quelles données récupérer d'un texte ?
Selon les méthodes et outils utilisés, différentes données textuelles peuvent être organisées. En voici quelques exemples :
propriétés du corpus : nombre de mots, mots par phrase, variété du vocabulaire ... Ces analyses permettent de comparer des auteurs, différents chapitres d'une même œuvre, différentes œuvres d'un même auteur, etc.
l'index : liste hiérarchisée des mots les plus employés d'un texte (voir la lemmatisation plus bas)
fréquence et distribution d'occurrences dans un corpus
relations : échanges entre des personnages
collocations : mots associés fréquemment
Tableau et représentation des collocations du mot “liberté” dans Actes et paroles de Victor Hugo : des premières pistes d'analyses sont lancées
Comment faire⚓
Pour transformer un texte en données organisées nous pouvons utiliser des logiciels, des services dédiés, ou entrer soi même des données textuelles dans un tableur.
Outils de mise en données des textes⚓
La première étape est de constituer son corpus et récupérer des textes au format numérique - et non pas numérisé : pas de page scannée à la manière d'une photographie - dans un fichier texte ou sur une page web. L'exploitation des textes nécessite qu'ils soient accessibles dans un format numérique exploitable par les services ou logiciels. Pour une exploitation numérique en classe, nous privilégions l'exploitation des textes accessibles dans le domaine public ou disponibles sous licence ouverte de type creative commons (voir sitographie en annexe).
Un nettoyage du texte peut être nécessaire : dans l'exemple d'un texte téléchargé ou consulté en ligne sur Wikisource, le site ajoute des crédits, des mentions légales. Ce paratexte s'ajoute aux mots de l'auteur(s). Nous pouvons choisir de “nettoyer” le texte ou laisser ce “bruit” s'il ne fausse pas l'analyse.
Une plateforme d'analyse de texte assistée par ordinateur : Voyant Tools
Le site Voyant Tools https://voyant-tools.org/ est un environnement d'analyse de texte en ligne. Aucune installation de logiciel n'est nécessaire. Il permet d'analyser des textes importés depuis des fichiers ou liens hypertextes. On peut analyser une œuvre, plusieurs pour les comparer (ou plusieurs actes/chapitres d'une même œuvre découpés en plusieurs fichiers).
Le processus d'importation du texte peut être réalisé collectivement en classe ou par le professeur en amont. Une fois le corpus chargé sur Voyant Tools, le traitement opéré par le service peut être partagé par un lien hypertexte. Ce résultat peut alors être proposé à l'analyse de la classe. La plateforme peut être prise en main directement par les élèves du secondaire.
Pour se familiariser avec l'outil, le Labex Obvil propose ce tutoriel vidéo :
Voyant Tools permet d'extraire des jeux de données, comme un index transposable en format tableur ou texte :
Voyant Tools propose également quelques visualisations de données. On peut aller plus loin en important l'analyse des données obtenues dans Voyant Tools dans un outil de visualisation de données comme RawGraphs.
Pour prendre en main Voyant Tools, une documentation en français: http://edutechwiki.unige.ch/fr/Voyant_Tools
Un logiciel de textométrie : TXM
Le logiciel TXM s'appuie sur le langage de programmation R et utilise le CQP (Corpus Query Language) pour interroger le corpus. Sa prise en main nécessite de maîtriser la rédaction des requêtes. Ce logiciel est à destination des professeurs qui préparent ainsi un jeu de données textuelles à fournir à l'analyse des élèves (manipulations du tableur, visualisations).
Les requêtes permettent d'extraire des données relatives à l'emploi des mots dans les corpus (quantité, qualité, relations ...).
Dans l'exemple ci-dessous, à partir des vœux présidentiels depuis 1961, nous cherchons à quels termes (on peut également définir une classe grammaticale particulière) sont associés les mots “nation” et “pays”.
TXM crée un jeu de données à partir de ces requêtes. Ces données peuvent être exportées - au format CSV par exemple-, représentées.
Remarque: pour l'ouverture des fichiers au format .csv, le tableur de la suite Libre Office est à privilégier.
Cette page présente comment exporter des données et représentations avec TXM : http://pireh.univ-paris1.fr/wiki/doku.php?id=illustrer_son_dossier_de_textometrie
Focus sur la lemmatisation
La lemmatisation est une analyse lexicale qui permet de regrouper les mots d'une même famille ensemble : c'est un regroupement par lemme.
Chaque mot à une forme canonique (forme racine) et des formes fléchies (différentes occurrences possibles).
Ces formes sont toutes les déclinaisons qu'une entité peut prendre : verbes à l'infinitif / conjugué, mots au singulier / pluriel, déclinaisons masculin / féminin, etc.
Exemple :
Texte brut : Le petit chat est mort. C'est dommage il était gentil le chat.
Texte lemmatisé : Le petit chat être mort. C'être dommage il être gentil le chat.
Dans ce texte nous avons 13 occurrences, 9 formes.
Avec la lemmatisation, les verbes sont ramenés à l'infinitif, les noms au singulier et les adjectifs au masculin singulier.
Un outil de lemmatisation: https://www.jerome-pasquelin.fr/tools/outil_lemmatisation.php (limité à 150000 caractères).
La lemmatisation peut ainsi changer la perception de l'index d'un corpus selon l'objectif de la recherche: si “c'est” est l'occurrence la plus répétée, peut être le verbe avoir est-il davantage utilisé sous ses multiples formes ... Au professeur, selon son objectif, d'en juger la pertinence en classe.
Mettre en données les texte dans un tableur⚓
Sans recourir à un outil d'analyse de texte pour générer des tableaux de données textuelles, on peut mettre des textes en données directement dans un tableur. Les textes épistolaires, pièces de théâtre s'y prêtent particulièrement.
On crée un tableau avec la liste des expéditeurs/destinataires depuis la table des matières d'un roman épistolaire; des interactions entre personnages par actes et scènes dans une pièce de théâtre. A chaque lettre/scène une colonne peut être ajoutée avec le texte en question.
Il est préférable de créer un menu déroulant dans le tableur pour la liste des personnages/expéditeurs/destinataires : cela évitera d'avoir un même personnage compté plusieurs fois si écrit différemment.
Le cas échéant, l'entrée d'un personnage peut être uniformisée avec la fonction “Rechercher et remplacer”.
Ces données peuvent ensuite être collées dans des outils de représentations de données comme RawGraphs afin d'être visualisées.
La mise en données du texte en tableau permet d'utiliser les outils de celui-ci.
En reprenant l'exemple des Liaisons dangereuses, on peut isoler les lettres selon des critères précis pour analyse.
On peut isoler les lettres d'un personnage donné afin de les copier et analyser dans un outil de textométrie :
si on a créé un menu déroulant pour les personnages, on n'affiche alors que le personnage voulu
avec l'outil “filtre” / “vue filtrée” en sélectionnant l'expéditeur choisi : seules les lignes de ses lettres s'affichent
On peut alors produire un index avec Voyant Tools, un nuage de mots des termes employés par Valmont, Merteuil, etc. pour une comparaison rapide des propos des personnages.
La vue filtrée depuis la colonne des textes permet aussi d'isoler les lettres qui contiennent un mot donné pour l'étude d'un thème : par exemple toutes les lettres contenant le mot “amour” ou “foi”. Cette méthode est plus rapide qu'en isolant les lettres une par une avec l'outil “Recherche” d'un traitement de texte.
Point de vigilance: avec le logiciel Excel le copier/coller simple copie les lignes non filtrées. Il faut paramétrer avec F5 la copie des cellules visibles seulement.
Ces tableaux d'échanges permettent la réalisation de graphes pour l'étude des relations, réseaux dans les textes.
Graphe des échanges entre personnages du Cid, Corneille sur le site Dramagraphe (Obvil)
Attention : La nécessaire problématisation des données récoltées pour un retour au texte.
Il ne suffit pas de mettre en données un corpus et injecter ces données dans un outil de visualisation. Les données textuelles doivent être mises au service d'un questionnement : quels mots Victor Hugo associe-t-il à la liberté dans ses discours à l'assemblée ? Quels personnages explorent le thème de la fidélité dans Les Liaisons dangereuses ? Comment s'organisent les réseaux de personnages dans Le Cid ? Pour répondre à ces questions, on isole les données nécessaires avant de les analyser puis de les représenter grâce à un outil de visualisation. Les données textuelles permettent de répondre à des problématiques, d'en soulever de nouvelles autour d'un auteur, une œuvre, un courant. Elles attirent l'attention sur des points du corpus et invitent à un retour au texte indispensable sur les points mis en exergue par le traitement numérique.
Ressources associées⚓
Wikisource
Bibliothèque de textes libres issue du projet Wikicommons,
Projet Gutenberg
De nombreux ouvrages libres de droits, dans plusieurs langues. http://www.gutenberg.org/browse/languages/fr
Voyant Tools https://voyant-tools.org/ est un environnement d'analyse de texte en ligne. Aucune installation de logiciel n'est nécessaire. Il permet d'analyser des textes importés depuis des fichiers ou liens hypertextes. On peut analyser une œuvre, plusieurs pour les comparer (ou plusieurs actes/chapitres d'une même œuvre).
Documentation Voyant Tools (français)
Outil en ligne de visualisation de données
Outil en ligne de visualisation de données
Outil libre de cartographie
Outil de cartographie thématique
Recommandations d'usage et juridiques⚓
Pas de recommandation particulière sur les droits d'usage.