L’analyse des données textuelles (ADT) permet d’explorer et de visualiser les recueils de textes les plus divers : œuvres littéraires, transcriptions d’entretien, discours politiques, dossiers de presse, documents d’archives, enquêtes en ligne avec questions ouvertes, fichiers de réclamations, sondages de satisfaction. Le présent ouvrage procède à une présentation rigoureuse des méthodes de l’ADT, qui combinent statistique exploratoire, visualisations, procédures de validation quantitative et approche qualitative (retour au texte). Plaçant le texte au centre de l’analyse, l’ADT répond pleinement aux attentes des humanités numériques. Plusieurs niveaux de lecture sont possibles : les développements plus techniques paraissent dans des encadrés, tandis que des programmes illustratifs simples (en Python et R) sont donnés en annexe. Le propos est systématiquement illustré par des applications concrètes issues de corpus variés (données d’enquête, romans, discours politiques) et réalisées avec des logiciels en libre accès.
Ludovic Lebart, ex-directeur de recherche au Centre national de la recherche scientifique (CNRS), est statisticien et enseignant- chercheur à Télécom ParisTech. Ses sujets de recherche sont la statistique multidimensionnelle, la qualité des enquêtes socio- économiques, l’inférence statistique en analyse des données et les logiciels d’analyse des données qualitatives et textuelles. Il est l’auteur de nombreux livres sur ces thèmes traduits en plusieurs langues.
Bénédicte Pincemin est chargée de recherche en linguistique au CNRS, au sein de l’Institut d’histoire des représentations et des idées dans les modernités de l’École normale supérieure de Lyon. Elle est membre du projet Textométrie, qui développe le logiciel TXM. Ses travaux portent sur la modélisation de la textualité et de l’activité interprétative pour l’analyse sémantique de corpus.
Céline Poudat est linguiste et maître de conférences en analyse du discours à l’Université Côte d’Azur à Nice. Elle étudie les typologies textuelles et les genres de la communication médiée par les réseaux, qu’elle explore avec les méthodes de l’analyse de données textuelles et de la linguistique de corpus. Elle codirige le consortium national français Corpus, Langues et Interactions.