Peut-on parler de traitement « big data » dans les sciences historiques ?

Peut-on parler de « Big Data » dans le domaine de l’histoire ?

La communauté paraît partagée. Il s’agit en fait de questionner la définition de l’expression « Big Data » et de la mettre en regard du périmètre de ce que l’on nomme l’histoire.

L’expression « Big Data » apparue à la fin des années 90 désigne communément des données dont le volume, la variété et la vitesse de production sont à la limite de ce que nos outils informatiques sont capables de traiter. Mais une requête google sur l’expression « Big Data » renvoie près de 54 millions de réponses et il apparaît clairement que l’expression « Big data » a dépassé cette définition initiale et globale pour être déclinée dans les différents domaines de la connaissance, dans les différents champs scientifiques.

Pour les sciences de l’informatique, le qualificatif « Big Data » est employé pour des données qui sont à la frontière de ce que nos outils savent actuellement traiter. La dynamique de production et la variété de ces données sont tellement importantes que les verrous de traitement perdurent malgré les progrès informatiques. Le traitement des données rassemble l’ensemble des techniques qui permettent d’en extraire de l’information. Ce processus est instruit par une problématique, par des questions : des données brutes n’ont en soi rien à dire ! Un traitement de données s’inscrit donc dans une démarche scientifique, dans un cadre problématisé. La caractérisation de la frontière vers le « Big Data » devient donc relative à ce cadre. Si pour les sciences informatiques, celle-ci est relative à la limite des calculateurs et des systèmes, il n’en est pas de même pour l’ensemble des sciences. Face à une question scientifique, on peut viser l’amélioration des outils de traitement des données disponibles afin de lever le verrou généré par l’augmentation du volume et de la variété des données « traitables ». On accomplit ainsi un saut qualitatif dans les démarches de recherche. Tel est l’horizon théorique et pratique du « big data ». Frédéric Clavert, dans son compte rendu du livre de Patrick Manning «  Big Data in History (2013)», affirme que « le Big Data n’est pas qu’une question de volume de données, mais aussi un changement dans la manière de faire de la recherche, dans la mesure où changer les modes de collecte et d’organisation de l’information aboutit à modifier la manière dont nous questionnons cette information » (http://lectures.revues.org/13803). La frontière du « Big Data » est donc ce couloir étroit, relatif et sinueux où la mise en œuvre opérationnelle de sauts techniques et technologiques permet des ruptures scientifiques aboutissant à des avancées qualitatives.

Par ailleurs, le « Big Data » n’est pas réduit au domaine des données quantitatives. S’il est vrai que nos calculateurs s’accommodent plus facilement de données sur lesquelles on peut mener des calculs mathématiques classiques – et difficiles -, les traitements à grande échelle d’images, de livres, de vidéos, d’entretiens, de poteries, … et l’interopérabilité de ces sources informationnelles constituent autant de frontières vers le « Big Data ». Les données de l’historien, qu’il soit préhistorien, antiquisant, médiéviste, moderniste ou contemporanéiste, sont essentiellement qualitatives et souvent partiellement dégradées. Une approche globale de ces sources, qui soit à même de restituer la multiplicité et la variété de leurs usages, représente un défi pour l’historien qui n’échappe pas à la construction d’une science mondialisée. L’ère du « Big Data » doit permettre d’avancer dans les approches d’Histoire Globale et d’Histoire Connectée. Embrasser des aires culturelles jusque là disjointes, œuvrer sur diverses échelles de réalités passées, dans le temps comme dans l’espace, connecter différents travaux de micro-histoire, sont autant d’objectifs qui ont un pied dans le « Big Data ». Le projet « Collaborative for Historical Information and Analysis (CHIA) » mené à Pittsburg (http://www.chia.pitt.edu/) est dans la même veine que le Humain Brain Project de l’union européenne (https://www.humanbrainproject.eu/fr) ou que le FuturICT project (http://futurict.inn.ac/). Tout comme les autres sciences, l’histoire a besoin d’outils innovants adaptés aux nouveaux enjeux et aux nouveaux formats de données. Elle a aussi besoin d’outils spécifiques par exemple pour le traitement de l’interopérabilité des sources ; ceux-ci relèvent aussi de ce que l’on appelle les Humanités Numériques. « Big Data » et « Humanités Numériques » sont intrinsèquement liés. Un des objectifs majeurs de la TGIR SHS Humanum (dont le champ n’est pas restreint à l’histoire) et du consortium européen DARIAH est précisément de mettre au point, de tester et de transmettre ces outils à la communauté.

Nous pouvons illustrer ce propos par trois exemples, bien sûr parmi tant d’autres.

Le premier concerne le travail de thèse de Nicolas Perreaux (postdoc à Frankfurt) sur l’étude des représentations de l’Occident Médiéval à partir de l’étude de plus de 500000 chartes latines. Ces documents, pour beaucoup en libre accès, couvrent un territoire qui s ‘étend sensiblement à l’intérieur des contours de l’Europe Occidentale et sur une période de cinq siècles. L’utilisation de techniques automatiques d’OCRisation à grande échelle à permis de donner accès à des millions de pages de textes dont l’analyse (textmining notamment) a livré les points de convergence et de divergence qui existaient dans la façon de décrire le monde.

Le deuxième exemple sera pris dans le travail de Corinne Bonnet (professeur d’histoire à Toulouse) sur l’étude du polythéisme antique à partir d’attestations littéraires et épigraphiques des épithètes appliquées aux dieux. Plusieurs milliers d’épithètes existent dont la combinatoire d’association est vite inextricable dans les modèles.

Le troisième exemple est un travail mené par Florent Hautefeuille (MCH HDR à Toulouse) et Bertrand Jouve (DR CNRS à Toulouse) sur les documents notariés et les registres fiscaux dans le sud de la France. Il est possible d’étudier la dynamique de composition des réseaux sociaux médiévaux par l’analyse des documents notariés (http://www.nature.com/news/2008/080519/full/news.2008.839.html). On peut estimer qu’il existe 25000 documents notariés par commune et par an. En ce qui concerne les registres fiscaux, qu’ils soient publics (compoix) ou privés (terriers), on atteint vite le milliard de données pour décrire un territoire comme la France à un temps donné. Il existe des actes notariés et des registres fiscaux dans la plupart des pays, de la Chine à la France, et on atteint donc facilement des volumes de données très important.

Ces trois exemples sont donnés pour illustrer notre propos et montrer qu’une approche de l’historiographie classique n’aurait jamais pu attaquer ces corpus. Ce ne sont pas des peta-octet de données qui arrivent toutes les secondes mais des volumes et des variétés suffisant pour interroger les processus de normalisation, de fouille automatique dans des documents lacunaires et aux graphies différentes mais aussi mettre en place des modèles de simulations des dynamiques souvent cachées et ainsi avancer dans l’administration de la preuve en histoire et plus largement en sciences humaines et sociales. Dire que les « Big Data » n’ont pas leur place dans la recherche en histoire serait donc une erreur.

Poster un Commentaire

1 Commentaire sur "Peut-on parler de traitement « big data » dans les sciences historiques ?"

Avertir de
avatar
Trier par:   Le plus récent | Le plus ancien | Le plus évalué
epepin
Admin

L’expression « Big Data » apparue à la fin des années 90 désigne communément des données dont le volume, la variété et la vitesse de production sont à la limite de ce que nos outils informatiques sont capables de traiter.

wpDiscuz