[Put logo here]

Rêve ou cauchemar : comment maîtriser le tigre TEI

http://lb42.github.io/Talks/2021-05-rennes.html

Texts 'r us

Quoique votre définition des ‘humanités numériques’, je suis certain qu'elle implique des considérations du texte et des textes numerisées...

‘texte’ dans le sens le plus complet...

Lire, c'est encoder...

C'est le job du balisage!

La Text Encoding Initiative (TEI) nous propose une méthode de balisage

Qu'est-ce que la Text Encoding Initiative ?

  • Une organisation, une institution ?
  • un ‘club’, une mode, une religion ?
  • une spécification technique ?
  • un gabarit pour la construction des spécifications techniques ?

[cet excellent bouquin est toujours disponible en francais (http://books.openedition.org/oep/1237) ou en anglais (http://books.openedition.org/oep/679) !]

Concrètement la Text Encoding Initiative c'est ...

une ‘Initiative pour l'Encodage Textuel’....

Forcément, un cadre permettant de réflechir sur ce que c'est qu'un texte numérisé et non pas un "standard" fixe.

Un peu d'histoire: souvenez-vous de l’an 1987 ?

La Text Encoding Initiative est née dans un monde un peu différent du notre...

  • C'était l'été de Joe le taxi, premier tube de Vanessa Paradis...
  • le world wide web n’existait pas
  • le tunnel sous la manche était en construction
  • un état nommé l’Union Soviétique venait de lancer une station spatiale appelée "Mir" .. et de subir un désastre à Tchernobyl
  • l’informatique sérieuse s’éffectuait uniquement sur les grosses machines dites ‘mainframes ’

…mais aussi dans un monde un peu familier…

La fin du 20eme siecle... un temps de transition, et d'évolution

Naissance de la Text Encoding Initiative

Vassar College, Poughkeepsie

Vassar College, Poughkeepsie

La question qui s’impose :

Pourquoi et comment la TEI a-t-elle survécu presque 50 ans ?

Les enjeux de la TEI

Voir les Poughkeepsie Principles: https://tei-c.org/Vault/ED/edp01.htm

Pourquoi cet effort ?

  • Parce qu’on s’est aperçu qu’on risquait une nouvelle confusion de langues avec l’arrivée de l'informatique dans la représentation des données textuelles !
  • Mais aussi peut-être un désir de mettre à jour les traditions philologiques de la gestion des textes?

TEI chronologie - 1

1988 - 1990
$€ Recherche financé phase 1: production de TEI P1
1990 - 1992
$$ €€ Recherche financé phase 2: production des fascicules de TEI P2
1993 - 1994
$$$ €€ integration des chapitres de P2 comme TEI P3
1995 - 1999
$ Promotion et prise en main par des centres DH individuels
2000
Établissement du Consortium TEI (incorporé en déc)

Organisation de la TEI (1991)

Les travaux de la TEI ont été pris en main par les deux ‘editors’ et par quatre ‘working committees’

  • Documentation : bibliothécaires/archivistes
  • Métalanguage : informaticiens
  • Text Analysis and Interprétation : linguistes théoriques
  • Text Representation : … "digital humanists" avant la lettre

Travaux de mutualisation

On a très vite compris qu’il y avait beaucoup de chevauchements parmi ces travaux. Les deux TEI Editors essayaient de participer aux débats de chaque comité, et d’appliquer, aussi rigoureusement que possible, le célèbre rasoir d’Ockham.

Néanmoins, la TEI propose (toujours) plusieurs systèmes de représentation pour (par ex) :

  • la segmentation linguistique
  • les annotations interprétatives (à plusieurs niveaux) avec des codes
  • la documentation des codes interprétatifs
  • des balisages effectués en ligne, et également en ‘standoff’

(Encore une raison d’éviter l’usage de TEI All)

Texte ou données

En dépit de son nom la TEI ne se limite pas a la consideration des données textuelles. Déjà dans sa première version, elle propose des balises pour la représentation

Personnalisation

ICAME Journal, 1992

ICAME Journal, 1992

On considérait impossible l'imposition d'une seule modèle textuelle au/x communauté/s scientifique/s...

La TEI donc fournit un gabarit -- une espèce de kit Lego -- pour la construction d'un système de balisage adapté aux besoins spécifiques d'un projet particulier, tout en restant compréhensible à d'autres projets ou d'autres systemes.

L'essentiel, c'est l'explicitation des choix effectués, et des personnalisations éventuelles.

TEI chronologie - 2

2001 - 2003
$ Conversion de P3 en XML (TEI P4), lancement d’une révision complète; création d'un système de gouvernance et de maintenance
2003 - 2005
TEI P5 : révision majeure de P4 avec "releases" régulières ; le projet s'inscrit dans l'Open Science
2005 -
Révision continue, avec des nouvelles versions deux fois par an (au moins): la version 4.2.2 vient d'apparaître

Organisation de la TEI

Au cours de cette deuxième période, la TEI se ré-invente comme partie incontournable de l'infrastructure des DH, en s'investissant dans le projet open science.

Communauté TEI (2000+)

Communauté TEI (2000+)

La TEI facilite un balisage ‘intelligent’

La TEI de nos jours s'applique à l'encodage des...

Comment gérer ces richesses?

Les Cinq Étapes du chemin de l’Éveil TEI

  1. Modélisation : quels sont les buts et les objets de votre projet ?
  2. Orientation : est-ce que vos objets sont déjà reconnus par la TEI ?
  3. Déclaration : comment créer une spécification TEI-conforme ?
  4. Documentation : comment documenter vos pratiques TEI ?
  5. Validation : comment valider vos efforts ?

Modélisation

La modélisation de vos données est une préalable essentiel. Que vous vous serviez de UML, de RDBMS, de SKOS, ou de quoique ça soit d’autre, si vous n’avez pas un modèle explicite des choses que vous espérez gérer, vous aurez de grands difficultés.

Comment s’orienter ?

Les TEI Guidelines, imprimées ou en ligne, se divisent en deux grandes parties :

Comment savoir quel élément (etc.) choisir pour telle ou telle entité identifiée dans votre analyse préalable ? Comment savoir que vous avez besoin d’une ‘licorne’ ?

La triste vérité…

Pour chacun(e) des entités/concepts identifiés dans votre modèle, il faut décider :

TEI modules (1)

Vous aurez assurément besoin des éléments de ces modules :

modulecontenantP5P3
core éléments communs à presque tout type de documents8271
figurestables, formules et figures76
header les métadonnées bibliographiques et autres6957
tei module infrastructural définissant les types de données, les classes, et les macros utilisées partout00
textstructure éléments fondamentales de structuration3331

TEI Modules (2)

Pour les manuscrits vous aurez probablement besoin de ceux ci:

modulecontentsP5P3
gaijitraitement des caractères et glyphes non Unicode1115
msdescriptioncatalogage et description des manuscrits et des incunables690
textcritapparat critique classique1412
transcrtranscription diplomatique ou génétique des sources primaires2910

TEI Modules (3)

D'autres types de document sont envisageables...

modulecontentsP5P3
dictionariesdictionnaires imprimés3537
dramatextes du théâtre, du cinéma, etc1716
spokentranscription de l'oral147
tagdocsdocumentation des systèmes de balisage (ODD)5431
versetextes poétiques46

TEI Modules (4)

Si vous faites des analyses spécialisées vous aurez peut-être besoin de quelques-uns de ceux-ci :

modulecontentsP5P3
analysismécanismes simples pour l'analyse et l'interprétation1110
certaintyindications de certitude et probabilité32
corpusmétadonnées pour les corpus1426
iso-fsanalyses abstraites utilisant des structures de trait 2832
linkingliens, segmentation, alignements1112
namesdatesnoms, dates, entités nommées5230
netsgraphes, réseaux génériques, et arborescences1212

TEI P5: comment garder le cap?

L’esprit TEI

Qu’est-ce que cela veut dire : « utiliser la TEI  » ?

La TEI ne vous dit pas « fais comme moi » ; elle vous demande (gentiment) « explique-moi ce que tu fais. »

Un standard existe pour qu'on s'y conforme, non ?

La TEI est conçue pour soutenir une variété d'approches

  • on peut simplement utiliser un sous-ensemble de ses propositions (TEI subset)
  • on peut y ajouter des contraintes supplémentaires (customized subset)
  • on peut y ajouter de nouveaux composants (extended subset)

Etre conforme à la TEI veut dire quoi?

L'objet de ces règles est de faciliter le "blind interchange" des documents -- même s'ils ne le garantissent pas.

Niveaux de validation

Un document TEI-XML doit:

  1. respecter les règles syntaxiques d'XML;
  2. être valide par rapport à un schéma quelconque ; (un sous-ensemble de TEI-All, ou une extension)
  3. respecter la sémantique définie de chaque élément TEI utilisé

Un schéma (par ex en RELAXNG ou DTD) exprime une partie importante de ces règles; un ODD complète cette expression avec une documentation de la sémantique voulue.

Pourquoi TEI?

Les outils bureautiques, les base de données, les éditeurs Web ... pourquoi ne suffiront-ils pas à nos besoins?

Avantages techniques de la TEI

Inconvénients de la TEI

Pourquoi continuer de s’intéresser à la TEI ?

Deux raisons pour lesquelles les standards échouent le plus souvent :

Le secret de la longévité de la TEI réside peut-être dans son adaptabilité... et dans sa réactivité à son environnement.

Comment faire mûrir une théorie ?

Dans son TEI ODD, on peut :

Donc on peut évoluer et tester une théorie précoce, en restant toujours TEI-conforme.

Not Invented Here?

Mais, au fond, le modèle textuel proposé par la TEI reste proche à un modèle très répandu: très intuitif

L’évolution darwinienne, ça marche…

... et n'oubliez pas de vous abonner au Consortium !

Pour en savoir plus

Prochaine formation TEI 2: https://formation-tei-2.sciencesconf.org/