1. Introduction
Ce document décrit un schéma TEI XML destiné à l'usage du projet Transcription de l'archive de l'Oulipo. Il rassemble des discussions et des exemples d'utilisation des éléments TEI figurant dans chacun des textes transcrits, avec une définition formelle de la manière dont ce vocabulaire de balisage a été adapté des TEI Guidelines.
Les transcriptions des documents Oulipo sont archivées dans un format TEI XML, utilisant des balises XML spécifiques. Ces balises constituent un sous-ensemble personnalisé des balises fournies par les TEI Guidelines (http://www.tei-c.org/Guidelines). Le sous-ensemble sélectionné est assez limité et l'utilisation prévue pour chaque balise sélectionnée est décrite dans ce document, permettant ainsi la génération automatique d'un schéma informatique pour la validation des documents concernés.
Dans ce document, nous discutons d'abord le balisage fondamental qui sert à structurer le texte de chaque document (2. Structuration des documents) ; ensuite, nous presentons le balisage spécialisé utilisé pour les composants significatifs identifiés dans le texte, tels que les termes techniques, les noms de personnes ou de lieux, etc.) (2.6. Noms propres) ; enfin nous présentons l'organisation de l'en-tête TEI (‘TEI Header’) qui contient des métadonnées décrivant le document (4. L'en-tête TEI). La dernière partie de ce document contient un référence téchnique, décrivant d'une manière standardisée tout composant du schéma d'encodage, établissant ainsi un lien avec son origine dans les TEI Guidelines.
Des connaissances basiques de TEI XML sont présumées.
2. Structuration des documents
Tout document transcrit par le projet se présente sous la forme d'un seul élément <TEI> ayant deux parties : un <teiHeader> rassemblant des métadonnées qui décrivent le document, et un <text> qui contient sa transcription. Nous traitons du <teiHeader> ci-après dans la section 4. L'en-tête TEI.
Les images numériques de chaque ‘document’ portent un code identifiant, dérivé de la cote attribuée à cette source dans le catalogue de la Bibliothèque de l'Arsenal. La plupart des documents concernent une des réunions régulières de l'Oulipo: nous distinguons donc quatre types:
- CR
- contient le compte-rendu d'une réunion
- OJ
- contient l'ordre du jour d'une réunion
- CV
- contient une convocation à une réunion
- AUTRE
- tout autre type de document
Nous utilisons l'attribut xml:id de l'élemént <TEI> pour fournir un identifiant unique au document représenté par cet élément. Cet identifiant rassemble le code de l'image numérique, la date de la réunion concernée, et un des codes de type de document indiqués plus haut, comme le montre l'exemple ci-dessous. Ce code de type de document est aussi utilisé comme valeur de l'attribut type sur l'élément <text>.
Voici par exemple la structure du document qui contient le compte-rendu de la réunion de janvier 1961, et qui correspond au scan numeroté T10010004 :
<TEI xml:id="T10010004-1961-01-cr" xmlns="http://www.tei-c.org/ns/1.0">
<teiHeader>
</teiHeader>
<text type="CR">
<body>
</body>
</text>
</TEI>
Il est à noter que l'élément <text> contient obligatoirement un élément <body> qui comprend tout le texte transcrit du document.
Le système d'encodage TEI permet une division hiérarchique de l'élément <body> en utilisant des éléments <div>, bien que la majorité des documents transcrits ne s'en servent pas. Lorsque cet élément est utilisé, si une division commence avec un ou plusieurs titres ces derniers peuvent être signalés en utilisant l'élément <head>.
2.1. Coupures de page et de ligne
Au sein d'une transcription, un balise vide
<pb> apparaît au début de chaque nouvelle page. Son attribut
n fournit le numéro de page selon la numerotation du PDF ; son attribut
facs fournit un lien vers l'image numérique de la page transcrite. Par exemple :
<p>
<term>OuLiPo</term> : Organisme qui se propose d’examiner en quoi et par quel moyen,
étant donnée une théorie scientifique concernant éventuellement le langage (donc :
l’anthropologie), on peut y introduire du plaisir esthétique (affectivité et
fantaisie).
</p>
<pb facs="difdepo:T10010007-1961-04-17-cr-03"
n="3"/>
<p>
<term>Oulipiens</term> : Rats qui ont à construire le <term>labyrinthe</term> dont
ils se proposent de sortir.
</p>
Nota: l'attribut xml:id ne devrait pas été utilisé que si sa valeur soit unique parmi tout le corpus.
La balise vide <lb> pourrait être utilisée pour indiquer une coupure de ligne signifiante dans le texte. D'habitude les coupures de ligne ne sont pas considerées d'importance et ne sont pas conservées, puisque le but principal de cet encodage n'est pas de saisir les aspects visuels ou physiques du document, cet objectif étant mieux servi par les images numerisées. En revanche, notre encodage vise à saisir la structure rhétorique de chaque document et de signaler la présence de quelques traits signifiants, notamment la présence de termes ou de notions et de références aux entités nommées telles que les personnes, les notions, les œuvres etc.
2.2. Paragraphes et listes
Nos transcriptions utilisent l'élément TEI <p> pour tout bloc de texte, y compris les composants d'une liste et les titres. Plusieurs éléments sont disponibles à l'intérieur d'un <p> outre de texte pur (par exemple <term> et <persName>): nous considérons ceux-ci et d'autres ci-dessous.
Il est à noter que les paragraphes initiaux d'un document, qui contiennent d'habitude des metadonnées sur sa fonction, son lieu, sa date etc., sont distingués des autres en utilisant la valeur spéciale incipit pour leur attribut rend. Leur contenu est transféré automatiqement dans l'entête TEI.
Une liste d'items, en particulier une liste numerotéee, devrait de préférence être balisée en utilisant les éléments TEI standards
<list> and
<item> comme suit :
<p>Les absents s’étant excusés eux-mêmes, le <persName ref="#president">Président</persName> se donne la parole assez facilement, pour constater que
:</p>
<list>
<item>le point (a) de l’ordre du jour (les <term>monosyllabes</term>
d’<persName>Amédée Pommier</persName>) est, en l’absence d’<persName>A.M.
Schmidt</persName>, exclu du dit ordre ;</item>
<item>qu’il en est de même du point (c), en l’absence de <persName>S. Exc.
Q.B</persName>. ;</item>
<item>qu’en l’absence des mathématiciens, le point (b) doit être reporté à une date
ultérieure</item>
</list>
Aucune distinction de balisage n'est proposée pour les listes numerotées ou pas numerotées.
Si la saisie précise de la structure d'une liste n'a pas pu s'effectuer il peut arriver que chacun des items se présente comme un élément <p>.
2.3. Rubriques et Titres
De la même manière la saisie d'un document organisé en plusieurs niveaux avec plusieurs titres et sous-titres peut être difficile à effectuer correctement avec l'approche classique TEI des éléments <div> et <head> proposée ci-dessus. Pour simplifier, il est permis d'utiliser l'élément <label> à l'interieur d'un <p> qui semble contenir une rubrique ou un titre; comme l'exemple suivant :
<p>
<label type="rubrique">3) Bibliothèque oulipienne</label>
</p>
<list type="unordered">
<item>Bilan <persName>Marcel</persName> Diffusion, distribution et dépôt.</item>
<item>Calcul du prix <persName>Marcel</persName> et <persName>Paul</persName>
</item>
<item>Phynance <persName>Marcel B</persName>
</item>
</list>
<p>
<label type="rubrique">4) Phynances</label>
</p>
<list type="unordered">
<item>
<persName>Mme Brun</persName> - <persName>Dominique</persName>
</item>
<item>Appel secrétariat. <persName>Fournel</persName>
</item>
</list>
2.4. Problèmes de Transcription
Bien que le but du projet ne soit pas de produire une édition critique classique, certains passages nécessitent parfois un balisage quasi editorial, par exemple parce que la transcription est incertaine ou incomplète; ou parce qu'on souhaite indiquer une lacune ou un raturage dans l'original.
Dans cet exemple, le transcripteur signale son incertitude concernant la transcription du mot
miquerel en se servant de la balise
<unclear> :
<p>
<label type="rubrique">Arrivée de <persName>Calvino</persName> (qui passe ce soir à
<name type="manif">Apostrophes</name> et qui est un peu
<unclear>miqurel</unclear>).</label>
</p>
Dans cet example, le transcripteur n'arrive pas à lire tout l'original ; l'élément
<gap> est donc utilisé pour signaler qu'il y a quelque chose qui manque à la transcription :
<p>... <persName>PF</persName> propose
de traduire <title>Mein Kampf</title> qui est sans doute la <gap/> de « La
Recherche ».</p>
Dans cet example, le transcripteur souhaite indiquer que le mot
‘Compléments’ est lisible mais raturé dans la source :
<p>
<label type="rubrique">Création</label>
</p>
<list type="unordered">
<item>
<persName>Marcel Bénabou</persName> : les <del>Compléments</del> la Poésie
paronynymiques</item>
<item>
<persName>François Caradec</persName> : Défi de Roubaud</item>
</list>
2.5. Notions, noms, et notes
Les mots et les expressions qui représentent des notions spécifiques ou des thèmes particuliers aux Oulipiens sont indiqués en utilisant l'élément
<term>, pour faciliter entre autres objectifs la construction d'un index thématique du corpus. Par exemple :
<p>
<persName>LE</persName> : système de la <term>contrainte provisoire</term> :
construire le texte sur une contrainte, puis le traduire en langage normal
</p>
Les mots et les phrases qui contiennent le nom d'un événement externe tel qu'un colloque ou une manifestation etc. sont indiqués en utilisant l'élément
<name>, avec son attribut
type portant la valeur manif, par exemple :
<p>
<persName>Paul Braffort</persName> fait une communication sur le récent <name type="manif">colloque de Besançon</name> sur la <term>lexicographie</term>.
</p>
Noter que l'élément <name> sert aussi à signaler le nom d'un transcripteur ou d'un éditeur apparaissant dans l'en-tête TEI. En revanche, les noms de personnes, de lieux, d'organisations, et d'œuvres figurant dans les textes sont tous balisés en utilisant des éléments plus spécialisés, précisés dans la section suivante 2.6. Noms propres.
Si possible, les notes de bas de page sont balisées en utilisant l'élément <note>. Cet élément remplace le chiffre indiquant la présence d'une note et contient le texte de la note. L'attribut n contient le numéro de la note, et l'attribut place, ayant pour valeurs possibles foot et end, précise la position du texte de la note dans l'original. Par exemple, supposant que le texte ‘D'autres alexandrins...’ soit en bas de la page :
<p> ... on salua gravement Lady Godiva,
puis on siffla des kirs correctement dosés<note n="1" place="foot">
<p>D’autres <term>alexandrins</term> seront dissimulés. Cherchez-les ! C’est un jeu
de vacances. (Aucun prix ne sera décerné.)</p>
</note>.</p>
2.6. Noms propres
Dans une transcription, les noms de personnes, de lieux, d'organisations, et d'œuvres sont balisés en utilisant l'élément approprié choisi dans la liste suivante :
Le placeName n'est utilise que dans le Header (voir)
Dans chaque cas, l'attribut
ref peut fournir un code identifiant l'entité nommée (la ` personne, le lieu, l'organisation, l'œuvre). Ce mécanisme nous permet de résoudre le problème occasionné par l'existence des formes multiples d'une seule nomination. Par exemple :
<persName ref="#RQ">Raymond Queneau</persName> ..... <persName ref="#RQ">RQ</persName>
... Le <persName ref="#RQ">Satrape Queneau</persName>...
Le même code (
RQ
) est associé avec toutes les formes différentes du nom de cette personne. Ce code fonctionne également comme identifiant d'un élément
<person> ailleurs dans notre corpus regroupant en un seul endroit les informations dont nous disposons concernant cette personne.
Les éléments
<placeName> et
<orgName> fonctionnent de la même manière :
<placeName ref="#restoLaborderie">restaurant Laborderie</placeName>
<p>Le président parla d’abord, pour
faire part d’une lettre de M. <persName ref="#jeancocteau">Jean Cocteau</persName>
(de l’<orgName ref="#acadFrancaise">Acadéfraise</orgName>)....</p>
Les valeurs utilisées pour l'attribut ref ici et ailleurs sont des codes arbitraires générés automatiquement pendant le traitement du corpus, puis raffinés pour éliminer les doublons et résoudre les ambiguités. Ce travail est toujours en cours...
3. Registre d'entités
En correspondance avec ces balises de ‘référence aux entités’, nous maintenons un ‘registre d'entités’. C'est un document TEI indépendant contenant des listes des personnes, lieux, organisations, et œuvres référencées dans l'ensemble du corpus. Sont utilisés dans ce document les éléments suivants :
3.1. Personnes
L'élément <listPerson> contient plusieurs éléments <person>, contenant eux-mêmes chacun un ou plusieurs des éléments suivants :
Ces éléments portent entre autres des attributs permettant de préciser la chronologie de leur applicabilité à la personne concernée, par exemple l'attribut when pour indiquer une date précise, et les attributs notBefore et notAfter pour indiquer une plage de dates possibles.
Par exemple :
<person xml:id="MD" n="15">
<persName>Marcel Duchamp</persName>
<birth when="1887-07-28"/>
<death when="1968-10-02">Excusé depuis le 2 octobre 1968</death>
<affiliation when="1962-03-16">Entré à l'Oulipo le 16 mars 1962 </affiliation>
<affiliation notBefore="1920"
notAfter="1950-04-30">Société Anonyme, Inc.</affiliation>
</person>
3.2. Lieux et organisations
L'élément <listPlace> contient plusieurs éléments <place>, contenant chacun un ou plusieurs des éléments suivants :
Par exemple :
<listPlace>
<place xml:id="#restoLaborderie">
<placeName>restaurant Laborderie</placeName>
<location>
<desc>40 rue de l’Université</desc>
</location>
</place>
</listPlace>
L'élément <listOrg> contient plusieurs éléments <org>, contenant chacun un ou plusieurs des éléments suivants :
Par exemple :
<listOrg>
<org xml:id="myam">
<orgName>M Y A M</orgName>
</org>
<org xml:id="acadFran">
<orgName>Académie Francaise</orgName>
<orgName>Acadéfraise</orgName>
</org>
</listOrg>
3.3. Œuvres et événements
L'élément <listBibl> contient plusieurs éléments <bibl> contenant chacun un ou plusieurs des éléments suivants :
Par exemple :
<bibl xml:id="leducationsentimentale">Gustave Flaubert : <title>L’Education
sentimentale</title>
</bibl>
L'élément <listEvent> contient plusieurs éléments <event> contenant chacun un ou plusieurs des éléments suivants :
Par exemple :
<event xml:id="concoursdesartistes">
<label>Concours des Artistes</label>
<desc>
</desc>
</event>
4. L'en-tête TEI
Chaque document contient un en-tête TEI, fournissant des métadonnées essentielles. Ces données sont générées automatiquement à partir des données saisies dans un template Word lors de la transcription du document. Comme pour tout autre document TEI, l'en-tête est représenté par un élément <teiHeader>, contenant un élément <fileDesc>, suivi d'un élément <revisionDesc>.
Le <fileDesc> du document dispose des composants TEI standard suivants :
Le <titleStmt> contient toujours un élément <title> suivi d'au moins un élément <respStmt>. Le <title> contient un titre pour le document construit selon la formule suivante :
Transcription du scan [numéro du scan] pp. [numéro de la page initiale] à [numéro de la page finale] ([code de type de document]) : version TEI
. Les deux numéros de page sont toujours présents même s'ils sont identiques, et même s'ils sont tous les deux 1. Le code de type de document est le code à deux lettres utilisé également comme valeur de l'attribut type de l'élément <text> associé.
Chaque élément
<respStmt> sert à indiquer la personne responsable d'un aspect du document, et a deux composants : un élément
<resp> précisant le type de responsabilité (par exemple
transcription
) et un élément
<name> indiquant le nom de la personne concernée. Par exemple :
<respStmt>
<resp>transcription</resp>
<name>Susie Cronin</name>
</respStmt>
L'élément <publicationStmt> contient toujours la même indication du distributeur des documents :
Edition numérique distribué par le projet ANR DifDePo
L'élément <sourceDesc> contient toujours un seul élément <bibl> d'un format contraint. Dans nos documents un <bibl> doit contenir soit une chaîne de caractères sans balise, soit au moins un des éléments suivants :
Chaque élément <idno> contient un identifiant pour le document concerné. Son attribut type sert à distinguer parmi les types d'identifiant possibles et prend une des valeurs suivantes :
- ark
- BNF "ark" archival identifier
- ead
- BNF EAD format identifier
- [aucun]
- Identifiant du projet
L'élément
<meeting> est utilisé uniquement pour un document contenant un compte rendu Son attribut
xml:id fournit un identifiant pour la réunion concernée, correspondant ordinairement à l'identifiant du document mais sans suffixe (CR, CV etc). L'élément doit contenir un élément
<date>, précisant la date de la réunion, facultativement suivi d'un élément
<placeName> fournissant son lieu, si specifié. Un élément
<list>, de
type present complète cet élément en fournissant une liste des personnes assistant à la réunion. Par exemple :
<bibl>
<idno type="ark">12148/btv1b10010018z</idno>
<idno type="ead">d0e408</idno>
<idno>t10010018-1962-04-cr</idno>
<meeting xml:id="t10010018-1962-04">
<date when="1962-04-12"/>
<list type="present">
<item>
<persName ref="#RQ"/>
</item>
<item>
<persName ref="#JB"/>
</item>
<item>
<persName role="président" ref="#JL"/>
</item>
</list>
</meeting>
</bibl>
Dans l'en-tête, l'élément
<title> est utilisé pour la specification de tout autre type de document (OJ, pour les ordres du jour; CV pour les convocations). Il contient une formule décrivant le document concerné, disposant d'un élément
<ref> pour cibler l'élément
<meeting> concerné, et facultativement un élément
<date> si la date du document est connue. Voici un ordre du jour typique :
<title>Ordre de jour de <ref target="#T10010007-1961-05-03">la réunion Oulipo</ref> du
<date when="1961-05-03">mai 1961</date>
</title>
Voici une convocation typique :
<title>Convocation à <ref target="#T10010273-1984-07">une réunion Oulipo</ref>, envoyée
le <date when="1984-07-01"/> par <persName role="expéditeur">PF</persName>
Destinataire : <persName role="destinataire">XX</persName>
</title>
Si le titre contient des noms ou des dates il seront généralement encodés en utilisant les balises <date> ou <persName> comme dans l'exemple ci-dessus. L'attribut when de l'élément <date> fournit une forme normalisée de la date et doit être fourni, independamment d'une expression plus textuelle de la date qui peut être contenue dans l'élément <date>. L'attribut role de l'élément <persName> sert à indiquer la fonction de la personne referencée. Dans l'exemple ci-dessus, Fournel envoie une invitation à une personne inconnue. L'attribut role peut prendre les valeurs suivantes :
- invité
- personne invitée à une réunion
- président
- président d'une réunion
- secrétaire
- secrétaire d'une réunion, ou personne prenant les notes
- expéditeur
- personne responsable de l'envoi d'une invitation
- destinataire
- personne à qui une invitation est envoyée
L'élément <revisionDesc> d'un document difDepo utilise les composants TEI standard suivants :
Une description des révisions contient une liste des modifications significatives apportées au document, dans l'ordre chronologique inverse (la plus récente d'abord). Chaque modification est indiquée par un élément <change>. La date de la modification est donnée par son attribut when, et sa nature est indiquée par son contenu. La personne responsable de la modification peut être indiquée par son attribut who.
Pour ce projet, chaque document contient un élément <change> créé lors de la création du document en TEI XML. Des éléments <change> additionnels peuvent être créés automatiquement et insérés à des stades ultérieurs du développement de l'archive.