Az alábbiakban röviden és lényegre törően bemutatjuk a TEI dokumentumok felépítését és a benne használt legfontosabb elemeket.[55] Azonban tudnunk kell, hogy a TEI alapján felépített szövegjelölés legtöbbször bonyolultabb, mint amilyen például DocBook esetén készíthető. Ugyanakkor, ha általános felépítésű dokumentumokkal dolgozunk, akkor nagyon egyszerűen el lehet sajátítani az abban használható jelölőelem-készletet. A projekt honlapján természetesen elérhető mindenki számára a teljes dokumentáció! Mielőtt azonban a szerkezeti felépítésbe merülnénk, hasznos tudni, hogy a TEI programnak kezdetben két központi kérdése volt:
-
az elektronikus szövegeknek mely tulajdonságait kódolják;
-
hogyan kódolják a tulajdonságokat, hogy a kódolás minél kevesebb veszteséggel járjon és a végeredmény platformfüggetlen és átjárható legyen;
Az utóbbi kérdésre a megoldás egyszerű volt: a TEI-nek a metaadatokat az SGML szabványnak megfelelően kellett rögzíteni[56] – 1987-ben nem volt más alkalmas eszköz az ajánlás kidolgozására. Ennek eredményeként létrehoztak egy minden szövegre érvényes alap kódkészletet (core tag sets), amely nemcsak a legelemibb szövegelemek metakódját tartalmazza, hanem benne foglaltatik a fejléc (header) is, amelyben a szöveg egészére vonatkozó bibliográfiai adatok vannak. Az ajánlásban sokféle információ rögzítését javasolják, de megengedett a pusztán azonosításra szolgáló, minimális fejléc alkalmazása is.
A TEI kezdetben hat fő szövegtípust, ennek alapján hat fő kódkészletet (base tag sets) használt:
<!ENTITY % TEI.prose 'INCLUDE' > próza;
<!ENTITY % TEI.verse 'INCLUDE' > vers;
<!ENTITY % TEI.drama 'INCLUDE' > dráma;
<!ENTITY % TEI.spoken 'INCLUDE' > lejegyzett beszéd;
<!ENTITY % TEI.dictionaries 'INCLUDE' > nyomtatott szótárak;
<!ENTITY % TEI.terminology 'INCLUDE' > terminológiai adatállományok;
A későbbiekben ez bővült, ugyanis a TEI P4 és P5-ös verziója már két újabb kódkészletet tartalmaz:
<!ENTITY % TEI.general 'INCLUDE' > általános típusú dokumentumok;
<!ENTITY % TEI.mixed 'INCLUDE' > vegyes típusú dokumentumok;
A szövegrögzítés céljától függően további tíz kiegészítő kódkészletet (additional tag sets) különböztettek meg, melyek a következők:
-
TEI.linking – hypertext kapcsolatok, mutatók jelölése;
-
TEI.analysis – analitikus információk kódolása;
-
TEI.fs – strukturális nyelvészeti és más elemzések eredményének kódjai;
-
TEI.certainty – a szöveg értelmezésekor, rögzítésekor felmerülő bizonytalanságok jelölése;
-
TEI.transcr – kéziratos források átírásánál használatos jelek;
-
TEI.textcrit – kritikai szövegrögzítés;
-
TEI.names.dates – nevek és dátumok kódolása;
-
TEI.nets – gráfok, fák és hálózatok ábrázolása;
-
TEI.corpus – nyelvi korpuszok;
Jelenleg tizenegy kiegészítő kódkészlet van a TEI-ben, tehát a lista egy új taggal gyarapodott:
-
TEI.msdescription – kéziratos, vagy korai nyomtatású anyagok leírásához szükséges elemkészlet;
Egyértelműen látszik tehát a TEI moduláris felépítettsége, ami azzal az előnnyel jár, hogy a kódolás és a további feldolgozás során nem kell minden szabályra ügyelni, csak azokra, melyek az adott dokumentumtípusra (pl. vers, próza, dráma, szótár), vagy a szöveg kiegészítő elemeire (kritikai apparátus, ugrópontok) vonatkoznak.

Előző
Előző