Andreas Baumert
In der einfachsten Form ist eine Dokumentinstanz in reinem ASCII-Text geschrieben und mit Auszeichnungen versehen. Eine Dokumentinstanz ist nichts anderes als eine Kollektion von Daten, die gemäß den Definitionen der DTD ausgezeichnet sind. Oft wird im übrigen für den Ausdruck Dokumentinstanz auch der Begriff SGML-Dokument benutzt.
Die Auszeichnungen (engl. Tags) markieren Start und Ende eines Elements. Die Startmarke für eine Dokumentinstanz unserer DTD ist <hanzet>, die Endemarke </hanzet>, entsprechend sind die Marken für den Titel <tit> und </tit> usw. Endemarken unterscheiden sich immer durch den vorangestellten Schrägstrich von den Startmarken.
Tags |
Bedeutung |
Textbeispiel |
<hanzet> |
Handzettel START |
|
<tit> </tit> |
Titel START ENDE |
Schluß mit dem Wildwuchs! |
<absn> |
1. Abschnitt START |
|
<abz></abz> |
Absatz START ENDE |
In der Vergangenheit ... |
<abz></abz> |
Absatz START ENDE |
Das Resultat war ... |
</absn> |
1. Abschnitt ENDE |
|
<absn> |
2. Abschnitt START |
|
<aueb></aueb> |
Überschrift START ENDE |
Datenrettung |
<abz></abz> |
Absatz START ENDE |
Bislang hatten Sie ... |
<abz></abz> |
Absatz START ENDE |
Sie konnten die ... |
<abz></abz> |
Absatz START ENDE |
Viele Anwender ... |
</absn> |
2. Abschnitt ENDE |
|
<finl> |
Finale START |
|
<fueb></fueb> |
Finale Überschrift START ENDE |
Investitionssicherung |
<akn></akn> |
Aktion START ENDE |
Setzen Sie auf eine... |
<akn></akn> |
Aktion START ENDE |
Nutzen auch Sie SGML! |
</finl> |
Finale ENDE |
|
</hanzet> |
Handzettel ENDE |
Weiter unten ist die vollständige Dokumentinstanz wiedergegeben. Die erste Zeile dort bedarf noch einer Erklärung:
<!DOCTYPE hanzet SYSTEM "c:\daten\fhsgml\hanzet.dtd" >
Jede Dokumentinstanz kann nur dann verarbeitet werden, wenn den Programmen bekannt ist, von welchem Dokumenttyp (DTD) die vorliegende Datenmenge eine Instanz ist. Dazu dient im Beispiel die erste Zeile. Sie besagt, daß die folgenden Daten eine Instanz des Dokumententyps hanzet <!DOCTYPE hanzet sind. Die Datei, in der die DTD gespeichert ist, ist auf dem System unter dem angegebenen Pfadnamen SYSTEM "c:\daten\fhsgml\hanzet.dtd"> zu finden.
<!DOCTYPE hanzet SYSTEM "c:\daten\fhsgml\hanzet.dtd" >
<hanzet>
<tit>Schluß mit dem Wildwuchs!</tit>
<absn>
<abz>In der Vergangenheit haben es die Anwender den
Herstellern überlassen, nach welchen Verfahren
Daten gespeichert werden.</abz>
<abz>Das Resultat war oft, daß Daten nach
relativ kurzer Zeit verlorengingen, wenn beispielsweise Hersteller
vom Markt verschwunden waren.</abz>
</absn>
<absn>
<aueb>Datenrettung</aueb>
<abz>Bislang hatten Sie nur drei Möglichkeiten,
dem drohenden Datenverlust entgegenzuwirken.</abz>
<abz>Sie konnten die Dokumente auf Papier oder
Microfiche kopieren. Oder Sie konnten sie elektronisch
auf ein neues System übertragen.</abz>
<abz>Viele Anwender haben auch eine Art
"Betriebsmuseum" mit alten Rechnern am Leben erhalten.
Diese Verfahren sind teuer und stehen in bizarrem Kontrast
zu den Möglichkeiten, die die EDV heute bietet.</abz>
</absn>
<finl>
<fueb>Investitionssicherung</fueb>
<akn>Setzen Sie auf eine internationale Norm!</akn>
<akn>Nutzen auch Sie SGML!</akn>
</finl>
</hanzet>
Das ß und die Umlaute sind eine Besonderheit. Anstelle des ß finden wir ß (sz-Ligatur) für die Umlaute steht: ä (für ä), Ä (für Ä), ö (für ö), Ö (für Ö), ü (für ü), Ü (für Ü).
Es gibt Vereinfachungen dieses Verfahrens, die explizit in der DTD eingetragen werden müßten. Die Dokumentinstanz soll ja zeitbeständig gespeichert werden. Man darf wohl davon ausgehen, daß in zwanzig Jahren ein ganz anderes Codierungssystem genutzt werden wird, denn die heute üblichen Codetabellen sind nicht dafür eingerichtet, alle Schriftzeichen dieser Welt zu repräsentieren.
An diesem Beispiel wird erkenntlich, warum SGML auf der untersten Ebene nicht von Text spricht: Wieder sind es nur (Zeichen-) Daten, die verarbeitet werden müssen, parsable character data #PCDATA. Erst der Zugriff des Programms gestaltet müßig in "müßig" um.
Letzte Änderung: 16AUG12
www.recherche-und-text.de/wwwpubls/sgml06.html
Dieser Text ist urheberrechtlich geschützt.
Sonderdruck für die Veranstaltung „Neue Medien“
der tekom-Regionalgruppe Rhein-Main,
28.-29. Oktober 1995 in Bad König Momart / Odenwald.