SGML-Grundlagen

Andreas Baumert

Ausgezeichnet!

In der einfachsten Form ist eine Dokumentinstanz in reinem ASCII-Text geschrieben und mit Auszeichnungen versehen. Eine Dokumentinstanz ist nichts anderes als eine Kollektion von Daten, die gemäß den Definitionen der DTD ausgezeichnet sind. Oft wird im übrigen für den Ausdruck Dokumentinstanz auch der Begriff SGML-Dokument benutzt.

Die Auszeichnungen (engl. Tags) markieren Start und Ende eines Elements. Die Startmarke für eine Dokumentinstanz unserer DTD ist <hanzet>, die Endemarke </hanzet>, entsprechend sind die Marken für den Titel <tit> und </tit> usw. Endemarken unterscheiden sich immer durch den vorangestellten Schrägstrich von den Startmarken.

Tags

Bedeutung

Textbeispiel

<hanzet>

Handzettel START

<tit> </tit>

Titel START ENDE

Schluß mit dem Wildwuchs!

<absn>

1. Abschnitt START

<abz></abz>

Absatz START ENDE

In der Vergangenheit ...

<abz></abz>

Absatz START ENDE

Das Resultat war ...

</absn>

1. Abschnitt ENDE

<absn>

2. Abschnitt START

<aueb></aueb>

Überschrift START ENDE

Datenrettung

<abz></abz>

Absatz START ENDE

Bislang hatten Sie ...

<abz></abz>

Absatz START ENDE

Sie konnten die ...

<abz></abz>

Absatz START ENDE

Viele Anwender ...

</absn>

2. Abschnitt ENDE

<finl>

Finale START

<fueb></fueb>

Finale Überschrift START ENDE

Investitionssicherung

<akn></akn>

Aktion START ENDE

Setzen Sie auf eine...

<akn></akn>

Aktion START ENDE

Nutzen auch Sie SGML!

</finl>

Finale ENDE

</hanzet>

Handzettel ENDE

Weiter unten ist die vollständige Dokumentinstanz wiedergegeben. Die erste Zeile dort bedarf noch einer Erklärung:

<!DOCTYPE hanzet SYSTEM "c:\daten\fhsgml\hanzet.dtd" >

Jede Dokumentinstanz kann nur dann verarbeitet werden, wenn den Programmen bekannt ist, von welchem Dokumenttyp (DTD) die vorliegende Datenmenge eine Instanz ist. Dazu dient im Beispiel die erste Zeile. Sie besagt, daß die folgenden Daten eine Instanz des Dokumententyps hanzet <!DOCTYPE hanzet sind. Die Datei, in der die DTD gespeichert ist, ist auf dem System unter dem angegebenen Pfadnamen SYSTEM "c:\daten\fhsgml\hanzet.dtd"> zu finden.

<!DOCTYPE hanzet SYSTEM "c:\daten\fhsgml\hanzet.dtd" >
<hanzet>
<tit>Schlu&szlig; mit dem Wildwuchs!</tit>
<absn>
<abz>In der Vergangenheit haben es die Anwender den Herstellern &uuml;berlassen, nach welchen Verfahren Daten gespeichert werden.</abz>
<abz>Das Resultat war oft, da&szlig; Daten nach relativ kurzer Zeit verlorengingen, wenn beispielsweise Hersteller vom Markt verschwunden waren.</abz>
</absn>
<absn>
<aueb>Datenrettung</aueb>
<abz>Bislang hatten Sie nur drei M&ouml;glichkeiten, dem drohenden Datenverlust entgegenzuwirken.</abz>
<abz>Sie konnten die Dokumente auf Papier oder Microfiche kopieren. Oder Sie konnten sie elektronisch auf ein neues System &uuml;bertragen.</abz>
<abz>Viele Anwender haben auch eine Art "Betriebsmuseum" mit alten Rechnern am Leben erhalten. Diese Verfahren sind teuer und stehen in bizarrem Kontrast zu den M&ouml;glichkeiten, die die EDV heute bietet.</abz>
</absn>
<finl>
<fueb>Investitionssicherung</fueb>
<akn>Setzen Sie auf eine internationale Norm!</akn>
<akn>Nutzen auch Sie SGML!</akn>
</finl>
</hanzet>

Das ß und die Umlaute sind eine Besonderheit. Anstelle des ß finden wir &szlig; (sz-Ligatur) für die Umlaute steht: &auml; (für ä), &Auml; (für Ä), &ouml; (für ö), &Ouml; (für Ö), &uuml; (für ü), &Uuml; (für Ü).

Es gibt Vereinfachungen dieses Verfahrens, die explizit in der DTD eingetragen werden müßten. Die Dokumentinstanz soll ja zeitbeständig gespeichert werden. Man darf wohl davon ausgehen, daß in zwanzig Jahren ein ganz anderes Codierungssystem genutzt werden wird, denn die heute üblichen Codetabellen sind nicht dafür eingerichtet, alle Schriftzeichen dieser Welt zu repräsentieren.

An diesem Beispiel wird erkenntlich, warum SGML auf der untersten Ebene nicht von Text spricht: Wieder sind es nur (Zeichen-) Daten, die verarbeitet werden müssen, parsable character data #PCDATA. Erst der Zugriff des Programms gestaltet m&uuml;&szlig;ig in "müßig" um.

Letzte Änderung: 16AUG12
www.recherche-und-text.de/wwwpubls/sgml06.html
Dieser Text ist urheberrechtlich geschützt.
Sonderdruck für die Veranstaltung „Neue Medien“ der tekom-Regionalgruppe Rhein-Main,
28.-29. Oktober 1995 in Bad König Momart / Odenwald.

baumert@recherche-und-text.de