aus Wikipedia, der freien Enzyklopädie
XML (Extensible Markup Language) ist ein Begriff aus der Computertechnik und bezeichnet einen Standard zur Definition von Auszeichnungssprachen, der als vereinfachte Untermenge von SGML konzipiert wurde.
Gleichzeitig steht XML in einer losen Verwandtschaft zu HTML, welches ursprünglich (d.h. bis einschließlich zur Spezifikationsversion 4.01) selbst als Anwendung von SGML definiert wurde. Mit der "Extensible HyperText Markup Language" (XHTML) wurde der Übergang zu XML als Definitionsbasis vollzogen.
Die Namen der einzelnen Strukturelemente für eine bestimmte Auszeichnungssprache lassen sich frei wählen, diese Auszeichnungssprachen können dabei alle möglichen Daten beschreiben, als prominentestes Beispiel Text, aber auch Grafiken oder abstraktes Wissen. Ein Grundgedanke hinter XML ist es, Daten und ihre Repräsentation zu trennen. Also beispielsweise Wetterdaten einmal als Tabelle oder als Grafik auszugeben, aber für beide Anwendungen die gleiche Datenbasis im XML-Format zu nutzen.
|
4.1 APIs zur Verarbeitung von XML 5.1
Text |
Eine XML-Datei, die als wohlgeformt bezeichnet wird, muss die Regeln für XML korrekt einhalten (was z.B. Verschachtelungen von Elementen betrifft).
Programme, die XML-Daten verarbeiten, nennt man XML-Parser.
Soll XML für den Datenaustausch verwendet werden, so sollten die Daten einer Dokumenttypdefinition oder einem XML Schema entsprechen.
Beispiel einer XML-Datei
<?xml version="1.0"?>
<enzyklopaedie>
<eintrag>
<stichwort>Genf </stichwort>
<eintragstext>Genf ist der Sitz von...</eintragstext>
</eintrag>
</enzyklopaedie>XML-Dateien sind hierarchisch strukturiert. Die Dateien sind plattformunabhängig, da ihre Kodierung angegeben wird. Der Standard ist Unicode, genauer gesagt UTF-8.
XML-Dokumente können folgende Objekte enthalten:
Start-Tag, End-Tag, Empty-Tag
Attribute: An einem Element anhängende Schlüsselwort-Werte-Paare
Entitäten (Platzhalter, die bei der Auswertung durch anderen Inhalt ersetzt werden):
Allgemeine Entitäten (u.a. externe)
Dabei sind die Verarbeitungsanweisungen und die Angabe eine DTD mittlerweile obsolet. Eine XML Datei muss genau ein Element in der obersten Ebene enthalten. Unterhalb von diesem können weitere Elemente verschachtelt werden.
Einige Web-Browser können XML-Dateien mit Hilfe eines eingebauten XML-Parsers direkt darstellen. Dies geschieht in Verbindung mit einem Stylesheet. Diese Transformation kann die Daten in ein komplett anderes Format umwandeln, das Zielformat muss nicht einmal XML sein.
Die Kerntechnologien im XML Umfeld kann man grob aufteilen in: APIs zur Verarbeitung von XML und Sprachen um XML Dateien zu beschreiben.
SAX ist eine standardisierte Möglichkeit, wie eine XML Datei geparst werden kann. Hierbei wird ein Datei-Strom in einen Strom von Ereignissen umgewandelt. Programme können sich für einzelne Ereignisse registrieren, um bei Bedarf ihre Arbeit zu verrichten. Ein Vorteil von SAX ist, dass die gesamte XML Datei nie im Speicher sein muss, das ist aber dann ein Nachteil, wenn man viele Informationen, die über die ganze Datei verstreut sind, zur Verarbeitung benötigt
DOM (Document Object Model) ist der zweite standardisierte Weg, um XML Dateien auszuwerten. Er stellt, wie der Name schon sagt, ein standardisiertes Objektmodell zur Verfügung, mit dessen Hilfe der Inhalt der XML Datei ausgewertet oder manipuliert werden kann. Hierbei ist jedoch die ganze Datei im Speicher, jedoch sind Programme die auf DOM basieren im Allgemeinen einfacher zu verstehen.
Es gibt zwei standardisierte Möglichkeiten um die Struktur von XML Dokumenten zu beschreiben, Dokumenttypdefinitionen oder mit XML Schema.
Eine DTD (Dokumenttypdefinition) ist eine Beschreibung eines XML Dokuments. Sie wurde zusammen mit XML standardisiert. Leider kann mit einer DTD nicht sehr strikt beschrieben werden, wie eine XML Datei aussehen darf. Ein weiterer Nachteil ist die Tatsache, dass die DTD in einer eigenen Sprache abgefasst werden muss.
XML Schema ist die moderne Möglichkeit, XML Dokumente zu beschreiben. Ein Schema ist selbst ein XML Dokument, das es erlaubt komplexer Zusammenhänge als mit einer DTD zu beschreiben.
XML Sprachen kommen in allen erdenklichen Aufgabengebieten zum Einsatz.
Hier noch nicht behandelt:
Siehe auch: , RDF, XTM, XML-Datenbank Spezial:Export
Editoren
XML Spy
Eclipse
Office
Microsoft Office (Seit der Version "Office 2003" ist das Editieren von speziellen XML Dateien möglich, zuvor war nur eine unzulängliche XML-Unterstützung vorhanden)
www.abiword.org (englisch) (http://www.abiword.org/)
Anzeigeprogramme
Netscape (ab Version 6)
W3.org (http://www.w3.org/xml)
XML in 10 Punkten (http://www.w3.org/Consortium/Offices/Germany/Misc/XML-in-10-points.html.de)
Vorlesung über XML (http://www.jeckle.de/vorlesung/xml/script.html)
Publizieren mit XML (http://www.websprache.uni-hannover.de/zitat/xml/) (Universität Hannover)
XML-Einführung (http://www.internet-kompetenz.ch/xml/einfuehrung/)
SelfHTML XML-Einführung (http://www.netzwelt.com/selfhtml/xml/)
Deutsche Übersetzung der XML-Spezifikation (http://www.edition-w3c.de)
xml.apache.org (englisch) (http://xml.apache.org/)
XML ist eine Metasprache, die auf der Grundlage des ISO-Standards SGML entwickelt wurde. XML – »einfacher als SGML und leistungsfähiger als HTML«– hat sich in sehr kurzer Zeit als Format für strukturierte Dokumente etabliert.
XML ist W3C-Standand und somit firmen- und plattformunabhängig. Zu XML gibt es Lösungen und Werkzeuge für alle gängigen Programmiersprachen (C, Perl, Java, PHP, Python); anspruchsvolle Anwendungen setzen u. a. auf die dynamische Auslieferung von XML über WWW-Server (Apache-Cocoon) und die Intergration von XML in relationale Datenbanken (Oracle, MySQL).
Office-Anwendungen (StarOffice und auch Microsoft) wollen XML zukünftig als Beschreibungsformat für alle Dokumente einsetzen. In Geschäfts- und B2B-Anwendungen wird XML zunehmend als das Format für das elektronische Publizieren und den Dokumentenaustausch eingesetzt.
Zitat:
»XML ist eine der spannendsten, neuen Technologien für das Word Wide Web und für die Erfassung, Speicherung, Konvertierung und Archivierung von Daten generell.«
(AKI Stuttgart)
»XML auf dem Vormarsch. Die neue Programmiersprache soll das Internet mit mehr Leben füllen.«
(15.02.99, Deutschlandfunk)
XML-Programmierung
(Zeitschrift iX)
Orginaltexte:
XML als Archivformat
Das elektronische Archivieren von Dateien kommt nicht nur in medialer Hinsicht einem echten Sprung aus dem Papier(-berg) gleich. Besser und konkreter wäre es allerdings, von einem regelrechten Sprung aus der Zweidimensionalität des Papiers in eine "dritte Dimension" zu reden. Dies gilt insbesondere in Bezug auf die Speicherung und Erschließung von wichtigen Daten. (Auch auf die Gefahr hin, reichlich euphorisch zu klingen!)
Denn elektronische Dateien sind - im Unterschied zum geduldigen Papier - nicht nur ein Gefäß, eine Oberfläche in dem bzw. auf der streng nach der Devise ~ alles oder nichts ~ Infomationen und Texte verwahrt werden. Das heißt genauer: sucht man etwas in einem (papierenen) Text, ist man gezwungen zumeist mit erheblichem Zeitaufwand durch dieses Medium, in der Regel ein umfangreiches Papierkonvolut, zu gehen, bis man die gewünschte Information aufstöbert. Wird jedoch elektronisch archiviert und betreibt man diese Umstellung auch mit der nötigen Konsequenz (!), dann gehören diese zermürbenden Suchen der Vergangenheit an.
Die erste Frage lautet nun mit Sicherheit: was heißt das eigentlich konsequent elektronisch archivieren? Es bedeutet, einen möglichst großen Teil des semantischen, also des inhaltlichen Gehaltes eines Textes aufzuschlüsseln und abzuspeichern. Es bedeutet nicht, eine lediglich layoutorientierte Auszeichnung eines Textes vorzunehmen, wie das beispielsweise geschieht, wenn man Dateien in einem PDF- oder HTML-Format archiviert. Denn das hieße, zur Zweidimensionalität des Papiers zurückzukehren. Speichert man jedoch eine Datei in einem SGML/XML-Format, erschließt man sich die innere Struktur des Dokumentes, d.h. einen Teil der Semantik des Textes und man erhält bzw. erobert sich eine neue Dimension des Dokumentes.
Und diese zusätzliche Informationsebene bietet die Möglichkeit, in einem elektronischen Datenpool eine Maschine und nicht mehr den Menschen selbst nach einer gewünschten Information in den digitalen Archivalien suchen zu lassen. Soll beispielsweise nach einer bestimmten Quelle, einem Autor oder Titel gesucht werden, auf die sich inhaltlich bezogen worden ist, dann ist diese Anfrage in einem SGML/XML codierten Archiv innerhalb von Sekunden realisierbar. Darüber hinaus bietet das SGML/XML-Format die Möglichkeit einer automatischen Poststrukturalisierung, d.h. einer weiteren inhaltlichen Aufschlüsselung des Textes wiederum mit Hilfe einer Maschine.
Außerdem erfüllt das SGML/XML-Format weitere wichtige Bedingungen eines zuverlässigen und insbesondere in Bezug auf zukünftige Entwicklungen sicheren Fundaments für die Langzeitarchivierung von elektronischen Dateien.
SGML/XML -Dateien sind:
unabhängig vom Betriebssystem und der jeweiligen Hardware
ohne Datenverlust konvertierbar in andere Dateiformate
darstellbar in jeder beliebigen Präsentationsform
SGML/XML wird von der ISO ( International Organization for Standardization) und
vom w3c ( World Wide Web Consortium ) unterstützte und als Standard herausgegeben und empfohlen
Manuskript vom: 16.06.2001 • 16:30
Was ist XML?
"Die Welt des Web verändert sich durch einen neuen Standard XML", bringt es Robert Tolksdorf (1) in seinem lesenswerten Zeitschriftenbeitrag auf den Punkt. Doch was ist das eigentlich neue und revolutionäre an XML? Weshalb sollten sich Bibliotheken zur Archivierung von Doktorarbeiten für ein SGML/XML Dateiformat entscheiden?
XML ist keine Dokumenttypdefinition, wie beispielsweise HTML. Das heißt, mit XML-Elementen wird kein Dokument ausgezeichnet und ist dann für eine Darstellung im Internet aufbereitet. XML ist vielmehr eine Ober- bzw. eine Meta-Grammatik, mit deren Hilfe individuelle Dokumenttypdefinitionen - also die jeweiligen Regeln für einzelne, konkrete Grammatiken - definiert werden können (und müssen). Mit anderen Worten stellt XML eine übergreifende standardisierte Sprache für die Darstellung von Dokumenten im Web dar. Erst wenn eine individuelle und anwendungsspezifische Grammatik formuliert worden ist, diese Grammatikdefinition wird im XML-Umfeld DTD ("document type definition") genannt, können Dokumente mit dieser DTD ausgezeichnet werden.
Das Rechenzentrum der Humboldt-Universität zu Berlin hat im Rahmen des Projektes "Dissertationen Online" auf der Basis von SGML/XML eine DTD gezielt für die Archivierung von Doktorarbeiten erarbeitet. Diese DTD hat den Namen DiML ("DissertationMarkupLanguage").
Archivierungsformat
Der zentrale und unbestreitbare Vorteil von DiML ist, daß dieses Format von jedem Computer ob Macintosh, IBM kompatibler oder Unix Workstation gelesen werden kann. Auch zum Einsehen in einen Dissertationstext im Dateiformat DiML wird kein spezielles Programm benötigt wie beispielsweise Microsoft Word, Corel WordPerfect oder AcrobatReader.
Diese auch auf zukünftige Entwicklungen gesehene problemlose Verfügbarkeit von DiML-Dateien über Hard- und Betriebssystemgrenzen hinweg wird durch die SGML/XML Basis von DiML erreicht. Eine in DiML ausgezeichnete bzw. konvertierte Dissertation liegt lediglich in einem Archivierungsformat vor. Das bedeutet, daß die Elemente die Struktur der Dissertation beschreiben und aufschlüsseln und somit ist eine zukünftige Rekronstruktion der Arbeit möglich.
Präsentationsformat
Das Projekt "Dissertationen Online" schlägt daher eine Bündelung von Dateiformaten vor. Die DiML-Version jeder Dissertation sollte für die Präsentation im Netz mit einer HTML-Version der Dissertation (siehe: "HTML als Präsentationsformat" ) verbunden sein, in der bequem und übersichtlich am Bildschirm "geblättert" werden kann. Und für den Ausdruck sollte die Dissertation in einem PDF-Format (siehe "PDF als Druckformat" ) vorliegen, auf das zurückgegriffen werde kann, wenn aus der digitalen Dissertation wieder papierene Seiten entstehen sollen. Für die Archivierung und Recherche ist die SGML/XML Version vorgesehen.
(1.) Tolksdorf, Robert: "XML und darauf basierende Standards: Die neuen Auszeichnungssprachen des Web," in: Informatik Spektrum, Band 22, Heft 6, Dezember 1999, S.407-421; S. 407. (Electronic Edition )
Schwerer Stand für smarte Webseiten
Nur langsam etabliert sich der neue Internet-Standard XML in den Unternehmen
Vielfältigere Gestaltungsmöglichkeiten, größere Flexibilität und vor allem eine ausgezeichnete Verwaltung von Datenbanken zeichnet den designierten Nachfolger der bisherigen Websprache HTML aus. Allerdings ersetzen Unternehmen, Programmierer und Web-Administratoren nur zögerlich das altbekannte HTML durch die so genannte Extensible Markup Language, kurz XML. In der vergangenen Woche trafen sich am Zentrum für Graphische Datenverarbeitung in Darmstadt deutsche XML-Experten zum fünften XML-Kongress und diskutierten, wie es denn mit dem "ewigen Talent" in Sachen Webseitengestaltung weitergehen soll.
Manche Informatiker wirkten auf dem Fünften Darmstädter XML-Kongress etwas enttäuscht. So sagte ein XML-Spezialist von Microsoft seine Teilnahme kurzfristig ganz ab. Doch gerade auf dem Beitrag eines marktführenden Unternehmens hatten im Vorfeld die Hoffnungen geruht, um ein deutliches Signal für den breiteren Einsatz von XML zu geben. Doch auch ohne den prominenten Fürsprecher halten Experten, wie der Mathematiker Fritz Loseries, an der Extensible Markup Language fest: "Auch ohne Microsoft wird XML weiter wachsen. Dies belegt auch der Vortrag eines Vertreters von Daimler Chrysler, die ebenfalls im World Wide Web-Konsortium W3C vertreten sind und dort an der XML-Standardisierung aktiv mitarbeiten. Denn erst mit weltweiten Standards kann das enorme Potential der Web-Sprache zur Vernetzung der Wirtschafts- und Geschäftswelt genügend ausgeschöpft werden."
Die XML-Anhänger setzen daher noch verstärkt auf Aufklärung, um Softwareentwickler und Entscheider aus der Industrie über die Vorteile des flexiblen XML zu sensibilisieren und die Technologie und die dabei verwendeten Formalisierungen erst einmal kennen zu lernen. Denn dass dies in ausreichendem Maß bereits geschehen ist, bezweifeln noch viele Insider angesichts des offenen Konservativismus gegenüber XML. "Meine Erfahrung ist, dass Techniker und Informatiker durchaus aufgeschlossen auf XML reagieren, wenn sie sich erst etwas mit der Sprache auseinandergesetzt haben und ihr solides Konzept erkennen. Allerdings schreckt eine neue Programmiersprache zunächst immer ab, vor allem, wenn man seit zehn Jahren erfolgreich mit HTML gearbeitet hat", konstatiert der Darmstädter E-Business-Experte Rainer Malkewitz. Das Ergebnis dieser Reserviertheit gegenüber XML: Nur vereinzelt wagen sich Vertreter von Industrie, Banken, kleinen mittelständischen Unternehmen bislang an XML heran – und sammeln dabei durchaus ermutigende Erfahrungen, meint Mario Jeckle von der IT-Forschung bei Daimler Chrysler: "Obwohl die Technologie XML noch sehr neu und etwas unreif ist belegen, unsere Studien, dass XML eine sehr einfach einzusetzende und auch in die Systeme zu bringende Technik ist."
Angesichts der zunehmenden, weltweiten Firmenverschmelzungen stelle XML ein probates Mittel dar, die unterschiedlichen Strukturen in der Datenverarbeitung auf eine gemeinsame Basis zu stellen, so betonten die Experten auf dem Darmstädter XML-Kongress. "Dabei können die jeweiligen Spezialsysteme an den unterschiedlichen Firmenstandorten weiter betrieben werden. XML würde dabei die Infrastruktur herstellen, mit der die lokal gewonnenen Daten vereinheitlicht ausgetauscht werden können", so Jeckle.
Quelle: Klaus Herbst
xml Links
http://www.mintert.com/xml/buch/
Stefan Minterts XML-Seiten: "XML in der Praxis" heißt Stefan Minterts Buch und ist hier komplett in der ersten Auflage online. Dazu gibt's die W3C-Spezifikationen zu XML in deutscher Übersetzung und weitere Informationen.
http://www.boku.ac.at/htmleinf/xmlkurz.html
XML Kurz-Info: Hypertextritter Hubert Partl schlägt XML kurz und klein und serviert es in leicht verdaulichen Portionen als Appetitanreger.
XML-Software: Wirklich, das ist nicht witzig. Was soll ich schreiben, wenn der Titel alles sagt? Ist in Englisch, und vom XML-Editor bis was weiß ich ist alles da.