Refine
Document Type
- Conference Proceeding (1)
- diplomthesis (1)
- Part of Periodical (1)
Has Fulltext
- yes (3) (remove)
Is part of the Bibliography
- no (3) (remove)
Keywords
- XML (3) (remove)
Institute
- Extern (1)
- Informatik (1)
This paper describes a set of guidelines for the citation of zoological and botanical specimens in the European Journal of Taxonomy. The guidelines stipulate controlled vocabularies and precise formats for presenting the specimens examined within a taxonomic publication, which allow for the rich data associated with the primary research material to be harvested, distributed and interlinked online via international biodiversity data aggregators. Herein we explain how the EJT editorial standard was defined and how this initiative fits into the journal's project to semantically enhance its publications using the Plazi TaxPub DTD extension. By establishing a standardised format for the citation of taxonomic specimens, the journal intends to widen the distribution of and improve accessibility to the data it publishes. Authors who conform to these guidelines will benefit from higher visibility and new ways of visualising their work. In a wider context, we hope that other taxonomy journals will adopt this approach to their publications, adapting their working methods to enable domain-specific text mining to take place. If specimen data can be efficiently cited, harvested and linked to wider resources, we propose that there is also the potential to develop alternative metrics for assessing impact and productivity within the natural sciences.
We present an architecture for the integration of shallow and deep NLP components which is aimed at flexible combination of different language technologies for a range of practical current and future applications. In particular, we describe the integration of a high-level HPSG parsing system with different high-performance shallow components, ranging from named entity recognition to chunk parsing and shallow clause recognition. The NLP components enrich a representation of natural language text with layers of new XML meta-information using a single shared data structure, called the text chart. We describe details of the integration methods, and show how information extraction and language checking applications for realworld German text benefit from a deep grammatical analysis.
Entwurf und prototypische Realisierung einer Architektur zur flexiblen Verschlüsselung von XML-Daten
(2001)
Im Rahmen dieser Arbeit ist auf Basis einer sorgfältigen Prüfung existierender Literatur zu kryptografischen Verfahren und sowohl einer Analyse bestehender Ansätze zur Verschlüsselung von XML-Dokumenten, als auch unter Nutzung bestehender Standards für XML-Technologien, eine Architektur zur flexiblen Verschlüsselung von XML-Daten erstellt worden. Ausgehend von Einsatz-Szenarien wurden dazu Anforderungen an das gewünschte System definiert. Anhand dieser Anforderungen wurde systematisch eine vollständige Spezifikation zur Verschlüsselung von XML-Daten hergeleitet. Weiterhin ist eine erweiterbare und generische Architektur zur Verarbeitung von XML-Daten spezifiziert worden. Auf dieser aufbauend, wurde eine Architektur für die flexible Ver- und Entschlüsselung von XML-Daten erstellt. Diese Architekturen und ihre Komponenten sind generisch, wobei für die prototypische Realisierung exemplarisch eine konkrete Auswahl dieser Komponenten implementiert wurde. Für die Verschlüsselung wurde dazu auf die zuvor erstellte Spezifikation zurückgegriffen und deren relevante Teile implementiert. Anschliessend wurden Experimente durchgeführt, die einen Eindruck von der Leistungsfähigkeit der Architektur gegeben haben. Insgesamt haben sich die Erwartungen an die Architektur mehr als erfüllt. Stehen Transformationen als verwendbare Klassen bereit, die auf dem DOM operieren, so ist es leicht möglich, diese in das DPF einzubetten, wie z.B. beim Verschlüsselungs-Prozessor geschehen. Damit ist eine sehr gute Erweiterbarkeit gegeben. Da die Arbeitsweise eines Transformations-Prozessors sowohl direkt durch übergebene Argumente aus dem DPS als auch durch die Verwendung von Annotationen gesteuert werden kann, kann die Verarbeitung von Dokumenten sehr flexibel und auch feingranular erfolgen. Die Möglichkeit, Annotationen aus mehreren DAS-Dokumenten zu aggregieren, erlaubt eine verteilte Pflege dieser Dokumente. Mit der Möglichkeit, mehrere Prozessoren direkt nacheinander eine Eingabe bearbeiten zu lassen, wird die Flexibilität nochmals gesteigert. Denn wenn die Prozessoren als Komponenten zur Verfügung stehen, können diese stets aufs Neue kombiniert werden. Vor allem der Ansatz, dass alle zur Verarbeitung und Steuerung relevanten Daten in Form deklarativer Beschreibungen erfolgen, die den Bedürfnissen jedes Prozessors angepasst sind, macht das System zu einem mächtigen Instrument. Zudem werden dadurch keine tiefergehenden Programmierkenntnisse benötigt. So entfällt auch die Notwendigkeit, Änderungen des gewünschten Transformations-Ergebnisses durch Änderungen im Quelltext des erzeugenden Programms vorzunehmen. Dadurch sind insgesamt den Möglichkeiten zur Verarbeitung von XML-Dokumenten kaum Grenzen gesetzt. Notwendige Anpassungen bleiben zumeist auf eine oder wenige Komponenten beschränkt, was Änderungen leichter ermöglicht. Dabei hat sich wieder einmal der flexible und trotzdem mächtige Ansatz der Kette von Werkzeugen (Chain of Tools) bewährt. Auch die Spezifikation zur Verschlüsselung von XML-Daten konnte alle Erwartungen erfüllen. Alle eingangs gestellten Anforderungen sind damit ausnahmslos darstellbar. Insbesondere betrifft dies die partielle und feingranulare Verschlüsselung von XML-Daten, sowie die hierarchische und damit einhergehende Super-Verschlüsselung. Rückblickend kann gesagt werden, dass das wissenschaftliche Fundament in Form von kryptografischen Grundlagen zwar sehr gut ist, aber die darauf aufbauenden höherwertigen Dienste und Architekturen aus wissenschaftlicher Sicht bisher kaum Beachtung gefunden haben. So wird zwar die Verschlüsselung von ganzen Daten-Objekten zwischen zwei Empfängern gut beherrscht, aber eine feingranulare Verschlüsselung, bei der Daten an grosse dynamische Empfängergruppen in offenen Systemen vertraulich übermittelt werden, hat bisher keine Beachtung gefunden. In der vorliegenden Arbeit werden diese Probleme adressiert, wobei aber nicht für alle eine abschliessende Lösung präsentiert werden konnte, da dies den Rahmen der Arbeit gesprengt hätte. Vielleicht ist es gerade die fehlende wissenschaftliche Durchdringung, die es so schwierig macht, geeignete Standards für die Verschlüsselung von XML-Dokumenten zu etablieren. Denn wenn man betrachtet, wie lange schon beim W3C über die Verschlüsselung diskutiert und daran gearbeitet wird, so kann es einen nur verwundern, dass nicht greifbarere Ergebnisse vorliegen. Ende Juli, also kurz vor Abschluss der vorliegenden Arbeit, ist bei Recherchen noch ein wissenschaftlich fundierteres Papier aufgetaucht, das auf einer Konferenz im Juni dieses Jahres vorgestellt wurde. Es beschreibt eine Document Security Language (DSL), die auf XSLT beruht und eine Architektur zur Verschlüsselung von XML-Dokumenten [85]. Da die Nähe zu dieser Arbeit gross ist, soll sie hier noch kurz vergleichend betrachtet werden. Die dort beschriebene Architektur und die Sprache bietet auch die Verschlüsselung auf feingranularer Ebene. Aber sie ist nicht erweiterbar und kennt auch kein generisches Meta-Daten-Konzept, so dass sie hinter den Ergebnissen der vorliegenden Arbeit deutlich zurückfällt. Zudem beruht sie auf der vorne schon im Zusammenhang mit der Verwendung von XSLT kritisierten Arbeit in [48]. Sie trägt dazu im Bereich der Verschlüsselung nicht viel Neues bei. Allerdings weist sie einige interessante Ansätze im Bereich der Infrastrukturen auf [85, Abschnitt 3.2]. Um diese könnte die hier vorgestellte Architektur der Verschlüsselungs-Prozessoren ergänzt werden, denn dieses Gebiet wurde in der Arbeit ausgespart.