CARMEN
)      WP 1
     WP 2/5
     WP 4
     WP 6
     WP 7
     WP 9
     WP 11
     WP 12
WG Metadata
WG Retrieval
WG Heterogeneity
ECAC


 

WP1: Digital Signature and Metamaker with Upload Facility for a Distributed Informationsystem - Description

Partner

E.R. Hilf
T. Severiens
Vorprojekt Fachbereich Physik,
Universität Oldenburg
hilf@merlin.physik.uni-oldenburg.de
severien@uni-oldenburg.de
0441-798-2543
0441-798-3465
M. Kaplan Experte Mathematik Zentrum Mathematik,
Technische Universität München
kaplan@mathematik.tu-muenchen.de 089-289-24209

Kontaktadresse

Dr. Michael Kaplan
Zentrum Mathematik der Technischen Universität
80335 München, Lothstr. 17

Tel.: +49-(0)89-289-24209
Fax.: +49-(0)89-289-24354
e-mail: kaplan@mathematik.tu-muenchen.de

Keywords
MetaData, Dublin-Core, Resource Description Framework, Document Uploading, Digital Signatures, HTML

Abstract

Everybody working with an information retrieval system wants it to work as comfortable and complete as possible. Also, there is a strong need for authenticity. Todays retrieval engines are qualitatively bounded by the heterogenity of web documents and have no chance to check the authenticity of documents. MetaData are a common way to give web documents more structure and as a result the retrieval quality is improved. Dublin-Core allows to markup documents semantically homogenous. But the syntax of MetaData in web documents is very complicated. So authors need an easy to use interface, which helps them to produce MetaData without having to learn syntax and semantics. This interface can be combined with a document upload facility, to increase the number of web publications. The syntax of this MetaData should be RDF. The Resource Description Framework (RDF) with digital signatures is the key to building the Web of Trust. One needs easy to use tools to produce RDF-records and digital signatures and to check existing signatures, to upload the documents on the Web, and to produce content analysing MetaData. Retrieval-programms harvesting documents on the net should consider these new techniques.

I. Ziele: Gesamtziel des Vorhabens, Bezug zu den förderpolitischen Zielen
(Problemstellung und Einordnung in das Basispapier)

Die meisten wissenschaftlich relevanten Dokumente, die heute im Web publiziert werden, sind nicht mit MetaDaten versehen. Dies wirkt sich sehr negativ auf die Retrievalqualität von Suchmaschinen aus, die entweder nur einen kleinen Teil sehr gut erschlossener Dokumente als Datenbasis haben, oder aber viele Dokumente, die wenig oder gar nicht erschlossen sind (siehe auch Schalenmodell im Basispapier). Immer noch sind viele wissenschaftlich wertvolle und relevante Dokumente nur deshalb nicht im Web publiziert, weil die Autoren nicht wissen, wie sie ihr Dokument auf den Server laden können. Gleichzeitig ist die Syntax und die Semantik von Dublin-Core MetaDaten in HTML-Dateien so kompliziert, das sie nur wenigen ,,Spezialisten'' vertraut ist. Schon jetzt ist abzusehen, daß die MetaDaten-Implementation immer komplexer und damit auch komplizierter wird (RDF, XML, qualified DC). Im Basispapier von Carmen heißt es unter anderem: ,,In diesem Zusammenhang ist die Entwicklung, gegebenenfalls die Anpassung von Erstellungswerkzeugen erforderlich.''
Deutlich mehr als bei früheren zentralen Informationssystemen stellt sich bei verteilten Systemen das Problem, welchen Informationen man noch glauben kann. Bei der Publikation eines elektronischen Dokuments im Web (Programm, Bild, html-Seite,...) kommt mehrfach die Frage nach der Authentizität auf:
  • Kommt das Programm von einem Anbieter guten Rufes, so daß man ihm erlauben kann, auf die Festplatte zu schreiben?
  • Sind Behauptungen über das Dokument richtig (ich habe das am 12.4.1996 geschrieben, es ist 3Mb groß, ...)?
  • Ist das Dokument, das man im Netz gefunden hat, das vom Inhaber des Copyrights autorisierte oder eine unerlaubte, möglicherweise abgeänderte Kopie?
  • Handelt es sich tatsächlich um die in einem anderen Dokument zitierte Version des Dokumentes, oder um eine mittlerweile geänderte Version?
Ganz wesentliche Metadaten für elektronische Dokumente werden deshalb in Zukunft elektronische Unterschriften sein. Bei der Inhaltserschließung können nur diejenigen Daten als relevant und qualitätskontrolliert gelten, die mindestens einmal von kompetenter Seite unterzeichnet sind.

- Wissenschaftliche und technische Arbeitsziele des Vorhabens
(Arbeitsziele und Zusammenarbeit)

Internationale Kooperation
Wie bereits erwähnt, ist die ``DSig 1.0 Signature Label Specification'' nur ein erster Schritt in einer sicher längeren Kette internationaler Standardisierungen. DSig 1.0 baut auf PICS 1.1 auf und wird in RDF eingehen. Dieser internationale Stand muß genau verfolgt und möglichst auch aktiv beeinflusst werden. Hier ist eine Zusammenarbeit mit dem Projekt Informationspool für MetaDaten-Standards und Dokumentenformate geplant, das seitens Global Info bei W3C an der Entwicklung von DC, RDF und XML teilnimmt.
Kryptoalgorithmen
Die DSig Signature Label Specification erlaubt eine freie Wahl des Kryptoalgorithmus (Secure Hashing Algorithm SHA1, Message Digest Algorithm MD5, RSA Encryption Algorithm, Pretty Good Privacy PGP,...). Die verschiedenen Algorithmen müssen auf ihre Verwendbarkeit hin untersucht und implementiert werden. Dies wird an der TU München geschehen (es werden keine eigenen Techniken entwickelt, sondern anerkannt sichere und allgemein verfügbare Algorithmen verwendet).
Werkzeuge zur Erstellung
Ziel dieses Projektes ist es unter anderem, den Autoren ein einfach zu bedienendes Werkzeug in die Hand zu geben, das ihnen hilft, Dokumente mit korrekten und vollständigen bibliografischen und inhaltsbeschreibenden (Dublin-Core) MetaDaten im Web zu publizieren. Dabei soll dieses Werkzeug in Form einer HTML-Eingabeform weitgehend selbsterklärend sein, so daß eine Autorenschulung nicht notwendig ist. Somit ist der Wert dieses Tools auch über die Projektlaufzeit hinaus garantiert. Die Programmierung setzt auf dem bereits vorhandenen und laufenden Prototypen WUFI auf. WUFI ist bereits so modular programmiert, daß eine Anpassung an RDF und an weitere Ergänzungen von Dublin-Core möglich ist. Gleichzeitig ist geplant, ausgehend von der PACS-Klassifikation der Physik, weitere Klassifikationsschemata zu implementieren. Schließlich soll in einem breit angelegten Betatest die Nutzerfreundlichkeit optimiert werden. Schon jetzt ist WUFI so gebaut, daß es komplett in einem Browser läuft, so daß das Tool plattformunabhängig ist und von einem Autor genutzt werden kann, ohne zusätzliche Software installieren zu müssen. Gleichzeitig muß WUFI erweitert werden, um digitale Unterschriften zu unterstützen. Die Entwickler des im Math-Net oder bei Eprint verwendeten Metamakers und von WUFI (Universität Osnabrück, TU München, Universität Oldenburg, FIZ) werden auch bei dieser Weiterentwicklung kooperieren.
Label-Büro und Rating Service
PICS (und somit auch DSig) sieht die Arbeit von sog. Label-Büros vor, die PICS-Labels zu Dokumenten anbieten, die auf ganz anderen Servern liegen können und möglicherweise von nochmals anderen Anbietern (Rating-Service) erzeugt wurden. Primär geht es DSig beim Rating nicht wie PICS um eine Bewertung der Qualität des Inhalts, sondern um eine Behauptung über die Resource, die man unterschreiben kann (z.B. Upload-Datum eines Preprints). Das Rating System bietet für diese Behauptungen ein gewisses kontrolliertes Vokabular an. Der Rating-Service, der dieses Vokabular zum erzeugen von DSig-Labels verwendet, kann aus einer Organisation, aber auch aus Einzelpersonen in der Fachwelt bestehen. Diese Dienste sind grundlegend für die Funktion von DSig und werden exemplarisch aufgebaut und getestet. Das erfordert eine Reihe von Kooperationen:
  • Gerade der Einsatz digitaler Signaturen erfordert die volle Leistungsfähigkeit von DC und RDF. Der Einbau in RDF erfordert verstärkte Zusammenarbeit mit allen in Carmen involvierten Institutionen. Besonders genannt seien hier  AP 6 (``Metadata based Indexing of Scientific Resources''), AP 9 (``Fachübergreifende Informationssysteme'')und   AP 2/5 (``Metadaten für Terms and Conditions/Archivierung'').
  • Werkzeuge, die Dokumente von verschiedenen Servern einsammeln und auswerten, müssen auf die Existenz und Auswertung digitaler Unterschriften vorbereitet werden. Hier ist mit den Institutionen zusammenzuarbeiten, die solche Werkzeuge entwickeln (AP 7: ``A Document Referencing and Linking System'', AP 6: ``Metadata based Indexing of Scientific Resources'')
  • Label-Büros und Rating-Services müssen langfristig institutionell verankert werden. Denkbar wäre, daß Labels später etwa beim FIZ, beim ZIB oder auch bei einer großen Bibliothek (SUB Göttingen) liegen (es muß nicht unbedingt nur eine Institution sein). Das in Gründung befindliche ,,Institut für wissenschaftliche Information" hat Interesse zur Weiternutzung bekundet. Mit Hilfe des entwickelten Rating-Systems können Institutionen wie das FIZ, Verlage oder ausgewählte Experten der Fachgesellschaften auch nach Projektende sehr einfach DSig-Labels erzeugen.

II. Stand der Wissenschaft und Technik, bisherige Arbeiten
(Technische Standards)

(Informationsrecherche und bisherige Arbeiten des Antragstellers in Anlage)

Der momentan (Stand 5.7.1999: s. http://www.w3.org/TR/#Recommendations) anerkannte Stand zur Authentifizierung im WWW ist eine ``W3C Proposed Recommendation'' vom 3. April 1998. Diese betrifft die ``DSig 1.0 Signature Label Specification''. DSig 1.0 verwendet die ursprünglich zur Bewertung des Inhalts einer Resource geschaffenen PICS 1.1-Labels mit einigen Erweiterungen, um die digitalen Signaturen zu erfassen. Es ist geplant, daß die kommende Version DSig 2.0 auf dem Resource Description Framework (RDF) aufbaut. Das ``DSig Common Manifest Format (DCMF)'' ist eine Erweiterung des ``Java Archive Manifest'' von JavaSoft. Bibliografische und inhaltsbeschreibende MetaDaten sind semantisch im Dublin-Core spezifiziert. Syntaktisch sind die MetaDaten derzeit in HTML 2.0 mit dem MetaTag implementiert. Hier bietet RDF, das auf XML basiert, eine geeignetere Syntax, die es erlaubt, auch komplexere Zusammenhänge in den MetaDaten zu beschreiben.

III. Ausführliche Beschreibung des Arbeitsplans
(Arbeitsziele und Zusammenarbeit)

Vorhabenbezogene Ressourcenplanung, Meilensteinplanung
(Arbeitsplan)

2 Monate  TUM  Aufbau eines sicheren Web-Servers (SSL) mit virtuellen Servern für später einzurichtende Label- und Rating-Büros. Beschaffung der neuesten DSig Referenz-Software von W3C und eventuell nötiger Zusätze (Kryptoalgorithmen) 
U.Old.  Beschaffung der neuesten Dokumentationen zu RDF von W3C. Studium der neuesten Publikationen zu Qualified Dublin-Core und seiner syntaktischen Implementation in RDF 
6 Monate  TUM  Installation und Evaluation der DSig 1.0 Referenz Implementation von W3C. Erstes einfaches Nutzerinterface für einen Rating-Service. 
U.Old.  Programmierung eines Upload-Interfaces, das MetaDaten in RDF-Syntax erzeugt, durch Weiterentwicklung und Anpassung des vorhandenen PERL-basierten Interfaces WUFI.
2 Monate  TUM  Abstimmung mit den Projektpartnern über die RDF-Syntax der zu erzeugenden DSig-Labels (AP2/5 und AP6), die Auswertung dieser Labels beim Retrieval (AP6) und Abstimmung über die technische Realisation der Implementation der DSig-Komponenten in das Werkzeug zum Dokumentenupload aus Oldenburg 
U.Old.  Abstimmung mit den Projektpartnern, wie die DSig-Komponenten in den Upload-Skript-Prototypen implementiert und die Signaturen in den MetaDaten dargestellt werden. Übergabe des prototypischen Upload-Interfaces an AP9 "Fachübergreifende Informationssysteme". 
6 Monate  TUM  Aufbau eines Label-Büros. Weiterentwicklung der Software für Rating-Büros. Realisation der Integration der DSig-Komponente in das Werkzeug zum Dokumentenupload aus Oldenburg. 
U.Old.  Integration der DSig-Komponenten in das Uploadwerkzeug. Gemeinsame Arbeitssitzung mit AP9, Vertretern von MathNet und PhysNet, um die Implementation von Klassifikationsschemata zu optimieren und harmonosieren. 
6 Monate  TUM  Ausführliche Tests und Verbesserungen der entwickelten Komponenten: Nachträgliche Erzeugung von DSig-Labels zu bestehenden Dokumenten aus dem Math-Net und Einbringen von Labels in neue Dokumente. Gathern dieser Dokumente durch AP7. Probeweise Umzüge der Label- und Rating-Büros an nachnutzende Institutionen. 
U.Old.  Ausführliche Tests und Verbesserungen der entwickelten Komponenten: Implementation eines Pflege-Tools, das die Umwandlung der bereits mit alten (non-RDF)-Werkzeugen erzeugten MetaDaten in RDF-MetaDaten erlaubt. Implementation der Dokumentenpflege-Funktion in das entwickelte Werkzeug, die die Aktualisierung bestimmter MetaDaten (z.B. neue Telefonnr.) in signierten Dokumenten erlaubt. 
2 Monate  TUM  Dokumentation und Bug-fixes, Verbreitung der entwickelten Software 
U.Old.  Dokumentation und Bug-fixes, Verbreitung der entwickelten Software 

IV. Verwertungsplan in Anlage

V. Arbeitsteilung/Zusammenarbeit mit Dritten

Die Leitung des Arbeitspaketes übernimmt der Fachbereich Mathematik der Technischen Universität München. Die Arbeiten werden gemeinsam mit dem Fachbereich Physik der Universität Oldenburg durchgeführt. Die Arbeitsaufteilung zwischen den Partner ergibt sich aus dem Arbeitsplan.

VI. Notwendigkeit der Zuwendungen
(Förderbedarf)

Das Projekt soll zunächst über zwei Jahre laufen. Während dieser Zeit sollen eine Uploadform, die RDF-DC-MetaDaten produziert und es erlaubt, eine digitale Unterschrift ,,unter'' das Dokument zu setzen, programmiert, getestet und bei den Teilnehmern von Global-Info verbreitet werden. Dabei soll das Tool so flexibel sein, daß man auch nur Teile nutzen kann (nur Upload, nur bibliografische Metadaten, nur digitale Unterschrift - Verschlüsselung). Außerdem soll ein Rating/Labeling-Service gemäß PICS/DSig exemplarisch aufgebaut werden und eine Institution gefunden werden, die diesen Service über die Projektlaufzeit hinaus sicher betreibt.

Hieraus und detailiert durch den Arbeitsplan ergibt sich der folgende Förderbedarf

  • Univ. Oldenburg
    • 1/2 BAT-2A W
    • 3.000,- DM/Jahr : Reisemittel für gegenseitige Projekttreffen und zur Teilnahme an internationalen Workshops
    • 5.000,- DM : Geschäftsbedarf inkl. evtl. notwendiger Software
  • TU München
    • 1/2 BAT-2A W
    • 3.000,- DM/Jahr : Reisemittel für gegenseitige Projekttreffen und zur Teilnahme an internationalen Workshops
    • 6000,- DM für den aufzubauenden Rating/Labeling-Service (Workstation mit secure web-server incl. aller Software und mit den nötigen Kryptoalgorithmen)

  
Responsible: Thomas Severiens,
This project terminated 2001, content of pages unchanged since 2001!
Last Update: 20. Jan. 2000
sponsored by bmb+f