CARMEN
)      WP 1
     WP 2/5
     WP 4
     WP 6
     WP 7
     WP 9
     WP 11
     WP 12
WG Metadata
WG Retrieval
WG Heterogeneity
ECAC


 

WP9: Interdisciplinary Information Systems - Description

Partner

E.R.Hilf
T.Severiens
Vorprojekt
Autoren/Leser
Fachbereich Physik,
Universität Oldenburg
hilf_AT_
merlin.physik.uni-oldenburg.de
severien_AT_uni-oldenburg.de
0441/ 798 -2543
-3465
R.Schwänzl
J.Plümer
Vorprojekt
Autoren/Leser
Fachbereich Mathematik/ Informatik
Universität Osnabrück
judith_AT_
mathematik.uni-osnabrueck.de
0541/ 969 -2531
-2526

Berater

K.-D. BierstedtAutoren/Leser Fachbereich Mathematik- Informatik
Universität Paderborn
klausd_AT_
plato.mathematik.uni-paderborn.de
05251/602 -628
Kontaktadresse

Thomas Severiens
Fachbereich Physik, Arbeitsgruppe Clusterphysik, Carl-von-Ossietzky Universität Oldenburg, D-26111 Oldenburg
Tel. 0441-798-3456, Fax. 0441-798-3201, E-Mail: severien_AT_uni-oldenburg.de

Keywords

Distributed Search Engines, Classification Schemes, Metadata, Heterogeneity

Abstract

The aim of this work package is to pull down the existing restrictions on searching for distributed, interdisciplinary documents.
The document search and delivery services of different disciplines will be logically and contentwise combined. This combination will help the user searching for interdisciplinary documents and also searching for information on the borders between disciplines. As a first example and testbed it is planned to combine MathNet and PhysNet. For this, a common set of metadata is necessary. Even the used Dublin Core metadata have to be harmonized, which will also help to re-use the documents in commercial services in the later stages of documents. Transfer-gateways developed by another work package in the SFM CARMEN will be implemented. Also the used search engines (Harvest) have to be optimized. Especially the possibility of a "distributed-search" has to be implemented. Whether such a tool is more efficiently implemented as CGI-Script on the server or as Java-Applet on the browser will be tested. Existing simple prototypes will be evaluated and used as a starting point. It is planned to replicate the search engines intelligently.
After a successfull combination of MathNet and PhysNet, it is planned to implement further disciplines into this network.

I. Ziele: Gesamtziel des Vorhabens, Bezug zu den förderpolitischen Zielen
(Einordnung in das Basispapier von CARMEN und State of the Art)

In den vergangenen Jahren haben die einzelnen wissenschaftlichen Fächer relativ unabhängig voneinander Fachinformationssysteme aufgebaut. So existiert beispielsweise in der Mathematik mit dem MathNet ein weit vorangeschrittenes Projekt, das als PrePrint-Dienst die Keimzelle eines weltweiten (E)MPRESS MathPrePrintservices ist. Auch in der Physik gibt es mit dem PhysNet ein System, das das Auffinden von verstreuten Fachinformationen ermöglicht. Hier kann nach Dokumenten wie auch nach allgemeinen Informationen (Namen, Emails, Telefonnummern, Web-Links etc.) gesucht werden
Sowohl in der Mathematik, wie auch in der Physik existieren mit MSC und PACS Klassifikationsschemata, die weit verbreitet sind. Beide Schemata besitzen erhebliche Überschneidungen, die bei einer Vernetzung von MathNet und PhysNet genutzt werden sollen (Arbeitspaket 12 Konkordanzen von Klassifikation und Thesauri). Die Implementation europäischer Sonderzeichen (Umlaute etc.) wurde von den Partnern für die gängigsten Zeichen bereits gemeinsam vorgenommen. Eine Fortsetzung dieser Aktivitäten ist insbesondere im Hinblick auf die zunehmende Globalisierung notwendig.
Das Basispapier der SFM CARMEN sieht vor, mittels Metadaten Ordnung in die dezentralen Dokumente zu bringen. Hier verhilft das Zusammenfügen von fachspezifischen Informationssystemen zu einer weiteren Harmonisierung.

- wissenschaftliche und technische Arbeitsziele des Vorhabens
(Ziele und Produkte des Arbeitspaketes)

In diesem Arbeitspaket sollen zwei verschiedene fachspezifische Informationssysteme exemplarisch logisch und inhaltlich verknüpft werden. Ziel ist es, einen für den Nutzer transparenten Übergang zwischen den Fächern (hier: Mathematik und Physik) zu schaffen. Dies wird insbesondere dann helfen, wenn sich der Benutzer nicht sicher ist, in welchem der einzelnen Fächer er suchen soll, bzw. bei Fachgrenzen-übergreifenden Suchen. Beispielsweise in der Mathematischen Physik: K-theory of C* algebras, Quantum Groups, etc. Aber auch die Suche nach allgemeinen Informationen wird somit erleichtert. Ein einheitliches Subject Classification erlaubt Querschnitte über Web-Materialien, wie Konferenzen, Homepages, Email-Adressen usw.
Hierzu sollen die bereits vorhandenen Informationsdienste MathNet und PhysNet miteinander verlinkt und eine gemeinsame Suchoberfläche geschaffen werden. Von hieraus verschickt der Nutzer eine Anfrage, die dann von beiden Informationssystemen getrennt oder von einem gemeinsamen, intelligenteren Informationssystem verarbeitet und beantwortet wird. Wie genau die Verteilung der Anfragen erfolgt, ob die "Intelligenz" beispielsweise sinnvoller Server- oder Client-seitig erfolgen sollte, läßt sich nur sehr schwer abschätzen. Deshalb werden hier umfangreiche Tests notwendig werden. Das "Distributed Search" soll dem Nutzer ermöglichen, in seiner gewohnten Web-Umgebung zu bleiben. Dabei muß die Suche wie auf einer Datenbank, entsprechend schnell und effizient erfolgen.
Um die Suchergebnisse optimal weiterverarbeiten zu können, ist eine Harmonisierung der verwendeten Metadaten-Sets notwendig. Die Nutzung von Überschneidungen der beiden verwendeten Klassifikationsschemata wird aus einem anderen Arbeitspaket dieser SFM (AP12) übernommen.
Langfristig ist geplant, weitere Fächer in dieses Informationssystem zu integrieren, wobei zunächst an Informatik und Chemie gedacht ist. Die Ergebnisse des Arbeitspaketes sollen von MathNet und PhysNet gemeinsam weitergetragen werden.

II. Stand der Wissenschaft und Technik, bisherige Arbeiten

Seit Mitte der neunziger Jahre sind internetbasierte fachspezifische Informationssysteme in Entwicklung. Sie stellen sich die Aufgabe, verteilt liegende, rechtlich unabhängig verwaltete Ressourcen der betreffenden Fächer in Systemen zu organisieren, die durch eine Gesamtschau die Suche nach - und Auswertung von verteilten Quellen für den Wissenschaftler handhabbar machen. Vielleicht die zeitlich ersten Beispiele in dieser Richtung sind die (aus Projekten hervorgegangenen) Systeme MathNet und PhysNet, die beide einen starken internationalen Bezug aufweisen.

In diese Kategorie gehören auch Ansätze wie der internationale Nachweis NCSTRL von technical reports in der Informatik und Vorhaben wie der Deutsche BildungsServer in den Erziehungswissenschaften, SozioNet in der Soziologie und BioFinder im Bereich der Biologie.

In der Realisierung weisen die Systeme weitreichende Unterschiede hinsichtlich der Anforderungen an die strukturelle Qualifizierung der einbezogenen Quellen auf. Sie unterscheiden sich erheblich in ihren "Geschäftsmodellen" bezüglich der Funktionalität (und personellen Ausstattung) ihrer jeweiligen zentralen Komponenten.

Aus Sicht eines Nutzers stellen die verschiedenen Fachinformationssysteme damit selbst wieder eine Kollektion verteilter Ressourcen dar, die sich ihm als unabhängig verwaltet, bezugslos und nach unterschiedlichen Prinzipien organisiert präsentiert.

Insbesondere für Forschungsarbeiten in Grenzgebieten sind main stream betonte fachspezifische Informationssysteme von durchaus beschränktem Wert. Als Paradebeispiele aus dem Bereich des Arbeitspaketes können K - Theorie und Polykategorientheorie in ihrer Rolle in Mathematik und Physik genannt werden.

Lösungsansätze werden durch Cross Walk Verfahren (siehe Recherche) verschiedener Bauart gesehen, die sich das in den Ordnungsstrukturen (MetaDaten)der jeweiligen Systeme repräsentierte Wissen über Zusammenhänge zunutze machen. Tatsächliche Ausführungen solcher Ideen gibt es derzeit nur in kritisch zu bewertenden Ansätzen. Meta - Daten Identität ist in der verteilten Situation (zumindest kurzfristig) nicht herstellbar.

Die Konzentration auf MathNet/PhysNet wie sie im Arbeitsplan vorgesehen ist, ergibt sich zum einen aus der sachbezogenen Relevanz der Fragestellung zum anderen aus der Expertise der Antragsteller, die an der Entwicklung der genannten Systeme mitgewirkt haben.

Literatur/bisherige Arbeiten des Antragstellers
Veröffentlichungen:
Vorträge:
  • Roland Schwänzl: Harvesting Mathematics: Ein mögliches Konzept für ein verteiltes IuK-System in der Mathematik. IuK-Workshop (München 3' 96).

  • Judith Plümer: Publizieren auf elektronischem Wege und die Bibliothek der Zukunft. Sommeruniversität Münster - Osnabrück "Datenautobahnen, die Informationsgesellschaft und die Arbeitswelt der Zukunft" (8' 96).
    http://www.mathematik.uni-osnabrueck.de/projects/sommeruni96/< /A>
  • Judith Plümer: Harvesting META Information. Second Delos Workshop, MetaData and Interoperability. Bad Honnef (10' 96).
    http://www.iei.pi.cnr.it/DELOS/ErcimDL/second-DELO S-workshop/program.html.

  • Roland Schwänzl: A Mathematics Preprint Index. Workshop Digital Libraries. (London 12' 96).
  • Judith Plümer:
    • Harvest: Einsatz und Anwendungserfahrungen. IuK Workshop (München 3' 97).
    • Mathematical Metadata Markup als Dublin Core Anwendung.
    IuK Workshop (München 3' 97).

  • Roland Schwänzl: Mathematics Preprint Index. Dublin Core 4 Workshop (Canberra/Australien, 3' 97).
  • Judith Plümer: Components of an Electronic Library. Cooperative Research Information Systems in Physics (CRISP) (Oldenburg 9' 97).
  • Judith Plümer: MetaData in Mathematics. Jahrestagung DMV/ ÖMG (Salzburg 22.9.97).
  • Judith Plümer: Components of an Electronic Library. Workshop AK MetaDaten und Klassifikation der IuK, MetaData: Qualifying Web Objects (Osnabrück 10'97).
    http://www.mathematik.uni-osnabrueck.de/proj ects/workshop97/papers/pluemer.html
  • Judith Plümer: "Dublin Core" für Preprints: Ein Bericht aus der Praxis. Der Kooperative Bibliotheksverbund (KOBV). Ein neues Verbundkonzept für Berlin und Brandenburg (Berlin 10' 97).

  • http://elib.zib.de/kobv/veranstaltungen/28.10.97/pluemer/ index.htm.

  • Roland Schwänzl: Abstracting, Indexing and Searchengines. Eröffnung des Global-Info Vorhabens (Frankfurt 10' 97).
  • Judith Plümer: Issues for an Electronic Library. Global-Info Workshop Gruppe 3 (Göttingen 2' 98).
  • Jürgen Krause, Roland Schwänzl: Rahmenpapier der Gruppe 3. Global-Info Workshop Gruppe 3 (Göttingen 5' 98).
  • Judith Plümer: Document (Meta-)Structure and it's use in Gathering. Global-Info Workshop Gruppe 3 (Göttingen 5' 98).
  • Judith Plümer: Mathematical MetaData. ICM 1998, Electronic Publishing Session (Berlin 24.8.1998)
    http://www.mathematik.uni-osnabrueck.de/projects/icm98/
  • Vorstellung Elib auf der internationalen Buchmesse in Frankfurt (7.-12.10.98).

Informationsrecherche und weitere Arbeiten des Antragstellers in Anlage

III. Ausführliche Beschreibung des Arbeitsplans

Vorhabensbezogene Ressourcenplanung, Meilensteinplanung
(Arbeitsplan)

Die Arbeitsanteile für die Bereiche Mathematik und Physik sind von gleichem Umfang. Für den Bereich Mathematik ist die Arbeitsstelle in Osnabrück, für den Bereich Physik die Arbeitsstelle in Oldenburg jeweils schwerpunktmäßig zuständig.
2 Monate Durchsuchen der vorhandenen klassifizierten Dokumente nach doppelt klassifizierten (MSC und PACS). Hieraus generieren einer ersten Konkordanz. Diese Konkordanz wird dann AP12 zur Verfügung gestellt, im Gegenzug liefert AP12 eine erste Konkordanz, erstellt mit den in AP12 erzeugten Methoden.
2 Monate Die "AP12" Konkordanz wird getestet und mit der selbsterzeugten Konkordanz verglichen. Die Erfahrungen mit den beiden Konkordanzen werden in einer gemeinsamen Arbeitssitzung von AP9 und AP12 erörtert.
2 Monate Aufgrund der Ergebnisse der gemeinsamen Arbeitssitzung werden die beiden Konkordanzen zu einer gemeinsamen Mathematik-Physik-Konkordanz verschmolzen. Die bisher geleistete Arbeit wird dokumentiert.
3 Monate Der in AP1 entwickelte Prototyp eines Uploadinterfaces wird übernommen und an einer ausgewählten Nutzergruppe getestet. Hierbei liegt der Schwerpunkt des Testes auf der MetaDaten-Generierungs- (RDF) und Upload-Funktionalität.
1 Monat Die gesammelten Erfahrungen werden in einer gemeinsamen Arbeitssitzung von AP1, AP9 und Vertretern von MathNet und PhysNet ausgetauscht und anschließend dokumentiert. Die Problematik einer Suche von Non-ascii-Charactern wird bearbeitet.
2 Monate Das Design einer gemeinsamen, differenzierten und intuitiven Suchoberfläche für Mathematik und Physik soll erfolgen.
6 Monate Der in AP7 entwickelte Prototyp einer neuen Suchmaschine soll insbesondere hinsichtlich seiner Konfigurationsmöglichkeiten bezüglich der verwendeten RDF-Metadaten-Schemata getestet werden. Weiterhin sollen für die Aufnahme der umfangreichen Altdaten die Summarizing und Postsummarizing Schnittstellen aus AP7 getestet und genutzt werden.
Die auf diesem Wege nachklassifizierten Dokumente sollen den Autoren über einen abonierbaren Nachrichtendienst für ein erneutes Uploading zur Verfügung gestellt werden. Erhofft wird eine Rückkopplung Autor-Konkordanz-Dokument-Suchmaschine, die der Heterogenität langfristig entgegenwirkt. Die Akzeptanz dieses Dienstes soll anhand einer Nutzungsanalyse optimiert werden.
Das in AP11 entwickelte und von AP7 eingesetzte Modul zur automatischen Extraktion von MetaDaten soll in die Suchumgebung eingebaut und getestet werden.
6 Monate Ein Client-seitiges Interface für eine gemeinsame Suche in MathNet und PhysNet soll entwickelt werden. Dieses soll möglichst viel der Intelligenz der Server-seitigen Implementation tragen (Konkordanzen, Ranking).
Die Client- und Serverseitigen Implementationen sollen getestet und verglichen werden.
Ein Konzept einer intelligenten Replikation der den Suchmaschinen zugrunde liegenden Datenbanken wird entwickelt, getestet und implementiert.
Das Gesamtprojekt soll dokumentiert und die Projekt-Ergebnisse publiziert werden.

IV. Verwertungsplan in Anlage

V. Arbeitsteilung/Zusammenarbeit mit Dritten
(Organisationsform)

Die beiden Partner arbeiten bereits jetzt eng zusammen. Dieses Arbeitspaket wird diese Zusammenarbeit festigen. Die anfallende Arbeitsmenge soll von beiden Partnern zu gleichen Teilen übernommen werden. Dank der geographischen Nähe können kostengünstige Arbeitstreffen der beiden Gruppen im zwei-Monats-Rhythmus vorgesehen werden.
Eine enge Koordination mit den Arbeitspaketen AP1 (Digitale Signaturen und Metamaker mit Dokumentenupload für ein verteiltes Informationssystem), AP7 (A Document Referencing and Linking System), AP12 (Konkordanz von Klassifikationen und Thesauri) und den beiden Initiativen MathNet und PhysNet erscheint notwendig und sinnvoll. Besonderes Interesse verdient auch das in AP11 zu entwickelnde Werkzeug zur partiellen Gewinnung von MetaDaten mit automatischen Verfahren. Hierfür sind während der Projektlaufzeit mehrere gemeinsame Arbeitstreffen (siehe Arbeitsplan) geplant.
Die Laufzeit dieses Arbeitspaketes soll zwei Jahre betragen. Um eine sinnvolle Koordination mit den anderen Arbeitspaketen AP1, AP7 und AP12 zu gewährleisten, sollte dieses Arbeitspaket etwa sechs Monate später beginnen, als der Rest des "Carmen-Kerns", jedoch keinesfalls nach dem 01. März 2000.
Da dieses Arbeitspaket wertvolle Daten aus MathNet und PhysNet nutzt, erscheint es sinnvoll, die o.g. Vorlaufzeit zu nutzen, eine formelle Kooperation mit MathNet und PhysNet zu vereinbaren.
Herr Bierstedt trägt als Mitglied der IuK - Kommission der DMV Sorge für die Kooperation des Arbeitspaketes mit der Fachgesellschaft.

VI. Notwenigkeit der Zuwendungen
(Förderbedarf)

Aus dem Arbeitsplan ergibt sich der folgende Förderbedarf:

Die Laufzeit dieses Arbeitspaktes soll zwei Jahre betragen. Zur Durchführung soll an beiden Orten je eine Stelle 1/2 BAT 2A eingerichtet werden. Aufgrund der örtlichen Nähe werden nur geringe Reisekosten für die Koordination innerhalb des Arbeitspaketes entstehen. Zusätzlich ist ein Reisekosten-Budget für die notwendige Außenkoordination (siehe Organisationsform) notwendig.
  • Personalmittel:
    • Universität Oldenburg: 1/2 BAT 2A W
    • Universität Osnabrück: 1/2 BAT 2A W
  • Reisemittel:
    • Universität Oldenburg: 1.000,-- DM pro Jahr
    • Universität Osnabrück: 1.000,-- DM pro Jahr
    • Universität Paderborn: 1.500,-- DM pro Jahr
  
Responsible: Thomas Severiens,
This project terminated 2001, content of pages unchanged since 2001!
Last Update: 28. Feb. 2008
sponsored by bmb+f