Elektronische Informationen für die Physik

Eberhard R. Hilf

Such-Konzepte

Das Internet erlaubt den physikalischen Fachbereichen und den außeruniversitären Instituten, die von ihnen lokal ausgewählten Informationen weltweit über das Netz zur Einsicht anzubieten. Dies ist verbunden mit sehr geringen Kosten am eigenen Orte und einer gewissen einmaligen Mühe vom lokalen Informationserzeuger.

Nehmen wir als Beispiel administrative Informationen, wie z. B. die üblichen "statischen" Listen für Telefonnummern ( Beispiel), Adressen oder Arbeitsgebiete eines Institutes. Sie sind arbeitsintensiv zu erstellen und stets im Moment ihres Erscheinens bereits veraltet. Sie lassen sich besser durch ein Suchprogramm ('Broker'), über Informationen auf dem Instituts-Server ersetzen. Zuvor sollten diese zweckmäßigerweise durch einen Indizierer ('Gatherer' für die Suche aufbereitet sein. Man geht nun davon aus, daß die Wissenschaftler am ehesten auf mindestens einer Seite im lokalen WWW-Server ihre Telefonnummer hinterlassen haben - und gegebenenfalls am ehesten auch korrigieren werden, wenn sie umziehen. Eine Suchmaschine findet dann diese Information, unabhängig davon, ob am Ort jemand ein Telefonverzeichnis erstellt hat oder nicht. Zwölf Fachbereiche der Physik haben einen solchen dynamischen Informationssuchdienst, über die zentrale Seite des Fachbereichsservers erreichbar, bereits eingerichtet. Weitere zwölf bereiten dies derzeit vor. Bundesweit könnte man diese Suche ortsübergreifend ausdehnen, wenn der lokale Gatherer seine Informationen z. B. an einen zentralen Broker weitergibt und dieser an ihn gerichtete Fragen über seine ihm verfügbaren Daten beantwortet. Diese volle inhaltliche Vernetzung der WWW-Server der ca. 60 Physik-Fachbereiche und ca. 50 Forschungsinstitute ist in einem von der DPG erarbeiteten Gesamtkonzept enthalten und wird derzeit schrittweise eingerichtet. Gleiches strebt die EPS für die mehr als 1000 Physik-Institutionen ihres Einzugsgebietes an. Wir haben eine Suchmaschine PhysDep installiert, die von den genannten Fachbereichen die Indexlisten automatisch erhält, aber von den anderen Fachbereichen/Instituten (zur Begrenzung des Rechenaufwandes) derzeit nur über einige Hauptseiten sucht.

Warum ist der Aufbau eines dedizierten Physik-Informationssystems sinnvoll, wenn es doch weltweit über alle WWW-Server arbeitende Suchmaschinen gibt? Eine Anfrage an eine Suchmaschine, die weltweit über alle Dokumente sucht, ergibt als Antwort für viele physikalische Begriffe eine Flut von Dokumenten, die Synonyme des Suchbegriffes enthalten, also irrelevant sind. Der Umfang der abgesuchten Datenmenge sollte nicht wesentlich größer sein als die Datenmenge, aus der der Suchende ("Le ser") erwartet, daß gesucht wird, weil es sonst für den Suchenden de facto oft unmöglich wird, die sprichwörtliche Nadel im Heuhaufen zu finden.

Ein Physik-Informationssystem, dessen Dokumente von den Physikern selbst auf ihren jeweiligen lokalen Server abgelegt wurden (und damit vom "Erzeuger" der Information gepflegt werden können), löst diese Aufgabe optimal. Im Prinzip lassen sich zwar - um den Preis hoher Netzbelastung - alle Server durch eine zentrale Suchmaschine absuchen. Optimal ist es aber, wenn an jedem Fachbereich/Institut ein lokaler Gatherer installiert wird, der die lokal aufgelegten Dokumente aufsucht, aus ihren Volltexten eine Liste von Indexworten mit Fundstelle anlegt und dann nur diese an die zentrale Suchmaschine exportiert. Erst dadurch wird der gesamte Umfang aller auf den Servern liegenden Informationen ohne unnötige Belastung des Netzes suchbar. Denn die durchsuchbare Datenmenge sollte nicht wesentlich kleiner sein als die vorhandene relevante Information.

"Zentrale" Suchmaschinen können natürlich an mehreren Orten unabhängig parallel
installiert und betrieben werden. Ein verteiltes Informationssystem, das von vielen Orten aus unabhängig betrieben wird, ist am besten skalierbar, auf eine immer größere Zahl von Teilnehmern und Instituten an paßbar. Es ist damit auch relativ unabhängig von technischen (und "finanziellen") Störungen.

Als Software wird gegenwärtig das auf dem SOIF-Protokoll basierende Software-Paket HARVEST eingesetzt. HARVEST wurde an der University of Colorado entwickelt, ist frei zugänglich sowie kostenlos und erlaubt damit Anpassungen und Weiterentwicklungs-Beiträge von allen Interessierten.

Die Einrichtung lokaler Gatherer sichert dem Fachbereich bzw. Institut zudem, daß es jederzeit selbst bestimmen kann, welche Dateien seines Servers erfaßt und indiziert werden sollen und welche nicht.

Die ersten Erfahrungen sind vielversprechend, denn der Wert eines solchen Informationssystems steigt mit der erreichten Überdeckung der relevanten Information. Etwa 150 Nutzer greifen täglich auf unseren Broker zu, zumeist jedoch auf die mitangebotene vollständige link-Liste aller Physik-Institute in Deutschland, die wir für die DPG pflegen. Sie "surfen" dann zu und im gesuchten Institutsserver und finden dort (hoffentlich) die gesuchte Information. Nur wenige kennen und nutzen die Suchmaschine, obgleich diese ja die Information direkter und vollständiger liefern sollte. Das "Browsen" als Weg der Informationsbeschaffung wird von vielen noch als "sinnlicher" empfunden als die Formulierung einer sinnvollen Suchanfrage.

Die hier vorgestellten Grundsätze des Informationsmanagements und ihr Realisierungsweg am Beispiel von administrativen Informationen lassen sich im Prinzip natürlich auch für andere Informationsarten, z. B. für wissenschaftliche Fachdokumente entwickeln, die jeweils die spezifischen Eigenarten und Anforderungen des jeweiligen Dokumententyps berücksichtigen müssen.1)


E.R.Hilf, hilf@merlin.physik.uni-oldenburg.de
Endzustand dieses Teil-Dokumentes: 15.4.1997
Urheberrechtsbemerkung