http://www.physik.uni-oldenburg.de/documents/UOL-THEO3-97-1/Inetbib-2-Postdam/
Last Update: 16.04.1997
Elektronische Publikationen und Informations-Management in der Physik

Übersicht eines Vortrages auf der 2. InetBiB-Tagung in Potsdam

"Was will eigentlich ein Physiker auf einer Tagung von Bibliothekaren für Bibliothekare?" Sicherlich ist dies eine - zumindest oberflächlich betrachtet - sinnvolle und berechtigte Frage. Wenn die Tagung allerdings INETBIB heißt und sich mit dem WWW als Medium für Bibliothekare beschäftigt, dann ist die Antwort eigentlich ganz einfach zu geben, schließlich waren es Physiker am CERN, die das WWW erfunden haben, um ihrem weltweiten wissenschaftlichen Kommunikationsbedarf ein geeignetes Medium zu schaffen. Dieser Bedarf an schneller, weltweiter, koordinierter Kommunikation ist es auch heute, der Physiker veranlaßt, sich eigene Wege des Informationsaustausches und eben auch der Publikation zu schaffen, die ihren Anforderungen möglichst entsprechen. Dabei werden die natürlichen Grenzen, die ein traditioneller Publikations- und Bibliotheksapparat setzt, an vielen Stellen gesprengt.
Im folgenden werde ich einen Überblick über das elektronische Informations-Management der Physiker, insbesondere das Publikationswesen geben. Dabei werde ich auch auf die auftretenden Urheberrechtsfragen eingehen, nicht als Jurist, denn der bin ich nicht, sondern als Autor und Leser. Vorgestellt wird also nicht ein Publikationssystem, das juristisch hieb- und stichfest ist, sondern eines, das sich aus meiner Sicht im Wandel zum Informationszeitalter zunehmend herauskristallisieren wird. Zum Schluß wird noch ein Ausblick auf geplante Projekte gegeben, die verdeutlichen sollen, wohin der Weg führt.

Das wollen die Physiker
Das fundamentale Interesse eines jeden Physikers ist es, möglichst viel über die Arbeit aller anderen Physiker zu wissen und gleichzeitig so viel wie er für sinnvoll hält über seine eigene Arbeit so schnell wie möglich seinen Kollegen mitzuteilen.
Diese Anforderungen an die Kommunikation werden aber von zwei Seiten in enge Schranken gewiesen: Zum einen der Faktor Mensch, zum anderen der Faktor Technik.
Der Faktor Mensch kann eben nur eine endliche Anzahl von Veröffentlichungen lesen und verarbeiten. Hier kann er aber zumindest insofern Unterstützung erwarten, wenn er eine Auswahl von Veröffentlichungen angeboten bekommt, die auf seinen persönlichen Bedarf zugeschnitten ist. Bis jetzt wurde diese Auswahl von Redakteuren wissenschaftlicher Zeitschriften festgelegt, die eben Zeitschriften mit verschiedenen Themenschwerpunkten herausgaben. Der Mensch muß in diesem System also nur noch seine "Schublade" finden, um dann mit vorgefilterter Information versorgt zu werden. Einmal in einer solchen Schublade gelandet, darf der Leser dann aber auch erwarten, mit der aktuellsten Information versorgt zu werden. Und genau diesem Anspruch werden die traditionellen (auf Papier gedruckten) Zeitschriften in immer geringerem Maße gerecht.
Am anderen Ende des Publikationswesens steht der Autor, der auch gleichzeitig Leser ist. Er hat nicht nur den Wunsch, alles, was er für sinnvoll hält, seinen Kollegen - jenen, die er kennt, aber auch jenen die er (noch) nicht kennt - mitzuteilen. Er hat auch den Wunsch, dies schnell und jederzeit zu können, wobei er jedoch die Priorität gewahrt wissen will.
Während man dem Faktor Mensch in einem Informationssystem nur Hilfen anbieten kann, kann man den Faktor Technik aktiv beeinflussen, im Extremfall einfach dadurch, daß man eine neue Technik schafft. Daß es nun gerade die Physiker sind, die sich diese Technik schaffen, liegt wohl darin begründet, daß sie die einzigen sind, die sowohl die Notwendigkeit und die Anforderungen kennen und gleichzeitig auch das Handwerkzeug in Form von Programmierkenntnissen haben.
Wie kann man nun all diesen Wünschen an ein Informations- und Publikationssystem gerecht werden?

Das bietet das traditionelle Publikationssystem
Das traditionelle Publikationssystem ist ein über Jahrhunderte gewachsenes, wohl ausgefeiltes System, das aber zur Zeit an der Flut der Veröffentlichungen zu ertrinken droht. Auf der einen Seite garantiert das Review-System eine hohe Qualität der Veröffentlichungen, auf der anderen Seite aber kostet es viel Geld und - was besonders schwer wiegt - sehr viel Zeit. Ein Artikel braucht heute von der Abgabe an den Verlag bis zum Versand des gedruckten Journale bis zu eineinhalb Jahre. Während dieser Zeit veraltet der Artikel oft zur Museumsreife.
Ein weiteres Problem gedruckter Journale ist der ständig steigende Preis, der die Zahl der Journale in den lokalen Bibliotheken immer weiter sinken läßt. Hier helfen aber die elektronischen Artikellieferdienste recht effektiv, die jedoch, so schnell sie auch sein mögen, nie mit einer "parallel-to-print" online-Version eines Journals mithalten können.
Apropos Museumsreife: Eine der wichtigsten Aufgaben eines Verlages ist die Langzeitarchivierung. Absurderweise, und das wird der folgende Text verdeutlichen, werden die Verlage in zunehmendem Maße zu reinen Archivierungs-Unternehmen. Vielleicht auch deshalb, weil sie die Hüter der alten Technik des Papierdruckes sind. Es kann zwar niemand ernsthaft glauben, daß es Verlage geben wird, die irgendwann die Publikation ganz einstellen werden und nur ein Archiv betreiben, aber die Schwerpunkte werden sich sicherlich verlagern.

EPrints als elektronische PrePrints
Enrico Fermi gilt als der Erfinder des PrePrints. Dabei handelt es sich um einen Vorabdruck, der an die Kollegen verschickt wird, noch bevor der entsprechende Artikel den Review-Prozeß durchlaufen hat. Mittlerweile bezeichnet das "PrePrint" nicht mehr nur das bedruckte Papier, sondern ist zum Synonym für diesen Weg der Vorabpublikation geworden.
So schnell und formlos die PrePrints auch sein mögen, zwei gravierende Nachteile haben sie: Das PrePrint erreicht nur jene Kollegen, die man ohnehin schon kennt. Der zweite Nachteil folgt aus diesem "Veröffentlichen" innerhalb einer abgeschlossenen Personengruppe: Der Autor erwirbt kein Copyright auf den Artikel. Das bekommt er nur dann, wenn er seinen Artikel einer potentiell unbegrenzten Gruppe zugänglich macht.
Die Lösung des Copyright-Problems liegt damit auf der Hand: Man mache einfach einen öffentlichen Aushang. Da dies aber im Fall einer wissenschaftlichen Publikation wenig sinnvoll ist, ersann Paul Ginsparg vom Los Alamos National Laboratory 1990 die elektronische Variante des PrePrint, das EPrint. Hierbei handelt es sich um eine Datenbank im WWW, in die jeder seine Artikel, nach Fachgebiet (Schubladen) sortiert, ablegen kann. Damit kann jeder, der Zugang zum WWW hat, und den es interessiert, diesen Artikel lesen. Der Autor bekommt also sein Copyright. Gleichzeitig wird beim Einspielen des Artikels in die Datenbank ein Prioritätsdatum mit diesem verwoben, so daß das Datum des Einspielens ein für alle mal gespeichert ist. Das besondere an der Datenbank ist, daß zwar jeder Artikel einspielen, diese aber nicht wieder aus der Datenbank löschen kann. So wird die Qualität der Artikel gewahrt - wer will schon einen schlechten Artikel für immer veröffentlichen? Daß dieses triviale System funktioniert, zeigt sich schon daran, daß etwa 90 % der hier liegenden EPrints später traditionell publiziert werden. Der Rest wird etwa je zur Hälfte gar nicht zur Publikation eingereicht oder er fällt durch den Review-Prozeß. Damit sind also nur etwa 5 % schlechte Artikel in der Datenbank. Dieser Wert ist wohl ungeschlagen; denn auch jedes traditionelle Journal hat mindestens 5 % 'schlechte' Artikel zwischen den Buchdeckeln, nämlich solche, die bei einem anderen Verlag durch das Reviewing gefallen wären. Tatsächlich werden fast alle abgelehnten Artikel bei einem anderen Journal eingereicht und publiziert.

EPrint und Journal nicht als Konkurrenten
Nun mag manch einer fragen, warum es bei all den Vorteilen des EPrints überhaupt noch traditionelle Journale gibt. Zwar kann der EPrint-Server durch weltweite Spiegel als ein sicheres Archiv gelten, dennoch kann niemand sagen, ob er auch als Langzeitarchiv taugt. Nebenbei sei erwähnt, daß die Frage nach einem optimalen Archivmedium ohnehin müßig ist, da man dann zu den Keilschriftziegeln zurückkehren müßte. Außerdem resultiert die hohe Qualität der EPrints ja nur aus der offensichtlichen Vergleichsmöglichkeit zum Niveau der reviewed Journale. Zwar wird seit einiger Zeit versucht, einen Review-Prozeß für die EPrints zu erfinden, jedoch wird das EPrint wohl nicht das papierene Journal verdrängen, vielmehr wird dem Journal eine neue Rolle zufallen. Nicht mehr als Vermittler aktueller Forschungsergebnisse; vielmehr wird das Journal der Zukunft wohl eher ein Review-Journal sein, das Übersichtsartikel enthält, die auch einige Jahre nach Erscheinen noch von Interesse sind. Die "Rapid"- und "Letter"-Journale hingegen werden wohl, nachdem die meisten Bibliotheken sie abbestellt haben, dann nicht mehr erscheinen.

Daß die Herausgeber der Review-Journale die EPrint-Server sehr entspannt wachsen sehen, zeigt sich unter anderem an der Politik der American Physical Society APS, die die "Physical Review"-Reihe verlegt. Hier arbeitet man eng mit dem Team um Paul Ginsparg zusammen, um dann die EPrints mit der Online-Version des gedruckten Journals zu vernetzen. Ziel ist es, ein leichtes Hin- und Herspringen zwischen EPrint-Server und Online-Journal zu ermöglichen. Dabei wird die Dichte dieser Links in den einzelnen "Fächern" des EPrint-Servers ein Anzeichen für die Relevanz und Qualität der verschiedenen Journale sein, somit auch ein Werbefaktor. Als eine Folge aus dieser Politik wird es dann zwei Versionen eines Artikels in WWW geben, ein EPrint und den reviewed Artikel. Der Leser kann jetzt selbst entscheiden, welchen von beiden er lesen will. Der Verlag wird seine Existenzberechtigung aus einer nachzuweisenden qualitativen Verbesserung begründen können. So betrachtet wird es zu einem konkurrenzfreien Neben- und Miteinander führen, wenn die Journale erst ihrer Nische gefunden haben werden.

Pflege erwünscht
Kommen wir jetzt von den publizierten Artikeln zu einem anderen Typ von Dokumenten, bei denen es durchaus erwünscht ist, daß sie auch nach ihrer ersten Veröffentlichung noch verändert werden; ja, es oft sogar essentiell notwendig ist, daß der Autor sie regelmäßig updatet. Die Rede ist von zum Beispiel Software-Handbüchern, Tätigkeitsberichten usw. All diese Dokumente sollten für den Autor ohne Probleme änderbar sein. Gleichzeitig jedoch sollte die Auffindbarkeit mindestens genauso einfach wie bei einem EPrint sein. Idealerweise liegt also solch ein Dokument auf dem WWW-Server des Autors und ist über eine Suchmaschine auffindbar.
Doch es gibt noch weitere Dokumententypen, die, obwohl von oft allgemeinem Interesse, dennoch nicht als EPrint gegeignet sind und auch nicht in einem Journal publiziert werden. Die Rede ist von Dissertationen, Diplomarbeiten und Jahresberichten. Während die Dissertationen zwar inhaltlich zur Veröffentlichung geeignet sein sollten, sind die meisten jedoch so speziell, daß sich meist kein Journal findet, das sie abdruckt. Auf dem lokalen WWW-Server hingegen können sie, wenn dies die Promotionsordnung erlaubt, unverändert veröffentlicht werden. Diplomarbeiten hingegen sind meist wissenschaftlich nicht so signifikant, daß aus ihnen ein EPrint oder ein gedruckter Artikel hervorgeht. Dennoch kann auch ihnen nicht abgesprochen werden, von allgemeinem Interesse zu sein; genauso wie den Jahresberichten, in denen viele Institute ihre geleistete Arbeit vorstellen, sollten all diese Dokumente leicht auffindbar im WWW abgelegt sein.
Was soll jetzt dieses "leicht auffindbar" denn nun genau bedeuten? Hierauf läßt sich am leichtesten antworten, wenn man die Typen von Suchmaschinen vorstellt, die sich eben nicht hierfür eignen. Zunächst sind da die globalen Suchmaschinen, a la AltaVista, Lycos usw. Diese versuchen sich durch die Zahl ihrer Links zu übertrumpfen. Leider erhält man hier oftmals so viele Treffer auf eine Anfrage, daß die Suche nach den wirklichen Treffern, also jenen Dokumenten, die einen wirklich interessieren, der sprichwörtlichen Suche nach der Stecknadel im Heuhaufen gleichkommt. Besonders ärgerlich ist dies, wenn sich dann noch viele der vermeintlichen Treffer als längst verstorbene Links herausstellen. Auf der anderen Seite gibt es viele Suchmaschinen im WWW, die nur sehr begrenzte Bereiche erschließen, zum Beispiel nur einen einzelnen Server, oder eine Universität. Diese Suchmaschinen sind in der Regel sehr gut gepflegt und aktuell. Leider ist es wohl unmöglich alle, diese einzeln abzufragen.
Diesem Problem der verteilten Dokumente hat sich das "EuroPhysNet"-Projekt der European Physical Society EPS angenommen. Hier wird versucht, SOIF-basierte Suchmaschinen lokal an möglichst vielen Orten zu installieren, die dann ihre Indexfiles untereinander austauschen, ohne die Netzbelastung deutlich zu erhöhen. Hierdurch stehen an allen Orten die gesamten Informationen der ganzen lokalen Suchmaschinen schnell abrufbar zur Verfügung. Von jenen Physikfachbereichen, die noch nicht in dieses System integriert sind, werden die wichtigsten Daten durch einen Roboter zentral gesammelt.

Suche über zwei Grenzen: Metadaten
Leider besteht bei der Suchbarkeit dezentraler Daten das Problem der extremen Heterogenität der Dokumente. Anders als bei allen Daten, die sich in strukturierten Datenbanken befinden, zeigt das WWW leider nur sehr wenig, oft gar keine maschinenlesbare Struktur. Was Titel und Autor, was der Abstract und was der eigentliche Text eines Dokumentes sind, dies ist in aller Regel nur für einen Menschen zu erkennen, nicht hingegen für eine Maschine. Die Information der Zuordnung der Daten zu den Klassen ist oft nur im Layout enthalten.
Dieses Problem läßt sich wohl nur durch die konsequente Verwendung von Metadaten nach dem Dublin-Core-Standard einigermaßen beheben. Die Metadaten sollten hierbei von den Autoren vergeben werden, nur sie kennen das Dokument wirklich. Außerdem ist jedes andere Vorgehen bei der Vergabe von Metadaten für verteilte Dokumente unbezahlbar. Um die Autoren nun aber zu bewegen, auch wirklich Metadaten zu vergeben, bedarf es einiger Überzeugungsarbeit. Erst wenn ein Autor sieht, daß hierdurch sein Dokument besser und korrekter auffindbar wird, wird er es in Erwägung ziehen, die wenige zusätzliche Arbeit in die Vergabe der Metadaten zu stecken. Die Hemmung zur Metaindexierung in Form von Arbeit und Zeitaufwand sollte dabei möglichst klein sein, was einfache Tools notwendig macht. Ein solches Tool ist der MMM, eine WWW-Eingabeform, die die Metadaten vollständig und korrekt nach Dublin-Core vergibt.
Um jetzt aber nicht viele einzelne Suchmaschinen bedienen zu müssen bei der Informationssuche in dem dreigeteilten Pool von Journalen, EPrints und verteilten Dokumenten, bedarf es einer einheitlichen Suchoberfläche, die die Suche zentral in einer frei bestimmbaren Untermenge von Dokumentenquellen ermöglicht. Eine solche Verknüpfung wird in dem DFN-Projekt EPRINT versucht, wo unter anderem eine einheitliche Suchoberfläche für die verteilten Dokumente und den EPrint-Server geschaffen werden soll.

Zusammenarbeit, der Schlüssel zum Erfolg
Zum Schluß soll noch hervorgehoben werden, daß es nicht nur die Physiker sind, die an eigenen Informations-Management-Systemen arbeiten. Die an einem fächerübergreifenden Informations-Management interessierten Fachgesellschaften haben sich zur IuK-Initiative zusammengeschlossen. Hier soll nicht nur gegenseitige Schützenhilfe beim Beschaffen von Finanzmitteln zum weiteren Ausbau der Informationssysteme geleistet werden, vielmehr werden auch technische Fragen des Informationsaustausches erörtert und fächerübergreifend in allen Punkten, die einen gemeinsamen Standard erfordern zusammengearbeitet. Ein Beispiel hierfür ist der schon erwähnte MMM, der zusammen mit dem AK-Technik des MathNet-Projektes geschaffen wurde. Ein weiteres Beispiel ist die Zusammenarbeit des EPRINT-Projektes mit dem CCC-Erlangen bei der Einbindung von Metadaten in andere Formate als HTML und SGML.
Abschließend kann man feststellen, daß erst die Zusammenarbeit über Fachgrenzen hinweg, die Arbeit der Autoren selbst, die konsequente Anwendung von standardisierten Metadaten ein effektives Informations-Management ermöglichen. Das vorgestellte Informationssystem macht mehr als deutlich, daß der Phasenübergang vom Papier- zum elektronischen Zeitalter längst erfolgt ist.


Thomas Severiens, Fachbereich Physik, Universität Oldenburg