Übersicht eines Vortrages auf der 2. InetBiB-Tagung in Potsdam
"Was will eigentlich ein Physiker auf einer Tagung von Bibliothekaren für Bibliothekare?"
Sicherlich ist dies eine - zumindest oberflächlich betrachtet - sinnvolle
und berechtigte Frage. Wenn die Tagung allerdings INETBIB heißt und sich
mit dem WWW als Medium für Bibliothekare beschäftigt, dann ist die Antwort
eigentlich ganz einfach zu geben, schließlich waren es Physiker am CERN,
die das WWW erfunden haben, um ihrem weltweiten wissenschaftlichen Kommunikationsbedarf
ein geeignetes Medium zu schaffen. Dieser Bedarf an schneller, weltweiter,
koordinierter Kommunikation ist es auch heute, der Physiker veranlaßt, sich
eigene Wege des Informationsaustausches und eben auch der Publikation zu schaffen,
die ihren Anforderungen möglichst entsprechen.
Dabei werden die natürlichen Grenzen, die ein traditioneller Publikations- und
Bibliotheksapparat setzt, an vielen Stellen gesprengt.
Im folgenden werde ich einen Überblick über das elektronische
Informations-Management der Physiker, insbesondere das Publikationswesen geben. Dabei
werde ich auch auf die auftretenden Urheberrechtsfragen eingehen, nicht als Jurist, denn
der bin ich nicht, sondern als Autor und Leser. Vorgestellt wird also nicht ein
Publikationssystem, das juristisch hieb- und stichfest ist, sondern eines,
das sich aus meiner Sicht im Wandel zum Informationszeitalter zunehmend herauskristallisieren wird.
Zum Schluß wird noch ein Ausblick
auf geplante Projekte gegeben, die verdeutlichen sollen, wohin der Weg führt.
Das wollen die Physiker
Das fundamentale Interesse eines jeden Physikers ist es, möglichst viel über
die Arbeit aller anderen Physiker zu wissen und gleichzeitig so viel wie er für
sinnvoll hält über seine eigene Arbeit so schnell wie möglich
seinen Kollegen mitzuteilen.
Diese Anforderungen an die Kommunikation werden aber von zwei Seiten in enge Schranken
gewiesen: Zum einen der Faktor Mensch, zum anderen der Faktor Technik.
Der Faktor Mensch kann eben nur eine endliche Anzahl von Veröffentlichungen
lesen und verarbeiten. Hier kann er aber zumindest insofern Unterstützung
erwarten, wenn er eine Auswahl von Veröffentlichungen angeboten
bekommt, die auf seinen persönlichen Bedarf zugeschnitten ist. Bis jetzt wurde
diese Auswahl von Redakteuren wissenschaftlicher Zeitschriften festgelegt, die eben
Zeitschriften mit verschiedenen Themenschwerpunkten herausgaben. Der Mensch muß
in diesem System also nur noch seine "Schublade" finden, um dann mit vorgefilterter
Information versorgt zu werden. Einmal in einer solchen Schublade gelandet,
darf der Leser dann aber auch erwarten, mit der aktuellsten Information versorgt
zu werden. Und genau diesem Anspruch werden die traditionellen (auf Papier gedruckten)
Zeitschriften in immer geringerem Maße gerecht.
Am anderen Ende des Publikationswesens steht der Autor, der auch
gleichzeitig Leser ist. Er hat nicht nur den Wunsch, alles, was er für sinnvoll
hält, seinen Kollegen - jenen, die er kennt, aber auch jenen die er (noch) nicht
kennt - mitzuteilen. Er hat auch den Wunsch, dies schnell und jederzeit zu können,
wobei er jedoch die Priorität gewahrt wissen will.
Während man dem Faktor Mensch in einem Informationssystem nur Hilfen anbieten kann,
kann man den Faktor Technik aktiv beeinflussen, im Extremfall einfach dadurch,
daß man eine neue Technik schafft. Daß es nun gerade die Physiker sind,
die sich diese Technik schaffen, liegt wohl darin begründet, daß sie
die einzigen sind, die sowohl die Notwendigkeit und die Anforderungen kennen und
gleichzeitig auch das Handwerkzeug in Form von Programmierkenntnissen haben.
Wie kann man nun all diesen Wünschen an ein Informations- und Publikationssystem
gerecht werden?
Das bietet das traditionelle Publikationssystem
Das traditionelle Publikationssystem ist ein über Jahrhunderte gewachsenes,
wohl ausgefeiltes System, das aber zur Zeit an der Flut der Veröffentlichungen
zu ertrinken droht. Auf der einen Seite garantiert das Review-System eine hohe
Qualität der Veröffentlichungen, auf der anderen Seite aber kostet es
viel Geld und - was besonders schwer wiegt - sehr viel Zeit.
Ein Artikel braucht heute von der Abgabe an den Verlag bis
zum Versand des gedruckten Journale bis zu eineinhalb Jahre. Während
dieser Zeit veraltet der Artikel oft zur Museumsreife.
Ein weiteres Problem gedruckter Journale ist der ständig steigende Preis, der
die Zahl der Journale in den lokalen Bibliotheken immer weiter sinken läßt.
Hier helfen aber die elektronischen Artikellieferdienste recht effektiv, die
jedoch, so schnell sie auch sein mögen, nie mit einer "parallel-to-print" online-Version
eines Journals mithalten können.
Apropos Museumsreife: Eine der wichtigsten Aufgaben eines Verlages ist die Langzeitarchivierung.
Absurderweise, und das wird der folgende Text verdeutlichen, werden die Verlage
in zunehmendem Maße zu reinen Archivierungs-Unternehmen. Vielleicht auch
deshalb, weil sie die Hüter der alten Technik des Papierdruckes sind.
Es kann zwar niemand ernsthaft glauben, daß es Verlage geben wird, die irgendwann
die Publikation ganz einstellen werden und nur ein Archiv betreiben, aber die
Schwerpunkte werden sich sicherlich verlagern.
EPrints als elektronische PrePrints
Enrico Fermi gilt als der Erfinder des PrePrints. Dabei handelt es sich um einen
Vorabdruck, der an die Kollegen verschickt wird, noch bevor der entsprechende Artikel den Review-Prozeß
durchlaufen hat. Mittlerweile bezeichnet das "PrePrint" nicht mehr nur das bedruckte
Papier, sondern ist zum Synonym für diesen Weg der Vorabpublikation geworden.
So schnell und formlos die PrePrints auch sein mögen, zwei gravierende
Nachteile haben sie: Das PrePrint erreicht nur jene Kollegen, die man ohnehin schon
kennt. Der zweite Nachteil folgt aus diesem "Veröffentlichen" innerhalb einer abgeschlossenen
Personengruppe: Der Autor erwirbt kein Copyright auf den Artikel. Das bekommt er nur dann,
wenn er seinen Artikel einer potentiell unbegrenzten Gruppe zugänglich macht.
Die Lösung des Copyright-Problems liegt damit auf der Hand: Man mache einfach
einen öffentlichen Aushang. Da dies aber im Fall einer wissenschaftlichen
Publikation wenig sinnvoll ist, ersann Paul Ginsparg vom Los Alamos National
Laboratory
1990 die elektronische Variante des PrePrint, das EPrint. Hierbei handelt es sich
um eine Datenbank im WWW, in die jeder seine Artikel, nach Fachgebiet (Schubladen) sortiert,
ablegen kann. Damit kann jeder, der Zugang zum WWW hat, und den es interessiert,
diesen Artikel lesen. Der Autor bekommt also sein Copyright. Gleichzeitig wird
beim Einspielen des Artikels in die Datenbank ein Prioritätsdatum mit diesem verwoben,
so daß das Datum des Einspielens ein für alle mal gespeichert ist.
Das besondere an der Datenbank ist, daß zwar jeder Artikel einspielen,
diese aber nicht wieder aus der Datenbank löschen kann. So wird die Qualität
der Artikel gewahrt - wer will schon einen schlechten Artikel für immer veröffentlichen?
Daß dieses triviale System funktioniert, zeigt sich schon daran, daß
etwa 90 % der hier liegenden EPrints später traditionell publiziert werden.
Der Rest wird etwa je zur Hälfte gar nicht zur Publikation eingereicht oder er
fällt durch den Review-Prozeß. Damit sind also nur etwa 5 % schlechte
Artikel in der Datenbank. Dieser Wert ist wohl ungeschlagen; denn auch jedes traditionelle
Journal hat mindestens 5 % 'schlechte' Artikel zwischen den Buchdeckeln, nämlich solche,
die bei einem anderen Verlag durch das Reviewing gefallen wären. Tatsächlich
werden fast alle abgelehnten Artikel bei einem anderen Journal eingereicht und
publiziert.
EPrint und Journal nicht als Konkurrenten
Nun mag manch einer fragen, warum es bei all den Vorteilen des EPrints
überhaupt noch traditionelle Journale gibt. Zwar kann der EPrint-Server durch
weltweite Spiegel als ein sicheres Archiv gelten, dennoch kann niemand sagen, ob
er auch als Langzeitarchiv taugt. Nebenbei sei erwähnt, daß die Frage nach
einem optimalen Archivmedium ohnehin müßig ist, da man dann zu den
Keilschriftziegeln zurückkehren müßte.
Außerdem resultiert die hohe Qualität der EPrints ja nur aus der offensichtlichen
Vergleichsmöglichkeit zum Niveau der reviewed Journale.
Zwar wird seit einiger Zeit versucht, einen Review-Prozeß für die
EPrints zu erfinden, jedoch wird das EPrint wohl nicht das papierene Journal verdrängen,
vielmehr wird dem Journal eine neue Rolle zufallen.
Nicht mehr als Vermittler aktueller Forschungsergebnisse; vielmehr wird das
Journal der Zukunft wohl eher ein Review-Journal sein, das Übersichtsartikel
enthält, die auch einige Jahre nach Erscheinen noch von Interesse sind.
Die "Rapid"- und "Letter"-Journale hingegen werden wohl, nachdem die meisten
Bibliotheken sie abbestellt haben, dann nicht mehr erscheinen.
Daß die Herausgeber der Review-Journale die EPrint-Server sehr entspannt wachsen sehen, zeigt sich unter anderem an der Politik der American Physical Society APS, die die "Physical Review"-Reihe verlegt. Hier arbeitet man eng mit dem Team um Paul Ginsparg zusammen, um dann die EPrints mit der Online-Version des gedruckten Journals zu vernetzen. Ziel ist es, ein leichtes Hin- und Herspringen zwischen EPrint-Server und Online-Journal zu ermöglichen. Dabei wird die Dichte dieser Links in den einzelnen "Fächern" des EPrint-Servers ein Anzeichen für die Relevanz und Qualität der verschiedenen Journale sein, somit auch ein Werbefaktor. Als eine Folge aus dieser Politik wird es dann zwei Versionen eines Artikels in WWW geben, ein EPrint und den reviewed Artikel. Der Leser kann jetzt selbst entscheiden, welchen von beiden er lesen will. Der Verlag wird seine Existenzberechtigung aus einer nachzuweisenden qualitativen Verbesserung begründen können. So betrachtet wird es zu einem konkurrenzfreien Neben- und Miteinander führen, wenn die Journale erst ihrer Nische gefunden haben werden.
Pflege erwünscht
Kommen wir jetzt von den publizierten Artikeln zu einem anderen Typ von Dokumenten,
bei denen es durchaus erwünscht ist, daß sie auch nach ihrer ersten
Veröffentlichung noch verändert werden; ja, es oft sogar essentiell notwendig
ist, daß der Autor sie regelmäßig updatet. Die Rede ist von
zum Beispiel Software-Handbüchern, Tätigkeitsberichten usw. All diese
Dokumente sollten für den Autor ohne Probleme änderbar sein. Gleichzeitig
jedoch sollte die Auffindbarkeit mindestens genauso einfach wie bei einem EPrint
sein. Idealerweise liegt also solch ein Dokument auf dem WWW-Server des Autors
und ist über eine Suchmaschine auffindbar.
Doch es gibt noch weitere Dokumententypen, die, obwohl von oft allgemeinem Interesse,
dennoch nicht als EPrint gegeignet sind und auch nicht in einem Journal publiziert
werden. Die Rede ist von Dissertationen, Diplomarbeiten und Jahresberichten.
Während die Dissertationen zwar inhaltlich zur Veröffentlichung geeignet
sein sollten, sind die meisten jedoch so speziell, daß sich meist kein Journal
findet, das sie abdruckt. Auf dem lokalen WWW-Server hingegen können sie,
wenn dies die Promotionsordnung erlaubt, unverändert veröffentlicht werden.
Diplomarbeiten hingegen sind meist wissenschaftlich nicht so signifikant, daß aus
ihnen ein EPrint oder ein gedruckter Artikel hervorgeht. Dennoch kann auch ihnen
nicht abgesprochen werden, von allgemeinem Interesse zu sein; genauso wie den
Jahresberichten, in denen viele Institute ihre geleistete Arbeit vorstellen,
sollten all diese Dokumente leicht auffindbar im WWW abgelegt sein.
Was soll jetzt dieses "leicht auffindbar" denn nun genau bedeuten? Hierauf läßt
sich am leichtesten antworten, wenn man die Typen von Suchmaschinen vorstellt,
die sich eben nicht hierfür eignen. Zunächst sind da die globalen Suchmaschinen,
a la AltaVista, Lycos usw. Diese versuchen sich durch die Zahl ihrer Links zu
übertrumpfen. Leider erhält man hier oftmals so viele Treffer auf eine
Anfrage, daß die Suche nach den wirklichen Treffern, also jenen Dokumenten,
die einen wirklich interessieren, der sprichwörtlichen Suche nach der Stecknadel
im Heuhaufen gleichkommt. Besonders ärgerlich ist dies, wenn sich dann noch
viele der vermeintlichen Treffer als längst verstorbene Links herausstellen.
Auf der anderen Seite gibt es viele Suchmaschinen im WWW, die nur sehr begrenzte
Bereiche erschließen, zum Beispiel nur einen einzelnen Server, oder eine Universität.
Diese Suchmaschinen sind in der Regel sehr gut gepflegt und aktuell. Leider ist
es wohl unmöglich alle, diese einzeln abzufragen.
Diesem Problem der verteilten Dokumente hat sich das "EuroPhysNet"-Projekt der
European Physical Society EPS angenommen. Hier wird versucht, SOIF-basierte Suchmaschinen
lokal an möglichst vielen Orten zu installieren, die dann ihre Indexfiles
untereinander austauschen, ohne die Netzbelastung deutlich zu erhöhen.
Hierdurch stehen an allen Orten die gesamten Informationen der ganzen lokalen
Suchmaschinen schnell abrufbar zur Verfügung. Von jenen Physikfachbereichen, die noch nicht
in dieses System integriert sind, werden die wichtigsten Daten durch einen
Roboter zentral gesammelt.
Suche über zwei Grenzen: Metadaten
Leider besteht bei der Suchbarkeit dezentraler Daten das Problem der extremen
Heterogenität der Dokumente. Anders als bei allen Daten, die sich in strukturierten
Datenbanken befinden, zeigt das WWW leider nur sehr wenig, oft gar keine
maschinenlesbare Struktur. Was Titel und Autor, was der Abstract und
was der eigentliche Text eines Dokumentes sind, dies ist in aller Regel nur für einen Menschen
zu erkennen, nicht hingegen für eine Maschine. Die Information der Zuordnung der
Daten zu den Klassen ist oft nur im Layout enthalten.
Dieses Problem läßt sich wohl nur durch die konsequente Verwendung von
Metadaten nach dem Dublin-Core-Standard einigermaßen beheben. Die Metadaten sollten
hierbei von den Autoren vergeben werden, nur sie kennen das Dokument wirklich. Außerdem
ist jedes andere Vorgehen bei der Vergabe von Metadaten für verteilte
Dokumente unbezahlbar. Um die Autoren nun aber zu bewegen, auch wirklich Metadaten
zu vergeben, bedarf es einiger Überzeugungsarbeit. Erst wenn ein Autor sieht,
daß hierdurch sein Dokument besser und korrekter auffindbar
wird, wird er es in Erwägung ziehen, die wenige zusätzliche Arbeit in
die Vergabe der Metadaten zu stecken. Die Hemmung zur Metaindexierung in Form von
Arbeit und Zeitaufwand sollte dabei möglichst klein sein, was einfache Tools
notwendig macht. Ein solches Tool ist der MMM, eine WWW-Eingabeform, die die
Metadaten vollständig und korrekt nach Dublin-Core vergibt.
Um jetzt aber nicht viele einzelne Suchmaschinen bedienen zu müssen bei
der Informationssuche in dem dreigeteilten Pool von Journalen, EPrints und verteilten Dokumenten,
bedarf es einer einheitlichen Suchoberfläche, die die Suche
zentral in einer frei bestimmbaren Untermenge von Dokumentenquellen ermöglicht.
Eine solche Verknüpfung wird in dem DFN-Projekt EPRINT versucht, wo unter
anderem eine einheitliche Suchoberfläche für die verteilten Dokumente
und den EPrint-Server geschaffen werden soll.
Zusammenarbeit, der Schlüssel zum Erfolg
Zum Schluß soll noch hervorgehoben werden, daß es nicht nur die
Physiker sind, die an eigenen Informations-Management-Systemen arbeiten.
Die an einem fächerübergreifenden Informations-Management interessierten
Fachgesellschaften haben sich zur IuK-Initiative zusammengeschlossen. Hier soll nicht nur
gegenseitige Schützenhilfe beim Beschaffen von Finanzmitteln zum weiteren
Ausbau der Informationssysteme geleistet werden, vielmehr werden auch technische Fragen
des Informationsaustausches erörtert und fächerübergreifend
in allen Punkten, die einen gemeinsamen Standard erfordern zusammengearbeitet. Ein
Beispiel hierfür ist der schon erwähnte MMM, der zusammen mit dem
AK-Technik des MathNet-Projektes geschaffen wurde. Ein weiteres Beispiel ist die
Zusammenarbeit des EPRINT-Projektes mit dem CCC-Erlangen bei der Einbindung von
Metadaten in andere Formate als HTML und SGML.
Abschließend kann man feststellen, daß erst die Zusammenarbeit über
Fachgrenzen hinweg, die Arbeit der Autoren selbst, die konsequente Anwendung von standardisierten Metadaten
ein effektives Informations-Management ermöglichen.
Das vorgestellte Informationssystem macht mehr als deutlich, daß der Phasenübergang
vom Papier- zum elektronischen Zeitalter längst erfolgt ist.