OAI-PMH protokollet och söktjänster
May 5, 2008 – 1:39 pmUtarbetat med stöd av KB:s utvecklingsprogram OpenAccess.se
Jörgen Eriksson, 2007
http://creativecommons.org/licenses/by-nc-sa/2.5/se/
Beskrivning
Det här avsnittet kommer att behandla sökning av data från öppna arkiv. Den idag dominerande standarden för insamling av data presenteras, med för och nackdelar tillsammans med några av de etablerade söktjänsterna som använder standarden. Dessutom beskrivs några andra söktjänster som är viktiga att synas i.
Mål med avsnittet är: Att förklara OAI-PMH standarden och att presentera de viktigaste söktjänsterna.
Inledning
En fördel med institutionella arkiv är att organisationen som bygger upp arkivet kan stödja sina forskare genom att utveckla en lokal infrastruktur (verktyg, praktisk hjälp, upphovsrättsexpertis,…) som finns nära forskarna. Nackdelar med institutionella arkiv visar sig när det gäller spridning och tillgängliggörande av publikationerna. Att gå från arkiv till arkiv och söka efter publikationer är inte rationellt. 2007-02-21 listar OpenDoar 843 öppna arkiv.
För att verkligen göra publikationerna tillgängliga behövs söktjänster som kan samla in och indexera informationen som finns i de lokala arkiven. Det behövs också standardiserade beskrivningar av publikationerna om söktjänsterna skall kunna erbjuda sökmöjligheter utöver vad Google erbjuder.
Open Archives Initiative (OAI)
OAI är en organisation som utvecklar och marknadsför standarder. Målet med verksamheten är att effektivisera spridningen av innehåll, t.ex. innehållet i lokala öppna arkiv. Medlemmar i organisationen är några av de mest inflytelserika utvecklarna av digitala informationstjänster med inriktning på vetenskaplig kommunikation. 2001 publicerade man Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH) ett protokoll för insamling och beskrivning av dokument i öppna arkiv. Det har fått stor spridning inom Open Accessrörelsen och har där blivit en etablerad standard. Här följer en kort genomgång av grunderna för OAI-PMH.
Ett viktigt koncept inom OAI-PMH är ”data providers”, ”service providers” och relationen mellan dem. En data provider är en tjänst som gör data om sina publikationer tillgänglig enligt OAI-PMH specificationen. En service provider är en tjänst som hämtar data från olika data providers enligt OAI-PMH specificationen, indexerar den hämtade informationen och gör den tillgänglig i en söktjänst. Lunds universitets öppna arkiv, LU:research fungerar t. ex. som en data provider i förhållande till en service provider som OAIster vilken samlar in och gör information från LU:research och drygt 800 andra arkiv sökbara på ett ställe.
OAI-PMH standarden beskriver hur den insamlande roboten och det öppna arkivet skall kommunicera.
Service providers samlar bara in den beskrivande informationen från en data provider , inte fulltextdokumenten. Detta innebär att eventuella begränsningar i rätten att parallellpublicera artiklar som förlagen kan ha (författaren kan ha tillåtelse att parallellpublicera på personlig hemsida eller i lokalt öppet arkiv men inte i andra arkiv) inte överträds.
Beskrivningen av informationen tillåter användning av de 15 elementen som beskrivs i Dublin Core (unqualified) . Man behöver inte använda alla DC-fälten viket öppnar för att även informationsfattiga poster kan samlas in (t. ex enbart författare och titel) så länge som de presenteras korrekt enligt DC-standarden för den insamlande roboten.
Fördelen med att använda en enkel metadatastandard som DC utan att specificera att vissa fält är obligatoriska är att många kan ansluta sig utan alltför stora besvär eller kostnader. Nackdelen är att det inte är möjligt att bygga särskilt sofistikerade söktjänster utifrån den metadata som samlas in.
Idag är det närmast ett måste att ett öppet arkiv är OAI-PMH-kompatibelt. Så gott som alla programvaror som tagits fram stödjer standarden och det finns också fri programvara som man kan använda för att göra andra tjänster kompatibla.
Om man har en liten (1-5000 poster) samling poster som sällan behöver uppdateras finns det en förenklad möjlighet att göra sin samling möjlig att skörda av service providers. Den kallas OAI Static Repository. Stargate är ett engelskt projekt som tittat på tillämpningar av OAI Static Repository och också utvecklat verktyg.
När man har gjort sitt öppna arkiv OAI-PMH kompatibelt skall man validera att den följer standarden. Därefter anmäler man sitt arkiv till OAI. Det innebär att man hamnar på OAIs lista över data providers där service providers kan hitta tjänster. Man bör också meddela de tjänster man särskilt vill bli insamlad av för sig. List över service providers hittar man också på OAIs hemsidor.
OAI-PMH söktjänster
Här följer en genomgång av några av de viktigaste service providers. Allmänt kan man säga att utvecklingen av service providers har varit svag, förmodligen en reflektion av svårigheten att få till stånd en kritisk massa av innehåll i de öppna arkiven. Ämnesarkiv uppbyggda med OAI-PMH är få, de framgångsrika ämnesarkiv som finns, t. ex ArXiv (fysik) och PubMed Central (biomedicin) bygger på att författare respektive förlag levererar publikationer och beskrivningar direkt till tjänsterna. Den motsättning som finns mellan lokala institutionella arkiv och ämnesarkiv som bygger på central inmatning accentueras ytterligare efter att några stora forskningsfinansiärer i Storbritannien beslutat att biomedicinsk forskning som de finansierar skall parallellpubliceras i PubMed Central UK.
OAIster
URL: http://oaister.umdl.umich.edu/o/oaister/index.html
Värd: University of Michigan, Digital Library Production Service.
Täcker: alla ämnen och dokumenttyper. ” OAIster is a union catalog of digital resources. Digital resources can range from an old-time advertisement of electric refrigerators from the Library of Congress American Memory project) to Harriet Beecher Stowe memoirs (from the University of Michigan Digital Library Production Service Making of America collection).
”Poster/Fulltext: övervägande fulltext
Insamlingspolicy: ”harvest everything and use anything that has a link to a digital object, whether freely available or restricted”. Hämtar även från förlag som Institute of Physics och Highwire
Storlek: 11,737,670 poster från 811 arkiv (2007-05-15). Antalet poster inkluderar en mängd dubletter eftersom OAIster samlar in från service providern CiteBase.
Sökmöjligheter: Boolsk sökning (AND, OR, NOT). Trunkering med*, frassökning default
Sökbegränsningar: författare, titel, ämne, språk, resurstyp.
Träffsortering: titel, författare, datum, antal träffar i en post
Kommentar: Den största av OAI-PMH söktjänsterna och den med bredast täckning
BASE - Bielefeld Academic Search Engine
Värd: Bielefeld University Library
URL: http://www.base-search.net/index.php?i=b
Täcker: ” multi-disciplinary search engine for scientifically relevant web resources”
Poster/fulltext: blandat. Innehåller också kommersiella resurser som kan filtreras bort i den avancerade sökningen.
Storlek: 4715354 poster från 363 arkiv
Sökmöjligheter: Möjligt att filtrera på dokumenttyp journal article/preprint och institutionella arkiv efter geografisk hemvist. Möjligt att begränsa sökning till författare, titel, ämne, förlag och del av URL.
CiteBase
URL: http://www.citebase.org/
En intressant experimentell tjänst som indexerar metadata och fulltext från de större ämnesarkiven och från institutionella arkiv. Från fulltextdokumenten extraherar man referenserna, länkar dem om möjligt, och skapar citeringslistor. Eftersom materialet man arbetar med är en mycket begränsad del (det som är fritt tillgängligt och kan hämtas med hjälp av OAI-PMH) av den totala mängden så är citeringsanalysen att se som ett utvecklingsprojekt som pekar på framtida möjligheter snarare än en praktiskt användbar tjänst. Se Citebase Help. Artiklar i basen där man kan visa på citeringsdelen är framför allt de som kommer från arXive.
Sökmöjligheter: möjligt att söka på författare, ord ur titel/abstract, publikation, publiceringsår och att kombinera dessa med AND.
Andra specialiserade söktjänster
Här följer några andra specialiserade söktjänster som man bör försöka få sitt arkiv indexerade av för ökad synlighet.
Google Scholar
URL: http://scholar.google.com/schhp?ie=UTF-8&oe=UTF-8&hl=en&tab=ws&q=
En bred tjänst som indexerar många typer av fria och kommersiella publikationer. Har liksom Google många användare.
Thompson ISI – Current Web Contents (CWC)
URL: http://scientific.thomson.com/products/cwc/faq/
CWC är en tjänst som beskriver särskilt utvalda webbresurser. Tjänsten ingår i Tomson-ISIs databasutbud. Länken ovan går till information om tjänsten och också information om urvalskriterier och hur man föreslår att ens tjänst skall inkluderas.
Scirus
URL: http://www.scirus.com/
Scirus är en söktjänst som indexerar ett urval fria och kommersiella webbtjänster och arkiv.
Tjänsten ägs av Elsevier.
Google (et. al)
Att synas och vara välindexerad i framför allt Google är också mycket viktigt när det gäller att göra innehållet i ett institutionellt arkiv synligt. Som exempel kan följande besöksstatistik tjäna. Exemplet är Lunds universitets avhandlingsdatabas och siffrorna visar varifrån besökare har kommit under 2005.
Google: 77,559
Via universitetets huvudingång till forskning: 15,436
Via bibliotekens webb: 1,448
En kort sammanställning av vad man skall tänka på för att optimera sin synlighet i Google är Peter Subers, How to facilitate Google crawling: Notes for open-access repository maintainers.

Sorry, comments for this entry are closed at this time.