2010-06-13

Metadatasta matikka

Viime viikkojen virkistäviä uutisia oli HelMet-kirjastojen bibliografisen datan julkaiseminen MARCXML-muodossa.

Luettelointityön yksityiskohtaisuus ja huolellisuus on hämmästyttävää. Miten dataa sitten voisi hyödyntää? Kirjastot.fi-keskustelussa Mace Ojala visioi:

Tällaista datadumppia voisi käyttää esim. kirjoitusvirheiden etsimiseen HelMet -tietokannasta. Tai vaikkapa kaivellakseen kirjoittajien ja asiasanojen välisiä yhteyksiä; miten HelMet-kirjastojen luettelointidata kuvailee vaikkapa Aleksis kiven tuotantoa kokonaisuutena? Tätä voisi vertailla vaikkapa siihen miten muut kirjastot saman aineiston sisältöä kuvailevat. Tai voi kaivaa vaikkapa eri kirjastoluokkiin luokittelemiemme teosten jakauman eri vuosille. Tai vertailla vaikkapa miten kirjastoluokat ovat sidoksissa toisiinsa lisäluokkien kautta. Tätä dataläjää voi käyttää myös vaikkapa etsiäkseen muita tapoja kuvailla tällaista aineistoa kuin kirjastojen käyttämä MARC21, pyrkien vaikkapa Open Linked Dataan.

Ensi alkuun pitää saada jokin tolkku MARC-kentistä.

Sormiharjoituksena tein muutaman tiedoston sisällöstä XSLT2-muunnoksen CSV- ja HTML-formaattiin. Valitsin englanninkielistä kaunokirjallisuutta tältä vuosikymmeneltä. Poimin mukaan kirjailijan, kirjan nimen, julkaisuvuoden ja ISBN-numeron sekä muodostin suoran linkin HelMet-tietokantaan, ohjeen mukaan. Käsiteltävät tiedostot on listattu kokoomatiedostossa libdata.xml. Lopputulokset tässä ja tässä.