maanantai 25. maaliskuuta 2013

Piki irti ja puhtaaksi eli tietokantasiivousta Tamperella



Kansalliskirjaston kuvailun tiedotuspäivillä 20.3. Tarja Mäkinen ja Mace Ojala ovat puhuneet kirjastojen tietokantojen laadusta. Ilmeisesti tilaisuutta ei kokonaisuudessaan videoitu, joten meille poissaolleille keskustelun sisältö näyttää jäävän arvoitukseksi. KK:n sivulta löytyy kuitenkin molempien alustukset ja muualta verkosta Macen varsinainen raportti Piki-tietokannan siivousmenetelmistä, joka onkin varsin kiinnostavaa luettavaa. Ja paikoin hidasta luettavaa, koska ilman ohjelmointitaitoja saa merkkejä tuijottaa hetkisen, ennen kuin koodeista muodostuu jotain, joka voi päänsisäisissä prosesseissa kääntyä yleiskirjastoa puhuvan ajatustasolle.

Kyseessä oli kahden kuukauden projekti, jonka tavoite oli ”parantaa PIKI-kirjatojen bibliografisen tietokannan laatua ja kehittää kirjastojärjestelmän ulkopuolisia, tietoteknisiä menetelmiä sen tekemiseen”. Kysymys herääkin oitis: miksi tietokannan ulkopuolisia menetelmiä, miksi muutoksia ei voisi tehdä suoraan tietokantaan?

Projekti meni suoraviivaistaen näin: PIKI-tietokannasta otettiin ulos dumpiksi sanottu tietueet sisältävä datapaketti, jota Mace pyöritti eri vinkkeleistä, haki virheitä, epäloogisuuksia, puutteita eli suoritti louhintaa ja analysointia. Toinen kysymykseni koskeekin seuraavaa oletettua loogista askelta: miksi siivottua dataa ei voitu laittaa takaisin tietokantaan?

Kylmä hiki selässä raporttia lukee kuin jännitysromaania - timanteista voi haaveilla, mutta tässä louhinnassa tulee pahaa tulosta. Dataa tutkittiin eri näkökulmista: teknisessä tarkastuksessa tutkittiin ovatko tietueiden koodit käytetyn MARC21-formaatin mukaisia. Sitten selvitettiin kenttiin merkittyjä arvoja ja arvojen paikkansapitävyyttä. Selvisi, että tietokannassa on esim. tietueita, joilta puuttuu kokonaan nimiö tai 008-informaatiokoodikenttä jota ei saa (ja toivottavasti ei voi) toistaa. Kenttien sisältöä on koneellisesti vaikeampi tutkia, mutta siitäkin voi selvittää esim. päivämääriä, joita ei tietueissa pitäisi olla, esimerkiksi vuodelle 2102 julkaistuksi merkitty Valtaojan uutuus. Mitä veikkaatte, onko copyright-tieto merkitty jokaisessa tietueessa samalla kirjoitusasulla? Vastaavatko kielikoodit Kansalliskirjaston listaa? Onko kontrolloimattomien asiasanojen kentässä myös kontrolloituja asiasanoja? Ei, ei, kyllä. PIKI:ssä on käytössä 25 sijaintipaikkaa, erilaisia sijaintipaikkakoodeja tietokannasta löytyi noin 2000 erilaista versiota.

No mitä sitten, jos joku kielikoodi ei ole oikein, ja kyllähän sitä ymmärtää jos vuosi on vahingossa kirjoitettu väärin. Mutta tylsämielinen apparaatti, joka orjallisesti tekee mitä käyttäjä pyytää, ei ainakaan vielä osaa päätellä Valtaojan liittyvän vuoteen 2012 vuosien 1013 ja 2103 - tai Konnun - sijaan, ja antaa hienosti muotoiltuun hakuun ikävän tuloksen nolla - tai pahempaan, olipa kysyjä kirjaston virkailija tai Pirkko kotikoneellaan.

Palataan siis laatuun. Kirjastojenkin tietokantojen laatuun pätee Macen lainaamien Ken Gleasonin ja Q. Ethan McCallumin mukaan on neljän ceen juttu:

  1. Complete (is everything here that’s supposed to be here?)
  2. Coherent (does all of the data “add up?”)
  3. Correct (are these, in fact, the right values?)
  4. aCcountable (can we trace the data?)


Mitä mielenkiintoista omasta tietokannasta löytyisi? Olisiko data siistiä ja oikeanlaista? 

 givepeaceachance http://www.everystockphoto.com/photo.php?imageId=2227513&searchId=4c85b3625c95b8bf313d47934599eef5&npos=4