Kansalliskirjaston kuvailun tiedotuspäivillä 20.3. Tarja
Mäkinen ja Mace Ojala ovat puhuneet kirjastojen tietokantojen laadusta.
Ilmeisesti tilaisuutta ei kokonaisuudessaan videoitu, joten meille
poissaolleille keskustelun sisältö näyttää jäävän arvoitukseksi. KK:n sivulta
löytyy kuitenkin molempien alustukset ja muualta verkosta Macen varsinainen
raportti Piki-tietokannan siivousmenetelmistä, joka onkin varsin kiinnostavaa
luettavaa. Ja paikoin hidasta luettavaa, koska ilman ohjelmointitaitoja saa
merkkejä tuijottaa hetkisen, ennen kuin koodeista muodostuu jotain, joka voi päänsisäisissä
prosesseissa kääntyä yleiskirjastoa puhuvan ajatustasolle.
Kyseessä oli kahden kuukauden projekti, jonka tavoite oli
”parantaa PIKI-kirjatojen bibliografisen tietokannan laatua ja kehittää
kirjastojärjestelmän ulkopuolisia, tietoteknisiä menetelmiä sen tekemiseen”.
Kysymys herääkin oitis: miksi tietokannan ulkopuolisia menetelmiä, miksi
muutoksia ei voisi tehdä suoraan tietokantaan?
Projekti meni suoraviivaistaen näin: PIKI-tietokannasta
otettiin ulos dumpiksi sanottu tietueet sisältävä datapaketti, jota Mace
pyöritti eri vinkkeleistä, haki virheitä, epäloogisuuksia, puutteita eli
suoritti louhintaa ja analysointia. Toinen kysymykseni koskeekin seuraavaa
oletettua loogista askelta: miksi siivottua dataa ei voitu laittaa takaisin
tietokantaan?
Kylmä hiki selässä raporttia lukee kuin jännitysromaania - timanteista voi haaveilla, mutta tässä louhinnassa tulee pahaa tulosta. Dataa
tutkittiin eri näkökulmista: teknisessä tarkastuksessa tutkittiin ovatko
tietueiden koodit käytetyn MARC21-formaatin mukaisia. Sitten selvitettiin
kenttiin merkittyjä arvoja ja arvojen paikkansapitävyyttä. Selvisi, että
tietokannassa on esim. tietueita, joilta puuttuu kokonaan nimiö tai
008-informaatiokoodikenttä jota ei saa (ja toivottavasti ei voi) toistaa. Kenttien
sisältöä on koneellisesti vaikeampi tutkia, mutta siitäkin voi selvittää esim.
päivämääriä, joita ei tietueissa pitäisi olla, esimerkiksi vuodelle 2102
julkaistuksi merkitty Valtaojan uutuus. Mitä veikkaatte, onko copyright-tieto
merkitty jokaisessa tietueessa samalla kirjoitusasulla? Vastaavatko kielikoodit
Kansalliskirjaston listaa? Onko kontrolloimattomien asiasanojen kentässä myös
kontrolloituja asiasanoja? Ei, ei, kyllä. PIKI:ssä on käytössä 25
sijaintipaikkaa, erilaisia sijaintipaikkakoodeja tietokannasta löytyi noin 2000
erilaista versiota.
No mitä sitten, jos joku kielikoodi ei ole oikein, ja
kyllähän sitä ymmärtää jos vuosi on vahingossa kirjoitettu väärin. Mutta
tylsämielinen apparaatti, joka orjallisesti tekee mitä käyttäjä pyytää, ei ainakaan
vielä osaa päätellä Valtaojan liittyvän vuoteen 2012 vuosien 1013 ja
2103 - tai Konnun - sijaan, ja antaa hienosti muotoiltuun hakuun ikävän tuloksen nolla - tai pahempaan, olipa kysyjä kirjaston virkailija
tai Pirkko kotikoneellaan.
Palataan siis laatuun. Kirjastojenkin tietokantojen laatuun pätee Macen lainaamien Ken Gleasonin ja Q. Ethan McCallumin mukaan on neljän ceen
juttu:
- Complete (is everything here that’s supposed to be here?)
- Coherent (does all of the data “add up?”)
- Correct (are these, in fact, the right values?)
- aCcountable (can we trace the data?)
Oikeastaan tuo helpotti omaa syyllisyyttä - tai meidän yhteisjärjestelmään kohdistuvaa painetta. Tekee ne siis muutkin virheitä, ei vain me! Mutta tod. - miten saadaan koskaan rekistereitä siivottua, jos ei noudateta yksinkertaisia ohjeita? a)Jätetäänkö luettelointi yhden harteille b)otetaan valmis BTJ:tä c) pitäähän ammattilaisen muistaa valtaojan uusin ja vuosi (myös v. 2015) d) who cares? ei sitä kukaan katso :)
VastaaPoistaMoi, kiva nähdä että työni kiinnostaa, ja rapottikin on selvästi luettu tarkkaan. Hyvä! Raportin lisäksi mielenkiintoista asiaa löytyy siis Redmine asianhallinta- ja projektinhallintatyökalusta ja on ihan avoimesti tutkittavissa.
VastaaPoistaMuutosten teko suoraan tuotantotietokantaan on vähän kyseenalainen asia, enkä itse nykyisellään suosittele sitä... toisaalta eipä se ole mahdollistakaan; jos kirjastojärjestelmä on ikäänkuin "musta laatikko" jonka sisäisestä toiminnasta ei ole tietoa eikä muutoksia pysty simuloimaan, valvomaan eikä perumaan, on ongelmia varmasti tiedossa. Aurorassa on itsessään sellainen massamuutostenteko-ominaisuus, jonka toimintaa kannattaa katsoa.
Muokattua dataa voi (tietyin edellytyksin) tuoda Auroraan eräajotuontina, samaa putkea pitkin jota pitkin tietueita tulee Kirjavälitykseltä, BTJ:ltä tai vastaavalta. Katselin tätä asiaa tämän projektin tiimoilta, siitä lisätietoa täällä tehtävissä Tietueiden tuonti takaisin tuotantokäyttöön eräajotuonnilla #3331 ja Kokeile Auroran eräajotuontia #3367.
PallasPro, Origo ja muut kirjastojärjestelmät ovat kukin sitten hieman oma juttunsa. Tällainen datan käsittely kirjastojärjestelmän ulkopuolella on aika normaalia esim. Voyager-kirjastoissa, joissa käyttelevät USEMARCONia, MarcEditiä, Perl-loitsuja yms.