Mistä hankkeessa on kyse?
Suomalaisen kirjallisuuden atlas 1870–1940 on kirjalliseen kartografiaan keskittynyt hanke, jonka on rahoittanut Alfred Kordelinin säätiö, ja joka on toteutettu Turun yliopistossa kulttuurihistorian oppiaineessa. Hankkeen keskeinen tulos on samanniminen verkkosovellus, joka sijoittaa suomenkielisessä kirjallisuudessa mainittuja ja kuviteltuja tiloja kartalle.
Hanke kiinnittyy kirjallisen kartografian tutkimusperinteeseen. Se on 1990-luvun lopussa syntynyt tutkimussuuntaus, joka on osa humanististen tieteiden tilallista käännettä. 2000-luvulla suuntaus on omaksunut digitaalisten ihmistieteiden menetelmiä yhdistäen luonnollisten kielten prosessointia paikkatietojärjestelmiin. Suomalaisen kirjallisuuden atlas 1870–1940 soveltaa näitä uusia menetelmiä ensimmäistä kertaa kotimaisen kaunokirjallisuuden tutkimukseen.
Kerätystä ja käsitellystä kaunokirjallisesta aineistosta on etsitty viittauksia maantieteellisiin paikkoihin ja hakutulokset on merkitty kartalle. Myös käytetty kaunokirjallinen aineisto on luettavissa verkkosovelluksessa ja löydetyt paikat on merkitty siihen. Aineisto on suomenkielistä kaunokirjallisuutta vuosilta 1870–1940.
Suomalaisen kirjallisuuden atlas 1870–1940 -verkkosovellus ei ole tekstikriittinen tai -historiallinen editio. Hankkeen aineistona toimivat Projekti Lönnrotin ja Project Gutenbergin vapaasti käytettävissä olevat kaunokirjalliset teokset, jotka ovat verkkosovelluksessa esillä sellaisenaan.
Miten data on tuotettu?
Aineiston viittaukset paikkoihin on etsitty ja merkitty kartalle koneellisesti. Hanke soveltaa TurkuNLP-tutkimusryhmän kehittämää neuroverkkoon perustuvaa nimentunnistusta, linkitettyä avointa dataa ja paikkatietojärjestelmiä humanistiseen tutkimukseen.
Tuloksissa on virheitä, joista isoimpia on pyritty manuaalisesti karsimaan. Siitä huolimatta aineistosta löytyy paikkamerkintöjä, jotka on väärin tunnistettu ja paikkoja, jotka ovat jääneet tunnistamatta.
Hankkeen metodologista perusteista sekä aineiston ja sovelluksen avulla tehdystä tutkimuksesta voi lukea enemmän mm. seuraavista lähteistä:
- Hankkeen blogi
- Kiiskinen, Harri, & Nivala, Asko (2023). Atlas of the Finnish Literature project dataset (v1.0.0) [Data set]. Zenodo. https://doi.org/10.5281/zenodo.8365866
- Kiiskinen, Harri (2023). extract-georef-finlit v1.0.0 [Software]. Zenodo. https://doi.org/10.5281/zenodo.8369648
- Kiiskinen, Harri; Nivala, Asko; Saarelainen, Juhana & Westerlund, Jasmine: ”Extracting Geographical References from Finnish Literature. Fully Automated Processing of Plain-Text Corpora.” Conference Proceedings of 2nd Annual Conference of Computational Literary Studies, Würzburg 2023.
- Lisätietoa verkkosovelluksessa käytetystä TurkuNLP-ryhmän kehittämästä nimentunnistusohjelmasta löytyy osoitteesta https://turkunlp.org/fin-ner.html.
Tekijät
IT-suunnittelija Ville Hietamäki (verkkosovelluksen front end -kehitys)
FT Harri Kiiskinen (hankkeen datasetin tuottaminen; extract-georef-finlit -sovellus)
Dos. Asko Nivala (projektin johto; verkkosovelluksen back end -kehitys)
FT Juhana Saarelainen (datan tarkastus; dokumentointi)
FT Jasmine Westerlund (korpuksen ja metadatan kuratointi; datan tarkastus)