Turku NLP on monitieteinen tutkimusryhmä, jossa yhdistyvät digitaalinen kielentutkimus, luonnollisen kielen käsittely (NLP) ja koneoppiminen. Olemme erikoistuneet kehittämään uusimpia NLP-työkaluja suomen ja muiden kielten käyttöön sekä soveltamaan näitä menetelmiä tarkastelemaan esimerkiksi sitä, miten kieltä käytetään laajoissa digitaalisissa kieliaineistoissa. Lisäksi olemme esimerkiksi kehittäneet Fin BERT- ja PORO-kielimallit ja miljardeista sanoista koostuvan Finnish Internet Parsebank -aineiston.
Turku NLP-tutkimusryhmässä on haettavana 1–2 tutkijatohtorin / projektitutkijan määräaikaista tehtävää.
Tehtävät sijoittuvat ajalle 1.12.2024–31.12.2025, ja ne voivat olla joko osa-aikaisia tai täysaikaisia.
Tehtävät sijoittuvat kahteen Suomen Akatemian rahoittamaan hankkeeseen. "Mechanisms of register variation in massively multilingual web-scale corpora” (Mecha) tarkastelee kielenkäyttöä digitaalisessa maailmassa massiivisen monikielisessä mittakaavassa neuroverkkomenetelmiä hyödyntäen. Päätavoitteena on ymmärtää, miten ja miksi rekisterit ja niiden ominaispiirteet vaihtelevat paitsi kielten myös maiden ja kulttuurien välillä. Mitkä mekanismit selittävät tätä vaihtelua? Hankkeen keskiössä ovat viimeisimmät koneoppimismenetelmät ja kielimallit sekä laajat, koneellisesti kootut ja monikieliset web-aineistot. Lopulta tavoitteenamme on, että hankkeessa kehitettyjä menetelmiä ja sen tuottamaa tietoa sovelletaan tuottamaan metadataa laajoihin internet-pohjaisiin kieliaineistoihin parantamaan näiden käytettävyyttä.
”Fin-Clariah” on kansallinen ihmistieteiden tutkimusinfrastruktuurikonsortio, jolla on jäseniä lähes kaikista Suomen yliopistoista. Meidän osuutemme Turku NLP:ssä kehittää tutkimusinfrastruktuuria hälyisen verkkoaineiston käytettävyyden parantamiseksi. Erityisesti keskitymme laajoista internet-aineistoista eristettyihin sosiaalisen median aineistoihin. Sovelletut aineistot ja menetelmät ovat suurilta osin samankaltaisia kuin Mecha-hankkeessa – tavoitteemme on hyödyntää Mechan ja aikaisempien tutkimushankkeidemme tuloksia paremman tutkimusinfrastruktuurin kehittämiseen ja internet-aineistojen käytettävyyden parantamiseen.
Lisätietoa voi hakea verkkosivuiltamme ja viimeisimmistä julkaisuistamme.
Tehtävänkuvaus
Hakija tulee työskentelemään osana Mecha- ja Fin-Clariah-hankkeita ja Turku NLP-tutkimusryhmää. Hakijan odotetaan käyttävän hankkeessa kehitettyjä, sekä käsin että automaattisesti annotoituja rekisteriaineistoja ja mahdollisesti kehittävän uusia. Tarkemmat lähestymistavat ja tutkimuskysymykset riippuvat hakijan profiilista ja omista tavoitteista. Esimerkiksi voitaisiin tutkia, miten rekistereiden kielenpiirteet vaihtelevat eri kielissä? Minkätyyppiset piirteet ovat kielikohtaisia, ja mitkä taas universaaleja? Miten rekisterit ja niiden ominaisuudet riippuvat muuttujista kuten kieli, maa tai kulttuuri? Lisäksi hakijan odotetaan osallistuvat nuorempien tutkijoiden ohjaamiseen ja rahoitushakemusten valmisteluun.