← Takaisin etusivulle

Voikko
Usein (tai harvemmin) kysyttyjä kysymyksiä

Kysymyksiä käyttäjiltä

Kysymyksiä koodareilta ja ohjelmistofirmoilta

Lopuksi


Mikä Voikko on?

Voikko on kokoelma vapaita työkaluja ja sanastoja kielen jäsentämiseen, tekstin tarkastamiseen ja tavutukseen. Voikon ydin on yleiskäyttöinen avoimen lähdekoodin ohjelmakirjasto libvoikko, joka toteuttaa kaikki edellä mainitut toiminnot.

Voikkoa on kehitetty ensisijaisesti suomen kielen tarpeisiin. Voikko onkin nykyään yksi parhaista saatavilla olevista työkaluista suomenkielisen tekstin tarkistukseen ja tavutukseen. Lisäksi Voikko on käytettävissä käsiteltäessä muitakin kieliä (mm. pohjoissaame ja gröönlanti) ja kieliteknologisia sovelluksia (mm. hakulavennus ja skannausvirheiden korjaus).

Tavallisille tietokoneen käyttäjille libvoikosta ei sellaisenaan ole paljon iloa. Heille tutumpia ovat libreoffice-voikko (suomen kielien kielityökalut LibreOffice-toimisto-ohjelmistolle) ja Oikofix (www-pohjainen suomen kielen oikolukupalvelu). Nämä molemmat, samoin kuin monet muutkin ohjelmat, on rakennettu libvoikon päälle.

Mitä oikoluku, kieliopin tarkistus ja tavutus tarkoittavat?

Näillä termeillä on kieliteknologian sovelluksissa ja erityisesti tekstinkäsittelyohjelmissa hiukan yleiskielestä poikkeava merkitys. Voikon kehittäjät tapaavat käyttävät näitä sanoja teknisinä termeinä, joten selvennetäänpä niitä hiukan:

oikoluku
Oikoluvussa tarkistetaan, ovatko tekstin yksittäiset sanat oikein kirjoitettuja siinä mielessä, että ne ovat mahdollisia suomen (tai muun kielen) sanoja. Oikolukuohjelma ei siis havaitse vääriä sanavalintoja tai kirjoitusvirheitä, joissa sanan merkitys muuttuu. Esimerkiksi lause "Pekan koria on nimeltään Musti" on selvästi väärin, mutta oikolukuohjelma ei sitä huomaa, koska "koria" on sanan "kori" partitiivimuoto.
kieliopin tarkistus
Kieliopin tarkistusohjelma tutkii tekstin oikeinkirjoitusta tavallisesti kappale kerrallaan. Tällöin myös sanojen keskinäiset suhteet voidaan ottaa huomioon. Jos kieliopin tarkistusohjelma vaikkapa tietää, että ilmaisun "on nimeltään" edellä tulee olla nominatiivimuotoinen nomini, se voi ehdottaa sanan "koria" korvaamista sanalla "koira". Periaatteessa kieliopin tarkistusohjelma voi kokonaan korvata oikolukuohjelman, mutta käytännössä tekstinkäsittelyohjelmissa nämä usein ovat ainakin käyttöliittymässä erillisiä toimintoja.
tavutus
Tavutuksella tarkoitetaan tekstinkäsittelyssä sanojen jakamista kahdelle eri riville yhdysmerkin avulla. Jako tapahtuu tavallisesti tavurajan kohdalta, joten toimintoa kutsutaan tavutukseksi. Täsmällisesti ottaen kyse ei kuitenkaan ole tavutuksesta, sillä kaikki tavurajat eivät sovi jakokohdiksi. Esimerkiksi sana "elokuva" tavutetaan "e-lo-ku-va" mutta kelvollisia jakokohtia ovat ainoastaan "elo-ku-va" (lisäksi jako "elo-kuva" on suositeltavampi kuin "eloku-va"). Voikon tavutus on ensisijaisesti tekstinkäsittelyohjelmia varten suunniteltu, mutta myös perinteinen tavutus onnistuu sillä suurin piirtein oikein.

Miten Voikko poikkeaa toiminnaltaan Microsoft Wordin kielityökaluista?

Osa Voikon käyttäjistä on aikaisemmin käyttänyt Microsoft Wordia tai muuta suomen kielen kielityökalut sisältävää tekstinkäsittelyohjelmaa. Voikon käyttöön siirtyvät voivat toivoa Voikon vastaavan toiminnaltaan Wordin kielityökaluja. Toivomus on oikeutettu, ja erityisesti libreoffice-voikon kehityksessä yhteensopivuus pyritään järkevissä määrin säilyttämään.

Kuitenkin haluamme kehittää Voikkoon myös ominaisuuksia, joita muissa vastaavissa ohjelmissa ei ole. Koska Voikon kehittäjien joukko on suhteellisen pieni, meillä ei yleensä ole valintatilanteissa varaa kehittää kahta täysin erilaista ratkaisua, vaan joudumme tekemään kompromisseja. Seuraavassa muutamia asioita, joihin Voikkoon siirtyvä saattaa kiinnittää huomioita:

Ketkä Voikkoa kehittävät?

Voikkoa kehittää joukko yksityisiä asiasta kiinnostuneita ihmisiä. Tällä hetkellä (lokakuussa 2015) Voikkoa kehittää ensisijaisesti Harri Pitkänen. Hänen lisäkseen mm. Marko Wallin, Andris Pavenis ja Hannu Väisänen kehittävät ja testaavat Voikon sanastoa, integrointia Mozillan ohjelmistoihin ja Sukija-tekstinindeksointiohjelmaa. Myös monet muut osallistuvat työhön säännöllisesti esimerkiksi keräämällä sanastoa ja huolehtimalla Voikon integroinnista Linux-jakeluihin ja OS X -käyttöjärjestelmän oikolukupalveluun.

Voikko ei ole akateeminen projekti, eikä sen taustalla ole yritys- tai yhdistystoimintaa. Tämä ei kuitenkaan tarkoita sitä, etteivätkö yritykset tai yliopistot voisi osallistua Voikon kehitykseen tai käyttää projektin tuottamia ohjelmia ja muita resursseja, kunhan pelisääntöjä (siis ohjelmien ja sanastotietokantojen lisenssejä) noudatetaan.

Miten voin auttaa?

Voikko on pääasiassa vapaaehtoisvoimin toimiva projekti, joten kaikki apu on lämpimästi tervetullutta. Tässä hiukan vinkkejä alkuun pääsemiseksi.

Ensimmäisenä kannattaa tutustua Voikon käyttöön. Helpoiten se onnistuu kokeilemalla Oikofixiä, jossa suomen kielen oikoluku käyttää aina uusinta versiota Voikosta. Jos olet kiinnostunut sanaston tai kielioppisääntöjen kehittämisestä, muita työkaluja et välttämättä tarvitsekaan.

Helpoin tapa auttaa on käyttää Voikkoa ja kertoa havaitsemistaan puutteista. Jos vaikkapa oikolukuohjelma ei tunnista oikein kirjoitettua sanaa, käytä sanastonkeruusovellusta asiasta ilmoittamiseen. Muista ongelmista voi kirjoittaa vaikkapa projektin postituslistalle.

Voikko-projektissa eniten työaikaa menee tällä hetkellä sanaston ja kielioppisääntöjen kehittämiseen. Siispä projektiin osallistuvien ei tarvitse olla "tietokonenörttejä", vaan pelkällä vahvalla suomen kielen taidolla pärjää hyvin. Tärkeimmät sanaston kehityksessä käytettävät työkalut toimivat www-selaimen kautta, joten työhön pääsee helposti käsiksi ja sitä voi tehdä omien aikataulujensa mukaan. Mitään työmäärävaatimuksia ei vapaaehtoisille aseteta, mutta vastuullista ja haastavaakin työtä on tarjolla niille, jotka sellaista haluavat.

Teknisesti suuntautuneet voivat asentaa Voikon omalle tietokoneelleen. Kun olet asentanut libvoikon ja voikko-fi:n, voit käyttää komentorivillä toimivia testiohjelmia voikkospell, voikkohyphenate ja voikkogc. Tämän jälkeen voit auttaa mm. testaamalla ohjelmaa tai osallistumalla ohjelmointiin.

Jos jokin yllä mainituista tavoista osallistua projektiin kiinnostaa, tutustu rauhassa sivuihimme ja ota sitten yhteyttä joko postituslistan tai palauteosoitteemme kautta. Projektin organisaatiosta (tai pikemminkin sen puutteesta) johtuen emme voi maksaa työstä korvausta, kirjoittaa työtodistuksia tai toimia oppilaitosten harjoitus- tai opinnäytetöiden ohjaajina.

Kehitystyöhön osallistuvat voivat omatoimisesti pyrkiä hankkimaan työlleen rahoitusta tai selvittää, voiko esimerkiksi tutkintoon kuuluvia harjoitustöitä tehdä Voikkoon liittyvästä aiheesta. Molempia on tehty, joten ota rohkeasti meihin yhteyttä, jos haluat projektin kehittäjien arvioivan projektiehdotelmasi soveltuvuutta Voikon osaksi. Kaikki Voikko-projektiin hyväksytty työ tulee julkisesti saataville. Siispä esimerkiksi työnantajat voivat tarkistaa osallistumisesi projektiin ilman erillisiä todistuksiakin.

Mitä voin tehdä Voikolla?

Suomen kielen tarkistus kirjoitus- ja kielioppivirheiden varalta, tavutus, luettavuusanalyysi, asiakirjahakujen tehostaminen sekä skannattujen asiakirjojen automaattinen korjaaminen ovat esimerkkejä tehtävistä, joissa Voikkoa voi käyttää.

Voikko toimii hyvinkin erilaisissa teknisissä ympäristöissä. Sitä voi käyttää mm. Java-, C#, Python-, C ja C++-kielisistä sovelluksista. Käyttöjärjestelmistä ensisijaisesti tuettuja ovat Linux ja Windows, mutta Voikolla on käyttäjiä myös OS X, Solaris ja FreeBSD-järjestelmissä. Laitteistoarkkitehtuuritkaan eivät tuota ongelmia: Voikko toimii niin Intel-yhteensopivissa 32- ja 64-bittisissä järjestelmissä kuin ARM-, MIPS- ja Sparc-tietokoneissakin.

Jos pohditte, soveltuuko Voikko käytettäväksi projektissanne, nopeimmin asia selviää kysymällä. Kysymyksen voi lähettää postituslistallamme tai luottamuksellisissa asioissa Voikon pääkehittäjälle (Harri Pitkänen, hatapitk@iki.fi). Samat osoitteet käyvät, jos projektinne edetessä tarvitsette apua Voikon integroinnissa sovellukseenne.

Millä lisenssillä Voikkoa levitetään?

Voikkoa levitetään GPL:n (GNU General Public License) alaisuudessa. Sen avulla ohjelmien, ja tässä projektissa myös sanastojen, kirjoittajat eli tekijänoikeuden haltijat antavat kenelle tahansa luvan käyttää ja tietyin ehdoin myös jakaa muille tekijänoikeuslain suojaamaa materiaalia.

Kaikki Voikon osat ovat käytettävissä GPL:n version 3 (sekä mahdollisten myöhemmin julkaistavien) ehdoilla. Tämän lisäksi libvoikkoa voi versiosta 4.0 lähtien käyttää myös MPL:n (Mozilla Public License) ehdoilla, ellei mitään pelkästään GPL-lisensoituja lisätoimintoja ole kirjaston käännösvaiheessa valittu mukaan. Näillä vaihtoehtoisilla lisensseillä ei ole merkitystä Voikon käyttäjille, mutta Voikkoa käyttävien ohjelmistojen kehittäjät voivat niistä hyötyä.

Voinko liittää Voikon GPL-epäyhteensopivaan tai suljetun lähdekoodin ohjelmistoon?

Libvoikon versiosta 4.0 lähtien tämä on tietyin ehdoin mahdollista, mikäli mitään sellaisia käännösvalitsimia ei ole käytetty, jotka lisäävät kirjastoon vain GPL-lisenssin alaista ohjelmakoodia. Tarkempaa tietoa asiasta löytyy libvoikon lähdekoodipaketin README-tiedostosta. Käytettävien sanastojen lisenssiehdot on luonnollisesti myös huomioitava.

Suosittelemme GPL-yhteensopivan lisenssin käyttöä aina kun se vain on mahdollista. Suosituimpien vapaiden lisenssien joukosta löytyy moneen eri tarkoitukseen sopivia GPL-yhteensopivia vaihtoehtoja, ja kaksoislisensointi on myös mahdollista.

Voinko valmistaa ja myydä Voikon sanastoja kaupallisena palveluna?

Voit. Jos rakennat sanastosi jonkin valmiin sanaston tai morfologisen kuvauksen pohjalle, sinun tulee kuitenkin noudattaa kyseisen pohjasanaston lisenssiehtoja.

Voikko ja aspell-, myspell- ja hunspell-yhteensopivuus

Monet erityisesti Gnome-työpöytäympäristön ohjelmat käyttävät suoraan aspellia oikolukutoiminnon toteuttamiseen. Onkin usein toivottu, että Voikolle tehtäisiin aspell-emulaatiokomponentti, samaan tapaan kuin tmispell-voikko tarjoaa ispell-emulaatiota. Tätä ei voida helposti tehdä, koska sovellukset käyttävät aspellia ja myspelliä jaetun kirjaston kautta (ispell on erillinen ohjelma). Jaettujen kirjastojen rajapintojen täysin yhteensopiva kopioiminen on hyvin hankalaa, ja pienikin virhe voi rikkoa kirjastoa käyttävän sovelluksen muutenkin kuin oikoluvun osalta.

Voikko-projektin puitteissa ei ole siis aikomusta kehittää uusia emulaatiokomponentteja. Työn alla oleva Desktop Language Checking Specification on suunniteltu ratkaisemaan juuri tämä ongelma, eikä ole tarpeen mutkistaa tilannetta kilpailevia (ja teknisesti kestämättömiä) ratkaisuja kehittämällä. Viime aikoina Gnome-ohjelmat ovat alkaneet siirtyä tämän spesifikaation pohjana olevan Enchant-kirjaston käyttäjiksi. Koska Voikko toimii Enchantin kautta, Gnomen versiossa 2.18 jo esimerkiksi Gedit pystyy käyttämään Voikkoa oikoluvussa.

Minulla on kysymys, johon en löytänyt vastausta näiltä sivuilta.

Voit lähettää sähköpostitse kysymyksiä projektin postituslistalle tai henkilökohtaisesti projektin ylläpitäjälle yhteystietosivullamme mainituilla tavoilla.