Par seno tekstu korpusu

  Jaunumi
  • 2005. gada 11. janvārī LU MII viesojas Flinders universitātes (Austrālija) profesors Trevors G. Fennels.

  • 2005. gada 7. janvārī LU Filoloģijas fakultātē notiek seminārs par LZP finansēto projektu "Latviešu valodas vēsturiskā vārdnīca. 16. - 18. gs.". Seno tekstu korpusu izmantos paraugšķirkļu sagatavošanā.

  • 2004. gadā seno tekstu korpusam pievienoti divi jauni avoti - 17. gs. autora K. Fīrekera vārdnīcas "Lettisches und Teutsches Wörterbuch .." pirmais un otrais manuskripts (ar VKKF finansiālu atbalstu).

  • 2004. gada februārī seno tekstu korpuss tika papildināts ar "dienas vārdu" un "dienas citātu". Ceram, ka tas rosinās ieskatīties arī pašos tekstos, no kurienes tie nāk.

Priekšvēsture

      Viens no latviešu valodniecības diahronisko un sinhronisko pētījumu pamatiem ir latviešu valodas teksti un visu veidu vārdnīcas, kas fiksē gan vispārīgu, gan speciālu leksiku. Jau 1933. g. prof. J. Endzelīns norādīja uz nepieciešamību izveidot "Thesaurus linguae letticae - latviešu valodas klēti, kur būtu savākti visi latviešu valodas vārdi ir no tautas mutes, ir no tekstiem". Līdz šim vienīgā latviešu valodas vārdnīca, kas sniedz plašāku ieskatu vecāka perioda latviešu leksikā, ir K. Mülenbacha Latviešu valodas vārdnīca (red., papild., turp. J. Endzelīns, 1-4, Rīgā 1923-1932; Čikāgā 1953-1955; J. Endzelīns un E. Hauzenberga Papildinājumi un Labojumi K. Mülenbacha Latviešu valodas vārdnīcai, 1-2, Rīgā 1934-1946; Čikāgā 1956). Likumsakarīgi, ka vairākkārt ir izskanējis aicinājums izstrādāt jaunu leksikogrāfijas avotu, kurā fiksēta agrākā latviešu valodas rakstu perioda leksika. Aicinot apzināt pilnīgu latviešu valodas materiālu, 60. gados izskanēja ierosinājums izveidot "seno tekstu vārdnīcu", kas pavērtu perspektīvas latviešu valodas vēstures izpētē (to 1961.g. Lundā izdotā krājuma "Ceļi" X numurā, rakstot par "Turpmākiem uzdevumiem latviešu valodas pētīšanā", uzsver Velta Rūķe), bet 90. gados tika aizsākta iecere izveidot Latviešu valodas vēsturisko vārdnīcu (par to seminārā "Valoda un tehnika Eiropā 2000. Baltijas perspektīva" 1994. gadā stāstīja Juris Baldunčiks).

      80. g. beigās LU Matemātikas un informātikas institūta Mākslīgā intelekta laboratorijā tika uzsākta seno tekstu ievadīšana datoros Maijas Baltiņas un Andreja Spektora vadībā. 90. gadu sākumā ar Sorosa fonda - Latvija atbalstu tika elektroniski uzkrāti vairāki 17. gs. iespiedteksti. Pēc tam darbs ar seno tekstu datorizētu apstrādi uz laiku tika pārtraukts.

      Tā kā dažādu apstākļu dēļ iecere par jaunu vārdnīcu līdz šim nav īstenojusies, 2001. gadā vēlreiz izskanēja doma par nepieciešamību veidot Veclatviešu valodas vārdnīcu (tam savu referātu "Veclatviešu valodas vārdnīca: domas par iespējamību un saturu" Liepājas konferencē "Vārds un tā pētīšanas aspekts" veltīja Dienvidaustrālijas Flindersa universitātes profesors Trevors Fennels). Atsaucoties prof. Fennela aicinājumam, 2002. gada sākumā LU Matemātikas un informātikas institūta Mākslīgā intelekta laboratorijā kopā ar LU Filoloģijas fakultātes profesoru Pēteri Vanagu tika uzsākts neliels izmēģinājuma projekts 17. gs. valodas vārdnīca. Paraugšķirkļa izveide datorversijā (Latvijas Kultūrkapitāla fonda finansiāls atbalsts), kuras šķirkļi balstījās uz Glika sagatavotās Jaunās Derības tulkojuma teksta. Šo mēģinājumu var uzskatīt par metodoloģijas iestrādi lielai nākotnes iecerei Latviešu valodas vēsturiskā vārdnīca. 2002. gadā LU Pētniecības projektu konkursa rezultātā LU Filoloģijas fakultātes Baltu valodu katedras un LU MII Mākslīgā intelekta laboratorijas speciālisti uzsāka darbu pie 17. gs. latviešu valodas datorvārdnīcas.

Iecere

      Jaunas vārdnīcas izstrādē ir nepieciešami gan primārie, gan sekundārie avoti. 2002. gadā LU Filoloģijas fakultātes Baltu valodu katedras mācībspēki un doktoranti kopā ar LU Matemātikas un informātikas institūta Mākslīgā intelekta laboratorijas darbiniekiem kopīgi turpināja darbu pie 17. gs. latviešu tekstu uzkrāšanas un apstrādāšanas, lai izveidotu seno tekstu korpusu. 2003. gada nogalē korpusā tika ievietoti 16. gs. teksti.

      Terminam korpuss ir vairākas nozīmes:
      1. (brīvs lietojums) jebkurš teksts;
      2. (visbiežāk lietotais) teksts elektroniskā formā;
      3. (speciāls lietojums) teksti elektroniskā formā, kas ir atlasīti tā, lai tiktu pārstāvēti visi valodas funkcionālie stili.
      Šeit ar terminu korpuss tiek apzīmēts teksts elektroniskā formā, kas pārstāv agrāko latviešu rakstu pieminekļu valodu. Seno tekstu korpusa izveide ir svarīgs priekšnoteikums latviešu valodas vēsturiskās vārdnīcas sastādīšanai.

Dalībnieki

      Šī projekta dalībnieki: Pēteris Vanags (LU Filoloģijas fakultāte), Andrejs Spektors (LU MII), Maija Baltiņa (LU MII), Anta Trumpa (LU LVI), Edmunds Trumpa (LU), Everita Milčonoka (LU MII) un Normunds Grūzītis (LU MII).

Projekta gaita

1. Tekstu izvēle

      Latvijas Nacionālas bibliotēkas sagatavotajā kopkatalogā "Seniespiedumi latviešu valodā 1525-1855" (izstrādājis autoru kolektīvs Silvijas Šiško vadībā, izdots Rīgā 1999. gadā) 17. gs. veltīti 100 ieraksti (no 1615. g. izdotajiem "Evaņģēlijiem un epistulām..", kas ir kopkataloga 6. ieraksts, līdz 1700. gadā izdotajai "Latviskai dziesmugrāmatai..", kas ir Vidzemes luterāņu dziesmugrāmatas 10. izdevums un kopkatalogā ir ar 106. numuru). Izskatot šo sarakstu, tika nolemts sākumā elektroniskā formā sagatavot svarīgākos 17. gs. pirmizdevumus, atkārtotos izdevumus apstrādājot nākotnē. Pārsvarā tie ir garīgie teksti (katehisms, dziesmu grāmatas, evaņģēliji, sprediķi, Jaunās Derības tulkojums), tikai pavisam nedaudz ir laicīga satura tekstu (tie ir "Savādi kara tiesas likumi" un "Sodu likums pret to bērnu mušināšanu").

      Ievadīto tekstu apjoms ir ļoti dažāds - sākot ar J. Reitera tulkotās tēvreizes 9 rindiņām un 66 vārdlietojumiem, kas publicēts krājumā "Oratio Dominica XL Linguarum" un korpusam pievienots no Konstantīna Karuļa grāmatā "Jānis Reiters un viņa tulkojums" publicētā faksimila (Rīga, Liesma, 1986), beidzot ar Jaunās Derības tulkojumu vai G. Manceļa "Ilgi gaidīto latviešu sprediķu krājumu", kura vārdlietojumu skaits pārsniedz 250 tūkstošus).

      Iecerēts pievienot arī pirmo latviešu valodas vārdnīcu datus (šobrīd tiek apstrādāts K. Fīrekera vārdnīcas pirmā manuskripta teksts, un 2004. gada pavasarī tas tiks ievietots korpusā).

2. Tekstu sagatavošana

      Kā minēts iepriekš, 90. gadu vidū teksti tika ierakstīti ar roku. Pirms to pievienošanas seno tekstu korpusam visi teksti bija jāpārlasa, jāizlabo kļūdas un tekstā jāsaliek iezīmes, kas līdz šim netika darīts. Tekstam tika pievienotas iezīmes, kas norādīja avotu, autoru, informāciju par paralēlā teksta vietām (piem., Jaunās Derības tekstā ir norādes uz teksta vietām Vecajā Derība), kā arī tika iezīmēts teksts citās valodās (vācu valodā, iespraudumi latīņu valodā, G. Elgera tekstos ir sastopami arī poļu valodas vārdi). Šīs iezīmes nepieciešamas tālākai teksta datorizētai apstrādei un indeksu izveidei.

      Papildus agrāk ievadīto tekstu pārbaudīšanai tika skenēti jauni teksti. Sadarbojoties ar Latvijas Nacionālās bibliotēkas Reto grāmatu un rokrakstu nodaļu, tika ieskenēti vairāki 17. gs. nozīmīgi iespieddarbi: "Die Sprüche Salomonis .." ("Salamana pamācības." Bībeles fragments. Vidzemes 1.izdevums. Tulkojis G.Mancelis), G. Manceļa sagatavotais Vidzemes luterāņu rokasgrāmatas un perikopju 2.izdevums "Lettisch Vade mecum", kurā ir arī "Das Haus-, Zucht- und Lehrbuch Jesu Syrachs.. " un "Lettische geistliche Lieder und Psalmen.." ("Latviešu garīgās dziesmas un psalmi, kolektes un lūgsnas, kas visu gadu tiek lietotas kristīgās sanāksmēs mājās un baznīcās", kā arī Rīgā 1615. g. izdotie "Evangelia und Episteln" ("Evaņģēliji un epistulas, tulkotas no vācu valodas Vidzemes zemnieku valodā, kuri visu cauru gadu visās svētdienās un galvenajos svētkos Dieva baznīcā Rīgā un citās Vidzemes vietās jālasa priekšā un jānoskaidro vienkāršajai saimei un zemniekiem"). Ieskenētais materiāls ar CD tiek nodots arī LNB lietošanā. Bez minētajiem avotiem tika ieskenēts arī K. Draviņa sagatavotais un Lundā 1961. gadā izdotais Georga Elgera tulkoto evaņģēliju un epistulu teksts "Evangelien und episteln".

      17. gs. tekstu skenēšana un datorprogammas ABBYY Fine Reader 6.0 apmācīšana tika veikta Mākslīgā intelekta laboratorijā. Katram tekstam vismaz 10 lpp. tika ievadītas, manuāli iemācot datoram atpazīt katru rakstu zīmi. Teksta atpazīšanas kvalitāte ir ļoti atkarīga no oriģināla, ja visā grāmatā ir vienāda kvalitāte, tad pareizi tiek atpazīts vidēji 80 - 90 % teksta, turklāt lielāko daļu labojumu veido izlaistie tukšumi starp vārdiem, kurus dators "savelk" kopā. Teksti tika ieskenēti ar 600 dpi (dot per inch - punkti uz collu) izšķiršanas spēju, vidēji viens atvērums aizņem ap 35 Mb.

      Sagatavojot tekstus, faktūras rakstu zīmes tika aizvietotas ar antīkvas burtiem, diakritiskām zīmēm un speciāliem simboliem. Visu apzīmēju sarakstu var redzēt šeit.

3. Tekstu apstrāde

      Seno tekstu apstrādes procesa modelis ir parādīts attēlā:


      Oriģinālteksts tika papildināts ar iezīmēm, kas raksturo autoru, citu valodu tekstu, kļūdu labojumus, kuri ir ņemti vai nu no izdevuma beigās pievienotā kļūdu saraksta (piem., Manceļa Sprediķu grāmatas beigās) vai arī labojot nepārprotamas iespiedkļūdas.

4. Nepieciešamo programmrīku izstrāde

      Svarīgs starpposms ir dažādi tekstu automātiskas pārbaudes un sagatavošanas programmrīki: marķējuma sintakses kontrolēšanai, dažādām pamatprocedūrām (piem., pārnesto vārdu savilkšanai) un izņēmumu apstrādei (piem., skenēšanas rezultātā salikteņos radušos atstarpju izņemšanai).

      Lai apstrādātu ievadītos tekstus, tika izstrādāta nepieciešamā programmatūra gan iepriekšminēto pārbaudes procesu veikšanai, gan vārdformu indeksu veidošanai. Ir iespēja izveidot arī atsevišķa autora vārdformu indeksu vienā dziesmu grāmatā, kurā ir apkopotas vairāku autoru tulkotas garīgās dziesmas. Vienlaicīgi ir nodrošināta iespēja no vārdformu indeksa nonākt uz attiecīgā teksta apkaimi, lai redzētu konkrētā vārdlietojuma kontekstu. Šim nolūkam ir izstrādāts programmatūras modulis, kas sadala visu tekstu konteksta vienībās atbilstoši pozicionēšanas struktūrai: lappuses tiek sadalīta rindiņās, bet grāmatas - nodaļās un pantos. Apstrādātajiem tekstiem ir izveidoti arī vārdformu biežuma indeksi.

      Esošo tekstu vārdformas nav lematizētas, jo līdz šim latviešu valodā ir izstrādāts tikai mūsdienu latviešu valodas morfoloģiskais analizators, kas nedarbojas ar agrāka perioda tekstiem, kuros sastopam daudz un dažādus morfoloģiskos variantus.

      Ir izveidota korpusa datu bāze, kurā ir transformēti apstrādātie teksti un visi ar tiem saistītie [leksiskie] dati, lai tiktu nodrošinātas meklēšanas iespējas un citi korpusa lietojumi. Šobrīd jau ir pieejami dažādi programmrīki, un nākotnē korpusa funkcionalitāte tiks attīstīta.

      2003. gada vasarā seno tekstu lietošanas iespējas tika papildinātas ar konkordances moduli, kas ļauj apskatīt meklējamo vārdu kontekstā (izvēloties noteiktu apkaimes garumu, piem., 35 simbolus, ierobežojot apskatāmos avotus u.c.). No konkordances loga ir iespēja apskatīt arī izvērstu kontekstu, nonākot attiecīgajā teksta vietā, kurā ir lietots meklētais vārds. Tādējādi konkordances programma atvieglo un paātrina teksta analīzi.

Korpusa dati

      Šobrīd korpusā ir pārstāvēti 30 avoti (sīkāk par to skatīt nodaļu "kopējā statistika"). Par katru no avotiem ir sniegta šāda informācija:
      - bibliogrāfija (izmantots LNB kopkatalogs "Seniespiedumi latviešu valodā 1525-1855", Rīga, 1999);
      - lietotie apzīmējumi;
      - vārdformu indeksi (ņemot vērā reģistrjūtību un bez tās),
      - vārdformu biežuma indeksi (ņemot vērā reģistrjūtību un bez tās).

      Strādājot ar neliela apjoma avotiem, ir iespēja izmantot arī interaktīvu indeksu ar konteksta apkaimi (piem., G. Elgera "Geistliche Catholiche Gesänge.." ("Garīgas katoļu dziesmas, labsirdīgu kristiešu pārceltas no latīņu, vācu un poļu psalmiem un baznīcas dziedājumiem nevācu valodā"), 1615. g. "Enchiridion" (Enhiridijs. Mazais katehisms jeb kristīgā audzināšana parastajiem mācītājiem un sprediķotājiem, arī mājastēviem u.c.)).

      Daļai avotu (piem., visiem 16. gs. tekstiem, kas ir korpusā, "Die Sprüche Salomonis .." ("Salamana pamācības." Bībeles fragments. Vidzemes 1. izdevums. Tulkojis G. Mancelis)) pievienots arī oriģināla faksimils JPG formātā. Nākotnē domājams korpusu papildināt ar citiem pieejamiem oriģināla faksimila attēliem.

      Tāpat korpusā atrodam visu avotu kopējo vārdformu indeksu un biežuma sarakstu (ņemot vērā reģistrjūtību un bez tās). Tie ir liela apjoma faili, kurus ieteicams lejupielādēt. Papildus ir iespēja izmantot 1000 biežāk lietotās vārdformas, kā arī vārdformu inversās vārdnīcas.

Izmantošana

      Gan ievadītie teksti, gan indeksi ļauj ieskatīties latviešu valodas vēsturē, 16. - 17. gs. tekstu leksikas, morfoloģijas, sintakses īpatnībās. Vārdformu indeksi ļauj izsekot valodas variantu nostabilizēšanās un normēšanas procesam. Savukārt biežuma indeksi apstiprina tēzi, ka kvantitatīvi dati par valodu vedina uz secinājumiem arī par valodas kvalitāti.

      Ceram, ka teksti noderēs gan baltu filoloģijas studentiem, gan latviešu valodas vēstures pētniekiem, gan literatūrzinātniekiem, kuru uzmanības lokā ir garīgo dziesmu tulkojumi, gan visiem citiem interesentiem.

      Ievadītie teksti tiks ņemti par pamatu, izstrādājot latviešu valodas 17. gs. vārdnīcu.

      Teksti un indeksi ir brīvi pieejami akadēmiskiem mērķiem.

Nākotnes plāni

      Latviešu valodas seno tekstu korpuss tiek un tiks papildināts. Šobrīd norit darbs ar šādiem rakstu pieminekļiem:

  • "Evangelia et Epistolae" (G. Elgers, 1640. g.);

  • "Tā svētā grāmata" (1694. g.);

Jaunumu arhīvs

2003. gads

  • 2003. gada nogalē un 2004. gada sākumā korpusā ievietoti 16. gs. avoti:
    - M. Lutera "Enhiridijs. Mazais katehisms jeb kristīgā audzināšana parastajiem mācītājiem un sprediķotājiem, arī mājastēviem u. c." (1586);
    - "Evaņģēliji un epistulas, tulkoti no vācu valodas nevācu valodā.." (1587);
    - "Nevācu psalmi un garīgas dziesmas jeb dziedājumi, kas tiek dziedāti Kurzemes un Zemgales hercogistē Vidzemē" (1587).

  • Valodniecības žurnālā "Baltu filoloģija" XII (1) publicēta informācija par seno tekstu korpusu - "Latviešu valodas 17. gadsimta teksti internetā" (E. Milčonoka).

  • 2003. gada novembrī Liepājas Pedagoģijas akadēmijas organizētajā konferencē "Vārds un tā pētīšanas aspekti" tika nolasīts referāts "Vienreiz lietotās vārdformas G. Manceļa Sprediķu grāmatā (1654)" (E. Milčonoka), kura sagatavošanai tika izmantoti seno tekstu korpusā ievietotās G. Manceļa Sprediķu grāmatas teksts un biežuma indekss. Tika apzinātas tās vārdformas, kas biežuma sarakstā parādās tikai vienu reizi, lai noskaidrotu, kas ir ortogrāfijas vai morfoloģijas varianti, bet kas ir hapaksa vārdi - vārdi, kas tekstā sastopami tikai vienu reizi un šodien ir vai nu pavisam nepazīstami vai arī ieguvuši citu nozīmi.

  • 2003. gada jūlijā korpusa sistēma ir kļuvusi dinamiskāka, ir nākuši klajā jauni lietojumrīki, un ir uzlabota esošo rīku funkcionalitāte.

  • 2003. gada jūnijā kļuvusi publiski pieejama konkordances rīka pirmā versija.

  • 2003. gada aprīlī Sanktpēterburgas Valsts universitātes Studentu zinātniskajā konferencē tika nolasīts referāts "Tekstu automātiskas apstrādes un analīzes problēmas strukturētu latviešu valodas korpusu veidošanā" (N. Grūzītis).

  • 2003. gada aprīlī kļuvusi publiski pieejama vārdlietojumu meklēšanas rīka pirmā versija.

  • 2003. gada martā LU Filoloģijas fakultātes Baltu valodu katedras organizētajā A. Ozolam veltītajā konferencē "Valodas mainīgums un attīstība" notika seno tekstu korpusa interneta resurspunkta prezentācija.

  • 2003. gada janvārī ir atklāts SENIE - latviešu valodas seno tekstu korpuss interneta resurss.

2002. gads

  • 2002. gada novembrī Liepājas Pedagoģijas akadēmijas organizētajā konferencē "Vārds un tā pētīšanas aspekti" tika nolasīts referāts "17. gs. tekstu datorizēta uzkrāšana un analīzes iespējas" (E. Milčonoka), kurā klātesošie tika iepazīstināti ar projekta gaitu.

 

© LU Matemātikas un informātikas institūta Mākslīgā intelekta laboratorija
© LU Humanitāro zinātņu fakultātes Baltu valodu katedra
© LU Latviešu valodas institūts
2002-2015