CLARIN Latvija

Par CLARIN

CLARIN ir Eiropas valstu sadarbības iniciatīva, kura mērķis ir novērst pašreizējo sadrumstalotību valodas resursu jomā un izveidot integrētu, paplašināmu un sadarbību veicinošu pētniecības infrastruktūru, kas ļautu viegli piekļūt un izmantot valodas resursus un tehnoloģijas ne tikai dažādu humanitāro un sociālo zinātņu nozaru pētniekiem, bet arī humanitāro un eksakto zinātņu starpnozarei — datorlingvistikai. Valodnieki, izmantojot digitālu, formāli anotētu valodu materiālu, varēs izstrādāt un optimizēt valodas analīzes modeļus un rīkus. Humanitāro zinātņu pētnieki varēs efektīvi izmantot darbam nepieciešamos resursus un tehnoloģijas.

Valoda, tās resursi un tehnoloģijas

Eiropa ir multilingvāla, un, lai risinātu dažādas ar (daudz-)valodu automatizētu analīzi saistītas problēmas, ir jāizveido lieli, sabalansēti tekstu korpusi — kā vienvalodu, tā arī paralēlie (sastatīti viens no otra tulkoti teksti) — un leksiskas datubāzes (izsmeļošas, formāli precīzas skaidrojošās un tulkojošās vārdnīcas). Dažām valodām ir valodas resursu pārpilnība, citām, īpaši jauno Eiropas Savienības dalībvalstu valodām (t. sk. latviešu), ir izteikts pamatresursu trūkums. Turklāt, tā kā resursi un rīki tiek izstrādāti decentralizēti, tie ir izkliedēti, apgrūtinot vienotas izmantošanas un integrēšanas iespējas.

CLARIN piedāvā izveidot salīdzināmu galveno valodas resursu un rīku komplektu visām valodām, kas iekļautas infrastruktūrā. CLARIN ietvaros par valodas resursiem tiek domāts ne tikai sinhronajā, bet arī diahronajā aspektā, kas sniegtu ieguldījumu Eiropas multikulturālā un multilingvālā mantojuma saglabāšanā un atbalstīšanā.

Rakstītu un pēdējā laikā arī runātu tekstu ierakstu apjoms tīmeklī ir milzīgs, tas pieaug eksponenciāli. Materiāla daudzuma dēļ humanitāro un citu zinātņu pētniekiem, kas izmanto valodas materiālu, automatizētas metodes ir ārkārtīgi nepieciešamas. Vēl jo vairāk — attīstītas meklēšanas iespējas, kas balstītas uz dabīgo valodu analīzes tehnoloģijām, ir būtiskas ikvienam, kas tīmeklī meklē jebkāda veida informāciju. Lielu valodas korpusu uzkrāšanai, elektronizēšanai un anotēšanai, vārdnīcu un valodas aprakstu (metadatu) izveidošanai nepieciešami lieli laika un finansiālie resursi. Valodas materiāla apstrādei vajadzīgo rīku izveidei ir nepieciešamas dziļas zināšanas un iemaņas, īpaši, lai tie būtu piemēroti arī tiem lietotājiem, kas nav valodniecības vai valodas tehnoloģiju speciālisti.

CLARIN pētniecības infrastruktūra ir paredzēta, lai palīdzētu tiem, kas darbojas humanitāro un sociālo zinātņu jomā, ir saistīti ar valodu un kam ir nepieciešamas automatizētas tehnoloģijas.