korpuss.lv ir Latvijas Universitātes Matemātikas un informātikas institūta Māksīgā intelekta laboratorijā izveidoto tekstu korpusu katalogs. Tas ietver:

  • LVK2018 - Līdzsvarotais mūsdienu latviešu valodas tekstu korpusu (2016–2018, 10 milj. vārdlietojumu);
  • LVK2013 - Līdzsvarotais mūsdienu latviešu valodas tekstu korpusu (2007–2013, 4,5 milj. vārdlietojumu);
  • Saeima - Latvijas Republikas 5.–12. Saeimas sēžu stenogrammu korpusu (2013-, 21 milj. vārdlietojumu);
  • UDLV - Sintaktiski marķēts latviešu valodas UD korpusu (2016–, 2017 okt.: 3916 teikumu);
  • Senie - Latviešu valodas seno tekstu korpusu (2002–2015, 902 986 vārdlietojumu);
  • MuLa - Mūsdienu latgaliešu tekstu korpusu (2011–2013, 1 milj. vārdlietojumu);
  • LiLa - Lietuviešu-latviešu-lietuviešu paralēlo tekstu korpusu (2011–2013, 8 milj. vārdlietojumu);
  • Runas korpuss  - Latviešu valodas runas atpazīšanas korpusu (2013, 100 stundas);
  • LaRKo - Latviešu valodas runas korpusu (2014, 8 stundas);
  • LAMBA - Morfoloģiski marķēts longitudināls bērnu runas korpusu (2015–2017, 134 stundas (34 stundas ortogrāfiski marķētas));

CLARIN tehnisko centru pārstāvji tiekas ikgadējā Centru sanāksmē


19. un 20. maijā Frankfurtē hibrīda formātā norisinājās ikgadējā CLARIN ERIC rīkotā Centru sanāksme (Centre Meeting), kas pulcēja visus CLARIN tehnisko centru veidotājus un uzturētājus. Sanāksmes galvenais uzdevums bija pārrunāt tehniskās infrastruktūras aktualitātes, īpašu uzmanību veltot CLARIN repozitoriju un rīku attīstībai, drošības risinājumiem, kā arī mākslīgā intelekta un lielo valodas modeļu lomai resursu meklēšanā un vaicājumu ģenerēšanā.