korpuss.lv ir Latvijas Universitātes Matemātikas un informātikas institūta Māksīgā intelekta laboratorijā izveidoto tekstu korpusu katalogs. Tas ietver:

  • LVK2018 - Līdzsvarotais mūsdienu latviešu valodas tekstu korpusu (2016–2018, 10 milj. vārdlietojumu);
  • LVK2013 - Līdzsvarotais mūsdienu latviešu valodas tekstu korpusu (2007–2013, 4,5 milj. vārdlietojumu);
  • Saeima - Latvijas Republikas 5.–12. Saeimas sēžu stenogrammu korpusu (2013-, 21 milj. vārdlietojumu);
  • UDLV - Sintaktiski marķēts latviešu valodas UD korpusu (2016–, 2017 okt.: 3916 teikumu);
  • Senie - Latviešu valodas seno tekstu korpusu (2002–2015, 902 986 vārdlietojumu);
  • MuLa - Mūsdienu latgaliešu tekstu korpusu (2011–2013, 1 milj. vārdlietojumu);
  • LiLa - Lietuviešu-latviešu-lietuviešu paralēlo tekstu korpusu (2011–2013, 8 milj. vārdlietojumu);
  • Runas korpuss  - Latviešu valodas runas atpazīšanas korpusu (2013, 100 stundas);
  • LaRKo - Latviešu valodas runas korpusu (2014, 8 stundas);
  • LAMBA - Morfoloģiski marķēts longitudināls bērnu runas korpusu (2015–2017, 134 stundas (34 stundas ortogrāfiski marķētas));

Aicinājums iesniegt tēzes CLARIN2026 konferencei

 CLARIN2026 banner Septembra beigās Braitonā notiks ikgadējā CLARIN konference. Šogad konference notiks no 29. septembra līdz 1. oktobrim, aptverot plašu ar CLARIN saistīto tēmu loku. Konferences organizētāji aicina iesniegt tēzes līdz 6. aprīlim. Plašāka informācija par konferenci un tēžu iesniegšanu atrodama šeit