korpuss.lv ir Latvijas Universitātes Matemātikas un informātikas institūta Māksīgā intelekta laboratorijā izveidoto tekstu korpusu katalogs. Tas ietver:

  • LVK2018 - Līdzsvarotais mūsdienu latviešu valodas tekstu korpusu (2016–2018, 10 milj. vārdlietojumu);
  • LVK2013 - Līdzsvarotais mūsdienu latviešu valodas tekstu korpusu (2007–2013, 4,5 milj. vārdlietojumu);
  • Saeima - Latvijas Republikas 5.–12. Saeimas sēžu stenogrammu korpusu (2013-, 21 milj. vārdlietojumu);
  • UDLV - Sintaktiski marķēts latviešu valodas UD korpusu (2016–, 2017 okt.: 3916 teikumu);
  • Senie - Latviešu valodas seno tekstu korpusu (2002–2015, 902 986 vārdlietojumu);
  • MuLa - Mūsdienu latgaliešu tekstu korpusu (2011–2013, 1 milj. vārdlietojumu);
  • LiLa - Lietuviešu-latviešu-lietuviešu paralēlo tekstu korpusu (2011–2013, 8 milj. vārdlietojumu);
  • Runas korpuss  - Latviešu valodas runas atpazīšanas korpusu (2013, 100 stundas);
  • LaRKo - Latviešu valodas runas korpusu (2014, 8 stundas);
  • LAMBA - Morfoloģiski marķēts longitudināls bērnu runas korpusu (2015–2017, 134 stundas (34 stundas ortogrāfiski marķētas));

CLARIN-LV viesojas Tour de CLARIN

2023. gada janvārī CLARIN-LV repozitorijs ieguva B centra statusu. Jaunākajā Tour de CLARIN numurā aprakstīta CLARIN-LV darbība, konsorcijs un repozitorijs. Ieskatu repozitorijā no pētnieka skatu punkta sniedz LU HZF doktorante Kristīna Korneliusa