korpuss.lv ir Latvijas Universitātes Matemātikas un informātikas institūta Māksīgā intelekta laboratorijā izveidoto tekstu korpusu katalogs. Tas ietver:

  • LVK2018 - Līdzsvarotais mūsdienu latviešu valodas tekstu korpusu (2016–2018, 10 milj. vārdlietojumu);
  • LVK2013 - Līdzsvarotais mūsdienu latviešu valodas tekstu korpusu (2007–2013, 4,5 milj. vārdlietojumu);
  • Saeima - Latvijas Republikas 5.–12. Saeimas sēžu stenogrammu korpusu (2013-, 21 milj. vārdlietojumu);
  • UDLV - Sintaktiski marķēts latviešu valodas UD korpusu (2016–, 2017 okt.: 3916 teikumu);
  • Senie - Latviešu valodas seno tekstu korpusu (2002–2015, 902 986 vārdlietojumu);
  • MuLa - Mūsdienu latgaliešu tekstu korpusu (2011–2013, 1 milj. vārdlietojumu);
  • LiLa - Lietuviešu-latviešu-lietuviešu paralēlo tekstu korpusu (2011–2013, 8 milj. vārdlietojumu);
  • Runas korpuss  - Latviešu valodas runas atpazīšanas korpusu (2013, 100 stundas);
  • LaRKo - Latviešu valodas runas korpusu (2014, 8 stundas);
  • LAMBA - Morfoloģiski marķēts longitudināls bērnu runas korpusu (2015–2017, 134 stundas (34 stundas ortogrāfiski marķētas));

CLARIN-LV pievienojas lielo valodas modeļu zināšanu centram LLMs4SSH

Centrs sniedz konsultācijas par dažādiem lielo valodas modeļu (LLM) lietojumiem valodu datu apstrādē un par LLM paplašināšanu un pielāgošanu humanitāro un sociālo zinātņu pētnieku vajadzībām un uzdevumiem. Centrs arī piedāvās palīdzību pētnieku vajadzībām atbilstošu LLM atrašanā un atlasē, atbalstīs lietotāju piekļuvi skaitļošanas resursiem (Centra dalībnieku rīcībā esošo resursu robežās), kā arī apkopos un dalīsies ar zināšanām par esošajiem LLM. Papildu informācija par centru.