Proiectul CoBiLiRo

CoBiLiRo: Corpus bimodal pentru limba română adnotat pe multiple niveluri


Proiect finanțat de Ministerul Cercetării și Inovării, Program PN-III-P1-1.2.-PCCDI, nr. 73/2018, durata: 2018-2020

Proiect component al proiectului complex

RETEROM


Proiecte paralele

TEPROLIN TADARAV SINTERO
This work was supported by a grant of the Romanian Ministery of Research and Innovation, CCCDI – UEFISCDI, project number PN-III-P1-1.2-PCCDI-2017-0818 - 73/2018 , within PNCDI III

Descriere CoBiLiRo

Denumire: Corpus bimodal pentru limba română adnotat pe multiple niveluri (CoBiLiRo)

CoBiLiRo are ca obiectiv general crearea unui tezaur cu resurse audio și textuale, adnotate pe diferite niveluri de realizare acustică, respectiv lingvistică, care să constituie cea mai importantă referință de acest tip pentru limba română.

Aplicabilitate: Resursele de date audio și text adnotate vor reprezenta fundamentul pentru dezvoltarea tehnologiilor de interfețe om mașină în limbaj natural în limba română:
Proiect 2 (TEPROLIN), Proiect 3 (TADARAV) și Proiect 4 (SINTERO).

Activitățile vor avea în vedere: inventarierea atentă a resurselor bimodale existente la parteneri; armonizarea formatelor de reprezentare, adnotare și metadate; proiectarea, realizarea și testarea infrastructurii care va găzdui resursele; dezvoltarea instrumentele de prelucrare și acces ale consorțiului; augmentarea corpusului voce-text, cu completarea lui cu metadate, alinieri și adnotări; efectuarea de studii statistice asupra corpusului, exploatarea pentru cercetare și producție, precum si larga diseminare a corpusului bimodal, valorizare și utilizare cecuri de tip A1, A2, B.

Rapoarte de activitate

Noiembrie 2018

Noiembrie 2019

Consorțiu

Etape de lucru

  • Prima etapă

    Acțiuni preparatorii realizării unui corpus bimodal (vorbire/text) pentru limba română, urmărește aducerea la zi a membrilor proiectului cu literatura de specialitate în privința tehnologiilor de creare de corpusuri bimodale și cu realizările existente în momentul de față în lume în această direcție, precum și inventarierea colecțiilor de date voce-text aliniate românești, disponibile la parteneri sau în terțe coaliții, a conținutului metadatelor lor și a formatelor de stocare și adnotare ale acestora.

  • A doua etapă

    Soluții de realizare a unui corpus bimodal (vorbire/text) pentru limba română, este concentrată pe proiectarea funcțională și arhitecturală a infrastructurii care va găzdui resursele și instrumentele de prelucrare și acces ale consorțiului și, respectiv, realizarea infrastructurii comune de calcul care va găzdui resursele și instrumentele de prelucrare și acces.

  • A treia etapă

    Achiziția, completarea și exploatarea corpusului bimodal al limbii române, urmărește augmentarea corpusului de la iterația zero la iterația unu, care se realizează prin realizarea de noi înregistrări vocale care dublează textele existente în corpusul COROLA și prin rularea algoritmilor de recunoaștere automată a vocii.

Echipa de proiect

Universitatea "Alexandru Ioan Cuza" din Iasi, Facultatea de Informatică

Colaboratori

Institutul de Cercetări pentru Inteligență Artificială ”Mihai Drăgănescu” din București

Universitatea ”Politehnica” din București

Universitatea Tehnică din Cluj-Napoca