Proiectul CoBiLiRo

CoBiLiRo: Corpus bimodal pentru limba română adnotat pe multiple niveluri


Proiect finan╚Ťat de Ministerul Cercet─ârii ╚Öi Inov─ârii, Program PN-III-P1-1.2.-PCCDI, nr. 73/2018, durata: 2018-2020

Proiect component al proiectului complex

RETEROM


Proiecte paralele

TEPROLIN TADARAV SINTERO
This work was supported by a grant of the Romanian Ministery of Research and Innovation, CCCDI ÔÇô UEFISCDI, project number PN-III-P1-1.2-PCCDI-2017-0818 - 73/2018 , within PNCDI III

Descriere CoBiLiRo

Denumire: Corpus bimodal pentru limba română adnotat pe multiple niveluri (CoBiLiRo)

CoBiLiRo are ca obiectiv general crearea unui tezaur cu resurse audio ╚Öi textuale, adnotate pe diferite niveluri de realizare acustic─â, respectiv lingvistic─â, care s─â constituie cea mai important─â referin╚Ť─â de acest tip pentru limba rom├ón─â.

Aplicabilitate: Resursele de date audio ╚Öi text adnotate vor reprezenta fundamentul pentru dezvoltarea tehnologiilor de interfe╚Ťe om ma╚Öin─â ├«n limbaj natural ├«n limba rom├ón─â:
Proiect 2 (TEPROLIN), Proiect 3 (TADARAV) și Proiect 4 (SINTERO).

Activit─â╚Ťile vor avea ├«n vedere: inventarierea atent─â a resurselor bimodale existente la parteneri; armonizarea formatelor de reprezentare, adnotare ╚Öi metadate; proiectarea, realizarea ╚Öi testarea infrastructurii care va g─âzdui resursele; dezvoltarea instrumentele de prelucrare ╚Öi acces ale consor╚Ťiului; augmentarea corpusului voce-text, cu completarea lui cu metadate, alinieri ╚Öi adnot─âri; efectuarea de studii statistice asupra corpusului, exploatarea pentru cercetare ╚Öi produc╚Ťie, precum si larga diseminare a corpusului bimodal, valorizare ╚Öi utilizare cecuri de tip A1, A2, B.

Rapoarte de activitate

Noiembrie 2018

Noiembrie 2019

Noiembrie 2020

Aprilie 2021

Raport Final de proiect CoBiLiRo

Consor╚Ťiu

Etape de lucru

  • Prima etap─â

    Ac╚Ťiuni preparatorii realiz─ârii unui corpus bimodal (vorbire/text) pentru limba rom├ón─â, urm─âre╚Öte aducerea la zi a membrilor proiectului cu literatura de specialitate ├«n privin╚Ťa tehnologiilor de creare de corpusuri bimodale ╚Öi cu realiz─ârile existente ├«n momentul de fa╚Ť─â ├«n lume ├«n aceast─â direc╚Ťie, precum ╚Öi inventarierea colec╚Ťiilor de date voce-text aliniate rom├óne╚Öti, disponibile la parteneri sau ├«n ter╚Ťe coali╚Ťii, a con╚Ťinutului metadatelor lor ╚Öi a formatelor de stocare ╚Öi adnotare ale acestora.

  • A doua etap─â

    Solu╚Ťii de realizare a unui corpus bimodal (vorbire/text) pentru limba rom├ón─â, este concentrat─â pe proiectarea func╚Ťional─â ╚Öi arhitectural─â a infrastructurii care va g─âzdui resursele ╚Öi instrumentele de prelucrare ╚Öi acces ale consor╚Ťiului ╚Öi, respectiv, realizarea infrastructurii comune de calcul care va g─âzdui resursele ╚Öi instrumentele de prelucrare ╚Öi acces.

  • A treia etap─â

    Achizi╚Ťia, completarea ╚Öi exploatarea corpusului bimodal al limbii rom├óne, urm─âre╚Öte augmentarea corpusului de la itera╚Ťia zero la itera╚Ťia unu, care se realizeaz─â prin realizarea de noi ├«nregistr─âri vocale care dubleaz─â textele existente ├«n corpusul COROLA ╚Öi prin rularea algoritmilor de recunoa╚Ötere automat─â a vocii.

Echipa de proiect

Universitatea "Alexandru Ioan Cuza" din Iasi, Facultatea de Informatic─â

Colaboratori

Institutul de Cercet─âri pentru Inteligen╚Ť─â Artificial─â ÔÇŁMihai Dr─âg─ânescuÔÇŁ din Bucure╚Öti

Universitatea ÔÇŁPolitehnicaÔÇŁ din Bucure╚Öti

Universitatea Tehnic─â din Cluj-Napoca