Wat vinden jullie hiervan: Het forum van Politics.be als basis voor wetenschappelijk onderzoek. Er worden 100 miljoen woorden gezocht die in hun eigen verband moeten staan voor de aanmaak van een referentiecorpus waarin het Vlaams goed vertegenwoordigd wordt. Forum is volgens mij al goed voor meer dan 50 miljoen woorden.
Ik vind het een hele eer.
Citaat:
Betreft: tekstmateriaal voor aanmaak Nederlandstalig referentiecorpus voor
onderzoeksdoeleinden
28-03-2008
Geachte heren Viaene en Malaise,
Als partner van een consortium (Hogent, Universiteit Nijmegen, Universiteit
Twente, Universiteit Tilburg) werken we aan het project Stevin
Nederlandstalig Referentiecorpus (SoNaR), waarin we een referentiecorpus
geschreven Nederlands van 100 miljoen. woorden opbouwen voor het
Nederlandstalig gebied (Nederland en Vlaanderen). Heel belangrijk voor dat
project is dat Vlaamse data in het corpus evenredig vertegenwoordigd zou
zijn. Meer informatie over het project kunt vinden op
http://lands.let.ru.nl/projects/SoNaR/home.html.
Het project wordt gefinancierd door het STEVIN-programma van de Nederlandse
Taalunie die de ontwikkeling van de digitale infrastructuur voor het
Nederlands moet bevorderen om de positie van het Nederlands in de moderne
informatie- en communicatiewereld te versterken. STEVIN staat voor Spraak-
en Taaltechnologische Essentiële Voorzieningen In het Nederlands. Meer
informatie vindt u op de STEVIN-website:
http://taalunieversum.org/taal/technologie/stevin/ en in de bijgesloten
flyer.
Voor ons project zijn we op zoek naar Nederlandstalig tekstmateriaal in
elektronische vorm, de teksten kunnen zowel origineel geschreven zijn in het
Nederlands als vertalingen zijn vanuit vreemde talen in het Nederlands.
Binnen het corpus proberen we een zo rijk mogelijke diversiteit aan teksten
bijeen te brengen uit verschillende domeinen, o.a. discussies op
internetfora.
Als Politics.be kunt u ons wellicht verder helpen en zou u een hoogst
welkome inbreng kunnen hebben als tekstleverancier van dit soort data.
Daarbij denken we hoofdzakelijk aan teksten die aanwezig zijn op uw site:
http://forum.politics.be/, zowel de stellingen als de reacties erop.
Tijdens verdere contacten kunnen we de leveringsvoorwaarden en
auteursrechten bespreken. De actualiteitswaarde van de tekst is niet
belangrijk. Evenmin hebben wij de integrale tekst nodig, fragmenten zijn ook
bruikbaar.
Daarnaast zouden we de toestemming moeten krijgen om het verworven
tekstmateriaal openbaar te mogen maken voor onderzoeksdoeleinden. Het corpus
zal o.a. ingezet worden voor onderzoek binnen taaltechnologie en -onderzoek,
taalkunde en taaldidactiek.
Indien u meer informatie wenst over het project, kan u altijd contact
opnemen met Lidia Rura ([email protected]).
Wij hopen dat wij mogen rekenen op uw hulp. Met de meeste hoogachting
Namens het projectteam
L.R.
Language and Translation Technology Team
Departement Vertaalkunde
Hogeschool Gent
|
Maarten