Personal tools
You are here: Home Ûndersyk Taalkunde Taalkorpora Korpus sprutsen Frysk
Document Actions

Korpus sprutsen Frysk


Link nei de KSF applikaasje: http://www1.fa.knaw.nl/ksf.html


Wat is it KSF?

It projekt hie as doel in korpus gear te stallen dat in plausibele trochsnee foarmet fan it hjoeddeiske Frysk sa't dat sprutsen wurdt yn de provinsje Fryslân. In part fan it korpus is ortografysk transkribearre. It KSF makket yntinsyf gebrûk fan it ûntwerp fan it Corpus Gesproken Nederlands . Lykwols binne der inkelde wichtige ferskillen tusken de twa projekten. KSF besocht safolle mooglik taalfariaasje oan it ljocht te bringen en hat der dêrom apart foar keazen dialektfrysk en "ynkorrekt" Frysk te sammeljen wylst de Nederlânske tsjinhinger him dêrfoaroer konsintrearret op de standerttaal; hjirmei slút de term "Nederlânsk" dialektyske en sterk regionale farianten út. In twadde ferskil is dat KSF ek âlder materiaal opnommen hat, en dêrtroch kin histoaryske fariaasje bestudearre wurde. In tredde ferskil docht him foar op finansjeel mêd. It budzjet fan KSF wie minder as in tweintichste part fan it bedrach dat de Nederlânske wjergader ta syn foldwaan hie. It KSF hat him dêrom rjochte op it sammeljen fan data, de digitalisearring en de ortografyske beskriuwing wylst de Nederlânske tsjinhinger eksperimintearre mei ferskate types linguistyske annotaasje foar parten fan it materiaal (prosoadysk, syntaktysk, fonetysk).

Wêrom in KSF?

It KSF tsjinnet in wittenskiplik en in praktysk doel. In praktysk doel is dat spraaktechnology, lykas it werkennen fan sprutsen taal, de beskikberens fan in grut korpus ortografysk transkribearre opnommen taal fereasket. Om net efter te bliuwen by de ûntwikkelingen op it mêd fan spraaktechnology is it foar it Frysk as minderheidstaal fan essinsjeel belang dat sa'n korpus opsetten wurdt. It hâlden fan kontakt mei spraaktechnology bemaklikt it kreëarjen fan ynstruminten (lykas in spraakwerkenner) dy't it behâld en de fersprieding fan de Fryske standerttaal stypje. Allyk bemaklikt it it winnen fan Europeeske subsydzjes foar minderheidstalen. It wittenskiplik doel fan it KSF is it krijen fan ynsjoch yn ferskate oant no ta min ûndersochte aspekten fan sprutsen taal en de fuortsterking fan it ûndersiik op de ferskate mêden fan grammatika, sosjolinguistyk, taalsosjology, dialektology en discourse teory.

Korpusûntwerp en opbou

Yn it totale ûntwerp fan it korpus is de sosjaal-situasjonele setting dêr't de taal yn brûkt wurdt as foarnaamste parameter nommen. Foarbylden fan soksoarte settings binne bygelyks saaklike petearen, radio-ynterviews en wittenskiplike lêzingen. De spesifikaasje fan de settings wurdt jûn yn termen fan tiidsdoer, totaal tal sprekkers, relaasje tusken sprekker(s) en taharker(s), karakteristiken fan de sprekkers (geslacht, leeftyd, geografyske regio, sosjaal-ekonomyske klasse); net alle karakteristiken wurde brûkt as sampling kritearia. Der is in skriemend ferlet fan spontaan sprutsen taaldata; dat ferklearret de algemiene foarkar foar taal dy't net skreaun is; ynteraksje wurdt besjoen as in typyske karakteristyk fan sprutsen kommunikaasje; dêrom fynt men dat multilogen foargoed presintearre wurde moatte soenen yn de data. Alles byinoar ha wy gebrûk makke fan in binêre klassifikaasje yn dialooch en monolooch en formeel en ynfomeel, dy't fierder ûnderferdield wurde kinne yn:
  • ynformele dialogen: thús, yn kantines
  • formele dialogen: ynterviews op radio en televyzje, foarumdiskusjes, lessen
  • ynformele monologen: yn jinsels praten
  • formele monologen: nijsútstjoeringen, lêzingen, preken, poëzijefoardrachten
It korpus wurdt ynklusyf spraakbestannen oan ûndersikers ta beskikking steld. Dêrfoar is tastimming frege fan de sprekkers en alle partijen dy't ien of oar rjocht hawwe op it opnommen materiaal.

Opname en digitalisaasje

De opnames binne meast makke troch minsken dy't wurkje foar it projekt of, yn it gefal fan bygelyks spontaan sprutsen dialogen, troch frijwilligers dy't goedwillich oerienstimd hawwe konversaasjes op te nimmen dy't har thús foardogge. Lykwols hat Omrop Fryslân sa freonlik west en stel in tal ynterviews fan har ta ús foldwaan. Opnames binne yn syn algemienens ek krigen troch oparbeidzjen mei oare projekten, bedriuwen, organisaasjes en ynstitúsjes. Ynformaasje oer de opnamebetingsten, de brûkte apparatuer, ensf. is beskikber as part fan de meta-data. It is mooglik de audio-bestanden ôf te spyljen yn wav formaat troch de wei fan it programma PRAAT (ûntwikkele troch Paul Boersma en David Weenink, Fonetische Wetenschappen, Universiteit van Amsterdam). PRAAT makket it foar brûkers mooglik de opnames ôf te spyljen en tagelyk de ortografyske transkripsje sjen te litten.

Ortografyske transkripsje

Fan in part fan it opnommen materiaal is in transkript makke. It transkript rjochtet him foar it grutste part op standert staveringsôfspraken. Der is in protokol ûntwikkele dat yn detail beskriuwt wat transkribearre wurde moat en hoe't omgien wurde moat mei nije wurden, dialekt, ferkearde útspraak, ensf. Eftergrûnlûden wurde net beskreaun yn it transkript. Alle transkripten binne kontrolearre op krektens fan stavering. Om it transkripsjeproses te ûnderstypjen is gebrûk makke fan it ynteraktive programma PRAAT. PRAAT makket it mooglik te harkjen en te sjen nei it spraaksinjaal en op it selde stuit it ortografyske transkript sjen te litten. Elke sprekker krijt syn of har eigen tier tawiisd. It hiele transkripsjeproses troch segmintearje de transkribeurs de audio-bestanden yn relatyf koarte stikjes (fan likernôch 3 sekonden) troch it pleatsen fan tiidmarkers yn lege romten tusken wurden. Yn in letter stadium wurde dy markers brûkt as ankerpunten foar de automatyske oanpassing fan it transkript en it spraakbestân.

Lemmatisearring en POS tagging

Yn de takomst kin in part fan it korpus mooglik tagged wurde foar part-of-speech ynformaasje. De samling tags folget sekuer de Algemene Nederlandse Spraakkunst (ANS, de gesachhawwende Nederlânske referinsjegrammatika; Haeseryn et al., Wolters-Noordhoff, Groningen, 1997). Der sil gebrûk makke wurde fan it lemmatisaasjesysteem ûntwikkele foar it Wurdboek fan de Fryske Taal (Woordenboek van de Friese Taal). Yn it projekt sil in leksikon ûntwikkele wurde. It leksikon spilet in wichtige rol yn de transkripsje en annotaasje fan it korpus, om't it ek in mooglike manier fan tagong ta data is. De leksikale link-up makket it mooglik en realisearje in mear avansearre manier fan lemmatisearring. Wy ferwachtsje gebrûk te meitsjen fan de ynfrastruktuer fan de wurdboekprojekten dêr't de Fryske Akademy yn spesjalisearre is.

Subsydzjejouwers

Wy sprekke ús tank út oan de Provinsje Fryslân, de Koninklijke Nederlandse Academie van Wetenschappen, de Nederlandse Organisatie voor Wetenschappelijk Onderzoek en de Fryske Akademy, dy't mei-inoar dit projekt mooglik makke  hawwe. KSF wie in gearwurkingsprojekt fan de fakploech Sosjale Wittenskippen en de fakploech Taalkunde fan de Fryske Akademy.


Powered by Plone CMS, the Open Source Content Management System