Korpus sprutsen Frysk
Link nei de KSF applikaasje: http://www1.fa.knaw.nl/ksf.html
- Wat is it KSF?
- Wêrom in KSF?
- Korpusûntwerp en opbou
- Opname en digitalisaasje
- Ortografyske transkripsje
- Lemmatisearring en POS tagging
- Subsydzjejouwers
Wat is it KSF?
It projekt hie as doel in korpus
gear te stallen dat in plausibele trochsnee foarmet fan it
hjoeddeiske Frysk sa't dat sprutsen wurdt yn de provinsje Fryslân.
In part fan it korpus is ortografysk transkribearre. It KSF makket
yntinsyf gebrûk fan it ûntwerp fan it Corpus Gesproken
Nederlands . Lykwols binne der inkelde wichtige ferskillen
tusken de twa projekten. KSF besocht safolle mooglik
taalfariaasje oan it ljocht te bringen en hat der dêrom apart foar
keazen dialektfrysk en "ynkorrekt" Frysk te sammeljen wylst de
Nederlânske tsjinhinger him dêrfoaroer konsintrearret op de
standerttaal; hjirmei slút de term "Nederlânsk" dialektyske en
sterk regionale farianten út. In twadde ferskil is dat KSF ek âlder
materiaal opnommen hat, en dêrtroch kin histoaryske fariaasje
bestudearre wurde. In tredde ferskil docht him foar op finansjeel
mêd. It budzjet fan KSF wie minder as in tweintichste part fan it bedrach
dat de Nederlânske wjergader ta syn foldwaan hie. It KSF hat him
dêrom rjochte op it sammeljen fan data, de digitalisearring
en de ortografyske beskriuwing wylst de Nederlânske tsjinhinger
eksperimintearre mei ferskate types linguistyske annotaasje foar
parten fan it materiaal (prosoadysk, syntaktysk, fonetysk).
Wêrom in KSF?
It KSF tsjinnet in wittenskiplik en in praktysk doel. In
praktysk doel is dat spraaktechnology, lykas it werkennen fan
sprutsen taal, de beskikberens fan in grut korpus ortografysk
transkribearre opnommen taal fereasket. Om net efter te bliuwen by
de ûntwikkelingen op it mêd fan spraaktechnology is it foar it
Frysk as minderheidstaal fan essinsjeel belang dat sa'n korpus
opsetten wurdt. It hâlden fan kontakt mei spraaktechnology
bemaklikt it kreëarjen fan ynstruminten (lykas in spraakwerkenner)
dy't it behâld en de fersprieding fan de Fryske standerttaal
stypje. Allyk bemaklikt it it winnen fan Europeeske subsydzjes foar
minderheidstalen. It wittenskiplik doel fan it KSF is it krijen fan
ynsjoch yn ferskate oant no ta min ûndersochte aspekten fan
sprutsen taal en de fuortsterking fan it ûndersiik op de ferskate
mêden fan grammatika, sosjolinguistyk, taalsosjology, dialektology
en discourse teory.
Korpusûntwerp en opbou
Yn it totale ûntwerp fan it korpus is de
sosjaal-situasjonele setting dêr't de taal yn brûkt wurdt as
foarnaamste parameter nommen. Foarbylden fan soksoarte settings
binne bygelyks saaklike petearen, radio-ynterviews en
wittenskiplike lêzingen. De spesifikaasje fan de settings wurdt jûn
yn termen fan tiidsdoer, totaal tal sprekkers, relaasje tusken
sprekker(s) en taharker(s), karakteristiken fan de sprekkers
(geslacht, leeftyd, geografyske regio, sosjaal-ekonomyske klasse);
net alle karakteristiken wurde brûkt as sampling kritearia. Der is
in skriemend ferlet fan spontaan sprutsen taaldata; dat ferklearret
de algemiene foarkar foar taal dy't net skreaun is; ynteraksje
wurdt besjoen as in typyske karakteristyk fan sprutsen
kommunikaasje; dêrom fynt men dat multilogen foargoed presintearre
wurde moatte soenen yn de data. Alles byinoar ha wy gebrûk
makke fan in binêre klassifikaasje yn dialooch en monolooch en
formeel en ynfomeel, dy't fierder ûnderferdield wurde kinne
yn:
- ynformele dialogen: thús, yn kantines
- formele dialogen: ynterviews op radio en televyzje, foarumdiskusjes, lessen
- ynformele monologen: yn jinsels praten
- formele monologen: nijsútstjoeringen, lêzingen, preken, poëzijefoardrachten
It korpus wurdt ynklusyf spraakbestannen oan ûndersikers ta
beskikking steld. Dêrfoar is tastimming frege fan de
sprekkers en alle partijen dy't ien of oar rjocht hawwe op it
opnommen materiaal.
Opname en digitalisaasje
De opnames binne meast makke troch minsken dy't wurkje foar it
projekt of, yn it gefal fan bygelyks spontaan sprutsen dialogen,
troch frijwilligers dy't goedwillich oerienstimd hawwe
konversaasjes op te nimmen dy't har thús foardogge. Lykwols hat Omrop Fryslân sa freonlik west en stel in tal ynterviews fan har ta ús foldwaan. Opnames binne yn syn algemienens ek krigen troch oparbeidzjen mei oare projekten, bedriuwen,
organisaasjes en ynstitúsjes. Ynformaasje oer de
opnamebetingsten, de brûkte apparatuer, ensf. is beskikber as part
fan de meta-data. It is mooglik de audio-bestanden ôf te spyljen yn
wav formaat troch de wei fan it programma PRAAT (ûntwikkele troch Paul
Boersma en David Weenink, Fonetische Wetenschappen, Universiteit
van Amsterdam). PRAAT makket it foar brûkers mooglik de opnames ôf
te spyljen en tagelyk de ortografyske transkripsje sjen te
litten.
Ortografyske transkripsje
Fan in part fan it opnommen materiaal is in
transkript makke. It transkript rjochtet him foar it grutste part
op standert staveringsôfspraken. Der is in protokol ûntwikkele
dat yn detail beskriuwt wat transkribearre wurde moat en hoe't
omgien wurde moat mei nije wurden, dialekt, ferkearde útspraak,
ensf. Eftergrûnlûden wurde net beskreaun yn it transkript. Alle
transkripten binne kontrolearre op krektens fan stavering. Om it
transkripsjeproses te ûnderstypjen is gebrûk makke fan it
ynteraktive programma PRAAT. PRAAT makket it mooglik te harkjen en
te sjen nei it spraaksinjaal en op it selde stuit it ortografyske
transkript sjen te litten. Elke sprekker krijt syn of har eigen
tier tawiisd. It hiele transkripsjeproses troch segmintearje de
transkribeurs de audio-bestanden yn relatyf koarte stikjes (fan
likernôch 3 sekonden) troch it pleatsen fan tiidmarkers yn lege
romten tusken wurden. Yn in letter stadium wurde dy markers brûkt
as ankerpunten foar de automatyske oanpassing fan it transkript en
it spraakbestân.
Lemmatisearring en POS tagging
Yn de takomst kin in part fan it korpus mooglik tagged wurde
foar part-of-speech ynformaasje. De samling tags folget sekuer de
Algemene Nederlandse Spraakkunst (ANS, de gesachhawwende
Nederlânske referinsjegrammatika; Haeseryn et al.,
Wolters-Noordhoff, Groningen, 1997). Der sil gebrûk makke wurde fan
it lemmatisaasjesysteem ûntwikkele foar it Wurdboek fan de Fryske
Taal (Woordenboek van de Friese Taal). Yn it projekt sil in
leksikon ûntwikkele wurde. It leksikon spilet in wichtige rol yn de
transkripsje en annotaasje fan it korpus, om't it ek in mooglike
manier fan tagong ta data is. De leksikale link-up makket it
mooglik en realisearje in mear avansearre manier fan
lemmatisearring. Wy ferwachtsje gebrûk te meitsjen fan de
ynfrastruktuer fan de wurdboekprojekten dêr't de Fryske Akademy yn
spesjalisearre is.
Subsydzjejouwers
Wy sprekke ús tank út oan de Provinsje
Fryslân, de Koninklijke Nederlandse Academie van Wetenschappen, de
Nederlandse Organisatie voor Wetenschappelijk Onderzoek en de
Fryske Akademy, dy't mei-inoar dit projekt mooglik makke hawwe.
KSF wie in gearwurkingsprojekt fan de fakploech Sosjale
Wittenskippen en de fakploech Taalkunde fan de Fryske
Akademy.