Vakken
Engels
Frans
Duits
Spaans
Nederlands
Grieks
Portugees
Italiaans
Latijn
Japans
Biologie
Aardrijkskunde
Natuur- en scheikunde
Wiskunde, rekenen
Economie
Geschiedenis
Eigen methodes
Alle vakken
Home
›
Alle vakken
›
Eigen methodes
›
Woorden en Woordgebruik
› 11 College 11
Helaas is de overhoormodule niet beschikbaar. Wel kun je deze lijst overhoren via StudyGo. Klik op 'Overhoren'
Woorden en Woordgebruik
11 College 11
Jaar 3 (universiteit)
Link voor email / website
Link naar overhoring, zonder bewerk/reactiemogelijkheid (ELO)
Open met deze code de oefening in miniTeach
Twitter
Facebook
Google+
LinkedIn
Waarom ontstaan nieuwe woorden en hoe? = waarom: nieuwe concepten, prestige. Verschillende manieren (bv. coinage, samenstelling, ...). Plogging: een blend Engels Jogging en Zweeds plocka: plukken, verzamelen. Het afval opruimen tijdens het joggen. Waarom verdwijnen/veranderen woorden en hoe? = waarom: concepten verdwijnen, nieuwe woorden voor zelfde concept. Hoe: klankverandering, betekenisverandering, analogie: effect van frequentie. Survival of the fittest. FUDGE-test. In welke zin ben je wat je zegt en hoe je schrijft? = Uit een schrijfstijl kun je veel afleiden over hoe iemand is. Als schrijver maak je veel keuzes en vaak onbewust. Als je eenmaal een bepaalde stijl hebt, dan hou je dat vast. Bij een woordenwolk van de frequentie van woorden kun je zien wat een partij belangrijk vindt. Woorden die niet altijd aansluiten op de thema van een partij. Waarbij is rekenen met woorden nuttig? = Als je bijvoorbeeld wilt weten welke partij bij welke partijprogramma hoort. De toeschrijving van een tekst aan een bepaalde auteur en ook plagiaatherkenning. Het kan ook een sociaal-psychologisch profiel van de dader geven bij een misdaad. De Cuckoo’s Calling werd uitgebracht als debuut van van Robert Galbraith, maar later bleek het van J.K. Rowling te zijn. Er waren wel wat aanwijzingen, zoals een anonieme tip, detail voor vrouwenmode, dezelfde uitgever als Rowling en J.K. Galbraith. Mensen die geloven dat de maanlanding nep was hadden nog meer bewijs dan dit. Maar kun je er achter komen door te kijken naar het boek? Ja. P. Joula (Duquesne) en P. Millican (Oxford) hadden dit onderzocht en zij kwamen met de conclusie dat het geschreven was door J.K. Rowling. Het gebeurt wel vaker dat mensen een boek schrijven onder een valse naam. Je kunt een naam achter je laten, maar niet per se je schrijfstijl. Hoe werd er gebruik gemaakt van woordgebruik bij het bepalen van een daderprofiel bij de 30-40 kogelbrieven naar BN’ers in 2002-2003? = Het taalgebruik was heel ouderwets en formeel en er waren ook een aantal opvallende woorden, zoals garnalenhersens en hersengarnalenmassa. Dan kun je aan de hand van taalgebruik een profiel maken. Je kunt op basis van de tekst aan de slag gaan met een daderprofiel. Dit is nog niet per se het meest overtuigende bewijs. Dat komt pas als je dieper gaat kijken in de tekst. Hoe werkt een auteurbeschrijving aan de hand van functiewoorden? = Stylometrie: rekenen met woorden. Een profiel maken door dingen te meten in de tekst. Het kan wetenschappelijk detective werk zijn. Je kunt auteurs uit elkaar halen door een unieke schrijfstijl of vingerafdruk. Als er een unieke vingerafdruk is door de manier waarop je schrijft, ben je ook te traceren, net als een vingerafdruk: human stylome. Dat is niet per se een heel nieuw ding. Hapax Legomenon: een woord komt één keer voor de in de hele tekst? Nadeel is dat het vrij gevoelig is voor imitatie en vervalsing. Je kunt heel makkelijk een stijl imiteren als je weet dat iemand bepaalde woorden gebruikt. Sommige woorden zijn ook heel erg contextafhankelijk, dus daar is het ook gevoelig voor. Het heeft dus zeker voordelen, maar dat zijn ook dingen die het lastig maken om er echt mee te gaan rekenen. Niet-traditioneel is er mee rekenen. De computer heeft niet iets als opvallend of onopvallend. Die merkt alles ook als het onopvallend is en dat is misschien wel beter. De computer kijkt naar functiewoorden. Die heb je altijd nodig en die gebruik je op een specifieke manier van context tot context. Het nadeel is wel dat je een vrij lange tekst nodig hebt. En complexiteit in de zin van als de computer iets heeft ontdekt, is het dan nog wel eenduidig en herleidbaar. Computers kunnen dingen oppikken die misschien niet te herleiden zijn. Wat is het verschil tussen functiewoorden en inhoudswoorden? = Functiewoorden hebben een grammaticale functie. Ze zijn het skelet van een zin. Inhoudswoorden zijn zelfstandige naamwoorden. Ze geven inhoud aan de zin. Wat zijn de voordelen aan auteursbeschrijvingen door functiewoorden? = Ze zijn heel erg hoog frequent. Ze worden veel gebruikt. Dat maakt de statistiek een stuk betrouwbaarder, want je hebt meer data. Ze worden ook vrij onbewust gebruikt en dat maakt het lastig om te imiteren. Pannebaker noemt ze stealth words. Je hebt ze niet altijd nodig om de tekst te gebruiken. Het is ook context afhankelijk: minder gevoelig voor onderwerp en genreverschillen. Wat is de wet van zipf? = De rangorde van de frequentie van een woord in omgekeerd evenredig aan het aantal voorkomens. Het woord dat op de eerste plaats staat, komt heel veel meer voor dan het woord dat op de tweede plaats staat. Het is niet zo dat de functiewoorden de top 10 vullen. Wat is het pareto-principe? = 80% van het effect kan verklaard worden door 20% van de oorzaak. Wat dat betekent is dat je heel effectief kan zoeken naar de problemen. Als je 80% van het probleem kan oplossen door 20% te benaderen, dan is dat heel makkelijk. Je hebt heel veel aan de functiewoorden die mensen kunnen gebruiken, want ze worden onbewust gebruikt en je hebt meer statistische data. Functiewoorden zijn zo frequent en voorspelbaar dat je ze niet goed leest. De reden dat je een dubbel voornaamwoord of een letter niet kan opmerken, is omdat je de functiewoorden niet leest. Een woord dat heel voorspelbaar is, wordt heel kort en is heel frequent. Het is contextafhankelijk, dus het is niet zo gevoelig voor genreverschillen. Een functiewoord, welk voorzetsel of lidwoord je kiest, je maakt veel meer keuzes in taal dan je denkt. Je kunt bij elke zin die je maakt al kiezen wat de volgorde van de zin wordt. Functiewoorden zijn dus hoogfrequent, onbewust en contextafhankelijk. Wat voor zelfde voorbeeld van auteurbeschrijving met functiewoorden zie je in de schilderkunst? = Als je mensen schildert, dan moet je ook handen schilderen. En iedereen heeft een manier van handen schilderen. Een hand wordt waarschijnlijk minder bewust over nagedacht. Hoe gaat zo’n auteur toeschrijven? = Je gaat vergelijken. Een verzameling van werk geschreven tekst van persoon A en persoon B en je zegt tegen de computer wat A en B is en ga maar eens zeggen wat de verschillen zijn. Als je een cumputer daar in traint, dan kan de computer eruit halen wat de kenmerken zijn van persoon A ten opzichte van persoon B. Hoe is de ontmaskering van Galbraith gegaan? = Je pakt een test van wie je niet wie van wie die is en je pakt een tekst van wie je wel weet van wie die is en dan moet je een paar afleiders hebben, een paar andere auteurs van wie het zou kunnen zijn. Een simpele maat is al de gemiddelde woordlengte in een boek. Ook daarbij kwamen zes stukken van J.K. Rowling overeen. En de top 100 woorden. Bij character 4-grams kwam er weer veel overeen met een andere auteur. En daarna kun je kijken naar woordparen (bigrams). Alles bij elkaar winst ze toch het vaakst. Dan heb je alsnog geen bewijs, maar dit detective werk werd afgesloten met een bekentenis van J.K. Rowling dat ze het is. De data liegen dus op zich niet. Waarom is het vergelijken van teksten nu zoveel makkelijker? = Wat het die onderzoeker makkelijk maakte was dat er ebooks werden aangeleverd en dat gaat altijd goed. Als je middeleeuwse teksten automatisch in de computer laat zetten zijn er heel veel fouten en die horen niet bij de auteur dus dan ben je alsnog traditioneel bezig door het over te typen of te corrigeren. Het tweede probleem is dat de teksten die je leest niet per se van de auteur zelf zijn. Vroeger waren boeken handgeschreven. Bij het overschrijven van boeken worden fouten gemaakt en je kunt daar voor vrijheid in nemen. Stijlvoorkeur of spelling veranderd als er nog geen standaard voor is wat er toen nog niet was. En er zitten ook dialecten in. Waar het oorspronkelijk vandaan komt wil je een auteursherkenning op doen. Hoe kom je aan auteursherkenning als die teksten zo zijn. Wat is de originele tekst en van wie is die? Want al iets simpels als de gemiddelde woordlengte kan dan verschillen. Wat zou je wel kunnen gebruiken om te achterhalen van wie een middeleeuwse tekst is?= Rijmwoorden. Bijna alle middeleeuwse literatuur is rijm en dat is moeilijk te veranderen. Want aan het eind moet het wel kloppen. Dat geeft een soort hou vast. Ze zijn deels auteursgebonden. Auteurs hebben bij de tweede zin altijd een minder relevante zin om het kloppend te maken en bij bepaalde rijmwoorden een standaard zinnetje. Dus wat is er gedaan: door te kijken naar de rijmwoorden: volgorde, lengte, etc. En dan kun je dat wel gaan doen. Dat betekent dat je kunt gaan abstraheren van teksten en dat je alsnog kan gaan vergelijken. Kunnen alleen professionele schrijvers onderscheiden worden? = Nee, ook minder professionele schrijvers (studenten) kunnen met een vrij grote betrouwbaarheid onderscheiden worden door stijl. Dat kan met Human Stylome. Heb je er ook iets aan om schrijvers te onderscheiden door stijl? = Sommige effecten die Pennebaker noemt zijn wel robuust. Bijvoorbeeld: het ontkracht wel dingen. George Will vindt het arrogant dat Obama veel de eerste persoon gebruikt, maar wat blijkt als je dat echt gaat onderzoeken? Het blijkt dat Obama dat juist het minste doet. En dat is helemaal niet zo verkeerd om te doen, tegen de intuïties van mensen in. Als je vaker het woordje ‘ik’ gebruikt, laat je weten waar jij voor staat en niet waar wij voor staan. Zo zie je maar dat mensen op het verkeerde been kunnen worden gebracht. Zo kun je ook verschillen in schrijfstijl van man en vrouw onderscheiden, al zijn dit gemiddelden en gaat het dus voor 95% van de gevallen niet op. Dat mannen en vrouwen allebei over dingen en sociale contacten praten wil niet zeggen dat je er geen onderzoek naar kunt doen. Vrouwen zouden meer werkwoorden gebruiken. Deze effecten komen er wel uit als je naar het CPN gaat kijken, gesproken taal. Dit zijn significant geweldige verschillen. Wat wel effect heeft is leeftijd. Het idee is dat als we woorden van iemand kennen kunnen we classificeren en kijken of iemand man/vrouw en oud of jong is. Schrijfstijlen van beroepsschrijvers kun je als vrouw mannentaal beschrijven en andersom. Er zijn werken waarin mannen en vrouwen praten als vrouwen of als mannen maar dat hoeft niet te betekenen dat de auteur mannelijk of vrouwelijk was. Dit haal je er niet per se uit als je gaat kijken naar dialogen zonder computer erbij. Je gaat hierbij tellen hoe goed iemand zich kan identificeren met. Tweetgenie.nl was een site die er nu niet meer is waarschijnlijk en die site raadde jouw gender op basis van jouw tweets of of je jong of oud ben. Hoe ouder je wordt, hoe positiever blijkbaar. Vorig jaar is Pechtold hier in gegooid. De site gokte op een man van 41. Het klopt dus wel ongeveer. Wat is twiqs.nl? = Een site die kijkt waar en wanneer er over wat soort worden wordt getweet. Dit is weer een traditionele manier van kijken, want het is gericht op inhoudswoorden. En de site kijkt ook naar of een bericht positief of negatief geladen is. Het is wel lastig om een computer te laten bepalen wat positief en negatief is, want een computer kan niets met sarcasme. Wat kun je concluderend zeggen over woorden als venster? = Je bent hoe je spreekt en schrijft en dat kan tegen je gebruikt worden. Als je anoniem een tekst wil schrijven, ben je niet veilig voor mensen die met een computer woorden kunnen tellen en vergelijken. Zo’n systeem wordt gebruikt in de rechtszaal, maar het is niet sluitend, maar misschien wel met andere bewijzen erbij. Functiewoorden zijn daarbij belangrijk. Ze zeggen niet zoveel over de wereld maar wel over jezelf. Je maakt bij functiewoorden heel veel onbewuste keuzes. Functiewoorden zijn ook heel erg frequent. Frequentie in taal gaat volgens die zipdf functie. Het woord in het midden is niet het woord in het midden van de kansrestributie of zoiets.
Ingezonden op 05-01-2019 - 984x bekeken.
Nog niet genoeg stemmen voor waardering: geef je mening!
voting system
1
2
3
4
5
Maak gratis account aan
Toon volledig menu
Door deze site te gebruiken, ga je akkoord met het gebruik van cookies voor analytische doeleinden, gepersonaliseerde inhoud en advertenties.
Meer informatie.
Overhoor en verbeter je talenkennis op woordjesleren.nl. De grootste verzameling van Franse, Engelse, Duitse en anderstalige oefeningen. Naast talen zijn ook andere vakken beschikbaar, zoals biologie, geschiedenis en aardrijkskunde!