Helaas is de overhoormodule niet beschikbaar. Wel kun je deze lijst overhoren via StudyGo. Klik op 'Overhoren'

Statistiek A+B

13 Hoorcollege 13

Jaar 3 (universiteit)

Wat is de Chi-kwadraat (χ2)-test voor k proporties? = Univariate analyse met een nominale variabele. Een standaardvoorbeeld bij de verkiezingen waarbij aan 160 mensen is gevraagd voor wie ze willen stemmen. F frequentie is een synoniem voor n of O. Dat staat voor mensen die een keuze hebben gemaakt. Wat ons interesseert zijn de proporties. We willen onderzoeken of de proporties van elkaar verschillen. Dat betekent dat we een toetsingsgrootheid moeten doen. Dat is Chi kwadraat. Dat is de toetsingsgrootheid. Dat is de laatste vaste verdeling in de wiskunde. Als je die berekend, kun je vervolgens een p-waarde verkrijgen via SPSS die je vergelijkt met alfa. Of je vergelijk dit met critical value. We zijn nog steeds op zoek bij een univariate analyse of er sprake is van een toevalsverschil of dat er meer is. Ha is altijd dat het niet even groot is en H0 dat het wel even groot is. Als dat zo is, dat de aanhang even groot is en we doen onderzoek bij 160 mensen, dan zou je verwachten dat 80 mensen voor Trump zijn en 80 voor Hillary. Dat noem je de expected frequenties. Dat is wat je verwacht in de kruistabel als H0 waar is. De essentie van Chi kwadraat toetsing is dat wat we hebben geobserveerd gaan vergelijken met de expected frequences. En als dat verschil groot is heb je een … grootheid en ga je H0 verwerpen. Dit zijn de expected frequencies bij gelijke… Je kunt SPSS zelf getallen opgeven. Stel dat 60% voor Trump is en 40% voor Hillary dat je dat verwacht dan kun je die hypothese toetsen met dat je dat in H0 verwacht. Ha is weer een tweezijdige toets dat het niet die verhouding is. Deze manier wordt heel vaak toegepast als de onderzoeker kwaliteit van de steekproef wil.
Hoe gaat de toetsing bij Chi-kwadraat (χ2)-test voor k proporties? = . Voor elke cel gaan we wat we hebben vergelijken met wat je zou verwachten. We hadden geobserveerd: O=112 voor Trump en O=48 voor Clinton. Je zou 80 en 80 verwachten (E). O is wat je hebt geobserveerd. Dat vergelijkt hij met elkaar. Bij Trump is het verschil +32. Bij Clinton is het verschil -32. Als we dat optellen, kom je uit op 0. Dat is altijd zo als je O-E doet. Hoe krijg je dat probleem uit de weg? Gaan kwadrateren. Want je wil O-E, want hoe hoger het verschil is hoe groter de toetsingsgrootheid moet worden, want we willen H0 verwerpen. We willen echt het verschil zien tussen E, wat je zou verwachten en O, wat je geobserveerd hebt. Dan krijg je een mooie maat die groter wordt, naarmate het verschil ook groter wordt. Dit is hoe SPSS het berekent. De essentie is dit. Chi kwadraat verdeling: K-1. K staat voor het aantal categorieën. Dan is de vraag hoe groot de kritische waarde van Chi kwadraat moet zijn. Het verwerpingsgeval van Alfa ligt aan de rechter kant. Hoe groter het verschil tussen O en E hoe groter Chi kwadraat wordt of zoiets. Stel dat we een alfa van 5% hanteren en df=k-1… P bovenin de tabel is alfa. De kolommen… In dit geval is de kritische waarde 3,84. Er is één ding waar je op moet letten en dat is of je de toets wel mag uitvoeren. Dit heeft ook een assumptie op de groepsgrote (zoals bij minimaal 30), maar die wordt op een indirecte manier onderzocht. Op basis van de expected frequenties. Want we willen dat de groep groot genoeg is om bij kleine proporties de toets uit te voeren. Daar is een regel voor: regel van Cochron: de toets werkt goed als bij 80% van de expected frequenties 5 of hoger.
Hoe zit het met de Chi-kwadraat (χ2)-test voor k proporties bij de uitwerking vraag van Trump versus Clinton? = De H0 is dat het zo kan dat ze allemaal een even grote voorkeur hebben. Ha wel verschil in voorkeur. Toetsen met een alfa van 0,05. Wat we eigenlijk afvragen is of die 70%/30% een toevalstreffer is of dat het aanleiding is om de H0 te verwerpen. Je kunt bij de aansturing kiezen tussen verschillende H0’en. Je kunt precies aangeven wat de proporties zijn die je verwacht. Je moet het op de juiste volgorde invullen. Trump is 0 en Clinton 1 dus eerst Trump en dan Clinton. Variabelen naar rechts en dan H0 invoeren. De uitvoer is heel kaal, 2 tabelletjes. Met de derde kolom kun je controleren of de proporties goed zijn ingevoerd. Rechts zien we informatie over de toetsing. Voordat je daar naar kijkt, moet je eerst kijken naar de regels van Cochron. In de praktijk wordt er vaak gekeken naar de regel onder de toetsingstabel, want daar wordt verwezen naar de regel van Conchron. Hier heeft 0 cellen een te lage e of zoiets. En we willen dat maximaal 20% een te lage e heeft. Het is akkoord bij een… Toetsing is altijd tweezijdig. De statistische conclusie is niets anders dan de uitspraak dat H0 wel of niet wordt verworpen. Inhoudelijke conclusie: wat was ook alweer H0? Ook op de toetsing: als er een statistische conclusie wordt gevraagd dan H0 verwerpen of niet en wordt er om een andere conclusie gevraagd, dan in woorden. Met een alfa van 0,05 is de kans 5% dat H0 onterecht wordt verworpen of juist niet.
Hoe kun je de Chi-kwadraat (χ2)-test voor k proporties gebruiken als representativiteitstoets? = Stel je hebt onderzoek gedaan naar mannen en vrouwen en je vindt in jouw steekproef 60% mannen en 40% vrouwen, terwijl je verwacht onder H0 dat de verdeling van mannen en vrouwen 50/50 is. Je kun dan onderzoeken of dit een toevalstreffer is, of dat het echt een steekproef is die afwijkt van de verwachting van 50/50. Je kijkt dan naar de toets als representativiteit van de steekproef.
Wat zijn de problemen met Chi-kwadraat (χ2)-test voor k proporties als representatievteitstoets? = We zijn altijd gericht op falsificeren: In een normale toetsing is bij falsificeren H0 een conservatieve hypothese en die willen we juist verwerpen. In dit geval willen we H0 juist niet verwerpen. Waarom is dat problematisch? Power is de toetsingskracht die in de … zit. Dat is de kracht om H0 te verwerpen als hij echt onjuist is. Power hangt ook af van hoe groot het effect is. Hoe groter het effect is, hoe makkelijker het is om dat aan te tonen in jouw onderzoek. Omdat het effect al groot genoeg is, heeft jouw onderzoek voldoende kracht om H0 te verwerpen. Maar wat als je een klein effect wil aantonen? Dan heb je heel veel informatie nodig. De power van je onderzoek hangt dus af van de effect size en de steekproefomvang. Wat je niet wil hebben is dat je een effect niet vindt, puur omdat je onderzoek niet goed is, bijv. te klein. Je ben er hier bij gebaad om je onderzoek niet goed in te richten als je H0 wil houden. Als je H0 wel wil verwerpen moet je je best doen. Probleem met de representativiteitstoets is dat je H0 dan niet wil verwerpen. Daarom blijft het de vraag of het een goede conclusie is als H0 niet wordt verworpen. Daarom moet je dan de effect size laten zien. De effect size maar is hier Cohen’s W en die bepaal je zelf √(〖Chi〗^2/(N (steekproefomvang)). Of je verwerpt H0 niet omdat je steekproef goed is, of omdat je een slecht onderzoek hebt opgezet. Met effect size kun je laten zien dat het een groot effect was, maar dat je nog steeds H0 niet verwerpt.
Wat is de analyse van de tweeweg tabel (kruistabel)? = De aanhang is nog steeds tussen Trump en Clinton maar nu wordt er ook gekeken naar het verschil tussen mannen en vrouwen. Het wordt dus een bivariate analyse. Geslacht en voorkeur zijn beide nominaal. Kruistabel doe je bij 2 nominale of 1 nominale en 1 ordinale. Kijken naar het effect van geslacht op voorkeur: geslacht  voorkeur. Kijken naar: 1. Aard van het verband. 2. Significant verband. 3. Sterkte/ relevantie van het verband. Als je een kruistabel maakt, kun je de aard zien. Daarvoor moet je wel netjes percenteren naar x. Dus kijk naar waar de x staat. Als die in de kolommen staat, dan moeten de kolomtotalen op 100% uit komen en in de rijen dan moeten de rijen totaal op 100% uitkomen. Als we de frequenties specifiek willen aanduiden in dit geval rij e en kolom 2: Ne=O2. Hoe zou de kruistabel eruit zien als er geen verband is tussen x en y? Als dat zo is zou het niet uitmaken of je man of vrouw bent wat jouw voorkeur is. Als er geen verband is zie je bij mannen en vrouwen steeds dezelfde voorkeur. Je ziet in beide groepen hetzelfde percentage. Als je kijkt of er een verband is, kijk je of de percentages tussen vrouwen en mannen afwijkt. Vuistregel was dat het serieus was als het percentageverschil 5% of meer was. Nu gooien we dat weg en gaan we toetsen.
Hoe toets je de samenhang? = Door de toetsingsgrootheid te bekijken: Chi kwadraat. Die gaan we bekijken om te kijken of er een serieus verschil is. Geen verband wordt ook wel onafhankelijkheid genoemd. H0: er is geen samenhang. Ha: er is wel samenhang. Dat is een tweezijdige toetsing. Chi kwadraat wordt dus weer tweezijdig getoetst en het vergelijken van O en E. Chi kwadraat is in essentie precies hetzelfde. We gaan het vergelijken met als H0 waar is. In dit voorbeeld: we hebben 160 mensen in het onderzoek en we hadden de percentages onder de H0. Dan kun je de percentages helemaal terugrekenen. 70% van de 78% vrouwen zou dan …% vrouw op Trump stemmen of zoiets. Je kunt de percentageg terugrekenen naar de verwachte percentages. Dat doet SPSS. De aard van het verband haal je uit de kruistabel. We waren begonnen met de toetsing of het verband serieus is. We hebben gezien. De geobserveerde frequenties zijn in de tabel verwerkt in en de verwachte ook. PowerPoint. Nu de chi kwadraat toets bekijken. Belangrijk is de achterliggende aanname: hoe sterker het verband is, hoe minder de tabel lijkt op de te verwachte waarden. In sommige cellen zie je dat er te veel mensen zitten. Als sekse en voorkeur niet samenhangen zou je hier 55 verwachten, maar het zijn er hier 60. Het is dus positief. Bij mannen is het negatief, want het getal is lager dan de te verwachte score. Ook hier gaan we kwadrateren. De essentie blijft overeind. Wat hebben we en wat zouden we hebben. Hoe sterker het verband is, hoe groter de waarde van Chi kwadraat.
Hoe gaat de Chi kwadraat-test voor onafhankelijkheid? = Aantal rijen – 1 keer het aantal kolommen -1. Dat laten we SPSS allemaal doen. Het berekenen van chi kwadraat en de te verwachte waarden. Stel dat het significant is, dan willen we weten of het verband sterk of zwak is en relevantie over effect size. De maat hiervoor is Cramers V. Hier hebben we het volledige stappenplan. De kruistabelanalyse: Analyse  Descriptive statistics  crosstabs. De kruistabel opbouwen. Het is gebruikelijk om de x-variabele in de kolommen te zetten en de y in de rijen. Dan gaan we onze dingetjes aanvinken. Je moet de tabel percenteren. Dat doe je bij cel. Percenteren naar x en die staat in de kolommen dus percenteren naar kolommen. Je kunt de verwachte waarden ook opzoeken. Dan de maten waarmee je wil meten. De eerste kruistabel is de gepercenteerde kruistabel. Die gebruik je om de aard van het verband aan te halen. Onderaan vind je Cramer’s V. De eerste kernvraag: aard van het verband halen we uit de bovenste tabel. De verdelingen zijn niet gelijk.
Hoe gaat de toetsing bij de Chi kwadraat test voor onafhankelijkheid? = Is het significant? Ook hier moet je controleren of er aan de regels van Cochran is voldaan. Is de steekproef omvang groot genoeg om het onderzoek te vertrouwen? Nul procent heeft een lage expected frequentie, dus dan kun je gewoon doorgaan. De gevonden waarde van de Chi kwadraat vergelijken met de kritische grens. Of met P. Als we H0 verwerpen is er waarschijnlijk wel samenhang. Als er een verband is kun je percentages vergelijken. Hoe sterk is het verband kun je kijken met de Cramers V. Dit is een maat voor de sterkte van het verband. Hoe sterker het verband hoe groter de Chi kwadraat. Toch is de Chi kwadraat geen goede toetsingsmaat hiervoor, want het ligt niet tussen twee dingen in en er zijn geen vuistregels. De chi kwadraat is niet begrenst. Stel we hebben geen 2×2 tabel, maar een 3×3 tabel. Je hebt dan vrouw man en gender neutraal en Trump Clinton en de derde. In dat geval ga je in die 9 cellen kwadrateren en optellen in de chi kwadraat. Daar wordt die Chi kwadraat alleen maar groter en groter van. Het eerste probleem is dat die dus niet begrenst is. Ten tweede hangt de Chi kwadraat ook af van de steekproefomvang en onderzoekssetting. Cramers V heeft een oplossing bedacht. De kritiek is van Chi is dat het afhangt van setting en dat het onbegrensd is. Cramers V zegt reken uit wat Chi kwadraat is en wat Chi kwadraat had kunnen zijn. Dan krijg je: Cramers V= √((gevonden Chi kwadraat)/(maximaal te behalen Chi kwadraat))=Hoeveel procent van de max⁡〖heb je gehaald? 〗 Dus als je een super sterk verband hebt gevonden, dan komt de Cramers V richting de 1, ofwel richting de 100%. Dat betekent dat Cramer’s V tussen de 0 en de 1 ligt. Dan kunnen we dus regels toepassen. V = 0 komt alleen voor als alle cellen tussen de verschillende groepen identiek zijn. Er dus geen verband. Alles is zoals H0. V = 1 betekent een statistisch perfect verband. Dat betekent als ik jouw score weet op x, dan weet ik meteen jouw score op y. Bijvoorbeeld alle mannen of vrouwen voor Clinton of Trump. Statistische perfectie, want als je sekse weet, weet je stemgedrag. In het voorbeeld zijn de tabellen inhoudelijk wel het tegenovergestelde, want in de ene stemmen de vrouwen voor Clinton en in de 2e de mannen. Cramers V kijkt ook alleen maar naar de sterkte en niet naar de inhoud.
Wat als Cochran wordt geschonden? = Dan mag je niet de chi-kwadraat toets doen.
Waar liggen H0 en Ha altijd bij de Cramer’s V? = Ha bij deze toetsing is V›0 V ligt altijd tussen 0 en 1. H0: V=0. Dit lijkt een eenzijdige toets, maar dit is een tweezijdige toets. Want als er samenhang is, maakt het niet uit welke kant het op gaat. Cramers V gaat altijd omhoog.
Hoe gaat het bij een bivariate samenhang tussen twee ordinale variabelen? = Dus x en y zijn ordinaal. Dan krijg je het stappenplan: 1. Kijken naar de aard. 2. Kijken naar de significantie. 3. Kijken sterkte/relevantie. RS: correlatie en spearman. Spearman gaat mensen rangordenen. Stel je hebt mensen in je onderzoek A, B, C en D en die hebben een bepaalde score behaald. En daarbij horen 1, 10, 8, 3. Spearman gaat de mensen op volgorde zetten van laag naar hoog. Degene met de slechtste score wordt dus nummer 1. Dan krijg je de volgorde 1,3,4,2. Bij een tweede toets kan het zijn dat mensen dezelfde scores halen. Dan krijg je een knoop, in het Engels Ty. Dan krijgen ze allebei het gemiddelde. Stel dat de scores 1, 10, 8, 8 zijn, dan wordt dat 1, 2,5 , 2,5 , 4. Scores op x worden gerangordend en scores op y ook en spearman vergelijkt die rangordes. Als je een perfect synchroon lopende rangorde hebt dan heb je +1. Perfectie zie je in 1. Positief zie je in +. Als ze elkaars perfecte tegengestelden zijn, zie je -1. Als de een omhoog gaat, gaat de ander ook omhoog: statistisch positief: +. Als de een omhoog gaat, gaat de ander omlaag: statistisch negatief: -. Als er geen verband is heb je de waarde 0. De getalswaarde, ongeacht het teken, dus alleen het cijfer, zegt iets over de sterkte. Het teken, de + of – zegt iets over de aard. De toetsingsgrootheid die je voor spearman gaat gebruiken is t, de t-toets: Toetsingsgrootheid of zoiets.
Hoe gaat het toetsen van de rangcorrelatie? = We zijn de spearmancorrelatie in de populatie aan het toetsen. Vrijheidsgraden is hier n-2. Steekproefomvang – 2. Als er niet aan de steekproefomvang wordt voldaan kun je een andere toets gebruiken.
Waar vindt je de spearmancorrelatie? = analyse  correlare  en bivariant. Dit is alleen bij twee kwantitatieve variabelen. De andere manier is Analyze à Descriptive Statistics àCrosstabs à Statistics à Correlations. Een van de twee is de enige module waarbij je kan zeggen dat je eenzijdig wil toetsen. Als je dan tweezijdig wil kijken, moet je de overschrijdingskans × 2 doen.
Hoe krijg je de uitvoer van alle stappen? = Dat staat onder crosstabs. Descriptive statistics  crosstabs. X in de rijen en y in de kolommen. Spearman is een symmetrische maat, dus het maakt hiervoor niet uit wat in de rijen of in de kolommen staat. Spearman vindt je onder statistics en dat vindt je bij correlations. Als je daar vinkjes hebt, klik je spear aan of zoiets. Nu mag je wel vinkje zetten. Je kan zeggen dat je de kruistabel niet wil in de uitvoer. In de tabel zie je spearman. In de 1 na laatste rij/kolom? Zie je t? En helemaal op het eind heb je P. Dat is een eenzijdige overschrijdingskans, want dat kon je aanvinken. Als je eenzijdig toetst en je wil tweezijdig hebben, dan moet je die sig ×2 doen. SPSS berekent dit allemaal. Er is wel een bepaalde formule, maar die hoef je niet te hebben. Je moet weten hoe je de toetswaarde t eruit krijgt en de t-tabel. Vrijheidsgraden zijn hier n-2. Elke toets heeft eigen formules. De exacte toets of zoiets, of een andere gebruik je als er niet aan de eis van steekproefomvang is voldaan.

Ingezonden op 01-06-2019 - 1236x bekeken.
Nog niet genoeg stemmen voor waardering: geef je mening!

voting system
1
2
3
4
5

Vakken

Statistiek A+B

13 Hoorcollege 13