Helaas is de overhoormodule niet beschikbaar. Wel kun je deze lijst overhoren via StudyGo. Klik op 'Overhoren'

DiagnostiekenAssessment, deel 3

6 HC 6

Jaar 3 (universiteit)

Assessment toetsen in het onderwijs , stappenplan = 1. Construct (bijv. rekenvaardigheid ) 2. Toets (bijv cito lvs rekenen) 3. Toetsafname 4. Bereken toetsscores 5. Interpreteer de toetsscores (bijv scoort een 7, dit drukt uit hoe rekenvaardig je bent )
Niet oserveerbaar gedrag EN observeerbaar gedrag.. beinvloeding? = psychologisch construct is onobserveerbaar (bijv rekenvaardigheid)… DAAROM maken we er observeerbaar gedrag van , in dit geval een antwoord laten geven op sommen. Het observeerbare gedrag vertelt dus iets over het onbovserveerbare. Respons zou rekenvaardighedi moeten voorspellen. Observeerbare voorspelt onobserveerbare
Observeerbaar gedrag is op te splitsen in = TOEVALSFACTOREN (ziek bij toevalsfactoren ) en SYSTEMATISCHE FACTOREN (niet alleen rekenvaardigheid maar ook taalvaardigheid van invloed )
Ruwe testscore = bijv een 7 op rekentoets. Zegt niet zoveel! De betekenis hiervan is onduidelijk , het wordt vormgegeven door praktische aspecten (Vd hoeveel items bijv) en door referentiekader (waarmee vergelijken we )
Manieren van ruwe scores vergelijken = je kan vergelijken met normgroep / absolute norm (bijv 6 goed om te slagen ) het is lastig want waar leg je de grens
Absolute norm = bijv 6 goed om te slagen ) het is lastig want waar leg je de grens
Betrouwbaarheid en validiteit toetsscore hangen af van = kwaliteit individuele items
Moeilijkheidsgraad (item difficulty) = aantal correct van de hoeveelheid?! Bijv 80 procent goed
Onderscheidend vermogen (item discriminatiion) (D index ) = discriminatie-index , Door de sterke ook echt goed wordt gemaakt en door de zwakke ook echt slecht , dus dat het item goed discrimineert ! en dat wil je ook. Pt (de gene die de test doen in de hoogste groep met het correcte antwoord) pb is mensen uit de laagste groep die het antwoord goed hadden. Stel van de slimste 10 goed en domste 2 dan 10 – 2 en dat is dan 8 je D index. ..maar eigenlijk met kommagetallen!!verschil tussen Pt en Pb ..je wilt dit hoog hebben, want dan verschilt dit goed over onderlinge verschillen. Want je wilt weten wie relatief zwak of sterk is (bij 0 zegt dit dus eigenlijk niets over sterk of zwak)
2 belangrijkste kwaliteitsindicatoren van een item = moeilijkheidsgraad/ onderscheidend vermogen
R it ( item-totaal correlatie ) hoe wil je die graag hebben, hoog of laag = je wilt hem hoog hebben want dat betekent een hoog cijfer dat ze ook goed kunnen rekenen
Mean= proportie, dus de proporsie correct. Is p 0,81 is het dus 81 procent goed DUS HOEVEEL JE GOED HEBT… daaraan kan je zien hoe moeilijk het was!! Bij bijv een 0,25 is deze vraag lastiger geweest dan bij 0,81
Chronach’s alfpha = over hoe betrouwbaar de schaal is
Corrected item -total correlation = correlatie tussen dat item en het totaal van alle andere items, maar dan wel dat éne item weggehaald!! (zonder corrected is die er niet uitgehaald ) geeft aan hoe de moeilijkheid is dus bijv een 0,035 is dus erg moeilijk en een 0,4 is dus makkelijker!
KTT (klassieke testtheorie) zijn = steekproefafhankelijk . de betrouwbaarheid kan bijv in groep 8 hoog zijn maar als je het aan een groep studenten voorlegt opeens heel erg laag. Alles wat je mooi vond kukelt in elkaar in een andere populatie
Alternatief voor klassieke aanpak = Omdat klassiek steekproefafhankelijk was is een alternatief de ITEM-RESPONS-THEORIE (IRT) Hier liggen niet alleen de mensen/leerlingen op de schaal maar ook de items !! dus bijv een schaal van lage vaardigheid naar hoge vaardigheid. Zowel de antwoorden van de leerlingen worden geschaald en de daarbij behorende leerlingen. Zo kan je het makkelijker uitelkaar houden ook
IRT (Item-Respons-Theorie) , respons van een persoon op item wordt bepaald door = 1. Kenmerken van de persoon (vaardigheid, ongeobserveerd) 2. Kenmerken van het item (moeilijkheidsgraad, hoe hoger hoe onwaarschijnlijkheid het juiste antwoord, en het discriminerend vermogen, hoe hoger hoe sterker het verband tussen vaardigehid en kans op een correct antwoord)
Discriminerend vermogen op de IRT = hoe hoger hoe sterker het verband tussen vaardigheid en kans op een correct antwoord (dit kan ook negatief zijn, dan goede llen maken fout en slechte leerlingen maken goed )
Moeilijkheidsgraad b = (vaardigheidsniveau dat nodig is voor 50 procent kans op correct antwoord )
Één parameter-model = slechts 1 itemkenmerk is relevant , MOEILIJKHEIDSGRAAD b. … hoe hoger b, hoe moeilijker het item (hoe vaardiger je wordt hoe groter de kans dat je de vraag van item goed hebt, de curve is de kans dat je m goed hebt
Moeilijkheidsgraad b is hier-1,03 en -,021 welkeis het moeilijkste item? = die van -0,021. Want hoe hoger b hoe moeilijker het item !!
Twee-Parameter model = nu zijn 2 itemkenmerken relevant 1. Moeilijkheidsgraad b (vaardigheidsniveau dat nodig is voor 50 procent kans op correct antwoord ) 2. Discriminantieparameter a (dit is de snelst stijgende lijn) Het stijlste punt is waar p is 0,50, dus op moeilijkheidsgraad van het item. Trek en lijn van het stijlste punt naar beneden, waar raakt ie? Daar is het discriminantieparameter a het antwoord)
Voordelen van IRT (Item-Respons-Theorie)= Item kenmerken (b en a) zijn NIET steekproefafhankelijk / daardoor zijn er beter vergelijkingen te maken tussen groepen / vaardigheidsscores zijn van interval-meetniveaus / betrouwbaarheid/meetfout afhankelijk van vaardigheidsniveau
Specifieke toepassingen van IRT (Item-Respons-Theorie) = - CAT (computerized adaptive testing ) / Item-bias / equivaleren van toetsversies
CAT (computergestuurd adaptief testen) = toetsen op maat! (van de WIScat) Het selecteert een item / kind geeft antwoord op item/ scoort op antwoord goed of fout/ herschatting van vaardigehidsscores en nauwkeurigheid en selecteert dan een ander soort item ! Gaat dus mee op niveau!
Equivaleren = student maakt voor Diagnostiek een tentamen en herkansing, zijn de cijfers wel vergelijkbaar? / CRUX (scheiden moeilijkheid toets en vaardigheid studenten) / afnamedesign is heeft een gezamenlijke vaardigheidsschaal
Item bias (Differential item functioning )= gerelateerd aan validiteit (is het construct dat de test meet gelijk voor bijv mannen en vrouwen) (gedraagt een item zich hetzelfde voor een man en een vrouw met dezelfde ware score) Heeft EEN ITEM DEZEFLDE ITEMPARAMETERS VOOR VERSCHILLENDE GROEPEN?
Belangrijk om te onthouden over de item-respons-theorie = heeft substantiële voordelen boven klassieke aanpak item-(en toets)analyse / maar is geen ook geen wondermiddel!!
Functies van onderwijstoetsen = 1. Intake en selectie 2. Plaatsing 3. Voorgangscontrole 4. Bepaling leerpotentieel 5. Diagnostiek 6. Verbetering leerproces 7. Certificering
Summatief (gebruik) (onderwijs) = assessment OF learning
Formatief (gebruik) (onderwijs) = assessment FOR learning. Gebruik inzicht in het huidige niveau van de leerling / om instructie aan te passen en daarmee grotere leeropbrengsten te bewerkstelligen
Waarom toetst CITO leerlingen? = biedt scholen een concreet hulpmiddel met toetsen om het onderwijs optimaal op de leerling af te stemmen en de kwaliteit van het onderwijs te verbeteren . toetsen geven info over wat leerlingen geleerd hebben en daarmee over het aangeboden onderwijs . op basis van deze info kunnen ze ( vastellen van niveau van de leerlingen/ identificeren, analyseren van hiaten in lesstof / bepalen zone van naaste ontwikkeling / bewaken onderwijskwaliteit/ LEREN STIMULEREN )
Cito’s volgsysteem = 1. Systematisch volgen leervorderingen (toets 2 x per jaar, rapportage kleuters en groep 3 tm 8) 2. Domeinen (kleuters taal en rekenen voor groep 3-8 alles, studievaardigheden, begrijpend lezen, rekenen etc )
Vaardigheidsscore = toetsafhankelijk
Ruwe score = aantal items correct op bepaalde toets
Niveauindelingen CITO = A-E en 1 tm 5
Na de cito’s wat dan? = 1. Signalering 2. Analyse (aanvullende info./overleg/Plan ) 3. Handelen
Politieke en maatschappelijke ontwikkelingen = 1. Wet referentieniveaus taal en rekenen (verplichte eindtoets in het BO en VO) 2. Opbrengstgerichtwerken (doelen stellen, uitvoeren, meten en bijstellen en accountability/toegevoegde waarde )

Ingezonden op 29-03-2017 - 584x bekeken.
Nog niet genoeg stemmen voor waardering: geef je mening!

voting system
1
2
3
4
5

Vakken

DiagnostiekenAssessment, deel 3

6 HC 6