Vakken
Engels
Frans
Duits
Spaans
Nederlands
Grieks
Portugees
Italiaans
Latijn
Japans
Biologie
Aardrijkskunde
Natuur- en scheikunde
Wiskunde, rekenen
Economie
Geschiedenis
Eigen methodes
Alle vakken
Home
›
Alle vakken
›
Eigen methodes
›
Methoden van onderzoek B
› 5 College 5
Helaas is de overhoormodule niet beschikbaar. Wel kun je deze lijst overhoren via StudyGo. Klik op 'Overhoren'
Methoden van onderzoek B
5 College 5
Jaar 3 (universiteit)
Link voor email / website
Link naar overhoring, zonder bewerk/reactiemogelijkheid (ELO)
Open met deze code de oefening in miniTeach
Twitter
Facebook
Google+
LinkedIn
Wat zijn big data? = Data zijn allerlei gegevens de we kunnen analyseren de laatste tijd. We hebben 1 exabite geproduceerd en tegenwoordig produceren we 5 exabite in 2 dagen. Je beweging genereert al data die je kan analyseren. Wat zijn de trends in het digitale landschap? = Je kunt overal technologie bouwen. Daar zitten processen en sensoren in. Sensoren voelen dingen waar technologie mee waarneemt. Deze dingen meten van alles van mensen. Die dingen kunnen ook communiceren met elkaar en krijgen steeds meer opslagruimte. Dataficatie: niet dat alles digitaal wordt. In het verleden werden teksten als plaatjes opgeslagen. Tegenwoordig alle woorden apart waardoor google alles kan doorzoeken. Het kan betekenis krijgen. En dat is dus niet zomaar dat alles digitaal wordt, maar dataficatie. Wat is dataficatie? = Surveillancedata, Sensoren, Digitale apparaten, data primaire doel, data als bijproduct, Scandata en Interactiedata worden geautomatiseerd. Interactiedata: bij cookies op de website. Dit zijn allemaal geen gegevens die je bewust en vrijwillig geeft. Vrijwillig: nieuwe apparaten, sociometer, crowdsourcing, zoals wikipedia waar iedereen informatie in zet en dan ontstaat er een encyclopedie. Sociometer meet ook gesprekken: dit zijn allemaal vormen van technologie die analyseerbare date oplevert. Wat zijn kenmerken van big data? = 1. Volume: veel 2. Velocity: snel 3. Variety: gevarieerd 4. Veracity: niet altijd betrouwbaar. Alles wat er is verzamel je gewoon: exhaustivity: streven naar N is all. Resolution: steeds gedetailleerder (bijv. satellietbeelden). Het wordt steeds preciezer. Relationality: datasets onderling te verbinden, koppelen. Je kun data van mensen koppelen en heel veel over hen leren doordat je informatie bij elkaar haalt. Flexibility/Scalability: makkelijk uit te breiden of op te schalen. Wat is de doorloopsnelheid (snel: velocity) van big data? = Soms wil je meteen iets met data doen anders is het al verouderd. Bijv. bij de beurs of analyse van creditcard transacties. Er zijn ook technieken die een verdacht patroon zien. Online gaming en e-promotie waarbij slimme algoritmes weten of jij ergens in geïnteresseerd bent. Zorg: er bestaat allerlei apperatuur waarmee je menselijke lichaamsfuncties kunt meten en als dat mis gaat, moet je het snel weten. Wat is de gevarieerdheid (variety) van big data? = Verschillen in format, type, structuur , Tekst, getallen, plaatjes, foto’s, audio, video, reeksen, tijdreeksgegevens, social media data, etc… Statisch vs. streaming data. Big data programma’s/ technieken kunnen daar goed mee om gaan. Wat is de onzekerheid (veracity) van big data? = Er is geen betrouwbaarheid. Bij 1 vragenlijst valt aantal fouten mee, maar bij Big Data zijn er heel veel fouten. Op twitter veel spelfouten en ander gedrag etc. Maar dat maakt voor Big Data niet uit, want er zo veel data dat als je uitzoemt je wel met die individuele fouten om kan gaan. Dat betekent wel dat je anders tegen die datasets aan kijkt en je nieuwe technieken en waardigheden nodig hebt. Wat is signaal en wat is ruis, dat weet je niet van te voren. Bij Big data heb je niet van te voren een doel. Je verzamelt maar data, omdat het er is. Wat is preresistration? = Van te voren hypothesen vastleggen zodat je niet beschuldigd kan worden van dat je iets anders wilde vinden, maar toch een ander artikel bent gaan schrijven. Dit is heel anders dan Big Data. Wat zijn de toepassingen van Big Data? = 1. Commercieel: verzamelen van gegevens van klanten en daar iets mee doen. Marketing. Optimaliseren van bedrijfsmatige processen. 2. Niet-commercieel: bijv. CBS, sport, Radboud: big data voor analyse naar parkinson. 3. Sociale wetenschappen: hobbelen er een beetje achteraan. Niet echt een traditie. Uitzondering is het MIT apparaatje om in kaart te brengen wie met wie spreekt. Social media onderzoek doen ze ook. Waarvoor wordt Big Data gebruikt bij CBS? = Verkeerslusdata ~ 100 miljoen records / dag (in totaal 9 miljard records), Mobiele telefoon data ~36 miljoen records / dag (in totaal 500 miljoen records), Sociale media berichten ~3 miljoen records / dag (in totaal › 3 miljard records), Volkstellingen o.b.v. koppeling administratieve bronnen en enquêtegegevens. Verkeerslusdata: Elke minuut (24/7) worden het aantal passerende voertuigen geteld door ruim 20.000 ‘lussen’ in Nederland. Totaal en verschillende lengtecategorieën. Mooie databron voor de Verkeer en Vervoerstatistieken van het CBS (verkeersindexcijfers). Heel veel data, zo’n 100 miljoen records per dag. Virtuele volkstelling: Heeft een belangrijke rol gespeeld in de geschiedenis. Is verplicht en wordt door de hele geschiedenis gedaan. Eerst moest iedereen een kaart in vullen zodat ze wisten wie waar woont. Later kwamen ze er achter dat dat ook via steekproef kan. Door Big Data is steekproef niet meer nodig. Hoe wordt Big Data gebruikt bij mobiele telefoon data? = Meetinstrument: Vragenlijsten (app, sms, browser), Locatie (GPS). GPS-data: Verplaatsingsgedrag (“dag”-populatie), Toerisme (nieuwe aanmeldingen op netwerk), Mensenmassa’s (bijv. bij evenementen). Wat doet Big Data met social media? = Data van twitter en flikker is geanlyseerd. Rood is flikker en blauw is twitter en wit allebei. Veel in Nederland en ook Europa en VS. Big Data kan analyseren waar mensen over praten op twitter. Dat kunnen we analyseren omdat gegevens aanwezig zijn en ook omdat technieken aanwezig zijn. Wat is sentiment analyse? = Computers kunnen teksten analyseren en daaruit begrijpen of het meer positief of negatief geladen is. Natuurlijke taalverwerking is een deelgebied van kunstmatige intelligentie. Google vertalen of sirie op telefoon heeft dat ook. Dit is de techniek die tegenwoordig heel veel gebruikt wordt bij de analyse van tekstuele data. Wat is sentiment indicator? = Een grafiek (op de powerpoint) waar ze sentiment uit sociale media gehaald hebben. Hoe hoger de piek hoe positiever de teksten. Dat hebben ze vergeleken met andere data: consumenten vertrouwen. Die lijn is ongeveer hetzelfde. Dat biedt heel veel mogelijkheden. Wat is de feel-o-meter? = Die smiley veranderde aan de hand van positieve of negatieve berichten die mensen in die stad verstuurden. Is er met Big Data een paradigmavernieuwing? = Veranderingen in Big Data onderzoek. Is het echt anders? Ja. Vervangt het onderzoek zoals het nu gaat? Vervangt het de theorie? Nee, dat zal niet verdwijnen denken sommigen. Anderen denken van wel. More: “Sampling is an outgrowth of an era of information-processing constraints, when people were measuring the world but lacked the tools to analyze what they collected. The concept […] no longer makes as much sense when we can harnass large amounts of data.” M-S&C, p.26. Steekproeven heb je niet meer nodig, want je kunt heel veel data verzamelen. Zouden we dan niet meer met steekproef kunnen werken? Daar zitten wel wat kanttekenignen bij. Je hebt niet alle data dus ook een steekproef en misschien scheef getrokken. Messy: “The obsession with exactness is an artefact of the information-deprived analog data era. When data was sparse, every data point was critical, and thus great care was taken to avoid letting any point bias the analysis”. M-S&C, p.40. Je mag bij steekproef geen fouten maken, maar met Big Data wel. De kans dat het niet representatief is, is veel kleiner en houten zijn minder erg. Daarom mag je meer fouten maken. Het mag meer vervuilend zijn. En dat is Big Data per definitie: vervuild. Die data zijn niet bedoeld om te analyseren. Is het waarom belangrijk bij Big Data? = Nee. In traditioneel onderzoek proberen ze causaal verband vast te leggen. Bij Big Data zien ze correlatie maar ze geven niets om causaliteit. In grote databases zie je dat dingen samenhangen en je weet niet waarom, maar het is wel van belang. Dat is een verschuiving van statistiek naar datascience. Hoe kan communicatiewetenschap gebruik maken van big data? = Sociale wetenschappen lopen een beetje achter, maar het komt op. Op sociale media kun je makkelijk aan berichten komen. Veel mensen zeggen dat het een afspiegeling is van het gewone leven. Als het gaat om echt experimenten, hebben ze ook interessante dingen gedaan. Heeft bepaald bericht invloed op kiesgedrag. Ander onderzoek hadden ze tijdlijn gemanipuleerd: de een meer positief en de ander meer negatief. En die emoties bleken besmettelijk te zijn. Wat zijn aandachtspunten van Big Data onderzoek? = Gaat het al het onderzoek vervangen? Er zijn toch wel redenen om het niet te willen. Er is van alles en vaak gaan onderzoekers steeds meer doen, omdat het aanwezig is. Misschien is het toch niet representatief voor de hele wereld. Hoe werkt Big Data met een steekproeftrekking? = Bij een steekproeftrekking ha je in een aantal stappen van theoretische populatie naar waarnemingseenheden. En in elk van die stappen kunnen fouten geïntroduceerd worden. Op twitter delen mensen ander soort berichten dan op facebook. Meestal is het ook geen netjes verdeelde kanssteekproef bij Big Data. Sommigen zeggen dat social media representatief is, maar mensen delen toch ander soort dingen. Bij twitter is nog maar een klein percentage gratis te analyseren en je kan bericht manipuleren zodat het niet gevonden wordt. Als je data verzamelt op social media moet je er heel veel fouten uit halen, dingen aanvullen. Elk van die stappen kunnen weer biases (ruis) introduceren. Interpretatie: Voor welke populatie heb je gegevens verzameld. Hoe ga je generaliseren. Iets wat van een account af komt, hoeft niet van die gebruiker te komen. Bij likes zie je alleen wat er wel is. Niet wat er niet is. Je ziet niet de likes die mensen niet geven. De een kijkt er nauwelijks naar en de ander om de 5 minuten. Dat soort achterliggende processen meet je niet. Is Big Data wel nodig? = Meer data is wel meer representatief. Bij Big Data willen ze op individuen doen, bijv. advertenties dan zijn er grote aantallen nodig. Maar als je een gemiddelde wil nemen of zoiets of meer wil uitzoemen naar de maatschappij, dan is het niet nodig. Wat kun je zeggen over de validiteit bij Big Data? = Het is data gestuurd in plaats van theorie gestuurd. Misschien gedragen mensen zich anders online. Waarom proxy’s voorspellende waarden hebben, weten we niet. Je gebruikt data die niet bedoeld was om te analyseren. Samenwerken met derden is soms nog een issue. Er zijn dus nog heel veel procedures nodig om validiteit te onderbouwen. Big Data staat nog in de kinderschoenen. Wat kun je zeggen over de betrouwbaarheid van Big Data? = Computers zijn over het algemeen heel precies: weinig fouten, maar doordat het een ingewikkeld proces is, kun je het niet nadoen: repliceren en dat vonden we belangrijk. En het analyseren heeft minder diepgang. Transparantie: het zijn black boxes: we hebben geen idee hoe ze tot uitspraken komen. We weten wat, maar niet waarom. Hoe werkt de analyse bij Big Data? = Traditionele aanpak schiet te kort. Bijna alles is significant door de grote steekproef en misschien wel onterecht. Aandacht voor visualisatie: zo veel data dat het in een plaatje wordt gezet, anders kun je het niet zien. Hoe werkt privacy bij Big Data? = Dat je gegevens kan verzamelen, wil niet zeggen dat dat moet. Iemand maakte foto’s van willekeurige mensen en zette ze in algoritme die die mensen online kan vinden. Bij de meesten lukte dat. We hebben dus nieuwe richtlijnen nodig. Wat voor experiment had Facebook met Big Data gedaan? = Bij de helft van de mensen positieve berichten en bij de helft negatieve berichten. Mensen waren hierdoor niet blij waardoor facebook negatief in het nieuws kwam. Wat is het nadeel van Big Data waarbij je foto’s op google kan uploaden en dat google dan ziet wat er op de foto te zien is? = Er zitten vooroordelen in die hij gebruikt heeft om te leren en nu toepast. Ook hier is wat, maar niet waarom. Van een tekening van een kind snapt het systeem niets. Het is heel competent, maar begrijpt niet zoals wij het begrijpen. Het herkent een kat, maar niet vanwege de vacht, klauwen en vier poten. Dat willen ze nog bereiken dat zo’n systeem dat leert te begrijpen.
Ingezonden op 24-03-2019 - 480x bekeken.
Nog niet genoeg stemmen voor waardering: geef je mening!
voting system
1
2
3
4
5
Maak gratis account aan
Toon volledig menu
Door deze site te gebruiken, ga je akkoord met het gebruik van cookies voor analytische doeleinden, gepersonaliseerde inhoud en advertenties.
Meer informatie.
Overhoor en verbeter je talenkennis op woordjesleren.nl. De grootste verzameling van Franse, Engelse, Duitse en anderstalige oefeningen. Naast talen zijn ook andere vakken beschikbaar, zoals biologie, geschiedenis en aardrijkskunde!