Seminar 4 – Oppgaver

Du skal bruke datasettet wvs_us17.csv og lineær regresjon for å undersøke relasjonen mellom avhengig (AV) og uavhengig (UV) variabel. Datasettet er en survey gjennomført i USA i 2017 for World Value Survey. Individer svarer på surveyen. Tilsvarende surveyer er gjort for mange andre land og år (se World Value survey sine nettsider for mer informasjon), men i dag bruker vi et datasett som bare inneholder observasjonene fra USA i 2017.

Datasettet inneholder følgende variabler:

Variabel Beskkrivelse
country Land surveyen ble gjennomført i
year Året surveyen ble gjennomført
age Alder i år
gender 1 = Male, 2 = Female
corruption How would you place your views on corruption in your country on a 10-point scale where “1” means “there is no corruption in my country” and “10” means “there is abundant corruption in my country”. If your views are somewhat mixed, choose the appropriate number in between.
imp_democracy How important is it for you to live in a country that is governed democratically? On this scale where 1 means it is “not at all important” and 10 means “absolutely important” what position would you choose?
income_group On this card is an income scale on which 1 indicates the lowest income group and 10 the highest income group in your country. We would like to know in what group your household is. Please, specify the appropriate number, counting all wages, salaries, pensions and other incomes that come in.

Oppgaver

  1. Last inn datasettet wvs_us17.csv. Du kan finne det her. Oppgi antall enheter og variabler i datasettet.

  2. Finn navn på variablene i datasettet.

  3. Opprett en nytt datasett med kun variablene imp_democracy, age og income_group Sjekk at klassen til variablene er numeric.

  4. Vis hvordan du fjerner enheter som mangler opplysninger fra datasettet. Oppgi antall enheter i datasettet etter at du har fjernet enhetene.

  5. Lag et arealplot med age på x-aksen og lag ett panel pr verdi på imp_democracy (facet_wrap())

  6. Kjør en bivariat korrelasjon mellom imp_democracy og age.

  7. Tolk korrelasjonen og sjekk om den er signifikant

  8. Lag et plott med observerte verdier av imp_democracy på y-aksen og observerte verdier av age på x-aksen.

  9. Lag en bivariat regresjon med imp_democracy som avhengig variabel og age som uavhengig variabel.

  10. Vis resultatene fra modellen og tolk koeffisienten for age substansielt.

Løsningsforslag

Code
# Pakker 
library(tidyverse)

# Oppgave 1
wvs <- read.csv("https://raw.githubusercontent.com/martigso/STV1020/gh-pages/data/wvs_us17.csv")

# Oppgave 2
names(wvs)

# Oppgave 3

wvs_sub <- wvs %>% 
  select(imp_democracy, age, income_group)

glimpse(wvs_sub)
# Alle er heltall (<int>)

# Oppgave 4
foer <- nrow(wvs_sub)

wvs_sub <- wvs_sub %>% drop_na()

etter <- nrow(wvs_sub)

foer - etter

# 81 enheter ble fjernet


# Oppgave 5

ggplot(wvs_sub, aes(x = age)) +
  geom_density() +
  facet_wrap(~ imp_democracy)

# Det kan se ut som yngre gir lavere skåre på imp_democracy

# Oppgave 6

cor(wvs_sub$imp_democracy, wvs_sub$age)

# Oppgave 7

cor.test(wvs_sub$imp_democracy, wvs_sub$age)

# Sammenhengen mellom de 2 variablene er relativt høy og positiv
# dvs at man kan forvente at dess eldre man er, dess mer viktig
# mener man demokrati er.

# Oppgave 8

ggplot(wvs_sub, aes(x = age, y = imp_democracy)) +
  geom_point() +
  scale_y_continuous(breaks = seq(0, 10, 1))
# Her ser vi tydelig at imp_democracy er kategorisk

# Oppgave 9

dem_reg <- lm(imp_democracy ~ age, data = wvs_sub)

# Oppgave 10

summary(dem_reg)

# Konstantledd: forventet skåre på imp_democracy når alder er 0, er 6.72
# age: for hver enhets økning på alder (1 år), forventer vi at skåren til
#      imp_democracy øker med 0.03. Altså vil man forvente at en person på
#      20 år svarer ca 7.32 på imp_democracy (6.72 + (0.03 * 20)), mens en
#      person på 70 år vil ha en forventet skåre på 8.82 (6.72 + (0.03 * 70))
# Sammenhengen er også signifikant på mindre enn 0.001-nivå