Probeklausur

The flashcards below were created by user huatieulans on FreezingBlue Flashcards.

  1. Erstellen Sie zwei Vektoren tl und tj, welche jeweils die Temperaturen in London sowie Jakarta [2]
    enthalten. Nehmen Sie an, dass beide Variablen normalverteilt sind.
    • #b)
    • tl<-daten$temperatur[daten$stadt==1]
    • tj<-daten$temperatur[daten$stadt==2]
  2. Im Folgenden soll getestet werden, ob der Anteil der Tage, bei denen die Temperatur in London bei
    mindestens 10 Grad liegt, 55% übersteigt.


    c) Formulieren Sie Hypothese sowie Alternative für dieses Testproblem.
    # H: p<= 0.55 A: p>0.55
  3. Im Folgenden soll getestet werden, ob der Anteil der Tage, bei denen die Temperatur in London bei
    mindestens 10 Grad liegt, 55% übersteigt.

    d)  Erstellen Sie eine neue 0-1 kodierte Variable: warm = tl > 10 und führen Sie einen geeigneten [5]
    Test durch. Begründen Sie kurz Ihre Wahl.

    f)  Geben Sie die asymptotische Verteilung der Teststatistik aus Aufgabenteil d) an. [2]
    • #d)
    • warm=tl>10
    • prop.test(sum(warm),length(warm),p = 0.55,alternative = "greater",conf.level = 0.98)

    #Wir entscheiden uns hier für einen p-Test, da wir auf Anteile untersuchen.

    • f)
    • # Die asym. Verteilung der Teststatistik ist
    • # N(0,1) wegen dem zentralen Grenzwertsatz
  4. Im Folgenden soll getestet werden, ob der Anteil der Tage, bei denen die Temperatur in London bei
    mindestens 10 Grad liegt, 55% übersteigt.

    e)  Wie lautet die Testentscheidung zum Signifikanzniveau α = 0, 02? Begründen Sie kurz. [2]
    • e)
    • # Wir können die Hypothese verwerfen, da
    • # p-wert=0.0118 < 0.02= alpha gilt.
  5. g)  Formulieren Sie Hypothese sowie Alternative für dieses Testproblem. [2]
    • g) Sei mu die durchschnittliche Temp.
    • # H: mu_London >= mu_Jakarta
    • # A: mu_London <  mu_Jakarta
  6. h)  Handelt es sich bei diesem Testproblem um eine verbundene oder unverbundene Stichprobe? [2]
    Begründen Sie kurz.
    • h)
    • # Unverbundene Stichprobe, da nicht zwei
    • # Ergebnisse von einer Stadt gemessen wurden,
    • # sondern die Temp in zwei unterschiedlichen
    • # Städten erhoben wurden.
  7. i)  Zeichnen Sie Boxplots, welche die Temperatur je Stadt enthalten. Achten Sie dabei auf eine [4]
    sinnvolle Beschriftung. Würden Sie anhand der Boxplots von gleichen Varianzen ausgehen?
    Begründen Sie kurz.
    • #i)
    • boxplot(tl,tj,
    •         names=c("London","Jakarta"),ylab="Temperatur")
    • # Wir gehen hier von ungleichen Varianzen aus, da die IQR
    • # klar unterschiedlich ist.
  8. l)  Interpretieren Sie Ihr Ergebnis aus k) inhaltlich in einem Satz.
    • #k) Basierend auf der Stichprobe ist die durchschn. Temperatur
    • # in Jakarta höher als in London
  9. c)  Führen Sie eine einfache lineare Regression durch, um zu überprüfen, ob die Ausgaben für [8]
    Polizeischutz einen signifikanten Effekt auf die Kriminalitätsrate haben. Interpretieren Sie den
    Wert des Koeffizienten der Variable Polizei und prüfen Sie ihn auf Signifikanz. Stellen Sie den
    Zusammenhang in geeigneter Weise in der Graphik unter b) dar.
    • einfache lineare Regression
    • modell <- lm(Krim~Polizei,data=daten)
    • summary(modell)
    • # Interpretation des Werts für Polizei:
    • # mit jedem US-$, der pro Kopf mehr für
    • # Polizeischutz ausgegeben wird, steigt die Anzahl
    • # der Straftaten auf 100000 Einwohner laut Modell
    • # im Mittel um ca. 89.
    • # (im Mittel nicht vergessen!)
    • # Signifikanz:
    • # Der Einfluss ist hochsignifikant mit einem P-Wert 9.34e-08<0.05.

    abline(modell, col="red") # stelle Zusammenhang in Grafik dar.
  10. d)  Können Sie anhand Ihres Modells aus c) den Rat geben, die Ausgaben für den Polizeischutz zu [3]
    senken, um die Kriminalitätsrate zu reduzieren? [Ja/Nein] Begründen Sie kurz.
    d)# Nein. Auch wenn das Modell einen Zusammenhang # zwischen hohen Ausgaben für Polizei-# schutz und Kriminalität sieht, ist inhaltlich # nicht davon auszugehen, dass mit sinkenden# Ausgaben auch die Kriminalitätsrate sinkt (keine Kausalität!). Vielmehr ist anzunehmen,# dass in Region mit hoher Kriminalität mehr für die Polizei ausgegeben wird, und daher# die Korrelation in den Daten stammt.
  11. b)  Visualisieren Sie den Zusammenhang zwischen den Variablen Polizei und Krim anhand ei- [3]
    ner geeigneten Graphik. Beschriften Sie die Achsen und geben Sie der Graphik eine geeignete
    Überschrift.
    • geeignete Grafik: Streudiagramm
    • plot(daten$Polizei,daten$Krim,xlab="Ausgaben für Polizeischutz",ylab="Kriminalitätsrate",
    •      main="Zusammenhang zwischen Polizeiausgaben und Kriminalität")
  12. e)  Führen Sie eine multiple Regressionsanalyse durch, in der Sie die Kriminalitätsrate auf die [3]
    Kovariaten Polizei, Bildung, UG, Gefangen, Hoch regressieren.
    • e)
    • # multiple lineare Regression
    • modell <- lm(Krim~Polizei+Bildung+UG+Gefangen+Hoch,
    •              data=daten) # Tipp: hier data=daten
    • # schreiben, ist besser für predict.
    • summary(modell)
  13. f)  Interpretieren Sie den Effekt einer 0-1-Variable auf die abhängige Variable anhand des Koeffizi- [2]
    enten für die Variable Hoch.
    • Interpretation des Schätzers für Variable Hoch
    • # Beträgt die durchchnittliche Gefängnisstrafe 30 Monate oder mehr, so ist laut Modell
    • # damit zu rechnen, dass die Kriminalitätsrate im Mittel um 85 Straftaten pro 100000
    • # Einwohner sinkt.
  14. g)  Berechnen Sie die erwartete Kriminalitätsrate für den US-Bundesstaat mit folgenden Daten: [4]


    - Die Pro-Kopf-Ausgaben für Polizeischutz betragen 8,5 US$.
    - Die durchschnittliche Schulbildung beträgt 10 Jahre.
    - 20% der Familien verdienen weniger als die Hälfte des Medianeinkommens.
    - Der Anteil, der zu einer Gefängnisstrafe Verurteilten, beträgt 0,05.
    - Die Insassen müssen vor ihrer ersten Entlassung 9 Monate im Gefängnis verbringen.
    • neu<-data.frame(Polizei=8.5,Bildung=10,
    •                 UG=20,Gefangen=0.05,Hoch=0)
    • predict(modell, neu)
    • # die erwartete Kriminalitätsrate beträgt bei den gegebenen Daten ca. 885 Straftaten auf
    • # 100000 Einwohner.
  15. h)  Betrachten Sie das R2 des Modells aus e). Interpretieren Sie den Wert in einem Satz.
    R^2 = 0.70. Etwa 70% der Gesamtvarianz werden durch das Modell erklärt.
  16. i)  Ist das Modell signifikant? Nehmen Sie Bezug auf den Schätzoutput in e).
    • i)
    • # Das Modell ist insgesamt signifikant mit p-Wert 5.034e-10<0.05.
Author:
huatieulans
ID:
316621
Card Set:
Probeklausur
Updated:
2016-02-29 10:57:06
Tags:
dd
Folders:
Statistik
Description:
ddd
Show Answers: