Statistik R Stichpunkt 1

Home > Preview

The flashcards below were created by user huatieulans on FreezingBlue Flashcards.


  1. WorldDamage.xls (Variable damage, in 1000US$)

    Sie wollen nun prüfen welche Verteilung für die Daten vorliegen könnte. Handelt es sichbei den Daten um Ausprägungen einer stetigen oder einer diskreten Zufallsvariabl
    b)

    str(damage)

    summary(damage)
  2. WorldDamage.xls (Variable damage, in 1000US$)

    Stellen Sie die Schäden in einem Histogramm dar, um eine Idee für ein passendes Verteilungsmodell zu bekommen. Könnten die Schäden exponentialverteilt sein?
    # c) Histogramm erstellen

    hist(damage, freq=F,breaks=44, main="Histogramm für den angerichteten Schaden" , ylab="relative Häufigkeit", xlab="Schaden in 1000 US-$", col="yellow2")
  3. WorldDamage.xls (Variable damage, in 1000US$)

    e)  Ergänzen Sie die Dichte der Exponentialverteilung mit den Parametern aus d) in IhrHistogramm aus c).
    e) Dichte einzeichnen

    range <- seq(0, 8e+07, by=1000)

    lines(range, dexp(range,lambda_damage), type="l", lwd=2, col="darkred")
  4. g)  Erzeugen Sie in R mit dem Befehl rexp() den Vektor simu mit 1000 exponentialverteil-ten Pseudozufallszahlen mit Parameter λ aus Aufgabeteil d). (Zusatz: Warum sprichtman von Pseudo-Zufallszahlen?)
    # g) Pseudozufallszahlen erzeugen

    simu <- rexp(n=1000, lambda_damage)
  5. WorldDamage.xls (Variable damage, in 1000US$)


    h)  Vergleichen Sie die simulierten Daten simu mit den empirischen Daten damage mit Hilfeeines QQ-Plots. Fügen Sie in den QQ-Plot zusätzlich eine Ursprungsgerade ein.
    h) Vergleich durch QQ-Plot

    qqplot(damage, simu)abline(0,1,col="red", lwd=2)
  6. WorldDamage.xls (Variable damage, in 1000US$)

    d)  Schätzen Sie den unbekannten Parameter λ der Exponentialverteilung entsprechendMethode 1 von Folie 30 Kapitel 7.
    d) Lambda schätzen

    • mean_damage <-mean(damage)
    • lambda_damage <- 1/mean_damage

    lambda_damage
  7. Rohpunkte_stat1_SoSe07.csv

    Im Folgenden soll geprüft werden, ob sich die Gesamtpunktzahl durch eine Normalverteilungmodellieren lässt.
    • # a) Datensatz einlesen
    • data <- read.csv2("Rohpunkte_stat1_SoSe07.csv")
    • attach(data
  8. Rohpunkte_stat1_SoSe07.csv

    b)  Zeichnen Sie die empirische Verteilungsfunktion für die Gesamtpunktzahl.
    plot(ecdf(PunkteGes), main="Verteilungsfunktion der Gesamtpunktezahl")
  9. Rohpunkte_stat1_SoSe07.csv

    c)  Zeichnen Sie ein Histogramm für die Gesamtpunktzahl.
    hist(PunkteGes, freq=F,breaks=30, main="Histogramm der Gesamtpunktezahl" , ylab="Häufigkeitsdichte", xlab="Punkte", col="yellow2")
  10. Rohpunkte_stat1_SoSe07.csv

    d)  Schätzen Sie die Parameter μ und σ nach der Methode von Folie 22, Kapitel 8 und ergän-zen Sie die Graphik aus b) um die theoretische Verteilungsfunktion sowie die Graphikaus c) um die Dichtefunktion der Normalverteilung mit den geschätzten Parametern.
    d) Schätzer für Normalverteilung

    • m <- mean(PunkteGes)
    • sd <- sd(PunkteGes)


    • # Zeichne in obige Plots: Histogramm
    • range <- seq(min(PunkteGes), max(PunkteGes), by=0.1)

    lines(range, dnorm(range, m, sd),lwd=2,col="red")

    # Dichte für Histogramm# Zeichne in obige Plots: Empirische Verteilungsfunktion

    plot(ecdf(PunkteGes), main="Empirische Verteilungsfuntion der Gesamtpunktezahl")

    lines(range, pnorm(range, m, sd),lwd=2,col="red") # theoretische ECDF
  11. Rohpunkte_stat1_SoSe07.csv

    e)  Zeichnen Sie einen QQ-Plot für die Gesamtpunktzahl.
    # e) QQ-Plot

    • qqnorm(PunkteGes)
    • qqline(PunkteGes,col="red", lwd=2)
    • detach(data)
  12. a)  Erzeugen Sie 1000 Zufallsstichproben vom Umfang n=10 aus einer Exponentialvertei-lung (λ = 0.5). Nennen Sie die Datenmatrix simu.
    # a) Erzeuge Zufallszahlen

    simu <- t(replicate(1000,rexp(10,0.5)))
  13. b)  Erzeugen Sie eine neue Variable mittel, welche für jede Stichprobe den Mittelwertausgibt. Hinweis: Hierzu benötigen Sie den Befehl apply.
    # b)mittel <- apply(simu,1,mean)
  14. c)  Die Daten simu sind in einer 1000 mal 10 Matrix gespeichert (überzeugen Sie sich davonselbst).

    Definieren Sie
    zahlen <- as.vector(simu).

    Dieser Befehl erzeugt ein Objekt zahlen, welches alle Daten aus der Matrix enthält.Sie tun also so, als hätten Sie nun eine Stichprobe bestehend aus 10000 Elementen.
    # c)

    zahlen <- as.vector(simu)
  15. d)  Beachten Sie, dass sich die einzelnen Werte in den Vektoren zahlen und mittel als Realisationen von Zufallsvariablen auffassen lassen. Vergleichen Sie die simulierten Wertezahlen und deren Mittelwerte mittel in einem Boxplot.
    # d)

    boxplot(mittel,zahlen,main="Vergleich der Boxplots zwischen Mittelwert und Zufallsvektor",names=c("Mittel","Zahlen"))
  16. e)  Schätzen Sie jeweils für zahlen und mittel folgende Größen: Erwartungswert und Standardabweichung. Stimmen die gefundenen Ergebnisse mit den theoretischen Resultatenüberein?
    • # e)mean(mittel) # theoretisch: 2
    • sd(mittel) # theoretisch: 0.63
    • mean(zahlen) # theoretisch: 2
    • sd(zahlen) # theoretisch: 2
  17. f)  Wie sind zahlen und mittel verteilt? Prüfen Sie Ihre Aussage für mittel anhand einer geeigneten Grafik.
    • # f)
    • qqnorm(mittel)
    • qqline(mittel, col="red")
  18. # a) # Erzeugen Sie k=5000 Zufallsstichproben vom Umfang n=5 aus einer stetigen Gleichverteilung auf dem Intervall [0, 6].
    • a)
    • k <- 5000
    • n <- 5
    • simu <-t(replicate(k,runif(n, min=0, max=6)))
  19. b)  Bestimmen Sie für jede Stichprobe den Schätzwert der Schätzfunktionen 1 bis 6.
    • b) 
    • m1 <- apply(simu,1,f1)
    • m2 <- apply(simu,1,f2)
    • m3 <- apply(simu,1,f3)
    • m4 <- apply(simu,1,f4)
    • m5 <- apply(simu,1,f5)
    • m6 <- apply(simu,1,f6)
  20. c)  Zeichnen Sie Boxplots für die Schätzwerte aus b).  Ergänzen Sie die Graphik um eine rote Linie die den wahren Parameterwert kennzeichnen soll.
    • c)
    • boxplot(m1,m2,m3,m4,m5)
    • abline(h=3,col="red") # h=3, da Gleichverteilung von 0 bis 6#

    • Viel höhere Werte durch +1000/5
    • boxplot(m6)
    • abline(h=3,col="red")
  21. e)  Bestimmen Sie für die Schätzfunktionen 1, 2 und 5 eine empirische Approximation für den MSE. Welche der drei Schätzfunktionen würden Sie einem Anwender empfehlen?
    • e)
    • mse1 <- mean((m1-3)^2)
    • mse2 <- mean((m2-3)^2)
    • mse5 <- mean((m5-3)^2)
  22. f)  Prüfen Sie die Schätzfunktionen auf Konsistenz, in dem Sie unter a) den Stichprobenumfang auf n = 50 setzen.
    # f) # Prüfen Sie die Schätzfunktionen auf Konsistenz, in dem Sie # unter a) den Stichprobenumfang auf n = 50 setzen.
  23. a)  Erzeugen Sie k = 1000 Zufallsstichproben vom Umfang n = 10 aus einer Poissonver-teilung mit λ = 5 und stellen Sie diese in einer Matrix dar. Jede Zeile soll dabei eineStichprobe enthalten.
    • # a)
    • k <- 1000
    • n <- 10
    • simu <-t(replicate(k,rpois(n,5)))
  24. b)  Berechnen Sie für jede Stichprobe folgende Schätzer für den Parameter λ:
    –  den Mittelwert: lambda1
    –  den Median: lambda2
    –  die Hälfte des Maximums: lambda3

    Hinweis: Berechnen Sie dazu zuerst den Vektor mit dem Maximum jeder Stichprobe und dividieren Sie diesen anschließend durch 2.
    • # b)
    • lambda1 <- apply(simu,1,mean)
    • lambda2 <- apply(simu,1,median)
    • lambda3 <- apply(simu,1,max)
    • lambda3 <- lambda3/2
  25. c)  Vergleichen Sie die drei Schätzer anhand einer geeigneten Grafik.
    • #c)
    • boxplot(lambda1,lambda2,lambda3,names=c("lambda1","lambda2","lambda3"))abline(h=5,col="red")
  26. d)  Schätzen Sie basierend auf Ihren 1000 Stichproben den Bias der drei Schätzer (bias1,bias2, bias3). Welcher Schätzer hat den geringsten Bias?
    • # d)
    • bias1 <- mean(lambda1)-5
    • bias2 <- mean(lambda2)-5
    • bias3 <- mean(lambda3)-5
  27. e)  Berechnen Sie für die drei Schätzer jeweils die empirische Varianz (var1, var2, var3). Berechnen Sie anschließend jeweils den geschätzen MSE.

    Hinweis: MSE = Bias2+Varianz. Welche Schätzfunktion wäre zu bevorzugen?
    • # e)
    • var1 <- var(lambda1)
    • var2 <- var(lambda2)
    • var3 <- var(lambda3)

    • mse1 <- bias1^2+var1
    • mse2 <- bias2^2+var2
    • mse3 <- bias3^2+var3
  28. b)  Die Variable BMW enthält n Tagesrenditen der BMW-Aktie. Wie groß ist n?
    • # b)
    • n <- length(BMW)
  29. c)  Schätzen Sie für die Tagesrenditen der BMW-Aktie den Erwartungswert μ und dieStandardabweichung σ.
    • # c)
    • m <- mean(BMW)
    • sd <- sd(BMW)
  30. d)  Die Schätzung aus c) trifft vielleicht nicht exakt den Erwartungswert der Rendite.Geben Sie deshalb ein 95% Konfidenzintervall für Ihre Schätzung an. Nehmen Sie dabeian, dass die Renditen normalverteilt sind und die „iid-Annahme“ erfüllen.
    • # d)
    • U <- m - qt(0.975, n-1) * sd/sqrt(n) # Untere Grenze

    • O <- m + qt(0.975, n-1) * sd/sqrt(n) # Obere Grenze
    • U
    • O
  31. f)  Ihre Entscheidung in e) basiert auf einem Intervall, dass den wahren Wert nur in 95%der Fälle enthält. Sie möchten sich aber nur in einem von 1000 Fällen irren. BerechnenSie das neue Konfidenzintervall. Können Sie sich nun immer noch eindeutig für eine derbeiden Alternativen entscheiden?
    • # f)
    • U <- m - qt(0.9995, n-1) * sd/sqrt(n) # Untere Grenze

    • O <- m + qt(0.9995, n-1) * sd/sqrt(n) # Obere Grenze
    • U
    • O
  32. Ermitteln Sie auf Basis einer 20fachen Realisierung einer N (5, 0.22 )-verteilten Zufallsvariablendas zugehörige 80%-Konfidenzintervall für μ. Führen Sie dies 200-mal durch und bestimmenSie, wie oft μ wirklich im Konfidenzintervall lag.
    • k <- 200
    • n <- 20

    simu <-t(replicate(k,rnorm(n,5,0.2)))

    • m <- apply(simu,1,mean)
    • U <- m - qnorm(0.9)*(0.2/sqrt(20))
    • O <- m + qnorm(0.9)*(0.2/sqrt(20))

    sum((U<=5)&(O>=5))
  33. a)  Erzeugen Sie k = 200 Zufallsstichproben vom Umfang n = 50 aus einer Binomialver-teilung Bin(1, p = 0.3) und stellen Sie diese in einer Matrix dar. Jede Zeile soll dabeieine Stichprobe enthalten.
    • # a)
    • k <- 200
    • n <- 50
    • simu <-t(replicate(k,rbinom(n,1,0.3)))
  34. b) k= 200 Zufallsstichproben vom Umfang n= 50 aus Binomialverteilung Bin(1, p=0,3)

    b)  Berechnen Sie für jede Stichprobe pˆ = x ̄.
    • # b)
    • p <- apply(simu,1,mean)
  35. k= 200 Zufallsstichproben vom Umfang n= 50 aus Binomialverteilung Bin(1, p=0,3)

    c)  Bestimmen Sie basierend auf der Punktschätzung aus b) die Unter- und Obergrenze (Variablennamen UG bzw. OG) des 95%-Konfidenzintervalls für p für jede Stichprobe.Verwenden Sie die Formel von Kapitel 11, Folie 27.
    • # c)
    • z=qnorm(0.975)

    • U <- (p+z^2/(2*n)-z*sqrt((z/(2*n))^2+p*(1-p)/n))/(1+z^2/n)
    • O <- (p+z^2/(2*n)+z*sqrt((z/(2*n))^2+p*(1-p)/n))/(1+z^2/n)
  36. k= 200 Zufallsstichproben vom Umfang n= 50 aus Binomialverteilung Bin(1, p=0,3)

    d)  Bestimmen Sie den Anteil der Intervalle, die das „wahre p“ überdecken.
    • # d)
    • anzahl <- sum(U<=0.3 & 0.3<=O)
    • anteil <- anzahl/200
    • anteil
  37. k= 200 Zufallsstichproben vom Umfang n= 50 aus Binomialverteilung Bin(1, p=0,3)

    e)  Ist die Verwendung des Konfidenzintervalls (vgl. Kapitel 11, Folie 27) in dieser Situation(n = 50, Xi ∼ Bin(1, p = 0.3)) zu empfehlen?
    • # e)
    • n*0.3*0.7
  38. b)  Schätzen Sie die Standardabweichung der Variable geschw.
    • # b)
    • sd <- sd(geschw)
  39. c)  Gehen Sie zunächst davon aus, dass die Geschwindigkeiten normalverteilt und unabhängig sind. Testen Sie die Hypothese H : μ = 120 auf Basis einer geeigneten Prüfgröße.
    • # c)
    • t.test(geschw, mu = 120, alternative = "two.sided", conf.level = 0.95)

    • #Normalverteilt und sigma nicht bekannt ..t.test
    • qt(0.975,40)
    • #Kritischer Wert
  40. d)  Ein Polizeibeamter hegt die Vermutung, dass die zulässige Höchstgeschwindigkeit syste-matisch überschritten wird. Wie sollte er die Hypothese formulieren, um das nachweisenzu können?
    Dokumentieren Sie die Testentscheidung auf Basis einer geeigneten Prüf-größe.
    • # d)
    • t.test(geschw, mu = 120, alternative = "greater", conf.level = 0.95)

    • #Normalverteilt und sigma nicht bekannt -> t.test
    • qt(0.95,40)  
    • #Kritischer Wertdetach(daten)
  41. b)  Erstellen Sie eine neue 0-1 kodierte Variable x <- Storms>0. Diese Variable ist 1, wenn mindestens ein schwerer Sturm auftrat und Null sonst.
    • # b)
    • x <- Storms>0
  42. c)  Schätzen Sie den Anteil pˆ der Jahre mit mindestens einem schweren Sturm. Spricht dies für Ihr oben beschriebenes Ziel?
    • # c)
    • mean(x)
  43. e)  Führen Sie einen geeigneten Test durch! Ihr Signifikanznivau liegt dabei bei 5%. Erläu-tern Sie Ihr Ergebnis verbal.
    • # e)
    • prop.test(sum(x==1), length(x), 2/3, alternative="greater")
  44. f)  Wie hätte sich das Ergebnis Ihres Tests geändert, wenn Sie statt des exakten Wertes2/3 den Wert 0.66 benutzt hätten?
    • # f)
    • prop.test(sum(x==1), length(x), 0.66, alternative="greater")
  45. Münze werfen und die Anzahl der Versuche
    zählen, bis eine Münze geworfen und die Anzahl der Versuche zählen bis das erste Mal Kopf geworfen wurde. Wahrscheinlichkeit für Kopf beträgt 1/2

    a)  Erstellen Sie in R einen Vektor mit 100 geometrisch verteilten Zufallszahlen mit Erfolgswahrscheinlichkeit bei jedem Versuch gleich 1/2.
    • #a)
    • simu<-rgeom(100,prob=0.5)
    • simu
  46. Münze werfen und die Anzahl der Versuchezählen, bis eine Münze geworfen und die Anzahl der Versuche zählen bis das erste Mal Kopf geworfen wurde. Wahrscheinlichkeit für Kopf beträgt 1/2.


    b)  Berechnen Sie Median und arithmetisches Mittel sowie die Standardabweichung derZufallszahlen in R. Berechnen Sie per Hand den theoretischen Erwartungswert und dietheoretische Varianz des in der Angabe geschilderten Zufallsexperiments. InterpretierenSie Ihre Ergebnisse. Sind die in R beobachteten Werte sinnvoll?
    • #b)
    • #Median
    • median(simu)

    • #Arithm. Mittel
    • mean(simu)

    • #Standardabweichung
    • sd(simu)

    • #E(X)=1
    • #V(X)=2
    • #sd(X)=sqrt(2)=1.41
  47. Münze werfen und die Anzahl der Versuchezählen, bis eine Münze geworfen und die Anzahl der Versuche zählen bis das erste Mal Kopf geworfen wurde. Wahrscheinlichkeit für Kopf beträgt 1/2.)  

    Zeichnen Sie die Wahrscheinlichkeitsfunktion der Zufallszahlen. Beschriften Sie die Achsen und verschönern Sie Ihre Grafik durch Auswahl sinnvoller Eingabeparameter fürcol, border und breaks (Hinweis:Verwenden Sie hist!).
    #c) Zeichne Histogramm

    hist(simu, main="Histogramm der geometrisch verteilten Zufallsvariablen", xlab="Anzahl der Würde bevor Kopf fällt", ylab="Häufigkeitsdichte", col="green", breaks=20, border=2, freq=F)

    abline(v=mean(simu), lwd=3)
  48. Münze werfen und die Anzahl der Versuchezählen, bis eine Münze geworfen und die Anzahl der Versuche zählen bis das erste Mal Kopf geworfen wurde. Wahrscheinlichkeit für Kopf beträgt 1/2

    d)  Ergänzen Sie im erzeugten Graphen die Dichtefunktion einer Exponentialverteilung.
    • #d)
    • range<-seq(min(simu), max(simu), by=0.1)
    • lines(range,dexp(range,1),col="red", lwd=2)

    • #lambda=1/mean(x)
    • #lambda=1/E(X)
  49. Münze werfen und die Anzahl der Versuchezählen, bis eine Münze geworfen und die Anzahl der Versuche zählen bis das erste Mal Kopf geworfen wurde. Wahrscheinlichkeit für Kopf beträgt 1/2

    e)  Erläutern Sie auf Basis der Grafik und einem Anwendungsbeispiel den Zusammenhang zwischen der Exponentialverteilung und der Geometrischen Verteilung.
    • #e)
    • # Geom Verteilung: Würfel werfen bis zum 1. Erfolg
    • # Exponentailvert.: Ausfalldauer eines Geräts
    • # Graphik: die Verteilung der geom. vert. Zufallsvariable
    • # sollte mit dem steigenden Stichprobenumfang die
    • # Verteilung (Dichte) der Exponentialverteilung annähern.
  50. a) Erzeugen Sie in R 100 Stichproben vom Umfang 15 aus einer Binomialverteilung mit den Parametern n = 10 und p = 0.4. Nennen Sie die Daten simu und stellen Sie dies imulierten Stichproben in einem Matrixobjekt dar. Jede Zeile der Matrix soll dabeieine Stichprobe enthalten. Im Folgenden sollen Sie überprüfen, ob das arithmetische Mittel der einzelnen Stichprobenapproximativ einer Normalverteilung folgt.
    • #a)
    • Datenmatrix erstellen
    • simu<-t(replicate(100, rbinom(15,10,0.4)))

    • # m=15
    • # n=10
    • View(simu)
  51. b)  Begründen Sie kurz, warum der zentrale Grenzwertsatz hierbei eine Rolle spielen könnte.
    • #b)
    • # 1) Die Zufallsvariable ist identisch unabhängig verteilt
    • # (Binomialverteilung).
    • # 2) Stichprobenumfang ist groß genug.
  52. c)  Erstellen Sie nun in R die Variable mittel, indem Sie mit Hilfe des apply-Befehlsfür jede einzelne Stichprobe das arithmetische Mittel berechnen. Tragen Sie daraufaufbauend in R folgenden Befehl ein: stdsumme <- (mittel-4)/sqrt(0.16)
    • #c)
    • mittel<-apply(simu,1,mean)
    • stdsumme<-(mittel-4)/sqrt(0.16)
  53. d)  Zeichnen Sie ein Histogramm für die Variable stdsumme.
    • #d)
    • hist(stdsumme, freq=F, col="blue",breaks=20,xlim=c(-5,5), ylim=c(0,0.5))
  54. e)  Ergänzen Sie die Dichte der Standardnormalverteilung in das Histogramm aus Aufga-benteil d).
    • #e)
    • range<-seq(-5,5,by=0.1)

    • # Dichte
    • lines(range,dnorm(range), col="red", lwd=2)


  55. g)  Bestimmen Sie den Wert des 75%-Quantils von X und interpretieren Sie diesen Wertin einem Satz.
    • #g)
    • # 75%-Quantil:
    • qnorm(0.75,5,2)

    • # Der 75%-Quantil beträgt 6.34, d.h. 75% Prozent aller Daten
    • # liegen unter diesem Wert, überschreiten nicht den Wert von 6.34.
  56. h)  Berechnen Sie im R-Kalkulator P(X ≤ 3). Welcher Wert sollte sich für P(X ≥ 7)ergeben? Begründen Sie kurz.
    • #h)
    • # P(X<=3=)=0.158
    • pnorm(3,5,2)

    # P(X>=7)=P(X<=3=)=0.158 wegen der Symmetrie der Verteilung.

Card Set Information

Author:
huatieulans
ID:
316194
Filename:
Statistik R Stichpunkt 1
Updated:
2016-02-21 05:47:47
Tags:
Klausur
Folders:
Statistik
Description:
Vorbereitung
Show Answers:

Home > Flashcards > Print Preview