Statistik 2 R-Referenzen

The flashcards below were created by user huatieulans on FreezingBlue Flashcards.

  1. Ü1 A5
    a)  Importieren Sie den Datensatz
    WorldDamage.xls in ein neues R-Skript. Der Datensatz enthält die weltweiten Schäden aller Naturkatastrophen von 1900 - 2005. Wir
    interessieren uns für die verursachten Schäden (Variable damage, in 1000 US$).



    b)  Sie wollen nun prüfen welche Verteilung für die Daten vorliegen könnte. Handelt es sich
    bei den Daten um Ausprägungen einer stetigen oder einer diskreten Zufallsvariable?



    c)  Stellen Sie die Schäden in einem Histogramm dar, um eine Idee für ein passendes Verteilungsmodell zu bekommen. Könnten die Schäden exponentialverteilt sein?

    d)  Schätzen Sie den unbekannten Parameter λ der Exponentialverteilung entsprechend
    Methode 1 von Folie 30 Kapitel 7.

    e)  Ergänzen Sie die Dichte der Exponentialverteilung mit den Parametern aus

    d) in Ihr Histogramm aus c).






    e)  Ergänzen Sie die Dichte der Exponentialverteilung mit den Parametern aus d) in Ihr
    Histogramm aus c).

    e) Ergänzen Sie die Dichte der Exponentialverteilung mit den Parametern aus d) in ihr Histogramm aus c)

    f) Warum ist die Graphik in diesem Fall nicht so gut geeignet, um die Güte der Anpassung
    zu beurteilen?

    Um die Güte der Anpassung anderweitig zu ermitteln, gehen Sie wie folgt vor:

    g)  Erzeugen Sie in R mit dem Befehl rexp() den Vektor simu mit 1000 exponentialverteil-
    ten Pseudozufallszahlen mit Parameter λ aus Aufgabeteil d). (Zusatz: Warum spricht
    man von Pseudo-Zufallszahlen?)

    h)  Vergleichen Sie die simulierten Daten simu mit den empirischen Daten damage mit Hilfe
    eines QQ-Plots. Fügen Sie in den QQ-Plot zusätzlich eine Ursprungsgerade ein.

    i)  Wie gut lassen sich also die weltweiten Schäden durch Naturkatastrophen durch die
    Exponentialverteilung beschreiben?
    • # a) Datensatz einlesen
    • data <- read.csv2("WorldDamage.csv") attach(data)

    • b) str(damage)
    • summary(damage)

    # c) Histogramm erstellen

    hist(damage, freq=F,breaks=44, main="Histogramm für den angerichteten Schaden" , ylab="relative Häufigkeit", xlab="Schaden in 1000 US-$", col="yellow2")

    • # d) Lambda schätzen
    • mean_damage <-mean(damage)
    • lambda_damage <- 1/mean_damage
    • lambda_damage

    # e) Dichte einzeichnen

    • range <- seq(0, 8e+07, by=1000)
    • lines(range, dexp(range,lambda_damage), type="l", lwd=2, col="darkred")

    # g) Pseudozufallszahlen erzeugen

    simu <- rexp(n=1000, lambda_damage)

    # h) Vergleich durch QQ-Plot

    qqplot(damage, simu)abline(0,1,col="red", lwd=2)

    detach(data)
  2. Ü1 Aufgabe 15:
    a) Importieren Sie den Datensatz
    Rohpunkte_stat1_SoSe07.csv in ein neues R-Skript.
    Der Datensatz enthält die Rohpunkte der 332 Teilnehmer, die im Sommersemester 2007
    an der Statistik 1-Klausur teilgenommen haben (PunkteGes: Gesamtpunktzahl, max.
    120 (+4 Bonus-) Punkte waren möglich).

    Im Folgenden soll geprüft werden, ob sich die Gesamtpunktzahl durch eine Normalverteilung
    modellieren lässt.

    b)  Zeichnen Sie die empirische Verteilungsfunktion für die Gesamtpunktzahl.

    c)  Zeichnen Sie ein Histogramm für die Gesamtpunktzahl.

    d)  Schätzen Sie die Parameter μ und σ nach der Methode von Folie 22, Kapitel 8 und ergän-
    zen Sie die Graphik aus b) um die theoretische Verteilungsfunktion sowie die Graphik
    aus c) um die Dichtefunktion der Normalverteilung mit den geschätzten Parametern.

    e)  Zeichnen Sie einen QQ-Plot für die Gesamtpunktzahl.

    f)  Folgen die Gesamtpunkte einer Normalverteilung? (Kurze Begründung!)
    • # a) Datensatz einlesen
    • data <- read.csv2("Rohpunkte_stat1_SoSe07.csv")

    • attach(data)
    • # b) Zeichne empirische Verteilungsfunktion

    plot(ecdf(PunkteGes), main="Verteilungsfunktion der Gesamtpunktezahl")

    • # c) Histogramm
    • hist(PunkteGes, freq=F,breaks=30, main="Histogramm der Gesamtpunktezahl" , ylab="Häufigkeitsdichte", xlab="Punkte", col="yellow2")

    # d) Schätzer für Normalverteilung

    • m <- mean(PunkteGes)
    • sd <- sd(PunkteGes)

    # Zeichne in obige Plots: Histogramm

    range <- seq(min(PunkteGes), max(PunkteGes), by=0.1)

    lines(range, dnorm(range, m, sd),lwd=2,col="red")

    # Dichte für Histogramm# Zeichne in obige Plots: Empirische Verteilungsfunktion

    plot(ecdf(PunkteGes), main="Empirische Verteilungsfuntion der Gesamtpunktezahl")

    lines(range, pnorm(range, m, sd),lwd=2,col="red") # theoretische ECDF

    # e) QQ-Plot

    • qqnorm(PunkteGes)
    • qqline(PunkteGes,col="red", lwd=2)
    • detach(data)
  3. Ü1 Aufgabe 16:

    a)  Erzeugen Sie 1000 Zufallsstichproben vom Umfang n=10 aus einer Exponentialvertei-
    lung (λ = 0.5). Nennen Sie die Datenmatrix simu.

    b)  Erzeugen Sie eine neue Variable mittel, welche für jede Stichprobe den Mittelwert
    ausgibt. Hinweis: Hierzu benötigen Sie den Befehl apply.

    c)  Die Daten simu sind in einer 1000 mal 10 Matrix gespeichert (überzeugen Sie sich davon
    selbst). Definieren Sie

    zahlen <- as.vector(simu).
    Dieser Befehl erzeugt ein Objekt zahlen, welches alle Daten aus der Matrix enthält.

    Sie tun also so, als hätten Sie nun eine Stichprobe bestehend aus 10000 Elementen.

    d)  Beachten Sie, dass sich die einzelnen Werte in den Vektoren zahlen und mittel als Realisationen von Zufallsvariablen auffassen lassen. Vergleichen Sie die simulierten Werte
    zahlen und deren Mittelwerte mittel in einem Boxplot.

    e)  Schätzen Sie jeweils für zahlen und mittel folgende Größen: Erwartungswert und Stan-
    dardabweichung. Stimmen die gefundenen Ergebnisse mit den theoretischen Resultaten
    überein?

    f)  Wie sind zahlen und mittel verteilt? Prüfen Sie Ihre Aussage für mittel anhand einer
    geeigneten Grafik.
    • # a) Erzeuge Zufallszahlen
    • simu <- t(replicate(1000,rexp(10,0.5)))

    # b)mittel <- apply(simu,1,mean)

    • # c)
    • zahlen <- as.vector(simu)

    • # d)
    • boxplot(mittel,zahlen,main="Vergleich der Boxplots zwischen Mittelwert und Zufallsvektor",names=c("Mittel","Zahlen"))

    • # e)mean(mittel) # theoretisch: 2
    • sd(mittel) # theoretisch: 0.63
    • mean(zahlen) # theoretisch: 2
    • sd(zahlen) # theoretisch: 2

    • # f)qqnorm(mittel)
    • qqline(mittel, col="red")
  4. Blatt 2, Aufgabe 5: Simulation Schätzer
    # a)
    # Erzeugen Sie k=5000 Zufallsstichproben vom Umfang n=5 aus einer stetigen Gleichverteilung auf dem Intervall [0, 6].

    b)  Bestimmen Sie für jede Stichprobe den Schätzwert der Schätzfunktionen 1 bis 6.

    c)  Zeichnen Sie Boxplots für die Schätzwerte aus b).
     Ergänzen Sie die Graphik um eine rote Linie die den wahren Parameterwert kennzeichnen soll.

    d) Ist die dritte Schätzfunktion erwartungstreu? Vergleichen Sie das Simulationsergebnis mit der Theorie.

    e)  Bestimmen Sie für die Schätzfunktionen 1, 2 und 5 eine empirische Approximation für den MSE.
    Welche der drei Schätzfunktionen würden Sie einem Anwender empfehlen?

    f)  Prüfen Sie die Schätzfunktionen auf Konsistenz, in dem Sie unter a) den Stichprobenumfang auf n = 50 setzen.
    • a) k <- 5000
    • n <- 5
    • simu <-t(replicate(k,runif(n, min=0, max=6)))

    • b) 
    • m1 <- apply(simu,1,f1)
    • m2 <- apply(simu,1,f2)
    • m3 <- apply(simu,1,f3)
    • m4 <- apply(simu,1,f4)
    • m5 <- apply(simu,1,f5)
    • m6 <- apply(simu,1,f6)

    • c)boxplot(m1,m2,m3,m4,m5)
    • abline(h=3,col="red") # h=3, da Gleichverteilung von 0 bis 6

    # Viel höhere Werte durch +1000/5

    • boxplot(m6)
    • abline(h=3,col="red")

    • e)
    • mse1 <- mean((m1-3)^2)
    • mse2 <- mean((m2-3)^2)
    • mse5 <- mean((m5-3)^2)

    # f) # Prüfen Sie die Schätzfunktionen auf Konsistenz, in dem Sie # unter a) den Stichprobenumfang auf n = 50 setzen.
  5. Ü2A6
    a)  Erzeugen Sie k = 1000 Zufallsstichproben vom Umfang n = 10 aus einer Poissonver-
    teilung mit λ = 5 und stellen Sie diese in einer Matrix dar. Jede Zeile soll dabei eine
    Stichprobe enthalten.



    b)  Berechnen Sie für jede Stichprobe folgende Schätzer für den Parameter λ:

    –  den Mittelwert: lambda1

    –  den Median: lambda2
    –  die Hälfte des Maximums: lambda3
    Hinweis: Berechnen Sie dazu zuerst den Vektor mit dem Maximum jeder Stichpro-
    be und dividieren Sie diesen anschließend durch 2.

    c)  Vergleichen Sie die drei Schätzer anhand einer geeigneten Grafik.

    d)  Schätzen Sie basierend auf Ihren 1000 Stichproben den Bias der drei Schätzer (bias1,

    bias2, bias3). Welcher Schätzer hat den geringsten Bias?

    e)  Berechnen Sie für die drei Schätzer jeweils die empirische Varianz (var1, var2, var3
    ). Berechnen Sie anschließend jeweils den geschätzen MSE. Hinweis: MSE = Bias2 +
    Varianz. Welche Schätzfunktion wäre zu bevorzugen?

    f)  Untersuchen Sie nun, ob die drei Schätzer konsistent sind. Erhöhen Sie hierfür provi-
    sorisch in der Simulation den Stichprobenumfang von n = 10 auf n = 100. Was fällt
    Ihnen in Bezug auf den Schätzer lamda3 auf? Hinweis: Stellen Sie den Stichprobenum-
    fang anschließend wieder auf n = 10 zurück.
    • # a)
    • k <- 1000
    • n <- 10
    • simu <-t(replicate(k,rpois(n,5)))

    • # b)
    • lambda1 <- apply(simu,1,mean)
    • lambda2 <- apply(simu,1,median)
    • lambda3 <- apply(simu,1,max)
    • lambda3 <- lambda3/2

    • #c)
    • boxplot(lambda1,lambda2,lambda3,names=c("lambda1","lambda2","lambda3"))
    • abline(h=5,col="red")

    • # d)
    • bias1 <- mean(lambda1)-5
    • bias2 <- mean(lambda2)-5
    • bias3 <- mean(lambda3)-5

    • # e)
    • var1 <- var(lambda1)
    • var2 <- var(lambda2)
    • var3 <- var(lambda3)

    • mse1 <- bias1^2+var1
    • mse2 <- bias2^2+var2
    • mse3 <- bias3^2+var3

    #f) in a) n=100 setzen und die folgenden Befehle erneut ausführen. Anschließend n wieder auf 10 zurücksetzen.
  6. Ü2
    Aufgabe 11: Sei X ∼ Bin(10, p). Berechnen Sie für die drei Schätzer
    i) pˆ1 = X/10 ii) pˆ2 = 0.5 iii) pˆ3 = (1−w)X/10+0.5w mit w = 1/(1+√10)≃0.24
    die Verzerrung und den mittleren quadratischen Fehler und zeichnen Sie letzteren gegen p.

  7. Ü3 Aufgabe 2:

    Es geht hierbei darum, zu untersuchen, ob Aktien wirklich die bessere Alternative zum Spar-
    buch sind.

    a)  Importieren Sie den Datensatz
    Renditen.csv in ein neues R-Skript.

    b)  Die Variable BMW enthält n Tagesrenditen der BMW-Aktie. Wie groß ist n?

    c)  Schätzen Sie für die Tagesrenditen der BMW-Aktie den Erwartungswert μ und die
    Standardabweichung σ.


    d)  Die Schätzung aus c) trifft vielleicht nicht exakt den Erwartungswert der Rendite.
    Geben Sie deshalb ein 95% Konfidenzintervall für Ihre Schätzung an. Nehmen Sie dabei
    an, dass die Renditen normalverteilt sind und die „iid-Annahme“ erfüllen.


    e)  Ein Sparbuch hat pro Tag eine Rendite von 0.000081. Wo ist Ihr Geld besser aufgeho-
    ben?

    f)  Ihre Entscheidung in e) basiert auf einem Intervall, dass den wahren Wert nur in 95%
    der Fälle enthält. Sie möchten sich aber nur in einem von 1000 Fällen irren. Berechnen
    Sie das neue Konfidenzintervall. Können Sie sich nun immer noch eindeutig für eine der
    beiden Alternativen entscheiden?
    g) Erläutern Sie kurz verbal, wie sich die Konfidenzintervalle ändern würden, wenn sie die
    Standardabweichung nicht schätzen müssten, sondern diese aus einer anderen Quelle
    bekannt wäre (mit kurzer Begründung – keine Rechnung erforderlich).
    • # a)
    • daten <- read.csv2("Renditen.csv")
    • attach(daten)

    • # b)
    • n <- length(BMW)

    • # c)
    • m <- mean(BMW)
    • sd <- sd(BMW)

    • # d)
    • U <- m - qt(0.975, n-1) * sd/sqrt(n) # Untere Grenze
    • O <- m + qt(0.975, n-1) * sd/sqrt(n) # Obere Grenze
    • U
    • O

    • # f)
    • U <- m - qt(0.9995, n-1) * sd/sqrt(n) # Untere Grenze
    • O <- m + qt(0.9995, n-1) * sd/sqrt(n) # Obere Grenze
    • U
    • O
    • detach(daten)
  8. Blatt 3 Aufgabe 3:

    Ermitteln Sie auf Basis einer 20fachen Realisierung einer N (5, 0.22 )-verteilten Zufallsvariablen
    das zugehörige 80%-Konfidenzintervall für μ. Führen Sie dies 200-mal durch und bestimmen
    Sie, wie oft μ wirklich im Konfidenzintervall lag.
    • k <- 200
    • n <- 20
    • simu <-t(replicate(k,rnorm(n,5,0.2)))

    • m <- apply(simu,1,mean)
    • U <- m - qnorm(0.9)*(0.2/sqrt(20))
    • O <- m + qnorm(0.9)*(0.2/sqrt(20))

    sum((U<=5)&(O>=5))
  9. Blatt 3 Aufgabe 5:

    a)  Erzeugen Sie k = 200 Zufallsstichproben vom Umfang n = 50 aus einer Binomialver-
    teilung Bin(1, p = 0.3) und stellen Sie diese in einer Matrix dar. Jede Zeile soll dabei
    eine Stichprobe enthalten.

    b)  Berechnen Sie für jede Stichprobe pˆ = x ̄.

    c)  Bestimmen Sie basierend auf der Punktschätzung aus b) die Unter- und Obergrenze
    (Variablennamen UG bzw. OG) des 95%-Konfidenzintervalls für p für jede Stichprobe.
    Verwenden Sie die Formel von Kapitel 11, Folie 27.

    d)  Bestimmen Sie den Anteil der Intervalle, die das „wahre p“ überdecken.

    e)  Ist die Verwendung des Konfidenzintervalls (vgl. Kapitel 11, Folie 27) in dieser Situation
    (n = 50, Xi ∼ Bin(1, p = 0.3)) zu empfehlen?
    • # a)
    • k <- 200n <- 50
    • simu <-t(replicate(k,rbinom(n,1,0.3)))

    • # b)
    • p <- apply(simu,1,mean)

    • # c)
    • z=qnorm(0.975)
    • U <- (p+z^2/(2*n)-z*sqrt((z/(2*n))^2+p*(1-p)/n))/(1+z^2/n)
    • O <- (p+z^2/(2*n)+z*sqrt((z/(2*n))^2+p*(1-p)/n))/(1+z^2/n)

    • # d)
    • anzahl <- sum(U<=0.3 & 0.3<=O)
    • anteil <- anzahl/200
    • anteil

    • # e)
    • n*0.3*0.7
  10. Ü 3 Aufgabe 11:

    Bei einer Radarkontrolle auf einer Schnellstraße wurde bei 41 Fahrzeugen die Geschwindigkeit
    ermittelt. Hinweis: Führen Sie im Folgenden alle Tests zum Signifikanzniveau α = 5% durch.

    a)  Importieren Sie den Datensatz
    Radarkontrolle.csv in ein neues R-Skript. Die Variable
    geschw enthält die ermittelte Geschwindigkeit in km/h.

    b)  Schätzen Sie die Standardabweichung der Variable geschw.

    c)  Gehen Sie zunächst davon aus, dass die Geschwindigkeiten normalverteilt und unabhän-

    gig sind. Testen Sie die Hypothese H : μ = 120 auf Basis einer geeigneten Prüfgröße.

    d)  Ein Polizeibeamter hegt die Vermutung, dass die zulässige Höchstgeschwindigkeit syste-
    matisch überschritten wird. Wie sollte er die Hypothese formulieren, um das nachweisen
    zu können? Dokumentieren Sie die Testentscheidung auf Basis einer geeigneten Prüf-
    größe.
    • # a)
    • daten <- read.csv2("Radarkontrolle.csv")
    • attach(daten)

    • # b)
    • sd <- sd(geschw)

    • # c)
    • t.test(geschw, mu = 120, alternative = "two.sided", conf.level = 0.95)

    • #Normalverteilt und sigma nicht bekannt ..t.test
    • qt(0.975,40)
    • #Kritischer Wert

    • # d)
    • t.test(geschw, mu = 120, alternative = "greater", conf.level = 0.95)

    #Normalverteilt und sigma nicht bekannt -> t.test

    • qt(0.95,40)  #Kritischer Wert
    • detach(daten)
  11. Ü 3 Aufgabe 15:

    Sie sind für einen global agierenden Rückversichererer tätig. Um Werbung bei Ihren Kunden
    (=Direktversicherer in den USA) zu machen, wollen Sie damit werben, dass man in den USA
    in zwei von drei Jahren mit mindestens einem großen Sturm rechnen kann.

    a) Die Datei
    StormsUSA.csv enthält die Variable Storms, welche über mehrere Jahre
    die Anzahl katastrophaler Stürme pro Jahr zählt. Importieren Sie diese Datei in ein
    neues R-Skript.

    b)  Erstellen Sie eine neue 0-1 kodierte Variable x <- Storms>0. Diese Variable ist 1, wenn mindestens ein schwerer Sturm auftrat und Null sonst.

    c)  Schätzen Sie den Anteil pˆ der Jahre mit mindestens einem schweren Sturm. Spricht dies für Ihr oben beschriebenes Ziel?

    d)  Wie müssen Sie die Nullhypothese formulieren, wenn Sie nachweisen wollen, dass die wahre Wahrscheinlichkeit p über 2/3 liegt?

    e)  Führen Sie einen geeigneten Test durch! Ihr Signifikanznivau liegt dabei bei 5%. Erläu-
    tern Sie Ihr Ergebnis verbal.

    f)  Wie hätte sich das Ergebnis Ihres Tests geändert, wenn Sie statt des exakten Wertes
    2/3 den Wert 0.66 benutzt hätten?
    • # a)
    • daten <- read.csv2("StormsUSA.csv")
    • attach(daten)

    • # b)
    • x <- Storms>0

    • # c)
    • mean(x)

    • # e)
    • prop.test(sum(x==1), length(x), 2/3, alternative="greater")

    • # f)
    • prop.test(sum(x==1), length(x), 0.66, alternative="greater")
  12. Blatt 1


    Hausaufgabe 1: (30 Punkte – Geometrische Verteilung (Wiederholung))

    Die geometrische Verteilung gibt die Wahrscheinlichkeit für eine Anzahl von Versuchen vor dem ersten Erfolg an. Wir wollen nun das einfache Beispiel betrachten, dass Sie eine Münze werfen und die Anzahl der Versuche zählen, bis Sie das erste Mal Kopf werfen. Die Münze soll dabei fair sein, die Wahrscheinlichkeit für Kopf also 1/2 betragen.

    a)  Erstellen Sie in R einen Vektor mit 100 geometrisch verteilten Zufallszahlen mit Er-
    folgswahrscheinlichkeit bei jedem Versuch gleich 1/2.

    b)  Berechnen Sie Median und arithmetisches Mittel sowie die Standardabweichung der
    Zufallszahlen in R. Berechnen Sie per Hand den theoretischen Erwartungswert und die
    theoretische Varianz des in der Angabe geschilderten Zufallsexperiments. Interpretieren
    Sie Ihre Ergebnisse. Sind die in R beobachteten Werte sinnvoll?

    c)  Zeichnen Sie die Wahrscheinlichkeitsfunktion der Zufallszahlen. Beschriften Sie die Ach-
    sen und verschönern Sie Ihre Grafik durch Auswahl sinnvoller Eingabeparameter für
    col, border und breaks (Hinweis:Verwenden Sie hist!).

    d)  Ergänzen Sie im erzeugten Graphen die Dichtefunktion einer Exponentialverteilung.

    e)  Erläutern Sie auf Basis der Grafik und einem Anwendungsbeispiel den Zusammenhang
    zwischen der Exponentialverteilung und der Geometrischen Verteilung.
    • #a)
    • simu<-rgeom(100,prob=0.5)
    • simu

    • #b)
    • #Median
    • median(simu)

    • #Arithm. Mittel
    • mean(simu)

    • #Standardabweichung
    • sd(simu)

    • #E(X)=1
    • #V(X)=2
    • #sd(X)=sqrt(2)=1.41

    • #c) Zeichne Histogramm
    • hist(simu, main="Histogramm der geometrisch verteilten Zufallsvariablen", xlab="Anzahl der Würde bevor Kopf fällt", ylab="Häufigkeitsdichte", col="green", breaks=20, border=2, freq=F)

    abline(v=mean(simu), lwd=3)

    • #d)
    • range<-seq(min(simu), max(simu), by=0.1)
    • lines(range,dexp(range,1),col="red", lwd=2)

    • #lambda=1/mean(x)
    • #lambda=1/E(X)

    • #e)
    • # Geom Verteilung: Würfel werfen bis zum 1. Erfolg
    • # Exponentailvert.: Ausfalldauer eines Geräts
    • # Graphik: die Verteilung der geom. vert. Zufallsvariable
    • # sollte mit dem steigenden Stichprobenumfang die
    • # Verteilung (Dichte) der Exponentialverteilung annähern.
  13. ÜB1 HA 3: (30 Punkte - Normalverteilung)

    a) Erzeugen Sie in R 100 Stichproben vom Umfang 15 aus einer Binomialverteilung mitden Parametern n = 10 und p = 0.4. Nennen Sie die Daten simu und stellen Sie diesimulierten Stichproben in einem Matrixobjekt dar. Jede Zeile der Matrix soll dabeieine Stichprobe enthalten. Im Folgenden sollen Sie überprüfen, ob das arithmetische Mittel der einzelnen Stichprobenapproximativ einer Normalverteilung folgt.

    b)  Begründen Sie kurz, warum der zentrale Grenzwertsatz hierbei eine Rolle spielen könnte.

    c)  Erstellen Sie nun in R die Variable mittel, indem Sie mit Hilfe des apply-Befehlsfür jede einzelne Stichprobe das arithmetische Mittel berechnen. Tragen Sie daraufaufbauend in R folgenden Befehl ein:
    stdsumme <- (mittel-4)/sqrt(0.16)

    d)  Zeichnen Sie ein Histogramm für die Variable stdsumme.

    e)  Ergänzen Sie die Dichte der Standardnormalverteilung in das Histogramm aus Aufga-benteil d).

    f)  Würden Sie anhand des Histogramms aus Aufgabenteil d) die Standardnormalverteilung als Verteilungsmodell für die Variable stdsumme unterstellen (ja/nein)? Begründen Sie Ihre Antwort kurz. Geben Sie einen Vorschlag, wie die Anpassung weiter verbessert werden könnte.

    Für den restlichen Teil der Aufgabe bezeichne X eine normalverteilte Zufallsvariable mit
    μ=5 und σ2 =4.


    g)  Bestimmen Sie den Wert des 75%-Quantils von X und interpretieren Sie diesen Wert
    in einem Satz.

    h)  Berechnen Sie im R-Kalkulator P(X ≤ 3). Welcher Wert sollte sich für P(X ≥ 7)
    ergeben? Begründen Sie kurz.

    i)  Nennen Sie ein Beispiel aus der Ökonomie, für das die logarithmische Normalverteilung
    in der Praxis zur Anwendung kommen könnte.
    • #a)
    • Datenmatrix erstellen
    • simu<-t(replicate(100, rbinom(15,10,0.4)))

    • # m=15
    • # n=10
    • View(simu)

    • #b)
    • # 1) Die Zufallsvariable ist identisch unabhängig verteilt
    • # (Binomialverteilung).
    • # 2) Stichprobenumfang ist groß genug.

    • #c)
    • mittel<-apply(simu,1,mean)
    • stdsumme<-(mittel-4)/sqrt(0.16)

    • #d)
    • hist(stdsumme, freq=F, col="blue",breaks=20,xlim=c(-5,5), ylim=c(0,0.5))

    • #e)
    • range<-seq(-5,5,by=0.1)

    • # Dichte
    • lines(range,dnorm(range), col="red", lwd=2)

    • #g)
    • # 75%-Quantil:
    • qnorm(0.75,5,2)

    • # Der 75%-Quantil beträgt 6.34, d.h. 75% Prozent aller Daten
    • # liegen unter diesem Wert, überschreiten nicht den Wert von 6.34.

    • #h)
    • # P(X<=3=)=0.158
    • pnorm(3,5,2)
    • # P(X>=7)=P(X<=3=)=0.158 wegen der Symmetrie der Verteilung.
  14. Gleichverteilung
    dunif(x,min,max)
  15. Exponentialverteilung
    dexp(x,rate)
  16. Wie groß ist die Garantiezeit bei Verwendung des Exponentialverteilungsmodells, damit während der Garantie nur ca 10% der Geräte ausfallen 

    F(x0,1) = 0,1
    qexp(q,α)
  17. NOrmalverteilung
    Quantils & Verteilungsfunktion
    • qnorm(0.3,m,σ)
    • pnorm(30,m,σ)
  18. Test auf eine Wahrscheinlichkeit p: ÜbersichtEin-Stichprobentest
    Im RStudio:prop.test(sum(X==1), length(X), p,alternative, conf.level)
  19. Testen von HypothesenZwei-Stichprobentests
    t.test( X , Y, alternative, conf.level, var.equal=TRUE)
  20. Welch-Test: ÜbersichtModell
    Zwei Stichprobentest
    t.test( X, Y, alternative, conf.level)
  21. Vergleich zweier Wkeiten : Übersicht
    2 Stichprobentest
    prop.test(c(sum(X==1),sum(Y==1)),c(n,m),alternative, conf.level)
  22. Testen von Hypothesenverbundene StichprobenDifferenzen-t-Test: ÜbersichtR-Studio

    2 Stichprobentest
    t.test( X, Y, alternative, conf.level,paired=TRUE)
  23. 1 Stichprobetest
    Testen auf Lagerparameter z.b mu
    Normalverteilung, σ unbekannt
    t.test (X,mu,alternative, conf.level)
  24. Einstichprobe p Test
    Test auf ANteilswert p
    prob.test(sum(x==1),length(x),p,alternative,cconf.level)
  25. ÜB 4 Aufgabe 4:

    Ihre Freundin beschwert sich, dass sie abends beim Weggehen immer die kleinste ist. In der
    Vorlesung ist das seltsamerweise nicht der Fall. Ihre Freundin vermutet, dass große Perso-
    nen häufiger abends fortgehen. Es ist nun leider Ihre Aufgabe, diese seltsame Behauptung
    statistisch zu untersuchen.

    a)  Importieren Sie die Datei
    Umfrage2013SoSe.csv und stellen Sie die Daten in einem
    Datensatzobjekt dar. Sie interessieren sich im Folgenden für die Variablen GRO und
    PARTY.

    b)  Erstellen Sie eine neue 0-1 kodierte Variable: GRUPPE <-PARTY>4. In welche beiden Grup-
    pen teilt die Variable GRUPPE die Studenten auf?

    c)  Schätzen Sie nun für jede der beiden Gruppen die mittlere Körpergröße. Hat ihre Freundin Recht?

    d)  Ihr Ziel ist es trotzdem die Behauptung Ihrer Freundin (einseitige Hypothese) zu wi-
    derlegen – schließlich könnten diese Abweichungen auch reiner Zufall sein. Wie müssen Sie die Nullhypothese formulieren, um die Behauptung ihrer Freundin zu widerlegen?

    e)  Wählen Sie eine geeignete Grafik, um die Varianzen der Gruppen zu vergleichen! Sind
    die Varianzen homogen?



    f)  Führen Sie den entsprechenden Test zur Hypothese aus d) und Erkenntnis aus e) durch.
    Sie können dabei unterstellen, dass GRO normalverteilt ist.



    g)  Wenn Sie den Test korrekt durchgeführt haben, befinden sich die Größen der Personen,
    die selten feiern gehen in der ersten Stichprobe (X) und die Größen der Personen, die
    häufig feiern gehen in der zweiten Stichprobe (Y ). Auf welcher Seite der Verteilung der
    Teststatistik (positiv/negativ) liegt dann der Ablehnbereich?



    h)  Wie ist das Ergebnis des Tests? Können Sie die Behauptung Ihrer Freundin zum 5%
    Signifikanzniveau auf Basis des p-Wertes widerlegen? Begründen Sie kurz.

    i) Angenommen Sie konnten die Behauptung Ihrer Freundin in h) nicht widerlegen. Ihre
    Freundin meint nun, sie habe Recht. Stimmt das so?
    # a)

    daten <- read.csv2("Umfrage2013SoSe.csv")

    attach (daten)

    # PARTY - durschnittliche Anzahl der Partybesuche pro Monat

    # b)

    GRUPPE <- PARTY>4

    • # c)
    • mean(GRO[GRUPPE==1]) mean(GRO[GRUPPE==0])

    # e)

    boxplot(GRO[GRUPPE==1],GRO[GRUPPE==0])

    # f)

    t.test(GRO[GRUPPE==0],GRO[GRUPPE==1],alternative="greater")

    detach(daten)
  26. ÜB4 Aufgabe 6:

    An der Johann Wolfgang Goethe-Universität Frankfurt am Main werden zu allen BWL-
    Vorlesungen von privaten Anbietern kostenpflichtige Repetitorien veranstaltet, die auf die
    Klausuren vorbereiten sollen (ähnlich wie an der FU an der Jura-Fakultät üblich). Im Rahmen
    einer Evaluation wurde eine Stichprobe von Teilnehmern der Repetitorien gefragt, ob diese
    Zusatzveranstaltungen tatsächlich als hilfreich empfunden wurden (Skala von 1 „gar nicht
    hilfreich“ bis 5 „sehr hilfreich“). Der Fragebogen wurde in zwei Versionen ausgeteilt, die sich
    nur in der Ausrichtung der Skalen unterschieden: Bei Version 1 befand sich das Item „sehr
    hilfreich“ links, bei der Version 2 rechts.

    a) Importieren Sie die Daten aus der Datei
    Repetitorien.csv in ein Datensatzobjekt.
    Unterstellen Sie im Folgenden Normalverteilung für die vergebenen Bewertungen!

    b) Mit welcher Punktzahl wurden die Repetitorien durchschnittlich bewertet?


    c) Überprüfen Sie graphisch, ob sie von homogenen Varianzen ausgehen können?

    d)  Für diese Befragung soll mit Hilfe eines statistischen Tests geprüft werden, ob sich
    die Bewertungen abhängig von der Ausrichtung der Skala systematisch unterscheiden.
    Welcher Test sollte auf Basis der Informationen aus a) und b) angewendet werden? Wie
    sind Hypothese und Alternative zu formulieren?

    e)  Führen Sie den in d) genannten Test durch und geben Sie die Testentscheidung zum
    Signifikanzniveau α = 5% an.
    # a)

    data <- read.csv2("Repetitorien.csv")

    attach(data)

    # b)

    X <- REPWERT[VERSION==1]

    Y <- REPWERT[VERSION==2]

    • mean(X)
    • mean(Y)

    # c) boxplot(REPWERT[VERSION==1],REPWERT[VERSION==2])

    # e)

    t.test(X,Y,alternative="two.sided",conf.level=0.95)

    detach(data)
  27. ÜB 4 A8
    Bei fünf Personen wurde der Hautwiderstand jeweils zweimal gemessen, einmal bei Tag (X)
    und einmal bei Nacht (Y ). Man erhielt für das metrische Merkmal Hautwiderstand folgende
    Daten (Datensatz:
    Hautwiderstand.csv):

    Xi

    24 28 21 27 23
    Yi

    20 25 15 22 18

    a) Die Vermutung in Forscherkreisen geht dahin, dass der Hautwiderstand nachts absinkt.
    Lässt sich diese Vermutung durch die vorliegende Untersuchung erhärten? Testen Sie








    einseitig unter der Annahme, dass der Hautwiederstand normalverteilt ist mit (α =
    0.01).



    b)  Zu welcher Testentscheidung würden Sie kommen, wenn die zwei Stichproben (X) und
    (Y ) unabhängig wären.



    c)  Begründen Sie theoretisch die Veränderungen des p-Wertes!
    • # a)
    • # entweder

    X <- c(24,28,21,27,23)

    Y <- c(20,25,15,22,18)

    # oder

    • data <-read.csv2("Hautwiderstand.csv")
    • attach(data)

    ###

    • mean(X)
    • mean(Y)

    t.test(X,Y,alternative="greater",conf.level=0.99,paired=TRUE)

    # b)

    • boxplot(X,Y)
    • t.test(X,Y,alternative="greater",conf.level=0.99, var.equal=TRUE)

    detach(data)
  28. ÜB 5 A3




    a)  Bestimmen Sie die KQ-Schätzung der unbekannten Parameter β1 und β2 des Regressi-

    onsmodells

    yi = β1 + β2 · xi + εi, i = 1, . . . , 9



    b)  Bestimmen Sie – unter der Annahme unabhängiger, normalverteilter Störterme – die
    realisierten Konfidenzintervalle zum Konfidenzniveau 1 − α = 0.95 für die unbekannten
    Parameter β1 und β2.



    c)  Sie möchten im Folgenden einen statistisch signifikanten Einfluss des Anteils der Lese-
    und Schreibkundigen auf das Bruttosozialprodukt pro Einwohner eines Landes nach-
    weisen. Wie lauten in diesem Fall Hypothese und Alternative? Formulieren Sie Ihre
    Testentscheidung auf Basis des p-Wertes. Zu welcher Entscheidung gelangen Sie auf
    Basis des in Aufgabenteil b) berechneten realisierten Konfidenzintervalles? Begründen
    Sie kurz.
    • # Daten einlesen
    • daten <- read.csv2("LesenSchreiben.csv")

    attach(daten)

    # Berechnung des Modells

    modell <- lm(Y~X,data=daten)summary(modell)

    detach(daten)
  29. ÜB5 
    Aufgabe 5:

    Peter studiert BWL an der FU Berlin. Um sein Studium zu finanzieren, müssen seine Eltern
    hart arbeiten. Vorsorglich will Peter daher einige Vorschläge zur Verbesserung der Ertragssi-
    tuation des Familienbetriebs – eines Pizza-Lieferservices – machen. Seit längerer Zeit verteilt
    der Lieferservice Wurfsendungen in mehr oder weniger großer Auflage. Peter hat einen Daten-
    satz zusammengestellt, in dem er für jeden Monat die Anzahl der verteilten Wurfsendungen
    und den erzielten Umsatz bestimmt hat.



    a)  Der Datensatz
    PetersPizza.csv enthält die gesammelten Werte. Zeichnen Sie ein
    Streudiagramm für die Variablen Auflage (X) und Umsatz (Y ).



    b)  Führen Sie eine einfache Regression durch und bestimmen Sie Schätzungen für die
    unbekannten Modellparameter β1 und β2. Ergänzen Sie die Regressionsgerade in der
    Graphik aus a).



    c)  Prüfen Sie die Hypothese H: β2 = 0 zum Signifikanzniveau α = 5%. Wie lautet die
    Testentscheidung auf Basis einer geeigneten Prüfgröße?



    d)  Wie groß ist der Anteil der erklärten Varianz an der Gesamtvarianz?



    e)  Welchen Umsatz erwarten Sie auf Basis Ihres Modells aus Aufgabenteil b) bei einer
    Auflage von 6000 Wurfsendungen?







    5
    • # a)
    • daten <- read.csv2("PetersPizza.csv")

    • attach(daten)
    • plot(Auflage,Umsatz)

    # b)

    modell <- lm(Umsatz~Auflage,data=daten)

    • summary(modell)
    • abline(modell,col="red")

    # e)

    predict(modell,data.frame(Auflage=6000))

    detach(daten)
  30. ÜB 5 A6




    a)  Importieren Sie den Datensatz
    UmsatzGeschaefte.csv in ein Datensatzobjekt. Be-
    stimmen Sie die KQ-Schätzung des Regressionsmodells

    yi =β1 +β2 ·xi,2 +β3 ·xi,3 +εi, i=1,...,12

    mit Hilfe des lm-Befehls.



    b)  Wie groß ist das Bestimmtheitsmaß R2?



    c)  Im Folgenden soll das statistische Testproblem der Form H: β3 = 0 betrachtet werden.
    Bestimmen Sie den Wert der Realisation der Teststatistik des zugehörigen Tests.



    d)  Formulieren Sie die Testentscheidung zum Signifikanzniveau α = 0.05 bezüglich der
    Hypothese aus Aufgabenteil c) auf Basis des p-Wertes.



    e)  Geben Sie den erwarteten Jahresumsatz für ein neues Geschäft mit x2 = 2 und x3 = 8
    an.
    # a)

    • daten <- read.csv2("UmsatzGeschaefte.csv")
    • attach(daten)

    modell <- lm(y~x2+x3,data=daten)

    # b)-d)

    summary(modell)

    • # e)
    • predict(modell,data.frame(x2=2,x3=8))

    detach(daten)
  31. Ü5A7


    Es soll der Einfluss verschiedener Größen auf das Bruttoeinkommen untersucht werden. Der
    Datensatz
    regbrutto2.csv enthält alle erforderlichen Variablen:

    xi,2 (berufserf)
    xi,3 (angest)

    xi,4 (arbeitslosenq)

    = Berufserfahrung in Jahren
    = 1, wenn der Arbeitnehmer ein Angestellter ist
    = 0 sonst
    Arbeitslosenquote in % in der Region

    Die Daten wurden für 901 männliche Arbeitnehmer erhoben. Als abhängige Variable Y wird
    das logarithmierte Bruttoeinkommen (beink) verwendet. Die Regression soll auch eine Kon-
    stante enthalten.

    a)  Importieren Sie die Daten in ein Datensatzobjekt.

    b)  Führen Sie nun eine multiple Regressionsanalyse durch.

    c)  Welchen Anteil der Gesamtvarianz vermag das Modell zu erklären?

    d)  Ist das Modell als Ganzes auf einem Niveau von α = 0.05 signifikant? Nennen Sie
    einen geeigneten Test zur Überprüfung dieser Fragestellung und formulieren Sie die
    Testentscheidung auf Basis des p-Wertes dieses Tests.

    e)  Untersuchen Sie mit Hilfe eines statistischen Tests zum Signifikanzniveau α = 0.05, ob
    das Modell die Behauptung „Die Arbeitslosenquote in der Region hat einen Einfluss
    auf das Bruttoeinkommen“ stützt.

    f)  Geben Sie eine anschauliche Interpretation des Schätzwertes βˆ3 des unbekannten Mo-
    dellparameters β3.
    # a)

    daten <- read.csv2("regbrutto2.csv")

    attach(daten)

    # b)

    modell <- lm(beink~berufserf+angest+arbeitslosenq,data=daten)

    # c)

    summary(modell)

    detach(daten)
  32. Ü5A8

    Das eigene Gewicht ist für viele Menschen ein sehr persönliches Thema. Sie überlegen sich
    deshalb, ob man das Gewicht nicht auch durch weniger sensible Variablen gut vorhersagen
    kann.

    a)  Öffnen Sie den Datensatz
    Umfrage2015SoSe.csv und stellen Sie die Daten in einem
    Datensatzobjekt dar.

    b)  Kodieren sie das Geschlecht GESCHL so um, dass „0“ für männlich und „1“ für weiblich
    steht.

    c)  Führen Sie mit Hilfe des lm-Befehls eine multiple Regression durch. Dabei soll das
    Gewicht auf Größe und Geschlecht regressiert werden. Interpretieren Sie die Schätzwerte
    der unbekannten Modellparameter β2 und β3.

    d)  Ein Bekannter meint, die Variablen Geschlecht und Größe hätten nur einen geringen
    Einfluss auf das Gewicht. Vielmehr sei einzig die Ernährung ausschlaggebend. Er be-
    hauptet, in Wirklichkeit könnte auch β2 = β3 = 0 herauskommen. Können Sie diese
    Aussage zum Signifikanzniveau α = 0.05 widerlegen?

    e)  Wie groß ist der Anteil der Varianz, die durch das Modell erklärt wird?

    f)  Sie begegnen nun einem Mann, der 180 cm groß ist. Bestimmen Sie unter diesen Um-

    ständen den bedingten Erwartungswert E( GEW | GESCHL = 0, GRO = 180).
    • # a)
    • daten <- read.csv2("Umfrage2015SoSe.csv")
    • attach(daten)

    • str(daten)
    • #GRO=cm
    • #GEW=kg

    # b)

    #Bisher: 2=weiblich, 1=männlich

    GESCHL <- GESCHL-1

    # c)

    modell <- lm(GEW~GRO+GESCHL,data=daten)

    summary(modell)

    # f)

    predict(modell,data.frame(GESCHL=0,GRO=180))

    detach(daten)
  33. HA 5


    a) Importieren Sie den Datensatz
    lohn2001.csv in R und stellen Sie die Daten in einem
    Datensatzobjekt data dar.

    b) Für die Interpretierbarkeit der Ergebnisse ist es sinnvoll, die Variablen REGION und
    GESCHL umzukodieren. Geben Sie hierfür zunächst folgenden Befehl in das R-Studio
    ein:

    data$REGION <- data$REGION - 1

    Die so umkodierte Variable REGION nimmt nun den Wert 0 für „alte Bundesländer“ und
    1 für „neue Bundesländer“ an. Ändern Sie hierzu analog die Variable GESCHL.


    c) Sie interessiert der Einfluss der bezahlten Arbeitsstunden (Variable STUNDEN) auf den
    Bruttolohn (Variable LOHN). Führen Sie dazu eine einfache Regression durch.

    d)  Geben Sie eine inhaltliche Interpretation des Wertes βˆ2.

    e)  Hat das Modell einen hohen oder niedrigen Erklärungsgehalt? Begründen Sie kurz.

    Nun soll das Modell (neben der Konstanten und der Variablen STUNDEN) die folgenden erklä-
    renden Variablen enthalten, um den Erklärungsgehalt weiter zu verbessern:

    • Geschlecht der Arbeitnehmer (Variable GESCHL)
    • Region (Variable REGION)
    • Alter der betreffenden Person (Variable ALTER).

    f)  Führen Sie nun mit Hilfe der Designmatrix aus Aufgabenteil f) eine multiple Regressi-
    onsanalyse durch.
    • # a)
    • data <- read.csv2("lohn2001.csv")

    str(data)

    • # b)
    • data$REGION <- data$REGION - 1
    • data$GESCHL <- data$GESCHL - 1

    • # c)
    • modell <- lm(LOHN~STUNDEN, data=data)

    • # d)
    • summary(modell)

    • # f)
    • modell2 <- lm(LOHN~STUNDEN+GESCHL+REGION+ALTER,data=data)

    summary(modell2)
Author:
huatieulans
ID:
313942
Card Set:
Statistik 2 R-Referenzen
Updated:
2016-02-19 21:50:23
Tags:
Klausur
Folders:
Statistik 2
Description:
Vorbereitung
Show Answers: