Statistik R Stichpunkt 2

Home > Preview

The flashcards below were created by user huatieulans on FreezingBlue Flashcards.


  1. Gleichverteilung
    dunif(x,min,max)
  2. Exponentialverteilung
    dexp(x,rate)
  3. Wie groß ist die Garantiezeit bei Verwendung des Exponentialverteilungsmodells, damit während der Garantie nur ca 10% der Geräte ausfallen
    • F(x0,1) = 0,1
    • qexp(q,α)
  4. NOrmalverteilung

    Quantils & Verteilungsfunktion
    • qnorm(0.3,m,σ)
    • pnorm(30,m,σ)
  5. Test auf eine Wahrscheinlichkeit p: ÜbersichtEin-Stichprobentest
    • Im RStudio:
    • prop.test(sum(X==1), length(X), p,alternative, conf.level)
  6. Testen von Hypothesen
    Zwei-Stichprobentests
    t.test( X , Y, alternative, conf.level, var.equal=TRUE)
  7. Welch-Test: ÜbersichtModell

    Zwei Stichprobentest
    t.test( X, Y, alternative, conf.level)
  8. Vergleich zweier Wkeiten : Übersicht

    2 Stichprobentest
    prop.test(c(sum(X==1),sum(Y==1)),c(n,m),alternative, conf.level)
  9. Testen von Hypothesenverbundene Stichproben
    Differenzen-t-Test: ÜbersichtR-Studio
    2 Stichprobentest
    t.test( X, Y, alternative, conf.level,paired=TRUE)
  10. 1 Stichprobetest
    Testen auf Lagerparameter z.b mu
    Normalverteilung, σ unbekannt
    t.test (X,mu,alternative, conf.level)
  11. Einstichprobe p Test
    Test auf ANteilswert p
    prob.test(sum(x==1),length(x),p,alternative,cconf.level)
  12. a)  Importieren Sie die Datei Umfrage2013SoSe.csv und stellen Sie die Daten in einemDatensatzobjekt dar. Sie interessieren sich im Folgenden für die Variablen GRO undPARTY.
    • # a)
    • daten <- read.csv2("Umfrage2013SoSe.csv")

    attach (daten)

    # PARTY - durschnittliche Anzahl der Partybesuche pro Monat
  13. b)  Erstellen Sie eine neue 0-1 kodierte Variable: GRUPPE <-PARTY>4. In welche beiden Grup-pen teilt die Variable GRUPPE die Studenten auf?
    • # b)
    • GRUPPE <- PARTY>4
  14. c)  Schätzen Sie nun für jede der beiden Gruppen die mittlere Körpergröße. Hat ihre Freundin Recht?
    • # c)
    • mean(GRO[GRUPPE==1])
    • mean(GRO[GRUPPE==0])
  15. e)  Wählen Sie eine geeignete Grafik, um die Varianzen der Gruppen zu vergleichen! Sinddie Varianzen homogen?
    # e)

    boxplot(GRO[GRUPPE==1],GRO[GRUPPE==0])
  16. f)  Führen Sie den entsprechenden Test zur Hypothese aus d) und Erkenntnis aus e) durch.Sie können dabei unterstellen, dass GRO normalverteilt ist.
    # f)

    • t.test(GRO[GRUPPE==0],GRO[GRUPPE==1],alternative="greater")
    • detach(daten)
  17. Der Fragebogen wurde in zwei Versionen ausgeteilt, die sichnur in der Ausrichtung der Skalen unterschieden: Bei Version 1 befand sich das Item „sehrhilfreich“ links, bei der Version 2 rechts.

    b) Mit welcher Punktzahl wurden die Repetitorien durchschnittlich bewertet?
    • # b)
    • X <- REPWERT[VERSION==1]
    • Y <- REPWERT[VERSION==2]
    • mean(X)
    • mean(Y)
  18. Der Fragebogen wurde in zwei Versionen ausgeteilt, die sichnur in der Ausrichtung der Skalen unterschieden: Bei Version 1 befand sich das Item „sehrhilfreich“ links, bei der Version 2 rechts.

    c) Überprüfen Sie graphisch, ob sie von homogenen Varianzen ausgehen können?
    # c) boxplot(REPWERT[VERSION==1],REPWERT[VERSION==2])
  19. Der Fragebogen wurde in zwei Versionen ausgeteilt, die sichnur in der Ausrichtung der Skalen unterschieden: Bei Version 1 befand sich das Item „sehrhilfreich“ links, bei der Version 2 rechts.

    e)  Führen Sie den in d) genannten Test durch und geben Sie die Testentscheidung zumSignifikanzniveau α = 5% an.
    # e)

    • t.test(X,Y,alternative="two.sided",conf.level=0.95)
    • detach(data)
  20. Bei fünf Personen wurde der Hautwiderstand jeweils zweimal gemessen, einmal bei Tag (X)und einmal bei Nacht (Y ). Man erhielt für das metrische Merkmal Hautwiderstand folgendeDaten (Datensatz: Hautwiderstand.csv):

    Xi 24 28 21 27 23
    Yi 20 25 15 22 18

    a) Die Vermutung in Forscherkreisen geht dahin, dass der Hautwiderstand nachts absinkt.Lässt sich diese Vermutung durch die vorliegende Untersuchung erhärten? Testen Sie einseitig unter der Annahme, dass der Hautwiederstand normalverteilt ist mit (α =0.01).
    • X <- c(24,28,21,27,23)
    • Y <- c(20,25,15,22,18)

    • # oder
    • data <-read.csv2("Hautwiderstand.csv")
    • attach(data)

    • ###
    • mean(X)
    • mean(Y)
    • t.test(X,Y,alternative="greater",conf.level=0.99,paired=TRUE)
  21. b)  Zu welcher Testentscheidung würden Sie kommen, wenn die zwei Stichproben (X) und(Y ) unabhängig wären.
    • boxplot(X,Y)
    • t.test(X,Y,alternative="greater",conf.level=0.99, var.equal=TRUE)

    detach(data)
  22. a)  Bestimmen Sie die KQ-Schätzung der unbekannten Parameter β1 und β2 des Regressionsmodells

    yi = β1 + β2 · xi + εi, i = 1, . . . , 9

    c)  Sie möchten im Folgenden einen statistisch signifikanten Einfluss des Anteils der Lese-und Schreibkundigen auf das Bruttosozialprodukt pro Einwohner eines Landes nach-weisen. Wie lauten in diesem Fall Hypothese und Alternative? Formulieren Sie IhreTestentscheidung auf Basis des p-Wertes. Zu welcher Entscheidung gelangen Sie aufBasis des in Aufgabenteil b) berechneten realisierten Konfidenzintervalles? BegründenSie kurz.
    • # Daten einlesen
    • daten <- read.csv2("LesenSchreiben.csv")

    • attach(daten)
    • # Berechnung des Modells
    • modell <- lm(Y~X,data=daten)
    • summary(modell)

    detach(daten)
  23. a)  Der Datensatz PetersPizza.csv enthält die gesammelten Werte. Zeichnen Sie einStreudiagramm für die Variablen Auflage (X) und Umsatz (Y ).
    • # a)
    • daten <- read.csv2("PetersPizza.csv")

    • attach(daten)
    • plot(Auflage,Umsatz)
  24. b)  Führen Sie eine einfache Regression durch und bestimmen Sie Schätzungen für dieunbekannten Modellparameter β1 und β2. Ergänzen Sie die Regressionsgerade in derGraphik aus a).
    • # b)
    • modell <- lm(Umsatz~Auflage,data=daten)
    • summary(modell)
    • abline(modell,col="red")
  25. e)  Welchen Umsatz erwarten Sie auf Basis Ihres Modells aus Aufgabenteil b) bei einerAuflage von 6000 Wurfsendungen?
    • # e)
    • predict(modell,data.frame(Auflage=6000))

    detach(daten)
  26. a)  Importieren Sie den Datensatz UmsatzGeschaefte.csv in ein Datensatzobjekt. Be-stimmen Sie die KQ-Schätzung des Regressionsmodells

    yi =β1 +β2 ·xi,2 +β3 ·xi,3 +εi, i=1,...,12

    mit Hilfe des lm-Befehls.
    # a)

    • daten <- read.csv2("UmsatzGeschaefte.csv")
    • attach(daten)

    modell <- lm(y~x2+x3,data=daten)
  27. b)  Wie groß ist das Bestimmtheitsmaß R2?
    summary(modell)
  28. e)  Geben Sie den erwarteten Jahresumsatz für ein neues Geschäft mit x2 = 2 und x3 = 8 an.
    predict(modell,data.frame(x2=2,x3=8))
  29. Es soll der Einfluss verschiedener Größen auf das Bruttoeinkommen untersucht werden.
    Der Datensatz regbrutto2.csv enthält alle erforderlichen Variablen:
    xi,2 (berufserf)
    xi,3 (angest)
    xi,4 (arbeitslosenq)

    = Berufserfahrung in Jahren
    = 1, wenn der Arbeitnehmer ein Angestellter ist
    = 0 sonst

    Die Daten wurden für 901 männliche Arbeitnehmer erhoben. Als abhängige Variable Y wirddas logarithmierte Bruttoeinkommen (beink) verwendet. Die Regression soll auch eine Kon-stante enthalten.

    b)  Führen Sie nun eine multiple Regressionsanalyse durch.
    # b)

    modell <- lm(beink~berufserf+angest+arbeitslosenq,data=daten)
  30. c)  Welchen Anteil der Gesamtvarianz vermag das Modell zu erklären?
    summary(modell)
  31. b)  Kodieren sie das Geschlecht GESCHL so um, dass „0“ für männlich und „1“ für weiblichsteht.
    • # b)
    • #Bisher:
    • 2=weiblich, 1=männlich

    GESCHL <- GESCHL-1
  32. c)  Führen Sie mit Hilfe des lm-Befehls eine multiple Regression durch. Dabei soll dasGewicht auf Größe und Geschlecht regressiert werden. Interpretieren Sie die Schätzwerteder unbekannten Modellparameter β2 und β3.
    modell <- lm(GEW~GRO+GESCHL,data=daten)

    summary(modell)
  33. f)  Sie begegnen nun einem Mann, der 180 cm groß ist. Bestimmen Sie unter diesen Um-ständen den bedingten Erwartungswert E( GEW | GESCHL = 0, GRO = 180).
    predict(modell,data.frame(GESCHL=0,GRO=180))
  34. a) Importieren Sie den Datensatz lohn2001.csv in R und stellen Sie die Daten in einemDatensatzobjekt data dar.
    • # a)
    • data <- read.csv2("lohn2001.csv")

    str(data)
  35. b) Für die Interpretierbarkeit der Ergebnisse ist es sinnvoll, die Variablen REGION undGESCHL umzukodieren. Geben Sie hierfür zunächst folgenden Befehl in das R-Studioein:

    data$REGION <- data$REGION - 1

    Die so umkodierte Variable REGION nimmt nun den Wert 0 für „alte Bundesländer“ und1 für „neue Bundesländer“ an. Ändern Sie hierzu analog die Variable GESCHL.
    • # b)
    • data$REGION <- data$REGION - 1

    data$GESCHL <- data$GESCHL - 1
  36. c) Sie interessiert der Einfluss der bezahlten Arbeitsstunden (Variable STUNDEN) auf denBruttolohn (Variable LOHN). Führen Sie dazu eine einfache Regression durch.
    modell <- lm(LOHN~STUNDEN, data=data)
  37. d)  Geben Sie eine inhaltliche Interpretation des Wertes βˆ2.
    summary(modell)
  38. f)  Führen Sie nun mit Hilfe der Designmatrix aus Aufgabenteil f) eine multiple Regressi-onsanalyse durch.
    • # f)
    • modell2 <- lm(LOHN~STUNDEN+GESCHL+REGION+ALTER,data=data)

    summary(modell2)
  39. Schätzen des Modells
    modell <- lm(Y ˜ X + Z+...)
  40. Modell Ergebnis
    summary (modell)
  41. Regressionsanalyse

    Scatterplot von X,Y
    plot (X,Y)
  42. Einzeichnen der Regressionsgeraden / Ausgleichsgeraden
    abline (modell)
  43. Regressionsanalyse 


    Vorhersage
    • neu <- data.frame (x=3, z=5...)
    • predict (Modell,neu)

Card Set Information

Author:
huatieulans
ID:
316211
Filename:
Statistik R Stichpunkt 2
Updated:
2016-02-21 12:17:25
Tags:
Klausur
Folders:
Statistik
Description:
Vorbereitung
Show Answers:

Home > Flashcards > Print Preview