Wirtschaftsinformatik VL/Übung 2

Home

Get App

Create

Business Intelligence und Datenbanken
- Business Intelligence: Techniken zur Konsolidierung, Analyse und Bereitstellung von Daten zur Entscheidungsunterstützung.
- Business Intelligencefußt in der Regel auf umfangreichen, operativen Datenbanken/Datenquellen.
- Wir betrachten zunächstdie Modellierung von Datenbanken.
Datenbanksysteme
- Datenbanksysteme dienen der
- 1.Speicherung großer Datenbestände
- Beispiele:
- Adressdaten aller Kunden des Quelle-Versandhauses
- Alle Bestellungen dieser Kunden
- Vertragsdaten aller T-Mobile-Handykunden
- Speicherung einer digitalen Karte in einem Navigationssystem
- Die Daten werden in miteinander verknüpften Tabellen gespeichert.
- 2.Auswertung dieser Datenbestände
- Mittels der Abfragesprache SQL (Structured Query Language) lassen sich die gespeicherten Daten auswerten.
- Beispiele:
- Abfrage 1: Gebe mir alle Quelle-Kunden aus Berlin, die mindestens dreimal bestellt haben!
- Abfrage 2: Welche Produkte haben im letzten Monat die höchsten Umsätze erzielt?
Rolle von Datenbanken in Anwendungssystemen

Datenbanksysteme sind Teil fast aller Anwendungssysteme
Architektur eines ERP-Systems
- ERP-Systeme bestehen aus mehreren Softwaremodulen und einer zentralen Datenbank.
- Vorteile der zentralen Datenhaltung:
- unterschiedliche Geschäftsprozesse und Funktionsbereiche können Daten unternehmensweit gemeinsam nutzen.
- Vermeidung von Dateninkonsistenzen und Synchronisationsproblemen.
Rolle von Datenbanken in Anwendungssystemen
- Präsentation
- >Bildschirmmasken oder Webbrowser
- Applikation
- >Programmlogik in irgendeiner
- Programmiersprache
- Datenhaltung
- >Datenbanksystem
Aufbau eines Datenbanksystems (3/3)
Ein Datenbanksystem besteht aus einer Datenbank, welche die eigentlichen Daten enthält, und einem Datenbank-Verwaltungssystem (DBMS Data Base Management System)
- Aufgaben eines Datenbank-Verwaltungssystems
- Abfrageinterpreter:Übersetzt SQL-Anweisungen in Programmaufrufe entsprechender "lowlevel"-Routinen des DBMS
- Abfrageoptimierer:Sucht für eine gegebene SQL-Abfrage an Hand von Statistik-und Indexdaten einen "guten" Zugriffspfad auf die gewünschten Daten.
- Integritätskontrolle:Stellt sicher, das Daten nur entsprechend vorher definierter Integritätsbedingungen geändert werden können.
- Autorisierungskontrolle:Überprüft, ob der Nutzer auf die Daten zugreifen darf.
- Kontrolle von Mehrfachzugriffen: Synchronisiert Mehrfachzugriffe und sperrt temporär Datenzugriffe, die zu Konflikten führen würden.
- Datensicherung: Maßnahmen um Folgen von Systemabstürzen oder anderen Fehlersituationen klein zu halten.
- Dateimanagement: Speicherallokation, Zugriffe auf die Festplatte
1. Das Relationenmodell
- Relationstyp
- Ein Relationstyp ist eine abstrakte Beschreibung einer Tabelle (=Relation).
- Es werden die Attribute, deren Datentyp, der Primärschlüssel und der Tabellenname definiert.
- Schreibweise:
- Relation
- Konkrete Ausprägung eines Relationstyps (=Tabelle inkl. Datensätze).
2. Structured Query Language (SQL)
- SQL ist eine standardisierte Sprache zum Arbeiten mit Datenbanken.
- SQL umfasst folgende Teilbereiche:Data Definition Language (DDL)Erstellen und Verändern von Tabellen, Schlüsseln und Indices
Data Manipulation Language (DML)Daten einfügen, ändern und löschen

Data ControlLanguage (DCL)Vergabe von Zugriffsrechten

Query Language (QL)Abfrage der Daten
Korrelationsvariablen
- Korrelationsvariablen
- Über sogenannte Korrelationsvariablen lassen sich Kurzbezeichnungen für Tabellen definieren.
Ursprüngliche Formulierung
- SELECT Nachname, Rechnungsnummer, Datum
- FROM Kunden, Rechnungen
- WHERE Kunden.Kundennummer= Rechnungen.KundennummerAND Nachname = ‘Schulz‘;
- ⇩
>Formulierung mit Korrelationsvariablen
- SELECT Nachname, Rechnungsnummer, Datum
- FROM Kunden K, Rechnungen RE
- WHERE K.Kundennummer= RE.KundennummerAND Nachname = ‘Schulz‘;
Entity-Relationship-Diagramme (ERDs)
- Entity-Relationsship-Diagramme (ERDs) dienen zur Modellierung und
- Visualisierung von Datenstrukturen.
Elemente von ER-Diagrammen
- Entity
- Objekttypen, die im Anwendungsfall eine Rolle spielen.
- Beispiele: Kategorien, Artikel, Rezensionen, Bestellungen, Kunden
- Attribut
- Attribute definieren Eigenschaften von Entities.
- Attribute haben bestimmte Wertebereiche (Domains).
- Beispiel: Termin einer Lehrveranstaltung (Wertebereich: Datum)
- Relationship
- Beziehungen zwischen Entities.
- Beispiele: Kunden tätigen Bestellungen, Artikel gehören zu Kategorien
Kardinalitäten
- Kardinalitäten
- Kardinalitätenlegen fest, mit wie vielen anderen Objekten ein einzelnes Objekt minimal und maximal in Beziehung stehen
- Kardinalitätenkürzel:
- k : genau k-mal. Z.B. 3
- [n,m] : mindestens n, maximal m. Z.B. [2,5]
- * : Null oder mehr
- + : 1 oder mehr
- c : Null oder 1
Normalisierung
Ziel der Normalisierung ist die Verbesserung eines entworfenen Relationenmodellsfür operative bzw. Transaktionsdatenbanken.
- Normalisierung
- >Die Zerlegung von Relationstypen in Relationstypen höherer Normalform wird als Normalisierung bezeichnet.
- >Strukturdefizite von Relationstypen sind durch ihre Zerlegung in Relationstypen höherer Normalform vermeidbar.
Die Erste Normalform (1NF) (1/2)
- Definition: Erste Normalform (1NF)
- Ein Relationstyp befindet sich in 1NF,wenn der Wertebereich jedes seiner Attribute atomar ist.
- Atomarität von Wertebereichen >bedeutet:Zusammengesetzte Attribute sind nichtzugelassen.
- >Wiederholungsgruppen und Auflistungen sind nichtzugelassen.
- Anmerkung:
- >Die Frage nach der Atomarität eines Wertebereichs ist relativ und hängt vom konkreten Anwendungsfall ab.
- >Typische Beispiele, bei denen AtomaritätAnsichtssache ist: Telefonnummer mit Vorwahl, Straße mit Hausnummer
In der Klausur sind Relationstypen immer in der 1NF.

Atomaritätvon Wertebereichen bedeutet:
- >Zusammengesetzte Attribute sind nichtzugelassen.
- >Wiederholungsgruppen und Auflistungen sind nichtzugelassen.
Die Zweite Normalform (2NF)
Definition: Zweite Normalform (2NF)Ein Relationstyp befindet sich in 2NF, wenn er sich in 1NF befindet und jedes Nichtschlüsselattribut von jedem Kandidatenschlüssel vollfunktional abhängt.

Wichtige Bestandteile der Definition:
- Funktionale und vollfunktionale Abhängigkeiten
- Schlüssel-und Nichtschlüsselattribute
Funktionale Abhängigkeiten
Definition: Funktionale AbhängigkeitDas Attribut Y ist funktional abhängig vom Attribut oder der Attributgruppe X, wenn es zu jedem Wert von X nur genau einen Wert von Y geben kann.
- >Funktionale Abhängigkeiten ergeben sich aus den Sachzusammenhängen und können anhand einer Relation nur falsifiziert werden.
- >Schreibweise funktionale Abhängigkeit: Matrikel_Nr→Name
- >Schreibweise nicht funktional abhängig: Name ―/→Vorname
- >Alle Attribute eines Relationstypen hängen per Definition funktional von allen Kandidatenschlüsseln ab.
Vollfunktionale Abhängigkeiten

Definition: Vollfunktionale AbhängigkeitDas Attribut Y ist vollfunktional abhängig vom Attribut oder der Attributgruppe X, wenn Y von X funktional abhängig ist und es keine Teilmenge in X gibt, von der Y abhängig ist.

>Eine funktionale Abhängigkeit X →Y kann nur dann keinevolle funktionale Abhängigkeit sein, wenn X eine Attributgruppe ist.

>Schreibweise volle funktionale Abhängigkeit: Matrikel_Nr, Prüfungsfach ⇒Note(Das Symbol ⇒wird nur bei Attributgruppen verwendet, ansonsten →, weil ein einzelnes Attribut immer vollfunktional abhängig ist, da es keine Teilmenge gibt.)
Schlüssel-und Nichtschlüssel-Attribute
- Definition: Schlüsselattribut
- Jedes Attribut, das Bestandteil eines Kandidatenschlüssels ist, wird als Schlüsselattribut bezeichnet.
- Definition: Nichtschlüsselattribut
- Jedes Attribut, das nicht Bestandteil eines Kandidatenschlüssels ist, wird als Nichtschlüsselattribut bezeichnet.
Zweite Normalform (2NF)
- Definition: Zweite Normalform (2NF)Ein Relationstyp befindet sich in 2NF, wenn er sich in 1NF befindet und jedes Nichtschlüsselattribut von jedem Kandidatenschlüssel vollfunktional abhängt.
- Existiert kein zusammengesetzter Schlüssel, so befindet sich ein Relationstyp automatisch in der 2NF (Voraussetzung: 1NF)
Vorgehen zur Prüfung eines Relationstypen auf 2NF
- Prüfen auf 1NF.
- Vollfunktionale Abhängigkeiten bestimmen.
- Kandidatenschlüssel, Schlüssel-und Nichtschlüsselattribute bestimmen.
- Prüfen, ob alle Nichtschlüsselattribute vollfunktional von allen Kandidatenschlüsseln abhängen.
Dritte Normalform (3NF)
- Definition: Dritte Normalform (3NF)Ein Relationstyp befindet sich in 3NF, wenn er sich in 2NF befindet und kein Nichtschlüsselattribut transitiv von einem Kandidatenschlüssel abhängt.
- Anders formuliert: Ein Relationstyp befindet sich in Dritter Normalform, wenn keine funktionalen Abhängigkeiten zwischen Nichtschlüsselattributen existieren.
Gesamtvorgehen bei der Normalisierung
- Prüfen ob alle Attribute atomar sind (1NF)
- Vollfunktionale Abhängigkeiten bestimmen (eventuell aufzeichnen)
- Kandidatenschlüssel bestimmen
- Schlüssel-und Nichtschlüsselattribute bestimmen
- Alle nicht vollfunktionalen Abhängigkeiten zwischen Schlüsselattributen und Nichtschlüsselattributen durch Zerlegungauflösen (2NF)
- Alle Abhängigkeiten zwischen Nichtschlüsselattributen durch Zerlegungauflösen (3NF)
Abbildung des Basissystems im operativen IS
- Das betriebliche Basissystem bezieht Einsatzgüter aus der Umwelt der Unternehmung und transformiert diese in einem Leistungserstellungsprozess in Produkte
- Beispiele: Produktion, Lagerung, Absatz, Erbringung von Dienstleistungen
- Das Basissystem realisiert die Sachziele der Unternehmung (= Leistung)
- Das operative Informationssystem bildet die relevanten Komponenten des Basissystems ab und lenkt diese unmittelbar
- Transaktionsbelege übermitteln den Status des Basissystems
Beispiel: Pizzaproduktion (1/3)
-  Basissystem: materielle Beziehungen zwischen den Elementen
-  Teig wird geknetet, Teig wird belegt, Pizza wird gebacken, Pizza wird verpackt, Pizza wird ausgeliefert, …
-  Das operative Informationssystem dokumentiert und begleitet den Geschäftsvorfall anhand von Transaktionsbelegen des Basissystems
-  Hinterlegung von Zubereitungsvorschriften, Kundendaten, Produktionszustand, Erstellen des Auftrages, Erstellen der Rechnung, …
Enterprise-Resource-Planning-Systeme

Unternehmensweites Anwendungssystem, das alle zentralen Geschäftsprozesse eines Unternehmens in einem einzigen Softwaresystem integriert und so den reibungslosen unternehmensweiten Informationsaustausch ermöglicht.
Steuerung und Kontrolle mit ERP-Systemen
- Enterprise-Resource-Planning-Systeme dienen der terminlichen Steuerung vonArbeitskräften (wer)
- Werkstoffen (was)
- Arbeitsmitteln (womit)
- Arbeitsplätzen (wo)
- ERP-Systeme steuern und kontrollieren das operative IS auf Basis von Produktions-datenbanken (Online TransactionalProcessing, OLTP)
- Das operative Informationssystem kennt den Zustand des Basissystems und schreibt ihn anhand von Steuerungsinformationen des ERP-Systems fort
Modellgestützte Planung mit ERP-Systemen

Die Informationsvorausschau ermöglicht die automatisierte Einplanung von Ressourcen und eine Prognose des Systemzustandes -> Information an Kunden
Lenkungs-und Leistungssysteme
- von einzelnen Geschäftsvorfällen abstrahierende Lenkung des Unternehmens, insbesondere des operativen IS
- unmittelbare Lenkungdes Basissystems
- laufende Abwicklung der Geschäftsvorfälle
Realisierung der vertikalen Integration
- Selektion der operativen Daten aus Geschäftsvorfällen
- Zeitliche-, räumliche-und produktorientierte Aggregation
- Ggf. Anreicherung durch extern verfügbare Daten
Data Warehouses
-  Ein Data Warehouse ist eine Datenbank mit Berichts- und Abfragefunktionen, die operative und historische Daten speichert.
-  Daten werden aus verschie-denen betrieblichen Systemen extrahiert und für Managementberichte und Analysen aufbereitet (-> OLAP, Data Mining).
-  Data Warehouses sind multidimensional aufgebaut und werden für die Langzeitspeicherung von historischen, gereinigten, validierten, synthetischen, operativen Daten aus internen und externen Quellen eingesetzt. (Kurz 1998)
Arbeiten mit einem Data Warehouse
- 1. Auswahl geeigneter Attribute aus operativen Datenbanken
- 2. Hinzufügen ausgewählter Daten aus externen Quellen
- 3. Transformation und Laden der Daten
- 4. Speicherung der geladenen Daten in Form von Dimensionen
- 5. Administration von Datenbanken (wie bei operativen Datenbanken)
- 6. Suche and Analyse mittels Berichten oder mit OLAP-Technologie
Operative Datenbanken vs. Data Warehouses(1/2)
- Operative Datenbanken…
- >unterstützenprimärdastägliche(operative) Geschäft
- >zeichnenoperative Geschäftsvorfälleauf
- >verfolgendieredundanzfreieSpeicherungvonTransaktionen
- Operative Datenbanken sind relativ unübersichtlich:
- >viele Details aus unterschiedlichsten Anwendungen
- >viele Updates, laufend Überschreibungen
- Operative Datenbanken sind nicht besonders benutzerfreundlich:
- >Komplexe Anfragesprachen wie SQL überfordern betriebliche Entscheidungsträger oft
Department WirtschaftsinformatikFU BerlinJanFabian Ehmke
Beispiel: Komponenten eines CRM-Systems (2/2)
CRM-Anwendungen, die Kundendaten analysieren, um Informationen für die Verbesserung der Geschäftsleistung bereitzustellen.
- Einheitliche Sichtaufden Kunden
- >durch Integration allerDaten ausKundenkontakten (CallCenter,Vertrieb,Website)in einem DataWarehouse
- AnalysederKundendaten mitdemZiel
- > Kundenpräferenzen zuerkennen
- > Produkteund Servicezu verbessern (Beispiel:Bundling,Cross-Selling)
- > KlassifikationderKunden nach Profitabilität/Potentialund entsprechendegenauere Ausrichtung derMarketing-Aktivitäten
- > Abstufung des Service (Beispiel:ProfitableKunden zumSenior-Consultant, unprofitablein dieWarteschleife)
Verwendete Techniken:OLAP,DataMining
Repräsentation analytischer Daten

 Analytische Daten werden mit multidimensionalen Datenmodellen repräsentiert ⇒ nutzerfreundliche und betriebsnahe Modellierung

 Analytische Daten werden in Würfeln (Hypercubes) modelliert ⇒ Dimensionen und Fakten

 Fakt: aggregierbares, meist numerisches und kontinuierliches Attribut, das ein betriebliches Erfolgskriterium mehrdimensional misst

 Dimension: symbolisches und diskretes Kriterium, das die Auswahl, Zusammenfassung und Navigation eines Indikators ermöglicht
Physikalische Datenrepräsentation
- Multidimensionale Daten können gespeichert werden auf
- Basis...
- > eines relationalen Datenmodells
- >>> Multidimensionale Daten werden auf Tabellen abgebildet
- >>> Primärschlüssel von Dimensionstabellen werden als Fremdschlüssel in Faktentabellen übernommen und fungieren als kombinierter
- Primärschlüssel
- >>> Multidimensionale Abfragen müssen mittels Metadaten an Tabellenstruktur adaptiert werden
- > eines multidimensionalen Datenmodells
- >>> Struktur ist für optimale Abfrage angepasst
- >>> kein Standard
KomponenteneinesData-Warehouse-Systems (1/2)

Data-Warehouse-System bestehen aus den folgenden Komponenten:
1..Data Marts
- > sind (kleine) analytische Datenbanken, spezialisiert auf die Anforderungen einer Gruppe im Unternehmen (z.B. Abteilung oder
- Arbeitsgruppe).
> werden durch eine Abteilung anstatt zentralisiert durch IT verwaltet.
- > basieren auf spezialisierten Datenmodellen, die relativ einfach zu verstehen sind und Zugriff auf analytische Daten gewährleisten.
- > beziehen Daten von anderen DWHs oder operativen Datenquellen.
> sind mit anderen analytischen Datenbanken zu koordinieren.

> Die Entwicklung ist weniger komplex als bei einem zentralen DWH.

> Nutzer können in die Entwicklung von Data Marts leicht einbezogen werden
KomponenteneinesData-Warehouse-Systems (2/2)

1.Data marts(Fortsetzung):
- 1.Data marts(Fortsetzung):
- Die Verteilung analytischer Daten auf verschiedene Data Marts ist komplex:
- ⇒intramodulareVerknüpfunginnerhalbeinesData Martssolltehochsein
- ⇒AufhomogeneNutzergruppeachten
- ⇒DatenmodellanFunktioninnerhalbdes Unternehmensanpassen
- ⇒intermodulareVerküpfungzwischenData Martssolltegeringsein
- 2.Zentrales Data Warehouse:
- Analytische Datenbank, die Daten für lokale Data Marts aufbereitet
- Muss nicht unbedingt analytische Daten für das gesamte Unternehmen bereitstellen
- 3.Enterprise Data Warehouse:
- Bereitstellung analytischer Daten für das gesamte Unternehmen
Hierarchische DWH-Architektur
 Lokale Data Marts werden durch ein Enterprise Data Warehouse (EDWH) gespeist und koordiniert

 Das EDWH extrahiert, integriert und verteilt die Daten
-  Data Marts
- > Dienender Abfrageund der Analyse
- > Sind auf einenFunktionsbereichdes Unternehmensspezialisiert
 Koordination von Attributen erforderlich (Homonyme, Synonyme)
Beispielabfragen für DWH-Komponenten
-  Analyse von Kundendaten nach der Dimension “Herkunft” und den hierarchischen Kategorien “Land” / “Region” / “Ort”, um alle Regionen mit unterdurchschnittlichem Umsatz zu identifizieren ⇒ persönlicher Data Mart
-  Vertiefte Analyse umsatzschwächster Orte ⇒ Abteilungs-Data Mart
-  Analyse der Verkäufe der letzten 5 Jahre für ausgewählte Kunden ⇒ EDWH
-  Analyse eines auffälligen Kunden, dessen Käufe in dieser Periode konsistent abgenommen haben ⇒ Adresse aus operativer Datenbank
Endbenutzerzugriffauf Data Warehouses
Entscheidungsträger benötigen einen flexiblen und einfachen Zugriffauf analytische Daten, um komplexe Analysen durchführen zu können

1. Fest implementierte Berichte Beliebigmodifizierbar Änderungenmüssenvon Programmiererdurchgeführtwerden
- 2. Abfragesprachen
- Standardisiertund mächtig
- Lernaufwandgroß
- Z.B. mitSQL, QBE
- 3. OLAP
- Flexible, ad-hoc AnfragenohnetechnischeExpertise möglich
OLAP versus OLTP

 OnLine Analytical Processing (OLAP): Abfragemethode, die Endbenutzern einen mehrdimensionalen, schnellen Zugriff und eine benutzerfreundliche interaktive Analyse von Daten aus Data Warehouses ermöglicht

 OnLine Transactional Processing (OLTP): Verarbeitung von Transaktionsdaten auf Basis operativer Datenbanken
Standardfunktionen von OLAP (1/4)
 OLAP-Tools stellen eine Vielzahl von Standardfunktionen bereit:
- 1.VerschiedeneRepräsentationsmodi:
- Absolute und relative Datenrepräsentation 3D-Analyse unter Nutzungvon Ebenen Vielzahlvon Berechnungsmöglichkeiten
- 2.Spezielle Würfel operationen erlauben es, durch die Daten zu “surfen”:
- drilling
- >drill up/down ⇒verändertden AggregationsgradentlangeinerDimension
- >drill through ⇒Zugriffauf Detail level operationaler Datenbanken
- pivoting (rotating) ⇒TauscheZeilenund Spalten
- slicing ⇒Reduzieredie Anzahlvon Dimensionen dicing ⇒Schneide Teile aus dem aktuellen Würfel(“Filtern”)
3.Verschiedene Darstellungsmöglichkeiten
Case Study Logistikdienstleister (1/2)
-  Die vier r's der Logistik: Das richtige Produkt zur richtigen Zeit in der richtigen Qualität am richtigen Ort
-  Logistikdienstleister betreiben Unternehmen, deren Hauptzweck in der raum-zeitlichen Transformation von Gütern besteht
-  Integration sämtlicher Wechselwirkungen und Prozesse entlang der Logistikkette, um Transportabläufe zu steuern
-  Informationen über Eigenschaften und Status von zu transportierenden Güter spielen eine wichtige Rolle
-  Betriebliche Datenerfassung durch ERP-Systeme
Case Study Logistikdienstleister (2/2)
-  Die Angebote von Logistikdienstleistern unterscheiden sich hinsichtlich Art und Gewicht der Sendungen, Laufzeit der Transporte, Preisstruktur
-  Kurierdienste: individuell begleiteter Transport, Kleinsendungen. Transport in kürzest möglicher Zeit mit hoher Zuverlässigkeit.
-  Expressdienste: Beförderung von Transportgütern ohne Gewichts- und Maßbeschränkungen
-  Paketdienste: Transport von volumenmäßig beschränkten Kleingütern
Zusammenfassung: Business Intelligence(1/2)
-  Techniken zur Konsolidierung, Analyse und Bereitstellung von Daten zur Entscheidungsunterstützung
-  Interaktion mit / Reporting für den Endnutzer (“Manager”)
-  Analyse mit OLAP, Data- Mining-Verfahren, …  Data Marts als abteilungs-spezifischer Auszug des Data Warehouses
-  Data Warehouse als unternehmensweite analytische Datenbank
-  Automatisierte Extraktions-, Lade- und Transformations-prozesse
-  Operative Datenbanken
1. Business Intelligence und Data Mining
-  Interaktion mit / Reporting für den Endnutzer (“Manager”)
-  Analyse mit OLAP, Data- Mining-Verfahren, …  Data Marts als abteilungs-spezifischer Auszug des Data Warehouses
-  Data Warehouse als unternehmensweite analytische Datenbank
-  Automatisierte Extraktions-, Lade- und Transformations-prozesse
-  Operative Datenbanken
Data Mining Definition
Data-Mining-Tools erlauben eine automatisierte, komplexe Analyse von Massendaten

Data mining is the analysis of (often large) observational data sets to find unsuspected relationships and to summarize the data in novel ways that are both understandable and useful to the data owner.

„Oft große Datenmengen“
- > Kleine Datenmengen lassen sich mit klassischen Methoden der Statistik visualisieren und analysieren (z.B. Boxplot)
- > Große Datenmengen (wie sie z.B. in DWHs existieren) bringen diverse Herausforderungen mit sich:
- >>>Datenhaltung und Zugriff
- >>>Repräsentativer Charakter eines Datensatzes
- >>>Laufzeitprobleme
- >>>Schwierigkeit zu entscheiden, ob ein offensichtlicher Zusammenhang zufällig auftritt oder nicht
- >>>Standardansätze der Statistik oft nicht zielführend
- „Beobachtete Daten“
- > Daten werden oft zu einem anderen Zweck gesammelt als für eine Data-Mining-Analyse -> Ziele der Analyse spielen keine Rolle in der DatenerhebungBeispiel: DWH für ein Airline-Reservierungssystem
- > Statistische Auswertungen beruhen jedoch oft auf Daten, die speziell für ein Experiment erhoben worden sind
- „Beziehungen und Aggregation“
- > Data Mining beschäftigt sich mit Modellen und Mustern
- > Beispiele: Lineare Gleichungen, Baumstrukturen, Cluster, Muster in Zeitreihen oder Texten, ..
„Neuheit“ (relativ zum Wissen des Endnutzers)

„Verständlichkeit“ (Qualität der Erkenntnis)
Nutzen von Data-Mining-Methoden
- 80% des Wissens, welches relevant im Unternehmens-kontext ist, kann mit konventionellen Tools aus Daten extrahiert werden:
- > Berichte
- > Abfragesprache (SQL)
- > OLAP und Tabellenkalkulation
- Nachteile der konventionellen Tools:
- > Oft Beschränkung auf einfache Fragestellungen
- > Automatisierung schwierig bzw. nicht möglich
- > Limitierung auf kleine Datenmengen (z.B. Tabellenkalkulation)
- > Unzureichende statistische Auswertungsmöglichkeiten
- > OLAP: fokussiert auf Einzelanfragen mit begrenzter Komplexität
Modelle und Muster
Data-Mining-Methoden
- Data-Mining-Methoden beschreiben Beziehungen zwischen zu analysierenden Daten in Form von Modellen und Mustern.
- Ein Modell…ist eine global-gültige Beschreibung des zugehörigen Datensatzes.
- kann jeden Punkt des Datensatzes beschreiben.
- Ein simples Beispiel:
- y= ax+b y=2x+3,5
- Ein Muster….beschränkt sich darauf, nur einenTeil Bereich des zugehörigen Datensatzes zu beschreiben. Ggf. verhalten sich nur wenige Datensätze wie die vom Muster vorgegebene Struktur.
- Ein simples Beispiel:
Modelle und Muster –Ein illustratives Beispiel
- > Wir übertragen ein Bild von einem Sender zu einem Empfänger.
- > Es bieten sich zwei Strategien an:
- >>>Übertrage das Bild exakt, d.h., übertrage jeden Pixel
- >>>Übertrage eine komprimierte Version des Bildes (Data Mining)
- > Die Komprimierung kann erreicht werden durch
- Überführung des Bildes in eine geringere Auflösung
- Rekonstruktion des Gesamtbildes möglich
- Qualitätsverlust
- Beschreibung spezifischer Teile des Bildes
- Keine Rekonstruktion des Gesamtbildes möglich
- Einzelne Details werden genauer beschrieben
Explorative Datenanalyse
Ziel der Explorativen Datenanalyse(EDA): Analysiereden Datensatzohnefest definierte Strategie
- Techniken der EDA sind in der Regel interaktiv und visuell Visualisierung von Datensätzen
- Projektionstechniken (um mehr als 3 Dimensionen visualisieren zu können)
- Beispiele:
- Tortendiagramm
- Streudiagramm
- Coxcomb Plot
- Flächendiagramm
- Säulendiagramm
Deskriptive Modellierung
- Ziel:
- Beschreibung des gesamten Datensatzes (oder des Prozesses, wie die Daten zu generieren sind)
- Typische Modellierungstechniken:
- > Ermittlung einer Wahrscheinlichkeitsverteilung
- > Partitionierung des Datensatzes in Gruppen
- > Modellierung der Abhängigkeit von einzelnen Attributen
- Beispiele:SegmentiereKundenin homogene Gruppen
- Konstruiere Taxonomien psychischer Krankheiten
- Analysiere Langzeitschwankungen des Erdklimas
Vorhersagende Modellierung
Ziel:einModell zubestimmen, welches den Wert einer Variable aus bekannten Werten anderer Variablen vorhersagt
- Typische Modellierungstechniken:
- >Klassifikation⇒Vorhersage einer kategorischen Variable
- >Regression⇒Vorhersage einer numerischen Variable
- Beispiele:SKICAT:
- klassifiziere Sterne und Galaxien auf Basis von digitalen Bildern mit Klassifikations-Bäumen
- AT&T: Regression zur Ermittlung des voraussichtlichen Standorts eines Mobilfunktelefons
Erkennen von Regeln und Mustern
- Bisher: Aufgaben dienten der Modellbildung
- Nun: Identifiziere besondere Phänomen ein großen Datensätzen
- Verbreitete Techniken Assoziationsregeln
- Erkennung von Ausreißern
- Beispiele:
- > NBA Advanced Scout System:
- >>>SuchenachRegeln/Musternauf Basis von Basketball-Statistiken
- >>>“WennSpielerX auf dem Feld ist, sinkt die Genauigkeit eines Zuges von Spieler Y von 75% auf 30%”
> Regelbasierter Lernalgorithmus für die Erkennung von missbräuchlicher Handynutzung
Mustervergleich
Ziel: Ausgehend von einem gegebenen Muster werden ähnliche Bereiche in einem Datensatz ermittelt
- Häufig fürText-und Bildanwendungen im Einsatz >Texte:
- >>>Muster werden durch eine Menge von Schlüsselwörtern definiert
- >>>Nutzer möchte relevante Dokumente ermitteln
- > Bilder:
- >>>Muster werden durch ein Beispielbild bzw. durch die Beschreibung eines Beispielbildes definiert
- Nutzer möchte ähnliche Bilder bestimmen lassen
- Beispiel:www.google.com-Algorithmus, der die relative Wichtigkeit einer Webseite auf Basis von Linkmustern ermitteln
- Facebook-Gesichtserkennung
Anwendungvon Data-Mining-Verfahren
- Data-Mining-Verfahren werden oft unzulässig eingesetzt: Ordne des Analyseproblem einer der fünf Aufgabenbereiche zu
- Suche ein dazugehöriges Verfahren
- Wende das Tool an und löse das Analyseproblem
- Data Mining ist nicht die willkürliche Anwendung von statistischen Verfahren!
- Data Mining beschreibt das Design von Analyseverfahren und deren verantwortungsvoller Einsatz
- >Definition des Problems und Zuordnung zu einer Data-Mining-Aufgabe
- >Struktur des Modells oder des Musters
- >Definition der Zielfunktion
- >Such-bzw. Optimierungsmethode
- >Datenmanagement
3. Clusteranalyse
“Clustering is the process of grouping data into classes or cluster so that objects within a cluster have high similarity in comparison to one another, but are very dissimilar to objects in other clusters.”(Han, Kamber2006)
- Cluster = Sammlungvon Datenobjekten, die sich ähnlich sind
- Im Data Mining Bestandteilder “Deskriptiven Modellierung”
- Hauptzweck Tool, um Einsicht in die Verteilung der Datenzubekommen
- Vorverarbeitung für komplexere Verfahren
Nicht-überwachtes Lernen
Typische Aufgaben der Clusteranalyse
Marketing: Identifiziere unter-schiedliche Kundengruppen und charakterisiere diese anhand von Nachfragemustern

Biologie: Leite Pflanzen-und Tiertaxonomien ab, kategorisiere Gene
- Versicherungen: Identifiziere Kunden, die im Vergleich hohe Forderungenstellen bzw. hohe Kosten verursachen
- Web: Klassifiziere ähnliche Dokumente

Author

huatieulans

296887

Card Set

Wirtschaftsinformatik VL/Übung 2

Description

Klausur

Updated

2/27/2015, 7:22:17 PM

Show Answers