# Humboldt-Universität zu Berlin - Statistik

Computergestützte Statistik (VL)

## Computergestützte Statistik (VL)

Kategorie
Bachelor & Master
Lehrende(r)

# Course Outline

Today almost all statistical data analyses are carried out with the aid of the computer, in conjunction with a software package. However, computer-based data analysis requires substantial knowledge in statistics to select appropriate statistical methods and models for the special professional problem of interest, taking account of their assumptions, and to draw correct conclusions from the computer output. Therefore, computational statistics is devoted to basic statistical theory and concepts in conjunction with computing methods. In the course "Computer assisted Statistics" the software package SPSS for Windows is used. Special knowledge in a programming language is not required for handling SPSS.

The first part of the course is devoted to a short overlook of data handling, data selection and data transformation in the SPSS system. The evaluation of data usually starts with univariate studies and terminates with multivariate ones. In each step of the evaluation different statistical concepts will be used: exploration, description and inference. The course follows this outline.

##### The course focuses on different statistical topics:
• Discovery and identification of outliers

Observed data sets contain very often so-called atypical values (outliers) which may seriously effect the results of applied statistical methods. Exploratory techniques, especially graphical tools (stem-and-leaf-plot, boxplot, scatterplot), are used to discover and to identify potential outliers. Tests for outliers are considered. On the accommodation of outliers in the data set, some estimation procedures of the population mean are introduced which are robust in the sense of providing protection against the effect of outliers.

• Hypothesis tests about sampling distributions

Statistical inference mostly depends on some assumptions on the population distribution. The validity of these assumptions has to be checked using the sample observations. Graphical tools (histogram, probability plots) and descriptive measures are applied to get a first impression of the sample distribution. Goodness-of-fit tests are appropriate for testing the fit of a theoretical distribution to observed data (Kolmogorov-Smirnov-Test, Chi-Square-Test of Goodness-of Fit, Binomial-Test). For continuous variables one of the most important assumption to be tested is whether the normal distribution is a good fit of the data.

• Hypothesis tests about differences between population parameters

Often information on more than one variable for each element are available, so that the variable of interest can be grouped according to the outcomes of the other variable, e.g. household net income grouped by size of household, income grouped by sex. This part of the course extends the discussion to the comparison of parameters of several populations. We will focus on the comparison of the population means by using exploratory tools and hypothesis tests.

• Überprüfung von Zusammenhängen zwischen Merkmalen

Von den Werkzeugen der explorativen Datenanalyse wird dafür vor allem der Scatterplot verwendet. Kontingenztabellen, Assoziations-, Kontingenz- und Korrelationskoeffizienten sind Möglichkeiten zur Beurteilung und Messung der Stärke von Zusammenhängen. Für die konfirmative Prüfung von Zusammenhangshypothesen stehen verschiedene Tests zur Verfügung, wie z.B. Chi-Quadrat-Unabhängigkeitstest, Likelihood Ratio und t-Test.

• Regressionsanalyse

Die aus dem Grundstudium bekannte lineare Regressionsanalyse, mit der die Abhängigkeit von Merkmalen quantifiziert werden kann, wird bezüglich der Schätzung unter Verwendung von SPSS behandelt. Einen breiten Raum nehmen vor allem eine eingehende Prüfung der Voraussetzungen des Regressionsmodells, eine detaillierte Analyse der Residuen sowie konfirmative Auswertungen ein.

• Reliabilitäts- und Homogenitätsanalyse von Konstrukten

Viele Variablen in den Sozialwissenschaften und anderen Forschungsgebieten sind nicht direkt beobachtbar und messbar (z.B. Persönlichkeit, Standpunkt, Wohlfahrt, Armut). Sie werden als latente Variable, theoretisches Konstrukte oder Skala bezeichnet. Statt der latenten Variablen wird eine Reihe von Stellvertreter-Variablen (Quellvariablen, Items) an einer Anzahl von statistischen Einheiten beobachtet und für die Konstruktion einer beobachteten Skala verwendet, die eine Schätzung fuer die wahre Skala (Konstrukt) darstellt. Jedes Item reflektiert in einem gewissen Ausmass das theoretische Konstrukt und in gewissem Ausmass esoterische Aspekte (Zufallsfehler). In diesem Kontext bedeutet Reliabilität das Ausmass, in dem die Items einzeln und in ihrer Gesamtheit das theoretische Konstrukt erklären. Mit der Analyse der Homogenität wird überprüft, ob die Items nur ein oder mehrere theoretische Konstrukte reflektieren. Die unter SPSS verfügbaren Verfahren werden diskutiert und demonstriert.

# Literature

• Barnett, V., Lewis, T. (1994) Outliers in statistical data, 3rd. Edition, Wiley, New York
• Berry, D.A., Lindgren, B.W. (1990), Statistics: Theory and Methods, Brooks/Cole Publishing Company, Pacific Grove
• Bortz, J. (1993), Statistik, Springer, Berlin et al.
• Bosch, K. (1992), Statistik-Taschenbuch, Oldenbourg, München, Wien
• Bühl, A., Zöfel, P. (1994), SPSS unter Windows Version 6, Addison-Wesley, Bonn et al.
• Böning, H., Trenkler, G. (1978), Nichtparametrische statistische Methoden, Walter de Gruyter, Berlin, New York
• Böning, H. (1991), Robuste und adaptive Tests, Walter de Gruyter, Berlin, New York
• Hartung, J., Elpelt, B., Klösener, K.-H. (1993), Statistik, Oldenbourg Verlag, München
• Heiler, S., Michels, P. (1994), Deskriptive und explorative Datenanalyse, Oldenbourg, München, Wien
• Jobson, J.D. (1991), Applied Multivariate Data Analysis, Vol. I: Regression and Experimental Design, Springer, Berlin et al.
• Köhler, W.-M. (1994), SPSS für Windows, Vieweg, Wiesbaden
• Mann, P. S. (1992), Introductory Statistics, John Wiley, New York at al.
• Rasmussen, S. (1992), An Introduction to Statistics with Data Analysis, Brooks/Cole Publishing Company, Pacific Grove
• Rönz: Skript zur Vorlesung "Computergestützte Statistik I", 2001
• Rönz, B., Strohe, H. G. (Hrsg., 1994), Lexikon Statistik, Gabler-Verlag, Wiesbaden
• Schlittgen, R. (1990), Einführung in die Statistik, Oldenbourg, München, Wien