GNU R: boxplot
Dieses Kapitel oder dieser Abschnitt ist unverständlich formuliert. Ein Hinweis, was nicht verstanden wird, ist möglicherweise auf der Diskussionsseite des Artikels zu finden. Wenn Sie Hilfe benötigen, schauen Sie, welche Qualitätskriterien an ein gutes Buch gestellt werden. Das allgemeine Vorgehen bei diesem Baustein kannst Du hier nachlesen.
boxplot
(auch Box-Whisker-Plot) ist ein Verfahren der explorativen Datenanalyse für kontinuierliche Variablen. Boxplots stellen einige wesentliche Beschreibungsmerkmale einer Verteilung in einem Diagramm dar. Es handelt sich dabei um den Median (mittlerer fetter Balken), das untere und obere Quartil (die untere und obere Begrenzung der Box, die 50% der Daten umfasst) und damit auch den Interquartilabstand. Die Whiskers (Schnurrhaare) zeigen das Maximum beziehungsweise das Minimum einer Verteilung, sofern diese nicht mehr als das 1,5-fache des Interquartilabstands von der Box (dem nähesten Quartil) abweichen. Datenpunkte, die außerhalb dieses Ranges liegen, gelten als Ausreißer und werden als einzelne Datenpunkte dargestellt. Zudem vermittelt das Diagramm einen Eindruck davon, ob eine Verteilung symmetrisch oder schief ist. Weniger geeignet ist der Boxplot für bi- oder multimodale Verteilungen. Hier empfiehlt sich die Verwendung von Histogrammen bzw. die grafische Umsetzung von Kerndichteschätzungen.
Beispiele
[Bearbeiten]Boxplot einer Variablen
[Bearbeiten]par(las = 1) # alle Achsenbeschriftungen # mit horizontaler Ausrichtung anzeigen boxplot(iris$Sepal.Length) # Boxplot der Variablen Sepal.Length # des Irisdatensatzes aus R
Im ersten Beispiel wird ein einfacher Boxplot der Variable Sepal.Length des Iris-Datensatzes ausgegeben. Im Standardpaket von R sind zahlreiche Datensätze vorhanden. Geben Sie data() ein. Es wird eine Liste der vorhandenen Datensätze ausgegeben. Mit data(DATENSATZNAME) wird ein Datensatz in den aktuellen Arbeitsbereich übernommen. In den neueren Versionen von R reicht es, einen Datensatz direkt ohne data(DATENSATZNAME) aufzurufen. iris
führt zur Anzeige des Iris-Datensatzes. Sofern Sie die Variablennamen nicht mit attach(iris)
dem Namensraum bekannt geben, ist es erforderlich einzelne Variablen mit dem Namen des Datasets, in diesem Fall iris gefolgt vom Dollarzeichen und dem Variablennamen aufzurufen: iris$Sepal.Length
.
par(las = 1)
bewirkt, dass alle Achsenbeschriftungen mit horizontaler Ausrichtung angezeigt werden.
Die parallele Darstellung der Verteilung von Teilstichproben
[Bearbeiten]par(las = 1) boxplot(Sepal.Length ~ Species, iris, notch=TRUE, horizontal = TRUE)
Die Fälle im Iris-Datensatz gehören drei verschiedenen Kategorien an. Das ist in der Variablen Species kodiert. Species gehört zur R-Klasse factor. Mit iris$Sepal.Length
können Sie das selbst überprüfen. In diesem Boxplotbeispiel wird für jede Kategorie ein eigener Boxplot erstellt. Dies wird der Formel Sepal.Length ~ Species
erreicht. Der Parameter notch=TRUE
bewirkt eine Einschnürung im mittleren Balken, der den Median der zugehörigen Verteilung repräsentiert. Wenn diese Einschnürungen sich nicht überlappen, dann ist das ein starker Hinweis dafür, dass sich die Mediane signifikant unterscheiden. horizontal = TRUE
führt zu einer horizontalen Anordnung der Boxplots.
Der Vergleich verschiedener Variablen
[Bearbeiten]par(las = 1) boxplot(iris, col = "blue", main = "Boxplot des Irisdatensatzes", sub = "alle Variablen (Untertitel)", xlab = "Variablen des Irisdatensatzes", ylab = "Angaben in \n inch")
Im dritten Beispiel wird für alle Variablen des Iris-Datensatzes ein Boxplot ausgegeben, auch für Species, die nur drei Abstufung hat. Daher fehlen auch die Wiskers. Überschriften und Achsenbeschriftungen werden mit den Parametern main (Überschrift), xlab (x-Achsenbeschriftung), ylab (y-Achsenbeschriftung) und sub für den Untertitel übergeben. Beim Untertitel handelt es sich aber eher um eine zu groß geratene Fußnote, da sub am unteren Rand der Grafik erscheint. Der Backslash mit folgendem n in der y-Achsenbeschriftung bewirkt einen Zeilenumbruch.
Mit col = "blue"
werden die Boxen blau eingefärbt.
Die Ausgabe der Statistiken
[Bearbeiten]Für Boxplots werden mehrere statistische Parameter berechnet. Diese erhalten Sie mit dem Parameter plot = FALSE
. Allerdings wird damit auch die Ausgabe der Grafik unterdrückt. Setzt man den gesamten Befehl in Klammern, werden die statistischen Daten und die Grafik ausgegeben.
Siehe zur Ausgabe der Boxplotstatistiken aber auch boxplot.stats.
Parameter (Auswahl)
[Bearbeiten]Das Erscheinungsbild von Boxplots lässt sich in R über Parameter an die eigenen Bedürfnisse anpassen.
Parameter | Beschreibung | Beispiel |
notch
|
Mit notch auf TRUE wird die Box eingeschnürt. Wenn sich die Einschnürungen von zwei Boxplots nicht überschneiden, dann ist das ein starker Hinweis darauf, dass sich die beiden Mediane signifikant unterscheiden.
|
notch=TRUE
|
plot
|
Mit der Standardeinstellung TRUE wird die Grafik ausgegeben. Mit der Einstellung FALSE werden die Statistiken ausgegeben, auf denen Boxplots basieren.
|
plot=TRUE
|
border
|
Ein optionaler Vektor von Farben für die Umrisse der Boxplots. Wenn weniger Farben angegeben sind als Boxplots gezeichnet werden, wiederholen sich die Farben. | border = (farbe <- c("black", "green"))
|
col
|
Mit col kann die Farbe des Boxhintergrunds bestimmt werden. Standardeinstellung ist NULL und damit der Boxhintergrund auf die Hintergrundfarbe des Diagramms eingestellt.
|
col="blue"
|
horizontal
|
Mit dem Wert TRUE werden die Boxplots mit horizontaler Ausrichtung dargestellt.
|
horizontal = TRUE
|
main
|
Überschrift | main="Überschrift"
|
sub
|
Untertitel am unteren Grafikrand | sub="Abbildung 1"
|
xlab
|
Beschriftung der X-Achse | xlab="X-Achse"
|
ylab
|
Beschriftung der Y-Achse | ylab="Y-Achse"
|
Es gibt zahlreiche weitere Parameter, mit denen Boxplots an die eigenen Bedürfnisse angepasst werden können. Diese erhalten Sie, indem Sie mit ?boxplot
die Hilfe zu Boxplot konsultieren.
siehe auch
[Bearbeiten]Weblinks
[Bearbeiten]