1. EducationMathStatisticsStatistics and Histograms
Statistik-Arbeitsbuch für Dummies mit Online-Übung, 2. Auflage

Von Deborah J. Rumsey

Ein Histogramm ist ein Balkendiagramm für quantitative Daten. Da die Daten numerisch sind, teilen Sie sie in Gruppen ein, ohne dazwischen Lücken zu lassen (sodass die Balken verbunden sind). Die Y-Achse zeigt entweder die Häufigkeit (Anzahl) oder die relative Häufigkeit (Prozent) der Daten, die in die einzelnen Gruppen fallen.

So erstellen Sie ein Histogramm

Um ein Histogramm zu erstellen, teilen Sie Ihre Daten zunächst in eine angemessene Anzahl von Gruppen gleicher Länge auf. Zählen Sie die Anzahl der Werte im Datensatz auf, die in jede Gruppe fallen (mit anderen Worten, erstellen Sie eine Häufigkeitstabelle). Wenn ein Datenpunkt auf die Grenze fällt, entscheiden Sie, in welche Gruppe er eingefügt werden soll, und achten Sie darauf, dass Sie konsistent bleiben (stellen Sie ihn immer in die höhere oder in die niedrigere der beiden Gruppen). Erstellen Sie ein Balkendiagramm mit den Gruppen und ihren Frequenzen - ein Frequenzhistogramm.

Wenn Sie die Häufigkeiten durch die Gesamtstichprobengröße dividieren, erhalten Sie den Prozentsatz, der in jede Gruppe fällt. Eine Tabelle mit den Gruppen und ihren Prozentsätzen ist eine relative Häufigkeitstabelle. Das entsprechende Histogramm ist ein relatives Frequenzhistogramm.

Sie können Minitab oder ein anderes Softwarepaket verwenden, um Histogramme zu erstellen, oder Sie können Ihre Histogramme von Hand erstellen. In beiden Fällen kann sich Ihre Auswahl an Intervallbreiten (in Computerpaketen als Bins bezeichnet) von den in den Abbildungen gezeigten unterscheiden. Dies ist in Ordnung, sofern Ihre Intervallbreiten ähnlich aussehen. Solange Sie keine ungewöhnlich niedrige oder hohe Anzahl von Balken verwenden und Ihre Balken gleich breit sind, werden sie auch verwendet.

Sie können auch unterschiedliche Start- / Endpunkte für jedes Intervall auswählen, und das ist auch in Ordnung. Beschriften Sie einfach alles deutlich, damit Ihr Lehrer sehen kann, was Sie versuchen. Und seien Sie konsequent in Bezug auf Werte, die direkt an einer Grenze landen. stelle sie immer in die untere gruppierung oder stelle sie immer in die obere gruppierung. Wenn Sie jedoch die Wahl haben, erstellen Sie Ihre Histogramme mit einem Computerpaket wie Minitab. Es macht Ihre Aufgabe viel einfacher.

Im Folgenden finden Sie ein Beispiel für die Erstellung der beiden Arten von Histogrammen.

Die Testergebnisse für eine Klasse von 30 Schülern sind in der folgenden Tabelle aufgeführt.

Frequenzhistogramme und relative Frequenzhistogramme sehen gleich aus. Sie verwenden nur verschiedene Maßstäbe auf der Y-Achse.

Das Frequenzhistogramm für die Bewertungsdaten ist in der folgenden Abbildung dargestellt.

Frequenzhistogramm

Sie finden die relativen Frequenzen, indem Sie jede Frequenz nehmen und durch 30 (die gesamte Stichprobengröße) dividieren. Die relativen Häufigkeiten für diese drei Gruppen betragen 8/30 = 0,27 oder 27%; 16/30 = 0,53 oder 53%; und 6/30 = 0,20 bzw. 20%.

Ein Histogramm, das auf relativen Häufigkeiten basiert, sieht genauso aus wie das Histogramm (mit denselben Daten). Der einzige Unterschied ist die Beschriftung auf der Y-Achse.

Histogramme verstehen

Ein Histogramm enthält allgemeine Informationen zu drei Hauptmerkmalen Ihrer quantitativen (numerischen) Daten: Form, Mittelpunkt und Streuung.

Die Form eines Histogramms wird durch sein allgemeines Muster angezeigt. Viele Muster sind möglich, und einige sind üblich, einschließlich der folgenden:

  • Glockenförmig: Sieht aus wie eine Glocke - ein großer Klumpen in der Mitte und Schwänze, die auf jeder Seite ungefähr gleich weit nach unten ragen. (Abbildung a) Rechts verzerrt: Ein großer Teil der Daten ist nach links versetzt, einige größere Beobachtungen gehen nach rechts zurück. (Abbildung b) Links verzerrt: Ein großer Teil der Daten wird nach rechts verschoben, wobei einige kleinere Beobachtungen nach links verschoben werden. (Abbildung c) Uniform: Alle Balken haben eine ähnliche Höhe. (Abbildung d) Bimodal: Zwei Spitzen oder (Abbildung e) U-förmig: Bimodal mit zwei Spitzen am unteren und oberen Ende, mit weniger Daten in der Mitte. (Siehe Abbildung 4-1 (Abbildung f) Symmetrisch: Sieht auf jeder Seite gleich aus, wenn Sie die Mitte teilen. Beispiele für symmetrische Daten sind glockenförmige, gleichförmige und U-förmige Histogramme. (Abbildungen a, d und f)
allgemeine Histogrammmuster

Sie können die Mitte eines Histogramms auf zwei Arten anzeigen. Einer ist der Punkt auf der x-Achse, an dem der Graph ausgeglichen wird, wobei die tatsächlichen Werte der Daten berücksichtigt werden. Dieser Punkt wird als Durchschnitt bezeichnet. Sie können ihn ermitteln, indem Sie den Ausgleichspunkt ermitteln (stellen Sie sich vor, die Daten befinden sich auf einem Schaukeleffekt). Die andere Möglichkeit, die Mitte anzuzeigen, besteht darin, die Linie im Histogramm so zu positionieren, dass 50 Prozent der Daten auf beiden Seiten liegen. Die Linie wird als Median bezeichnet und repräsentiert die physikalische Mitte des Datensatzes. Stellen Sie sich vor, Sie schneiden das Histogramm in zwei Hälften, sodass die Hälfte der Fläche auf beiden Seiten der Linie liegt.

Die Streuung bezieht sich auf den Abstand zwischen den Daten, entweder relativ zueinander oder relativ zu einem zentralen Punkt. Eine grobe Methode zur Messung der Streuung besteht darin, den Bereich oder den Abstand zwischen dem größten und dem kleinsten Wert zu ermitteln. Eine andere Möglichkeit besteht darin, nach dem durchschnittlichen Abstand von der Mitte zu suchen, der auch als Standardabweichung bezeichnet wird. Die Standardabweichung ist schwer zu ermitteln, wenn Sie sich nur ein Histogramm ansehen. Sie können sich jedoch eine ungefähre Vorstellung machen, wenn Sie den Bereich geteilt durch 6 nehmen Die Werte liegen nahe am Mittelwert, was auf eine kleine Standardabweichung hinweist. Wenn die Balken kurz erscheinen, haben Sie möglicherweise eine größere Standardabweichung.

Sie können zur Berechnung der quantitativen Daten eine tatsächliche zusammenfassende Statistik erstellen. Ein Histogramm kann Ihnen jedoch eine allgemeine Anleitung zum Auffinden dieser Meilensteine ​​geben. Und wie bei Kreisdiagrammen und Balkendiagrammen sind nicht alle Histogramme fair, vollständig und genau. Sie müssen wissen, wonach Sie suchen müssen, um sie zu bewerten.

So korrigieren Sie verzerrte Daten mit Histogrammen

Bei verzerrten Datensätzen müssen Sie besondere Überlegungen anstellen, welche Statistiken wann am besten geeignet sind. Sie sollten sich auch darüber im Klaren sein, wie die Verwendung falscher Statistiken irreführende Antworten liefern kann.

Sie können den Mittelwert und den Median in Beziehung setzen, um mehr über die Form Ihrer Daten zu erfahren. Wenn der Mittelwert und der Median nahe beieinander liegen, wird eine Form erzeugt, die ungefähr symmetrisch ist

Der Mittelwert wird durch Ausreißer in den Daten beeinflusst, der Median jedoch nicht. Wenn der Mittelwert und der Median nahe beieinander liegen, sind die Daten nicht verzerrt und enthalten wahrscheinlich keine Ausreißer auf der einen oder anderen Seite. Das bedeutet, dass die Daten auf jeder Seite der Mitte ungefähr gleich aussehen, was der Definition von symmetrischen Daten entspricht (siehe a, d oder f in der vorhergehenden Abbildung).

Die Tatsache, dass der Mittelwert und der Median nahe beieinander liegen und die Daten ungefähr symmetrisch sind, kann für eine andere Art von Testfrage verwendet werden. Angenommen, jemand fragt Sie, ob die Daten symmetrisch sind, und Sie haben kein Histogramm, aber Sie haben den Mittelwert und den Median. Vergleichen Sie die beiden Werte von Mittelwert und Median. Wenn sie nahe beieinander liegen, sind die Daten symmetrisch. Wenn dies nicht der Fall ist, sind die Daten nicht symmetrisch.

Wie man ein irreführendes Histogramm erkennt

Leser können durch ein Histogramm auf eine Weise irregeführt werden, die mit einem Balkendiagramm nicht möglich ist. Beachten Sie, dass ein Histogramm numerische Daten und keine kategorialen Daten enthält. Sie müssen also festlegen, wie die in Gruppen aufgeteilten numerischen Daten auf der horizontalen Achse angezeigt werden sollen. Und wie Sie diese Gruppierungen bestimmen, kann das Diagramm sehr unterschiedlich aussehen. Achten Sie auf Histogramme, die mithilfe der Skala die Leser irreführen. Wie bei Balkendiagrammen können Sie Unterschiede übertreiben, indem Sie einen kleineren Maßstab auf der vertikalen Achse eines Histogramms verwenden, und Sie können Unterschiede mit einem größeren Maßstab herunterspielen.