*Hinweis:* Du solltest zuvor die Binominalverteilung lernen.
Die Normal- oder Gauß-Verteilung ist ein wichtiger Typ stetiger Wahrscheinlichkeitsverteilungen. Ihre Wahrscheinlichkeitsdichte wird auch Gauß-Funktion, Gaußsche Normalverteilung, Gaußsche Verteilungskurve, Gauß-Kurve, Gaußsche Glockenkurve, Gaußsche Glockenfunktion, Gauß-Glocke oder schlicht Glockenkurve genannt.
Beispiele mit einer Normalverteilung:
- Zufällige Messfehler,
- Zufällige Abweichungen vom Sollmaß bei der Fertigung von Werkstücken,
- Beschreibung der brownschen Molekularbewegung.
- In der Versicherungsmathematik ist die Normalverteilung geeignet zur Modellierung von Schadensdaten im Bereich mittlerer Schadenshöhen.
- In der Messtechnik wird häufig eine Normalverteilung angesetzt, die die Streuung der Messfehler beschreibt. Hierbei ist von Bedeutung, wie viele Messpunkte innerhalb einer gewissen Streubreite liegen.
Wir schauen uns zunächst die Definition an, erstellen ein Beispiel mit Python indem wir Scipy und Numpy verwenden. Dabei diskutieren wir die Eigenschaften einer Normalverteilung.
Die Verteliung wird mit der Wahrscheinlichkeitsdichtefunktion (en. probability density function) beschrieben:
wobei: $$z=\frac{(X-\mu)}{\sigma}$$
mit: μ=Durchschnitt , σ=Standardabweichung , π=3.14... , e=2.718... Die Gesamtfläche zwischen der Kurve der Wahrscheinlichkeitsdichtefunktion und der X-Achse ist 1. Daher repräsentiert die Fläche unter der Kurve zweier Ordinaten X=a und X = b, wobei a<b, die Wahrscheinlichkeit dass X zwischen a und b liegt. Diese Wahrscheinlichkeit kann wie folgt ausgedrückt werden: $$Pr(a<X<b)$$
Die Normalverteilung hat die folgenden Eigenschaften:
1.) Die Kurve ist für die theoretische Verteilung symetrisch
2.) Die Spitze der Kurve ist bei dem Durchschnitt.
3.) Die Standardabweichung gibt der Kurve ihre Form:
-Die Kurve ist für eine höhere Standardabweichung klein und breit.
-Die Kurve ist für eine niedrigere Standardabweichung schmal und hoch.
4.) Die Fläche unter der Kurve ist glecih 1
5.) Der Durchschnitt = Median
Für eine Normalverteilung können wir sehen welcher Prozentsatz der Werte in einer Standardabweichung liegen. 68% der Werte liegen inerhalb einer Standardabweichung (STD) von 1. 95% liegen zwischen 2 STD und 99,7% liegen zwischen 3 STDs. Die Anzahl der Standardabweichungen wird auch Z-Score genannt, den wir oben schon gesehen haben.
from IPython.display import Image
Image(url='http://upload.wikimedia.org/wikipedia/commons/thumb/2/25/The_Normal_Distribution.svg/725px-The_Normal_Distribution.svg.png')
Erstellen wir uns selbst eine Normalverteilung mit Scipy.
#Import
import matplotlib as mpl
import matplotlib.pyplot as plt
%matplotlib inline
from scipy import stats
import numpy as np
mean = 0
std = 1
# Erstelle eine range X
X = np.arange(-4,4,0.01)
# Erstelle eine Normalverteilung für X
Y = stats.norm.pdf(X,mean,std)
#
plt.plot(X,Y)
[<matplotlib.lines.Line2D at 0x1a135f22b0>]
Als nächstes schauen wir uns an wie mit Numpy eine Normalverteilung erstellt werden kann.
mu,sigma = 0,0.1
# Jetzt nehmen wir uns 1000 Zufallswerte aus der Normalverteilung
norm_set = np.random.normal(mu,sigma,1000)
Wir visualisieren die normalverteilten Werte mit einem Seaborn Histogram.
import seaborn as sns
plt.hist(norm_set,bins=50)
(array([ 1., 0., 0., 0., 1., 0., 0., 0., 2., 7., 4., 5., 6., 16., 14., 16., 12., 19., 28., 24., 39., 45., 31., 39., 50., 41., 54., 55., 48., 48., 44., 54., 47., 39., 29., 32., 21., 33., 22., 12., 13., 16., 9., 8., 3., 4., 3., 3., 2., 1.]), array([-0.35869271, -0.34571514, -0.33273758, -0.31976002, -0.30678246, -0.2938049 , -0.28082733, -0.26784977, -0.25487221, -0.24189465, -0.22891708, -0.21593952, -0.20296196, -0.1899844 , -0.17700684, -0.16402927, -0.15105171, -0.13807415, -0.12509659, -0.11211903, -0.09914146, -0.0861639 , -0.07318634, -0.06020878, -0.04723122, -0.03425365, -0.02127609, -0.00829853, 0.00467903, 0.0176566 , 0.03063416, 0.04361172, 0.05658928, 0.06956684, 0.08254441, 0.09552197, 0.10849953, 0.12147709, 0.13445465, 0.14743222, 0.16040978, 0.17338734, 0.1863649 , 0.19934246, 0.21232003, 0.22529759, 0.23827515, 0.25125271, 0.26423028, 0.27720784, 0.2901854 ]), <a list of 50 Patch objects>)
Es gibt noch sehr viel mehr Literatur zur Normalverteilung, die du dir anschauen kannst. Hier sind ein paar Links zu weiteren Erklärungen:
1.) https://de.wikipedia.org/wiki/Normalverteilung
2.) http://mars.wiwi.hu-berlin.de/mediawiki/mmstat3/index.php/Normalverteilung