„The Bussiness Intelligence Analyst Course” – Statystyka

Statystyka:
http://www.naukowiec.org/wzory/statystyka.html

Histogram
Histogram jest najpopularniejszym sposobem przedstawienia rozkładu empirycznego cechy. Rozkład empiryczny oznacza rozkład otrzymany na podstawie danych – empiryczny, znaczy doświadczalny.

Interpretacja histogramu
Histogram służy do analizy zbiorowość, co oznacza, że jesteśmy w stanie odpowiedzieć m.in. na pytania:

który przedział jest najliczniejszy (określenie dominanty)
czy rozkład jest symetryczny czy może asymetryczny / skośny.
czy występują przedziały mocno odstające od reszty


Histogram to graficznie przedstawiony szereg przedziałowy
Szereg przedziałowy składa się z przedziałów oraz liczby obserwacji, które się w nich znajdują. Bez histogramu ciężko byłoby zauważyć pewne rzeczy np. skośność.

Jak zbudować histogram ilościowy i częstościowy:
Histogram ilościowy przedstawia ilość obserwacji w każdym przedziale natomiast histogram częstościowy przedstawia częstość obserwacji w każdym przedziale (procent obserwacji znajdujący się w przedziale)

  1. Policz ile mamy obserwacji
    Warto to zrobić na początku by potem nie zgubić jakiejś obserwacji przy liczeniu ile razy występuje każda obserwacja.
  2. Uszereguj obserwacje
    Ułatwi nam to liczenie ile obserwacji należy do danego przedziału
  3. Określ k – liczbę przedziałów histogramu
    k≈√n (pierwiastek), gdzie n- ilość obserwacji
  4. Określ h – długość każdego przedziału
    h=max−min gdzie max i min to odpowiednio wartości największa i najmniejsza
  5. Wyznacz przedziały
    Przydziały są lewostronnie domknięte i prawostronnie otwarte, tzn : [Xp,Xk), Xp – początek przedziału, Xk – koniec przedziału. Poza ostatnim który musi być domknięty również z prawej strony aby “złapać” wartość największą. Koniec jednego przedziału jest początkiem drugiego przedziału- tak by była zachowana ciągłość.
  6. Policz ile obserwacji wpada do każdego przedziału i sprawdź czy liczności sumują się do n!
    Sumujemy w celu uniknięcia błędu- w tym momencie mamy skonstruowany histogram ilości.
    W celu skonstruowania histogramu częstości należy wykonać punkt 7
    7.Histogram częstości : ni zamień na ωi=ni/n [czyli wyznaczamy dal kazdego przedzialu jego udzial procentowy w calosci]
    Po wykonaniu wyżej wymienionych kroków należy jeszcze narysować histogram.

Średnia arytmetyczna zbioru liczb (Mean) – to suma tych liczb podzielona przez ich liczbę.

Mediana (ang. median)
Mediana to wartość środkowa jakiejś zmiennej; dla parzystej liczby przypadków, gdzie wartości takiej nie można bezpośrednio ustalić, medianę wyznaczamy poprzez wyliczenie średniej arytmetycznej dla dwóch środkowych wartości zmiennej, występujących obok siebie.

Moda (zwana również wartością modalną lub dominantą)
Jest to wartość, która w zebranych danych statystycznych pojawia się najczęściej.

Skośność (ang. skewness)
Skośność to miara statystyczna stosowana do ustalenia asymetrii rozkładu wartości zmiennej wokół jej średniej. Jeżeli rozkład wokół średniej jest symetryczny to skośność przyjmuje wartość zero. Rozkład zwiększający się asymetrycznie po prawej stronie średniej oznacza, że skośność przyjmuje wartość dodatnią. Rozkład zwiększający się asymetrycznie po lewej stronie średniej oznacza, że skośność przyjmuje wartość ujemną.
Liczona wg wzoru:
SKE=(nΣ(xi−x¯)^3)/(n−1)(n−2)s^3

gdzie:
SKE – współczynnik skośności
n – liczba obserwacji
xi – wynik kolejnej obserwacji
x¯ – średnia
s – odchylenie standardowe

Wariancja
Wariancja z próby:
SD2=∑(X−X¯)^2/(N−1)

gdzie:
SD2- wariancja
X¯ – średnia
X – kolejna obserwacja w próbie
N – liczba osób w próbie

Wariancja z populacji:
σ2=∑(X−μ¯)^2/N

gdzie:
σ2 – wariancja
μ¯ – średnia z populacji
X – kolejna obserwacja w populacji
N – liczba osób w populacji

Wariancja jest miarą zróżnicowania, tzn. dzięki niej jesteśmy w stanie stwierdzić czy cecha jest mało zróżnicowana (wszystkie obserwacje leżą blisko średniej) czy bardzo zróżnicowana (dużo obserwacji odległych od średniej).

Aby obliczyć wariancję najpierw obliczamy różnicę pomiędzy uzyskanymi wynikami a wyliczoną średnią, podnosimy te wyniki do kwadratu i sumujemy. Następnie dzielimy otrzymany wynik przez liczbę wyników (populacja) lub liczbę wyników – 1 (próba).

Kowariancja
Wzór na kowariancję ma postać:

dla próbki:

cov(X,Y)=E(xi-x¯)*(yi-y¯)/(n-1)

dla populacji n

cov(X,Y)=E(xi-x¯)*(yi-y¯)/(n)

gdzie:
cox(X,Y) – kowariancja pomiędzy parą zmiennych X i Y

E – wartość oczekiwana
X – wyniki dla jednej zmiennej
Y – wyniki dla drugiej zmiennej

Aby obliczyć kowariancję pomiędzy dwiema zmiennymi należy obliczyć iloczyn pomiędzy wynikami jednej i drgueij zmiennej, wyciągnąć z otrzymanych wyników wartość oczekiwaną (średnią arytmetyczną) z wyliczonych iloczynów i również wartość oczekiwaną (średnią) dla wyników jednej i drugiej zmiennej. Następnie odjąć iloczyn wartości oczekiwanych dla X i Y od wartości oczekiwanej iloczynów tych zmiennych.

0 wartosci skorelowane (ida w ta sama strone)
<0 wartosci skorelowane (ida w przeciwne strony)
=0 wartosci nieskorelowane (niezalezne od siebie)

Wspolczynnik kowariancji
Wzor=Cov(x,y)/(Stdev(x)*Stdev(y))

<0 nieskorelowane
(0,1) skorelowane

Odchylenie standardowe
Odchylenie standardowe to pierwiastek z wariancji i również opisuje zróżnicowanie cechy.

Współczynnik zmienności (coefficent variation)
Wzor=Odchylenie standardowe/wartosc srednia

Współczynnik zmienności wyrażany jest w procentach, czyli uzyskane wyniki z podanych powyżej wzorów należy przemnożyć przez 100%. Co więcej, średnią bądź medianę powinniśmy wprowadzić do wzoru w postaci bezwzględnej, czyli bez znaku. Aby nasza miara współczynnika zmienności dawała prawdziwy obraz, prawdziwą proporcję, to jako, że odchylenie standardowe nigdy nie będzie na minusie to średnia również powinna być na plusie w obliczaniu wyników, zatem należy wprowadzać wartość bezwzględną.

Współczynnik zmienności informuje nas o zmienności wyników, obserwacji w odniesieniu do „wielkości średniej”. Daje nam informacje o rozproszeniu wyników, ale w odniesieniu do tego, jak duża jest średnia (mediana). To pozwala nam na określenie względnej miary rozproszenia i ułatwia nam porównanie zmienności danych cech wśród tej samej grupy osób bądź dwóch grup badanych osób pod względem tej samej cechy

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.