otwarty
Zamknąć

Jak obliczyć przedział ufności. Przedziały ufności. Również praktyczne wartości sigma

Konstruujemy przedział ufności w programie MS EXCEL w celu oszacowania wartości średniej rozkładu w przypadku znanej wartości dyspersji.

Oczywiście, że wybór poziom zaufania całkowicie zależy od rozwiązywanego problemu. Zatem stopień zaufania pasażera lotniczego do niezawodności samolotu powinien być niewątpliwie wyższy niż stopień zaufania kupującego do niezawodności żarówki elektrycznej.

Sformułowanie problemu

Załóżmy, że od populacja zostały podjęte próbka rozmiar nr. Zakłada się, że odchylenie standardowe ten rozkład jest znany. Na tej podstawie jest to konieczne próbki ocenić nieznane średnia dystrybucji(μ, ) i skonstruuj odpowiednie dwustronna przedział ufności.

Punktowe oszacowanie

Jak wiadomo z Statystyka(oznaczmy to X średnio) Jest bezstronne oszacowanie średniej Ten populacja i ma rozkład N(μ;σ 2 /n).

Notatka: Co zrobić, jeśli musisz zbudować przedział ufności w przypadku dystrybucji nie jest normalna? W tym przypadku na ratunek przychodzi stwierdzenie, że ma on odpowiednio duży rozmiar próbki n z dystrybucji nie będąc normalna, przykładowy rozkład statystyk X śr będzie około korespondować normalna dystrybucja o parametrach N(μ;σ 2 /n).

Więc, Punktowe oszacowanie przeciętny wartości dystrybucji mamy - to średnia próbki, tj. X średnio. Teraz zacznijmy przedział ufności.

Konstruowanie przedziału ufności

Zwykle znając rozkład i jego parametry, możemy obliczyć prawdopodobieństwo, że zmienna losowa przyjmie wartość z określonego przez nas przedziału. Teraz zróbmy odwrotnie: znajdź przedział, w którym zmienna losowa będzie przypadać z danym prawdopodobieństwem. Na przykład z właściwości normalna dystrybucja wiadomo, że z prawdopodobieństwem 95% rozłożona jest zmienna losowa normalne prawo, będzie mieścić się w przedziale około +/- 2 od Średnia wartość(patrz artykuł o). Ten przedział będzie dla nas prototypem przedział ufności.

Zobaczmy teraz, czy znamy rozkład , obliczyć ten odstęp? Aby odpowiedzieć na pytanie, należy wskazać kształt rozkładu i jego parametry.

Znamy formę dystrybucji - to jest normalna dystrybucja(pamiętaj, że mówimy o dystrybucja próbek Statystyka X średnio).

Parametr μ nie jest nam znany (wystarczy go oszacować za pomocą przedział ufności), ale mamy jego szacunki X średnio, obliczone na podstawie próbki, które można wykorzystać.

Drugi parametr - odchylenie standardowe średniej próbki uznamy to za znane, jest równe σ/√n.

Ponieważ nie wiemy μ, to zbudujemy przedział +/- 2 odchylenia standardowe nie z Średnia wartość oraz na podstawie znanych szacunków X średnio. Te. przy obliczaniu przedział ufności NIE założymy tego X średnio mieści się w przedziale +/- 2 odchylenia standardowe od μ z prawdopodobieństwem 95% i założymy, że przedział wynosi +/- 2 odchylenia standardowe z X średnio z 95% prawdopodobieństwem obejmie μ – średnia dla populacji ogólnej, z którego jest pobierane próbka. Te dwa stwierdzenia są równoważne, ale drugie stwierdzenie pozwala nam skonstruować przedział ufności.

Dodatkowo wyjaśnijmy sobie przedział: zmienną losową rozłożoną na przestrzeni normalne prawo, z prawdopodobieństwem 95% mieści się w przedziale +/- 1,960 odchylenia standardowe, nie +/- 2 odchylenia standardowe. Można to obliczyć za pomocą wzoru =NORMALNY.ST.REV((1+0,95)/2), cm. przykładowy plik Przedział arkusza.

Teraz możemy sformułować probabilistyczne stwierdzenie, które posłuży nam do uformowania przedział ufności:
„Prawdopodobieństwo, że średnia populacji położony od średnia próbki w ciągu 1960" odchylenia standardowe średniej próbki” równy 95%”.

Wartość prawdopodobieństwa wymieniona w zestawieniu ma specjalną nazwę , z czym się wiąże poziom istotności α (alfa) za pomocą prostego wyrażenia poziom zaufania =1 . W naszym przypadku poziom istotności α =1-0,95=0,05 .

Teraz, w oparciu o to probabilistyczne stwierdzenie, piszemy wyrażenie do obliczeń przedział ufności:

gdzie Z α/2 standard normalna dystrybucja(ta wartość zmiennej losowej z, Co P(z>=Z α/2 )=α/2).

Notatka: Górny kwantyl α/2 określa szerokość przedział ufności V odchylenia standardowe średnia próbki. Górny kwantyl α/2 standard normalna dystrybucja zawsze większa niż 0, co jest bardzo wygodne.

W naszym przypadku, przy α=0,05, górny kwantyl α/2 wynosi 1,960. Dla pozostałych poziomów istotności α (10%; 1%) górny kwantyl α/2 Z α/2 można obliczyć za pomocą wzoru =NORMAL.ST.REV(1-α/2) lub, jeśli jest znany poziom zaufania, =NORMALNY.ST.OBR((1+poziom zaufania)/2).

Zwykle podczas budowy przedziały ufności do oszacowania średniej tylko do użytku górna alfa/2-kwantyl i nie używaj niższe α/2-kwantyl. Jest to możliwe, ponieważ standard normalna dystrybucja symetrycznie względem osi x ( jego gęstość dystrybucji symetryczny w przybliżeniu średni, tj. 0). Dlatego nie ma potrzeby obliczania dolny kwantyl α/2(nazywa się to po prostu α /2-kwantyl), ponieważ jest równe górna alfa/2-kwantyl ze znakiem minus.

Przypomnijmy, że niezależnie od kształtu rozkładu wartości x, odpowiada jej zmienna losowa X średnio Rozpowszechniane około Cienki N(μ;σ 2 /n) (patrz artykuł na temat). Dlatego ogólnie powyższe wyrażenie dla przedział ufności jest jedynie przybliżeniem. Jeśli wartość x jest rozłożona na normalne prawo N(μ;σ 2 /n), wówczas wyrażenie na przedział ufności Jest dokładna.

Obliczanie przedziału ufności w programie MS EXCEL

Rozwiążmy problem.
Czas reakcji elementu elektronicznego na sygnał wejściowy jest ważną cechą urządzenia. Inżynier chce skonstruować przedział ufności dla średniego czasu reakcji na poziomie ufności 95%. Z wcześniejszych doświadczeń inżynier wie, że odchylenie standardowe czasu odpowiedzi wynosi 8 ms. Wiadomo, że do oceny czasu odpowiedzi inżynier wykonał 25 pomiarów, średnia wartość wyniosła 78 ms.

Rozwiązanie: Inżynier chce poznać czas reakcji urządzenia elektronicznego, ale rozumie, że czas reakcji nie jest wartością stałą, ale zmienną losową, która ma swój własny rozkład. Jedyne, na co może więc liczyć, to określenie parametrów i kształtu tego rozkładu.

Niestety z warunków problemowych nie znamy kształtu rozkładu czasu odpowiedzi (nie musi tak być normalna). , rozkład ten jest również nieznany. Znany jest tylko on odchylenie standardoweσ=8. Dlatego chociaż nie możemy obliczyć prawdopodobieństw i skonstruować przedział ufności.

Jednak pomimo tego, że nie znamy dystrybucji czas osobna odpowiedź, wiemy, że wg CPT, dystrybucja próbek średni czas reakcji jest w przybliżeniu normalna(założymy, że warunki CPT są realizowane, ponieważ rozmiar próbki dość duży (n=25)) .

Ponadto, przeciętny rozkład ten jest równy Średnia wartość dystrybucja pojedynczej odpowiedzi, tj. μ. A odchylenie standardowe tego rozkładu (σ/√n) można obliczyć ze wzoru =8/ROOT(25) .

Wiadomo również, że inżynier otrzymał Punktowe oszacowanie parametr μ równy 78 ms (X śr.). Dlatego teraz możemy obliczyć prawdopodobieństwa, ponieważ znamy formę dystrybucji ( normalna) i jego parametry (X avg i σ/√n).

Inżynier chce wiedzieć wartość oczekiwana rozkłady czasu odpowiedzi μ. Jak stwierdzono powyżej, to μ jest równe matematyczne oczekiwanie rozkładu próbki średniego czasu odpowiedzi. Jeśli użyjemy normalna dystrybucja N(X avg; σ/√n), to pożądane μ będzie mieściło się w przedziale +/-2*σ/√n z prawdopodobieństwem około 95%.

Poziom istotności równa się 1-0,95=0,05.

Na koniec znajdźmy lewą i prawą granicę przedział ufności.
Lewa granica: =78-NORMALNY.ST.REV(1-0,05/2)*8/ROOT(25) = 74,864
Prawa granica: =78+NORMALNY.ROOT.INV(1-0,05/2)*8/ROOT(25)=81,136

Lewa granica: =NORMALNY.OBRÓT(0,05/2; 78; 8/ROOT(25))
Prawa granica: =NORMALNY.OBROT(1-0,05/2; 78; 8/ROOT(25))

Odpowiedź: przedział ufności Na Poziom ufności 95% i σ=8msek równa się 78+/-3,136 ms.

W przykładowy plik na arkuszu Sigma znany, stworzył formularz do obliczeń i konstrukcji dwustronna przedział ufności za dowolne próbki z danym σ i poziom istotności.

Funkcja UFNOŚĆ.NORMALNA().

Jeśli wartości próbki są w zasięgu B20:B79 , A poziom istotności równy 0,05; następnie formuła MS EXCEL:
=ŚREDNIA(B20:B79)-NORMA UFNOŚCI(0,05;σ; LICZBA(B20:B79))
zwróci lewą granicę przedział ufności.

Ten sam limit można obliczyć korzystając ze wzoru:
=ŚREDNIA(B20:B79)-NORMAL.ST.REV(1-0,05/2)*σ/ROOT(LICZBA(B20:B79))

Notatka: Funkcja CONFIDENCE.NORM() pojawiła się w MS EXCEL 2010. We wcześniejszych wersjach MS EXCEL używana była funkcja TRUST().

Konstantin Krawczik jasno wyjaśnia, czym jest przedział ufności w badaniach medycznych i jak go stosować

„Katren-Style” kontynuuje publikację serii Konstantina Krawczyka na temat statystyki medycznej. W dwóch poprzednich artykułach autor zajmował się wyjaśnieniem takich pojęć jak i.

Konstanty Krawczik

Matematyk-analityk. Specjalista w zakresie badań statystycznych w medycynie i naukach humanistycznych

Moskwa

Bardzo często w artykułach dotyczących badań klinicznych można spotkać tajemnicze sformułowanie: „przedział ufności” (95 % CI lub 95 % CI - przedział ufności). W artykule można na przykład napisać: „Aby ocenić znaczenie różnic, do obliczenia 95% przedziału ufności zastosowano test t-Studenta”.

Jaka jest wartość „95 % przedziału ufności” i po co go obliczać?

Co to jest przedział ufności? - Jest to zakres, w którym mieszczą się prawdziwe średnie populacyjne. Czy istnieją „nieprawdziwe” średnie? W pewnym sensie tak. W wyjaśniliśmy, że nie da się zmierzyć interesującego nas parametru w całej populacji, dlatego badacze radzą sobie z ograniczoną próbą. W tej próbie (np. na podstawie masy ciała) występuje jedna wartość średnia (pewna masa), na podstawie której oceniamy wartość średnią w całej populacji. Jest jednak mało prawdopodobne, aby średnia waga w próbie (zwłaszcza małej) pokrywała się ze średnią wagą w populacji ogólnej. Dlatego bardziej poprawne jest obliczenie i wykorzystanie zakresu średnich wartości populacji.

Załóżmy na przykład, że 95% przedział ufności (95% CI) dla hemoglobiny wynosi 110 do 122 g/l. Oznacza to, że istnieje 95% szans, że prawdziwa średnia wartość hemoglobiny w populacji będzie wynosić od 110 do 122 g/l. Innymi słowy, nie znamy średniej wartości hemoglobiny w populacji, ale możemy z 95% prawdopodobieństwem wskazać przedział wartości tej cechy.

Przedziały ufności są szczególnie istotne w przypadku różnic w średnich między grupami lub, jak się je nazywa, wielkości efektu.

Załóżmy, że porównaliśmy skuteczność dwóch preparatów żelaza: tego, który jest na rynku od dawna i tego, który właśnie został zarejestrowany. Po zakończeniu terapii oceniano stężenie hemoglobiny w badanych grupach pacjentów, a program statystyczny wyliczył, że różnica pomiędzy wartościami średnimi w obu grupach mieściła się z prawdopodobieństwem 95 % w przedziale od 1,72 do 14,36 g/l (tabela 1).

Tabela 1. Przetestuj próbki niezależne
(grupy porównuje się według poziomu hemoglobiny)

Należy to interpretować w następujący sposób: u części pacjentów z populacji ogólnej przyjmujących nowy lek stężenie hemoglobiny będzie wyższe średnio o 1,72–14,36 g/l niż u osób, które przyjmowały już znany lek.

Innymi słowy, w populacji ogólnej różnica średnich wartości hemoglobiny między grupami mieści się w tych granicach z prawdopodobieństwem 95%. Ocena, czy to dużo, czy mało, należy do badacza. Chodzi o to, że nie pracujemy z jedną wartością średnią, ale z zakresem wartości, dlatego wiarygodniej oceniamy różnicę parametru pomiędzy grupami.

W pakietach statystycznych, według uznania badacza, można samodzielnie zawęzić lub rozszerzyć granice przedziału ufności. Obniżając prawdopodobieństwa przedziału ufności, zawężamy zakres średnich. Na przykład przy 90 % CI zakres średnich (lub różnica średnich) będzie węższy niż przy 95 %.

I odwrotnie, zwiększenie prawdopodobieństwa do 99 % rozszerza zakres wartości. Podczas porównywania grup dolna granica CI może przekroczyć granicę zera. Przykładowo, jeśli rozszerzymy granice przedziału ufności do 99 %, to granice przedziału wahają się od –1 do 16 g/l. Oznacza to, że w populacji ogólnej istnieją grupy, pomiędzy którymi różnica średnich dla badanej cechy jest równa 0 (M = 0).

Korzystając z przedziału ufności, można testować hipotezy statystyczne. Jeżeli przedział ufności przekracza wartość zerową, wówczas prawdziwa jest hipoteza zerowa, która zakłada, że ​​grupy nie różnią się pod względem badanego parametru. Przykład opisano powyżej, gdzie rozszerzyliśmy granice do 99 %. Gdzieś w populacji ogólnej znaleźliśmy grupy, które nie różniły się niczym.

95% przedział ufności różnicy w stężeniu hemoglobiny (g/l)


Rysunek pokazuje 95% przedział ufności dla różnicy średnich wartości hemoglobiny pomiędzy obiema grupami. Linia przechodzi przez znak zerowy, zatem istnieje różnica pomiędzy średnimi zera, co potwierdza hipotezę zerową, że grupy nie różnią się. Zakres różnicy między grupami wynosi od –2 do 5 g/l. Oznacza to, że stężenie hemoglobiny może albo spaść o 2 g/l, albo wzrosnąć o 5 g/l.

Przedział ufności jest bardzo ważnym wskaźnikiem. Dzięki niemu widać, czy różnice w grupach rzeczywiście wynikały z różnicy średnich, czy też z dużej próby, gdyż przy dużej próbie szanse na znalezienie różnic są większe niż przy małej.

W praktyce może to wyglądać tak. Pobraliśmy próbkę 1000 osób, zmierzyliśmy poziom hemoglobiny i odkryliśmy, że przedział ufności dla różnicy średnich wahał się od 1,2 do 1,5 g/l. Poziom istotności statystycznej w tym przypadku p

Widzimy, że stężenie hemoglobiny wzrosło, ale prawie niezauważalnie, zatem istotność statystyczna pojawiła się właśnie ze względu na wielkość próby.

Przedziały ufności można obliczyć nie tylko dla średnich, ale także dla proporcji (i współczynników ryzyka). Nas interesuje np. przedział ufności odsetka pacjentów, którzy osiągnęli remisję podczas przyjmowania opracowanego leku. Załóżmy, że 95 % CI dla proporcji, czyli dla odsetka takich pacjentów, mieści się w przedziale 0,60–0,80. Można zatem powiedzieć, że nasz lek ma działanie lecznicze w 60–80% przypadków.

Prawdopodobieństwa, uznawane za wystarczające do pewnej oceny ogólnych parametrów na podstawie charakterystyki próbki, nazywane są ufny .

Zazwyczaj jako prawdopodobieństwa ufności wybiera się wartości 0,95; 0,99; 0,999 (zwykle wyrażane są w procentach - 95%, 99%, 99,9%). Im wyższa miara odpowiedzialności, tym wyższy poziom prawdopodobieństwa zaufania: 99% lub 99,9%.

W badaniach naukowych z zakresu wychowania fizycznego i sportu poziom ufności wynoszący 0,95 (95%) uznaje się za wystarczający.

Przedział, w którym mieści się średnia arytmetyczna próby populacji ogólnej z danym prawdopodobieństwem ufności, nazywa się przedział ufności .

Poziom istotności oceny– mała liczba α, której wartość sugeruje prawdopodobieństwo, że wypadnie ona poza przedział ufności. Zgodnie z prawdopodobieństwami ufności: α 1 = (1-0,95) = 0,05; α 2 = (1 – 0,99) = 0,01 itd.

Przedział ufności dla średniej (oczekiwanie matematyczne) A normalna dystrybucja:

,

gdzie jest wiarygodność (prawdopodobieństwo pewności) oceny; - średnia próbki; s – skorygowane odchylenie standardowe; n – wielkość próby; t γ jest wartością wyznaczoną z tablicy rozkładu Studenta (patrz Załącznik, Tabela 1) dla danych n i γ.

Aby znaleźć granice przedziału ufności średniej populacji, należy:

1. Oblicz i s.

2. Poziom ufności (rzetelności) γ oszacowania należy ustawić na 0,95 (95%) lub poziom istotności α na 0,05 (5%)

3. Korzystając z tabeli rozkładu t-Studenta (załącznik, tabela 1), znajdź wartości graniczne t γ.

Ponieważ rozkład t jest symetryczny wokół punktu zerowego, wystarczy znać tylko dodatnią wartość t. Na przykład, jeśli wielkość próbki wynosi n=16, wówczas liczba stopni swobody zm) T– dystrybucje zm=16 - 1=15 . Według tabeli 1 aplikacja t 0,05 = 2,13 .

4. Znajdź granice przedziału ufności dla α = 0,05 i n = 16:

Granice zaufania:

Dla dużych próbek (n ≥ 30) t – Rozkład Studentów staje się normalny. Dlatego też przedział ufności dla dla n ≥ 30 można zapisać następująco:

Gdzie ty- punkty procentowe znormalizowanego rozkładu normalnego.

Dla standardowych prawdopodobieństw ufności (95%, 99%; 99,9%) i poziomów istotności wartości α ( ty) podano w tabeli 8.

Tabela 8

Wartości dla standardowych poziomów ufności α

α ty
0,05 1,96
0,01 2,58
0,001 3,28

Na podstawie danych z przykładu 1 określimy granice 95% przedział ufności (α = 0,05) dla średniego wyniku skoku z miejsca. W naszym przykładzie liczebność próby wynosi n = 65, wówczas w celu określenia granic przedziału ufności można zastosować zalecenia dotyczące dużej liczebności próby.

Z tego artykułu dowiesz się:

    Co się stało przedział ufności?

    Jaki jest sens Zasady 3 sigmy?

    Jak zastosować tę wiedzę w praktyce?

W dzisiejszych czasach, w obliczu nadmiaru informacji związanych z dużym asortymentem produktów, kierunkami sprzedaży, pracownikami, obszarami działalności itp., podkreślenie najważniejszej rzeczy może być trudne na które przede wszystkim warto zwrócić uwagę i podjąć wysiłek zarządzania. Definicja przedział ufności i analiza rzeczywistych wartości wykraczających poza jej granice – technika, która pomoże Ci podkreślić sytuacje, wpływając na zmieniające się trendy. Będziesz w stanie rozwinąć pozytywne czynniki i zmniejszyć wpływ negatywnych. Technologia ta jest stosowana w wielu znanych światowych firmach.

Istnieją tzw. „ alarmy”, Który poinformować menedżerówże następna wartość jest w określonym kierunku wyszedł poza przedział ufności. Co to znaczy? Jest to sygnał, że miało miejsce jakieś niezwykłe wydarzenie, które może zmienić dotychczasowy trend w tym kierunku. To jest sygnał do tego żeby to rozgryźć w danej sytuacji i zrozumieć, co na nią wpłynęło.

Rozważmy na przykład kilka sytuacji. Obliczyliśmy prognozę sprzedaży z prognozowanymi limitami dla 100 pozycji produktowych na rok 2011 w rozbiciu na miesiące oraz rzeczywistą sprzedażą w marcu:

  1. Dla „oleju słonecznikowego” przekroczyły one górną granicę prognozy i nie mieściły się w przedziale ufności.
  2. Dla „Drożdży suszonych” przekroczyliśmy dolną granicę prognozy.
  3. „Owsianka” przekroczyła górną granicę.

W przypadku pozostałych produktów rzeczywista sprzedaż mieściła się w zadanych prognozowanych granicach. Te. ich sprzedaż była zgodna z oczekiwaniami. Zidentyfikowaliśmy więc 3 produkty, które wykraczały poza granice i zaczęliśmy dociekać, co wpłynęło na ich wyjście poza granice:

  1. Dla Oleju Słonecznego weszliśmy w nową sieć dystrybucji, co dało nam dodatkowy wolumen sprzedaży, co doprowadziło do przekroczenia górnego limitu. Dla tego produktu warto przeliczyć prognozę do końca roku, biorąc pod uwagę prognozę sprzedaży dla tej sieci.
  2. W przypadku „Drożdży Suchych” samochód utknął na odprawie celnej i w ciągu 5 dni zabrakło, co wpłynęło na spadek sprzedaży i przekroczenie dolnego limitu. Może warto dowiedzieć się, co było przyczyną i starać się nie powtarzać tej sytuacji.
  3. Ruszyła akcja promocyjna sprzedaży Owsianki Owsianej, która dała znaczący wzrost sprzedaży i sprawiła, że ​​firma przekroczyła prognozy.

Zidentyfikowaliśmy 3 czynniki, które wpłynęły na przekroczenie prognozowanych limitów. Aby zwiększyć trafność prognozowania i planowania, czynników, które powodują, że rzeczywista sprzedaż może przekroczyć prognozowane limity, warto wyodrębnić i zbudować dla nich prognozy i plany odrębnie. A następnie rozważ ich wpływ na główną prognozę sprzedaży. Możesz także regularnie oceniać wpływ tych czynników i zmieniać sytuację na lepsze. poprzez zmniejszenie wpływu czynników negatywnych i zwiększenie wpływu czynników pozytywnych.

Mając przedział ufności możemy:

  1. Wybierz wskazówki, na które warto zwrócić uwagę, bo w tych kierunkach miały miejsce zdarzenia, które mogą mieć wpływ zmiana trendu.
  2. Zidentyfikuj czynniki, które realnie wpływają na zmianę sytuacji.
  3. Zaakceptować świadoma decyzja(na przykład o zakupach, planowaniu itp.).

Przyjrzyjmy się teraz, czym jest przedział ufności i jak go obliczyć w programie Excel na przykładzie.

Co to jest przedział ufności?

Przedział ufności to granice prognozy (górna i dolna), w obrębie których z danym prawdopodobieństwem (sigma) pojawią się rzeczywiste wartości.

Te. Obliczamy prognozę - to jest nasza główna wytyczna, ale rozumiemy, że rzeczywiste wartości prawdopodobnie nie będą w 100% równe naszej prognozie. I pojawia się pytanie, w jakich granicach wartości rzeczywiste mogą spaść, jeśli obecny trend się utrzyma? I to pytanie pomoże nam odpowiedzieć obliczanie przedziału ufności, tj. - górne i dolne granice prognozy.

Co to jest sigma prawdopodobieństwa?

Podczas obliczania przedział ufności, jaki możemy ustalone prawdopodobieństwo trafienia rzeczywiste wartości w zadanych prognozowanych granicach. Jak to zrobić? W tym celu ustalamy wartość sigma i jeśli sigma jest równa:

    3 sigma- wtedy prawdopodobieństwo, że kolejna rzeczywista wartość wpadnie w przedział ufności, wyniesie 99,7%, czyli 300 do 1, lub istnieje 0,3% prawdopodobieństwo przekroczenia granic.

    2 sigma- wówczas prawdopodobieństwo, że kolejna wartość znajdzie się w granicach wynosi ≈ 95,5%, tj. szanse wynoszą około 20 do 1, czyli istnieje 4,5% szansy, że przesadzisz.

    1 sigma- wówczas prawdopodobieństwo wynosi ≈ 68,3%, tj. szansa wynosi w przybliżeniu 2 do 1 lub istnieje 31,7% szansy, że następna wartość wypadnie poza przedział ufności.

Sformułowaliśmy reguła 3 sigmy,co tak mówi prawdopodobieństwo trafienia kolejna losowa wartość do przedziału ufności z daną wartością trzy sigma to 99,7%.

Wielki rosyjski matematyk Czebyszew udowodnił twierdzenie, że istnieje 10% prawdopodobieństwo przekroczenia prognozowanych granic przy danej wartości trzech sigma. Te. prawdopodobieństwo znalezienia się w przedziale ufności 3 sigma wyniesie co najmniej 90%, natomiast próba obliczenia prognozy i jej granic „na oko” jest obarczona znacznie większymi błędami.

Jak samodzielnie obliczyć przedział ufności w programie Excel?

Przyjrzyjmy się wyliczeniu przedziału ufności w Excelu (czyli górnej i dolnej granicy prognozy) na przykładzie. Mamy szereg czasowy - sprzedaż według miesiąca przez 5 lat. Zobacz załączony plik.

Aby obliczyć limity prognozy, obliczamy:

  1. Prognoza sprzedaży().
  2. Sigma - odchylenie standardowe modele prognostyczne na podstawie wartości rzeczywistych.
  3. Trzy sigmy.
  4. Przedział ufności.

1. Prognoza sprzedaży.

=(RC[-14] (dane szeregów czasowych)- RC[-1] (wartość modelu))^2(kwadrat)


3. Dla każdego miesiąca podsumujmy wartości odchyleń z etapu 8 Sum((Xi-Ximod)^2), czyli: Podsumujmy styczeń, luty... za każdy rok.

Aby to zrobić, użyj formuły =SUMA.JEŻELI()

SUMIF(tablica z numerami okresów wewnątrz cyklu (dla miesięcy od 1 do 12); link do numeru okresu w cyklu; link do tablicy z kwadratami różnicy między danymi źródłowymi a wartościami okresu)


4. Oblicz odchylenie standardowe dla każdego okresu cyklu od 1 do 12 (etap 10 w załączonym pliku).

W tym celu z wartości obliczonej na etapie 9 wyodrębniamy pierwiastek i dzielimy przez liczbę okresów w tym cyklu minus 1 = SQRT((Sum(Xi-Ximod)^2/(n-1))

Użyjmy formuł w programie Excel =ROOT(R8 (link do (Suma(Xi-Ximod)^2)/(COUNTIF($O$8:$O$67 (link do tablicy z numerami cykli); O8 (link do konkretnego numeru cyklu, który liczymy w tablicy))-1))

Korzystanie z formuły Excela = LICZ.JEŻELI liczymy liczbę n


Po obliczeniu odchylenia standardowego danych rzeczywistych z modelu prognostycznego otrzymaliśmy wartość sigma dla każdego miesiąca – etap 10 w załączonym pliku .

3. Obliczmy 3 sigma.

Na etapie 11 ustalamy liczbę sigm - w naszym przykładzie „3” (etap 11 w załączonym pliku):

Wygodne również w praktyce wartości sigma:

1,64 sigma - 10% szans na przekroczenie limitu (1 szansa na 10);

1,96 sigma - 5% szans na przekroczenie limitów (1 szansa na 20);

2,6 sigma - 1% szansy na przekroczenie limitów (1 szansa na 100).

5) Obliczanie trzech sigma, w tym celu mnożymy wartości „sigma” dla każdego miesiąca przez „3”.

3. Wyznacz przedział ufności.

  1. Górny limit prognozy- prognoza sprzedaży uwzględniająca wzrost i sezonowość + (plus) 3 sigma;
  2. Dolny limit prognozy- prognoza sprzedaży uwzględniająca wzrost i sezonowość – (minus) 3 sigma;

Dla wygody obliczenia przedziału ufności dla długiego okresu (patrz załączony plik) skorzystamy ze wzoru Excela =Y8+WYSZUKAJ.PIONOWO(W8,$U$8:$V$19,2,0), Gdzie

Y8- Prognoza sprzedaży;

W8- numer miesiąca, dla którego przyjmiemy wartość 3-sigma;

Te. Górny limit prognozy= „prognoza sprzedaży” + „3 sigma” (w przykładzie WYSZUKAJ.PIONOWO(numer miesiąca; tabela z wartościami 3 sigma; kolumna, z której wyciągamy wartość sigma równą numerowi miesiąca w odpowiednim wierszu; 0)).

Dolny limit prognozy= „prognoza sprzedaży” minus „3 sigma”.

Obliczyliśmy więc przedział ufności w Excelu.

Mamy teraz prognozę i przedział z granicami, w obrębie których będą mieścić się wartości rzeczywiste z zadanym prawdopodobieństwem sigma.

W tym artykule sprawdziliśmy, czym jest sigma i zasada trzech sigma, jak wyznaczyć przedział ufności i dlaczego można zastosować tę technikę w praktyce.

Życzymy trafnych prognoz i sukcesów!

Jak Forecast4AC PRO może Ci pomócprzy obliczaniu przedziału ufności?:

    Forecast4AC PRO automatycznie obliczy górną lub dolną granicę prognozy dla ponad 1000 szeregów czasowych jednocześnie;

    Możliwość analizy granic prognozy w porównaniu z prognozą, trendem i rzeczywistą sprzedażą na wykresie za jednym naciśnięciem klawisza;

W programie Forcast4AC PRO możliwe jest ustawienie wartości sigma od 1 do 3.

Dołącz do nas!

Pobierz bezpłatne aplikacje do prognozowania i analizy biznesowej:


  • Prognoza Novo Lite- automatyczny obliczenie prognozy V Przewyższać.
  • 4analytics - Analiza ABC-XYZ i analizę emisji Przewyższać.
  • Qlik Sense Pulpit i QlikViewPersonal Edition - systemy BI do analizy i wizualizacji danych.

Przetestuj możliwości płatnych rozwiązań:

  • Novo Prognoza PRO- prognozowanie w Excelu dla dużych zbiorów danych.

Przedziały ufności ( język angielski Przedziały ufności) jeden z rodzajów estymatorów przedziałowych stosowanych w statystyce, które obliczane są dla danego poziomu istotności. Pozwalają one na stwierdzenie, że prawdziwa wartość nieznanego parametru statystycznego populacji mieści się w uzyskanym przedziale wartości z prawdopodobieństwem określonym przez wybrany poziom istotności statystycznej.

Normalna dystrybucja

Gdy znana jest wariancja (σ 2) populacji danych, wynik z można wykorzystać do obliczenia granic ufności (punktów końcowych przedziału ufności). W porównaniu do korzystania z rozkładu t, użycie wyniku z pozwoli na skonstruowanie nie tylko węższego przedziału ufności, ale także bardziej wiarygodnych szacunków wartości oczekiwanej i odchylenia standardowego (σ), ponieważ wynik z jest oparty na normalna dystrybucja.

Formuła

Do wyznaczenia punktów brzegowych przedziału ufności, pod warunkiem, że znane jest odchylenie standardowe populacji danych, stosuje się następujący wzór

L = X - Z α/2 σ
√ n

Przykład

Załóżmy, że wielkość próby wynosi 25 obserwacji, wartość oczekiwana próbki wynosi 15, a odchylenie standardowe populacji wynosi 8. Dla poziomu istotności α=5% wynik Z wynosi Z α/2 =1,96. W takim przypadku będą to dolna i górna granica przedziału ufności

L = 15 - 1,96 8 = 11,864
√25
L = 15 + 1,96 8 = 18,136
√25

Można zatem powiedzieć, że z 95% prawdopodobieństwem matematyczne oczekiwanie populacji będzie mieściło się w przedziale od 11,864 do 18,136.

Metody zawężania przedziału ufności

Załóżmy, że na potrzeby naszych badań zakres ten jest zbyt szeroki. Istnieją dwa sposoby zmniejszenia zakresu przedziału ufności.

  1. Zmniejsz poziom istotności statystycznej α.
  2. Zwiększ wielkość próbki.

Zmniejszając poziom istotności statystycznej do α=10%, otrzymujemy Z-score równy Z α/2 =1,64. W takim przypadku dolna i górna granica przedziału będzie

L = 15 - 1,64 8 = 12,376
√25
L = 15 + 1,64 8 = 17,624
√25

A sam przedział ufności można zapisać w formie

W tym przypadku możemy założyć, że z 90% prawdopodobieństwem matematyczne oczekiwanie populacji będzie mieścić się w przedziale .

Jeżeli nie chcemy zmniejszać poziomu istotności statystycznej α, wówczas jedyną alternatywą jest zwiększenie liczebności próby. Zwiększając ją do 144 obserwacji, otrzymujemy następujące wartości granic ufności

L = 15 - 1,96 8 = 13,693
√144
L = 15 + 1,96 8 = 16,307
√144

Sam przedział ufności będzie miał następującą postać

Zatem zawężenie przedziału ufności bez obniżania poziomu istotności statystycznej jest możliwe jedynie poprzez zwiększenie liczebności próby. Jeżeli zwiększenie liczebności próby nie jest możliwe, zawężenie przedziału ufności można osiągnąć jedynie poprzez zmniejszenie poziomu istotności statystycznej.

Konstruowanie przedziału ufności dla rozkładu innego niż normalny

Jeżeli odchylenie standardowe populacji nie jest znane lub rozkład różni się od normalnego, do skonstruowania przedziału ufności wykorzystuje się rozkład t. Technika ta jest bardziej konserwatywna, co znajduje odzwierciedlenie w szerszych przedziałach ufności w porównaniu z techniką opartą na wskaźniku Z-score.

Formuła

Aby obliczyć dolną i górną granicę przedziału ufności na podstawie rozkładu t, należy skorzystać z poniższych wzorów

L = X - t α σ
√ n

Rozkład Studenta, czyli rozkład t, zależy tylko od jednego parametru – liczby stopni swobody, która jest równa liczbie poszczególnych wartości atrybutu (liczbie obserwacji w próbie). Wartość testu t-Studenta dla danej liczby stopni swobody (n) oraz poziom istotności statystycznej α można znaleźć w tabelach referencyjnych.

Przykład

Załóżmy, że liczebność próby wynosi 25 pojedynczych wartości, wartość oczekiwana próby wynosi 50, a odchylenie standardowe próby wynosi 28. Należy skonstruować przedział ufności dla poziomu istotności statystycznej α=5%.

W naszym przypadku liczba stopni swobody wynosi 24 (25-1), zatem odpowiednia wartość tabelaryczna testu t-Studenta dla poziomu istotności statystycznej α=5% wynosi 2,064. Dlatego będą to dolna i górna granica przedziału ufności

L = 50 - 2,064 28 = 38,442
√25
L = 50 + 2,064 28 = 61,558
√25

A sam przedział można zapisać w formie

Można zatem powiedzieć, że z 95% prawdopodobieństwem matematyczne oczekiwanie populacji będzie mieścić się w przedziale .

Korzystanie z rozkładu t pozwala zawęzić przedział ufności poprzez zmniejszenie istotności statystycznej lub zwiększenie wielkości próby.

Zmniejszając istotność statystyczną z 95% do 90% w warunkach naszego przykładu, otrzymujemy odpowiednią wartość tabelaryczną testu t-Studenta wynoszącą 1,711.

L = 50 - 1,711 28 = 40,418
√25
L = 50 + 1,711 28 = 59,582
√25

W tym przypadku można powiedzieć, że z 90% prawdopodobieństwem matematyczne oczekiwanie populacji będzie mieścić się w przedziale .

Jeśli nie chcemy zmniejszać istotności statystycznej, jedyną alternatywą jest zwiększenie liczebności próby. Powiedzmy, że są to 64 pojedyncze obserwacje, a nie 25 jak w pierwotnym stanie przykładu. Wartość tabelaryczna testu t-Studenta dla 63 stopni swobody (64-1) i poziomu istotności statystycznej α=5% wynosi 1,998.

L = 50 - 1,998 28 = 43,007
√64
L = 50 + 1,998 28 = 56,993
√64

Pozwala to stwierdzić, że z 95% prawdopodobieństwem matematyczne oczekiwanie populacji będzie mieścić się w przedziale .

Duże próbki

Duże próby to próbki z populacji danych, w której liczba pojedynczych obserwacji przekracza 100. Badania statystyczne wykazały, że większe próby mają tendencję do rozkładu normalnego, nawet jeśli rozkład populacji nie jest normalny. Ponadto w przypadku takich próbek zastosowanie wyniku z i rozkładu t daje w przybliżeniu takie same wyniki przy konstruowaniu przedziałów ufności. Zatem w przypadku dużych próbek dopuszczalne jest użycie wyniku z dla rozkładu normalnego zamiast rozkładu t.

Podsumujmy to