Tři bratři a jejich rodná sestra směrodatná odchylka

Kdy lze průměru důvěřovat?

V předchozích třech článcích jsme si povídali o průměrech (středních hodnotách), coby reprezentantech souborů dat. Víme, že nejčastěji používaný je aritmetický průměr. A také víme, že  to není zdaleka ten pravý reprezentant. V mnoha situacích je dokonce nevhodný a zavádějící.

další informace naleznete v článku

Věčný školákův problém

„Paní učitelko, jak to, že Karel má na vysvědčení za 2 a já za 3,“ stěžuje si Petr paní učitelce. „Vždyť oba máme stejný průměr známek. Jak to?“

„To je pravda, Petříku, že máte oba stejný aritmetický průměr a to 2,33,“ souhlasí pedagožka, „ale Karel má známky 2,3,2, zatímco ty 2,1,4. Karel pracuje soustředěně a má stálý výkon kolem 2. Kdežto ty pracuješ podle nálady a nesystematicky. Proto jsi získal na jedné straně jedničku, ale vzápětí ses na učení vykašlal a skončilo to čtyřkou. Přestaň pracovat od zdi ke zdi a budeš mít také na vysvědčení 2 možná i 1.“

A paní učitelka dodává: „Pamatuj si, Petříku, aritmetický průměr není všechno.“

Čím průměr doprovodit, aby získal na důvěryhodnosti?

Informace obsažená v průměru je menší než informace, kterou přinášejí zjištěné hodnoty. Potřebujeme tedy další charakteristiku variability rozptýlenosti hodnot znaku. Tou je tzv. směrodatná odchylka a její druhá mocnina rozptyl.

Názorná ukázka rozptylu a směrodatné odchylky

V zájmu snadného instrukčního počítání budeme studovat dva soubory s malými celými čísly. Soubor A obsahuje čísla 7, 8, 9 a soubor B čísla 1, 8, 10, 13. Aritmetický průměr v obou souborech je stejný a to 8,00. Dále budeme psát zkráceně jen průměr a budeme tím vždy mínit aritmetický průměr.

Pro vyjádření míry rozptylu použijeme odchylky jednotlivých hodnot od průměru.

Součet všech odchylek od průměru je vždy roven nule. Proto nemá smysl je sčítat, a proto je převádíme na kladná čísla umocněním na druhou. Tím zároveň dosáhneme toho, že extrémy ležící daleko od průměru vyniknou zvlášť zřetelně a připomínají nám: pozor, opatrně, je tu velký rozptyl.

Rozdíl mezi 78 a 2 skutečně bije do očí. Tato čísla ovšem ještě klamou, narůstají už jen tím, čím více jednotlivých měření sčítáme. Proto je nezbytné vztáhnout je na jedno měření, tedy vydělit počtem měření. Takto získané hodnoty nazýváme rozptyl (variance) a značíme var x nebo s2.

Zlý duch s vadou krásy

V dobách hledání „průměrného člověka“ jako ideálního typu, označil americký astronom Simon Newcombe tuto míru jako „evil“ – „zlý duch“. Rozptyl se vine celou rozlehlou oblastí statistiky jako červená nit od tohoto elementárního výchozího bodu až do vzdálených výšin analýzy rozptylu. A přesto má rozptyl jednu vadu krásy, kterou snadno pochopíme z fyzikální interpretace.

Představme si, že máme košík jablek a máme určit průměrnou hmotnost v gramech na jeden plod. Jednotlivé naměřené hodnoty jsou tedy v gramech. Průměr je součet naměřených hodnot vydělený jejich počtem, tedy je to údaj opět v gramech. Odchylky od průměru jsou také v gramech, ale pak musíme umocnit a rozptyl má tedy fyzikální jednotku v gramech2 na druhou. Průměr a rozptyl má různou fyzikální jednotku a jsou tedy spolu neporovnatelné. Proto se zavádí další statistika a to směrodatná odchylka, která je druhou odmocninou rozptylu a opět získává stejnou fyzikální jednotku jako průměr, tedy gramy. Směrodatná odchylka (míra variance) se značí s.

s1 = √(2/3) = √0,67 = 0,82              s2 = √(78/3) = √26 = 5,1

Směrodatná odchylka činí v souboru A méně než 1 = většina čísel se odchyluje od průměru o méně než 1 v obou směrech, tedy leží mezi 7 a 9.

V souboru B se většina čísel odchyluje od průměru o více než 5 v obou směrech, leží mezi 3 a 13. Průměr je 8 a směrodatná odchylka více než 5, to znamená, že průměr není charakteristický pro daná čísla. S největší pravděpodobností byly seskupeny úplně nestejnorodé množiny údajů (např. průměrná výška mužů a žen dohromady).

Jak porovnat dva soubory, které nemají stejný průměr

Statistika, která umožňuje srovnávat přesnost vyrovnanosti různých souborů a měření podle různých znaků (nutně i různých průměrů) a oprávněnost použití aritmetického průměru, se nazývá variační koeficient. Variační koeficient (značíme V) je statistika, která je bezrozměrná a často se udává v %.

Pro soubory A a B vypočtené hodnoty variačního koeficientu, což je podíl směrodatné odchylky a průměru vyjádřený v procentech.

Podle velmi hrubého pravidla prozrazuje variační koeficient vyšší než 50% silnou „nesourodost statistického souboru“, a to v takové míře, že použití aritmetického průměru je už stěží oprávněné. Čísla 1, 10, 13 dávají jen s použitím „násilí“ průměrnou hodnotu 8.

Výsledky pro Karla a Petra

Karlovi vychází        s2 = 0,22     s = 0,47     V = 5,9 %

Petrovi vychází        s2 = 1,55     s = 1,25     V = 15,6 %

A ještě jedna drobnost.

Karlovi vychází z intervalu <x-s;x+s>  = <2,33-0,47;2,33+0,47>= <1,86;2,80> , který obsahuje jediné celé číslo a to 2.

Kdežto v Petrovu intervalu <0,78;3,88> jsou hned tři celá čísla: 1, 2, 3 a paní učitelka musí volit ještě podle jiných kritérií než jen mechanickým výpočtem.

 

 

 

Napsat komentář

Vaše emailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *