Histogram je sloupcový graf, který na vodorovné ose zachycuje intervaly, do kterých jsou nějaká data rozčleněna, a na svislé ose počet výskytů těchto dat v daném intervatu (slovy statistiky: odpovídající absolutní nebo relativní četnosti). Histogram je užitečnou vizuální pomůckou, která přehledně zachycuje rozdělení četností statistických dat. Není třeba se obávat statistických termínů, vše bude jasné z příkladu, obrázku histogramu a vysvětlujících komentářů.
Histogram je sloupcový graf, který na ose x zachycuje intervaly jako třídy, do kterých jsou data zatříděna, a na ose y jsou zachyceny odpovídající absolutní (mi) nebo relativní (ti) četnosti. Nad každou třídou či intervalem je sestrojen obdélník („sloupec“), jehož výška odpovídá absolutní nebo relativní četnosti třídy.
Histogram používáme především v případě, kdy máme data zatříděna do intervalů (například proto, že jednotlivých hodnot je příliš mnoho). Mohli bychom jej ale uměle vytvořit i pomocí tzv. zástupců intervalů, jinak též označovaných jako třídní znaky zi. Většinou jde o aritmetický průměr dolní a horní hranice intervalu, i když v tomto případě používáme spíše jiný grafický výrazový prostředek – polygon četností.
Vše bude nejlépe patrné z příkladu a obrázku histogramu.
Provedeme šetření s cílem zjistit průměrnou spotřebu pohonných hmot (PHM) určitého automobilu (stejný typ, motor, ročník výroby a další konfigurace). Oslovíme 100 náhodně vybraných majitelů těchto automobilů. Spotřeby PHM v litrech na 100 km jsou uvedeny v tabulce níže. Úkol zní: zpracujte data a sestrojte histogram četností.
Data | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
1 | 8,0 | 6,7 | 6,5 | 7,7 | 8,9 | 6,8 | 6,9 | 7,1 | 7,1 | 9,5 |
2 | 5,5 | 6,0 | 5,8 | 7,2 | 6,0 | 9,2 | 6,8 | 9,9 | 8,3 | 7,2 |
3 | 7,0 | 9,5 | 8,5 | 7,4 | 8,9 | 6,9 | 9,2 | 6,2 | 5,1 | 6,1 |
4 | 7,9 | 5,9 | 5,5 | 7,5 | 5,4 | 5,0 | 5,9 | 8,0 | 8,0 | 9,8 |
5 | 6,1 | 5,6 | 5,1 | 7,2 | 7,7 | 5,2 | 7,2 | 6,2 | 7,0 | 7,6 |
6 | 6,0 | 6,6 | 6,9 | 8,8 | 7,4 | 6,9 | 6,7 | 8,5 | 7,3 | 7,0 |
7 | 7,9 | 5,6 | 7,0 | 6,9 | 6,5 | 5,2 | 7,0 | 9,4 | 7,2 | 8,4 |
8 | 7,5 | 7,2 | 5,2 | 7,6 | 5,6 | 5,6 | 5,0 | 5,8 | 6,4 | 7,3 |
9 | 7,0 | 7,0 | 7,8 | 8,9 | 7,8 | 8,1 | 7,6 | 7,8 | 6,3 | 9,1 |
10 | 8,0 | 5,6 | 6,8 | 7,4 | 9,3 | 5,5 | 7,7 | 8,1 | 6,6 | 5,7 |
Máme tedy celkem 100 naměřených hodnot spotřeby PHM, z toho je 42 hodnot unikátních. Sestrojit histogram, který by měl 42 sloupců, není kvůli přehlednosti příliš dobrý nápad. Proto data roztřídíme či seskupíme do intervalů (tříd).
Nejnižší hodnota spotřeby je 5 litrů/100 km, nejvyšší 9,9 litrů/100 km. V tomto příkladu se jeví jako účelné a smysluplné data rozdělit do 10 intervalů (tříd) po 0,5 litrech.
Máme-li velmi mnoho dat, existují různá pravidla či doporučení pro stanovení rozumného počtu tříd (intervalů). Jedním z nich je třeba Sturgesovo pravidlo, kde počet tříd k = 1 + 3,32 × log(n)
a n
je celkový počet hodnot. Podle tohoto pravidla bychom 100 hodnot mohli zatřídit do asi 8 intervalů. Nicméně, jak jsme si řekli, dává smysl spotřeby zatřídit do 10 intervalů s délkou intervalu půl litru – jak ukazuje následující tabulka.
Interval | <xi–xi+1) | <5–5,5) | <5,5–6) | <6–6,5) | <6,5–7) | <7–7,5) | <7,5–8) | <8–8,5) | <8,5–9) | <9–9,5) | <9,5–10) |
---|---|---|---|---|---|---|---|---|---|---|---|
Třídní znak | zi | 5,25 | 5,75 | 6,25 | 6,75 | 7,25 | 7,75 | 8,25 | 8,75 | 9,25 | 9,75 |
Četnost | mi | 8 | 13 | 9 | 14 | 20 | 13 | 8 | 6 | 5 | 4 |
Pravděp. | pi | 0,08 | 0,13 | 0,09 | 0,14 | 0,2 | 0,13 | 0,08 | 0,06 | 0,05 | 0,04 |
Třídní znak. Máme-li interval (třídu) charakterizovat pouze jednou hodnotou (jedním zástupcem), použijeme k tomu třídní znak zi. Třídní znak se obvykle určí jako aritmetický průměr dolní a horní hranice intervalu.
Četnost. Absolutní četnosti mi uvádějí, kolikrát se která spotřeba vyskytla. Nejčastější spotřeba daného automobilu je 7–7,5 litru/100 km, která je zastoupena celkem 20krát. Pravděpodobnost pi v tabulce je synonymem pro relativní četnost (též ti), tj. podíl absolutní četnosti na celkovém počtu hodnot. Vezmeme-li znova nejčastější spotřebu 7–7,5 litru/100 km, tak její podíl (relativní četnost) je 20/100 = 0,2 (neboli 20 %, chcete-li údaj v procentech).
Relativní četnosti totiž můžeme považovat za odhady pravděpodobnosti. Pokud bychom změřili spotřebu u dostatečně velkého počtu aut a získali například relativní četnosti uvedené v tabulce, mohli bychom říci, že koupíme-li si dané auto, tak s největší pravděpodobností (0,2 či 20 %), budeme mít spotřebu mezi 7 a 7,5 litry na 100 km.
Četnosti jednotlivých spotřeb, zatříděných do intervalů, přehledně zachycuje právě histogram četností. Jelikož pracujeme s náhodným výběrem (100 automobilů), mluvíme o tom, že histogram zachycuje výběrové rozdělení četností (či pravděpodobností).
V histogramu jsou na svislé ose y zachyceny absolutní četnosti, graf by ale vypadal naprosto stejně, kdyby na ní byly relativní četnosti (odhady pravděpodobnosti).
Histogram nám podává rychlou vizuální informaci o výběrovém rozdělení četností. Je jasně zřetelné, že nejčastější (= mající největší četnost) spotřeba se pohybuje v intervalu 7–7,5 litru/100 km. Průměrná spotřeba (střední hodnota) ze všech 100 hodnot – 7,1 litru/100 km – také spadá do tohoto intervalu.
Četnosti nižších a vyšších spotřeb klesají. Histogram tímto velmi připomíná tzv. normální rozdělení pravděpodobností, které má tvar zvonu, Napoleonovy čepice či hory Říp (viz obrázek na stránce charakteristiky polohy a variability). Tvar histogramu proto může velmi dobře posloužit jako první vizuální informace pro odhad rozdělení pravděpodobností. Existují statistické testy, které potom otestují hypotézu o určitém rozdělení pravděpodobností.
Jiným grafickým vyjádřením rozdělení četností, především pokud pracujeme s třídními znaky, je polygon četností (spojnicový diagram).
→ Statistika – úvod, základy
→ Absolutní a relativní četnost
→ Charakteristiky variability a polohy: aritmetický průměr, modus a medián, rozptyl