一直認為莖葉圖是比直方圖更有意思的統計圖表——說是統計圖其實又是列出了「詳細」原始資料,只不過可能是化簡至兩、三位有效數字;說它不是圖卻又像直方圖、條圖一般可以顯示出資料分布的模樣:
Stem and Leaf Plot
Stem | Leaf
1 | 3
0 | 23588
-0 | 8866642220
-1 | 530
-2 | 5
(Actual data value should be divided by 10^1)
圖中顯示最小值是 -2.5, 最大值是 1.3, 眾數組是 -0.9~-0.0。由於資料跨越 0,莖部的 0 和 -0 是不同的, 0 是 0.0~0.9, -0 是 -0,9~-0.0。這裡資料近似值 -0.0 被歸到 -0 這一組是因原始資料其實有更多位小數,而原資料是負數,只是小數點後第二位起被四捨五入了。
正如本例,為了做莖葉圖,原始數據被四捨五入成小數點後一位。因此若希望看到更精確資料,從這圖是看不出來。當然也可以考慮「葉」的部分取2位,不過很少人會這麼做,因為統計圖是希望讓人一眼明白資料特性,不是要顯示很精確的資料。
從這個例子可以看出莖葉圖的限制:它比較適合小量資料,例如 n ≦ 100,大量資料比較適合用直方圖或條圖表示。同時它的分組很受限制。如果是直方圖,雖然我們偏愛用精簡數字如 1, 2, 4, 5, 8, 10 等做組距,但選擇的自由程度比莖葉圖好多了。莖葉圖如上例是以 1 為組距,如果某些組資料數太多,也可以考慮改以 0.5 為組距;或如果資料太分散也可以考慮合兩組為一組,以 2 為組距。
如上面的例子,有正有負,查看網路上的例子,不管莖的部分是正是負,葉的部分都是由小到大。如果我們希望各組數值都是由小到大排列,那麼如前例,負數部分的葉是由大到小似較合理?由圖從底部往上,從莖部往右,可得原資料依序是 -2.5, -1.5, -1.3, -1.0, ..., 0.8, 0.8, 1.3。如果葉部都由小到大排序,則成為:
1 | 3
0 | 23588
-0 | 0222466688
-1 | 035
-2 | 5
依平常順序取出就是 -2.5, -1.0, -1.3, ... 可看出並沒按大小順序排列;要正確取出,則莖部是負值時要由右往左取,莖部正值時由左向右取,感覺有些不一致。此外,這裡的機器輸出為方便採橫式,若採縱式顥示莖葉圖使其類似直方圖,則此種排列法更顯不適當;前面所示的排列方式在採縱式莖葉圖時,資料順序是由左而右,由下而上。
我們面對的資料數值有大有小,大的數值資料或者千百萬,小的數字也許小數點後一串 0。如果畫直方圖,各組界限完全可以直接適當表示。但在莖葉圖,如這裡前面的例子,直接以整數為莖,小數點後一位是葉。如果原資料放大為 10 倍,我們可以說莖葉合成的數字就是資料,如 -25, -15, -13, ..., 13。如果資料是 -2500, -1500, ... 1300,那麼莖葉圖的莖部如何列?如果列成 -2000, -1000,...., 1000, 這樣莖葉合併來看就不知道表示什麼意思了。考慮之後,認為直接把莖葉看成整數,如本例 -25, -15,...,13, 然後註解說此數要除以 10^1, 即 10, 才得到原來的資料。如此在機器作圖也比較方便,不必考慮列印位數問題。當然如果原資料的變異性相對於平均水準很小,例如資料數值都是 123.xx 形式,那麼莖部也只能取到 4 位有效數字了。