数据分析基础—5.4 分组分析法

96
小明学数据
0.2 2018.07.23 22:17* 字数 1504

 分组分析法是将总体数据按照某一特征划分成若干个部分再加以分析的一种方法。

        分组分析法的含义

        分组分析法是根据目标数据的性质、特征,按照一定指标,将数据总体划分成几个部分,分析其的内部结构和相互关系,从而了解事物的发展规律。

        分组分析法的分类

        根据指标的性质,分组分析法分为属性指标分组和数量指标分组。

        属性指标所代表的数据不能进行运算,只是说明事物的性质、特征。如人的姓名、部门、性别、文化程度等指标。

        数量指标所代表的数据能够进行加减乘除运算,说明事物的数量特征,如人的年龄、工资水平、企业的资产等指标。

        1、属性指标分组分析法

        按属性指标分组一般较简单,分组指标一旦确定,组数、组名、组与组之间的界限也就确定。例如,人口按性别分为男、女两组,具体到每一个人应该分在哪一组是一目了然的。

        对一些复杂问题的分组,称为统计分类。统计分类是相对复杂的属性指标分组方法,需要根据数据分析的目的,统一规定分类标准和分类目录。例如:反映国民经济结构的国家工业部门分类,它是先把工业分为采掘业和制造业两大部分,然后再分为大类、中类、小类三个层次。

        2、数量指标分组分析法

        数量指标分组分析法是指选择数量指标作为分组依据,将数据总体划分为若干个性质不同的部分,分析数据的分布特征和内部联系。

        它分为单项式分组和组距式分组。

        单项式分组

        单项式分组一般适用于离散型数据*,而且数据值不多、变动范围较小的情况。每个指标值就是一个组,有多少个指标值就分成多少个组。如按产品产量、技术级别、员工工龄等指标分组。

        例如:某企业成立三年,现有员工300人,以员工工龄指标作为分组依据,可以分成三组,工龄一年的员工75人,工龄二年的员工135人,工龄为三年的员工90人。

        组距式分组

        组距式分组是指数据的变化幅度较大的条件下,将数据总体划分为若干个区间,每个区间作为一组,组内数据性质相同,组与组之间的性质相异。

        组距式分组需要确定几个关键的分组要素:组数、组距、组限、组中值。

        例如:某企业有员工300人,通过年龄指标进行分组,统计员工年龄分布情况,分析员工年龄结构是否合理,结果如图所示:

        a、组数

        组数即分组个数。通过总体数据的多少来分析确定,组数既不能太少,也不宜太多,应该保证各组都能有足够的单位数据。如组数太少,数据分布就会过于集中,组数太多,数据的分布就会过于分散,不能正确反映数据的分布特征。

        结合上面案例:组数为4组

        b、组限

        组限是用来表示各组之间界限的数据值。其中,在每一组中最小的数据值为下限;最大的数据值为上限。

        结合上面案例:组限为每一组的两端值,这里有一个“上组限不在内”原则,即每一组的上限不算在本组内,而算在下一组内,例如;员工年龄30~40这一组,其中40岁的员工人数不算在该组,而是算在40~50这一组。

        C、组距

        组距是指每一组的上限与下限之间的距离,即:组距 =上限 -下限

        组距式分组中,各组组距都相等的分组称为等距分组,各组组距不相等的分组则称为不等距组。

        结合上面案例:组距为10

        d、组中值

        组中值即每组上下限的中点值,它是各组数据值的代表值。在假定各组数据在本组内呈均匀分布的情况下,组中值 = ( 上限 +下限 ) ÷ 2

        结合上面案例:组中值分别是25、35、45、55。

        综上所述,分组的目的并不是单纯确定各组在数量上的差别,而是要通过数量上的变化来区分各组的不同类型和性质,运用对比等分析方法研究事物的数量表现和数量关系,从而正确地认识事物的本质及其规律。


注释:

        离散型数据:也称不连续数据或计数数据,在一定区间内的取值是固定的,不能无限细分的数据,一般用自然数或整数单位表示。

        例如:员工人数、机器台数等数据。

        连续型数据:在一定区间内可以任意取值的数据,也就是说可以无限细分到任意小数位,

        例如尺寸、重量、高度等数据。


数据分析基础