现代心理与教育统计学

2022-06-17 14:20:03| 浏览次数：

　心理统计学第一章概述描述统计

　定义：研究如何把心理与教育科学实验或调查得来的大量数据科学的科学的加以整理概

　括和表述

　作用：使杂乱无章的数字更好的显示出事物的某些特征，有助于说明问题的实质。

　具体内容：1 数据分组：采用图与表的形式。

　2 计算数据的特征值：集中量数（平均数中数）

　离散量数（方差）

　3 计算量事物间的相关关系：积差相关（2 列 3 列多列）

　推断统计

　定义：主要研究如何利用局部数据（样本数据）所提供的信息，依据数理统计提供的理

　论和方法，推论总体情形。

　作用：用样本推论总体。

　具体内容：1 如何对假设进行检验。

　2 如何对总体参数特征值进行估计。

　3 各种非参数的统计方法。

　心理与教育统计基础概念数据类型一从数据来源来划分

　1 计数数据：计算个数或次数而获得的数据。（都是离散数据）

　2 测量数据：借助一定测量工具或测量标准而获得的数据。（连续数据）

　二根据数据所反映的测量水平 1 称名数据（分类）

　定义：指用数字代表事物或数字对事物进行分类的数据。

　特点：数字只是事物的符号，而没有任何数量意义。

　统计方法：百分数次数众数列联相关卡方检验等。（非参检验）

　2 顺序数据（分类排序）

　定义：指代事物类别，能够表明不同食物的大小等级或事物具有的某种特征的程度的数

　据。（年级）

　特点：没有相等单位没有绝对零点。不表示事物特征的真正数量。

　统计方法：中位数百分位数等级相关肯德尔和谐系数以及常规的非参数检验方法。

　3 等距数据（分类排序加减（相等单位））（真正应用最广泛的数据）

　定义：不仅能够指代物体的类别等级，而且具有相等的单位的数据。（成绩温度）

　特点：真正的数量，能进行加减运算，没有绝对零点，不能进行乘除计算。

　统计方法：平均数标准差积差相关 Z 检验

　t 检验 F 检验等。

　4 比率数据（分类排序加减法乘除法（绝对零点））

　定义：表明量的大小，也具有相等单位，同时具有绝对零点。（身高反应时）

　特点：真正的数字，有绝对零点，可以进行加减乘除运算。

　在统计中处理的数据大多是顺序数据和等距数据。

　三按照数据是否具有连续性

　离散数据连续数据

　变量观测值随机变量

　变量：指心理与教育实验观察调查种想要获得的数据。数据获得前用“x”表示，即为一

　个可以取不同熟知的物体的属性或事件，其数值具有不确定性，因而称为变量。

　观测值：是研究中确定的某一变量的取值。

　随机变量：表示随机现象各种结果的变量称为随机变量三总体

　样本

　个体

　总体：具有某种共同特质的一类事物。（欲研究的研究范围）

　样本：构成总体的每个基本单元。

　个体：从总体重抽取的部分个体组成的群体。样本容量超过 30 为大样本反之为小样本。

　四次数比率频率与概率

　次数：某一事件在某一类别中的数目。

　比率：（比例百分数）两个数相比。

　频率：（相对次数）某一事件发生的次数被总的事件数目出。常用比例百分数表示。

　概率：用符号 P 表示，指某一事件在无限观测中所能预料的相对出现的次数。

　五统计量和参数

　1 参数：（总体参数）描述一个总体情况的统计指标用希腊字母表示。（小写）（大写

　表示运算符）

　总体平均数

　总体标准差

　总体相关系数

　总体回归系数 2 统计量：（特征值样本统计量）描述一组数据的情况。

　样本统计量用英文表示

　样本平均数

　样本标准差

　样本相关系数

　样本回归系数

　小结

　描述统计

　心理与教育统计学内容

　推论统计

　实验设计

　计数数据测量数据

　数据类型

　称名数据顺序数据等距数据比率数据

　离散数据计数数据

　变量观测值随机变量

　心理与教育统计基础概念

　总体

　样本

　个体

　次数频数概率

　参数

　统计量

　练习题

　1 等距量表的特点是（）

　A 无绝对零点，无相同单位。

　B 无绝对零点，有相同单位。

　C 有绝对零点，无相同单位。

　D 有绝对零点，有相同单位。

　2 下列量表中具有绝对零点的是（）

　A 称名量表 B 顺序量表 C 等距量表

　D 比率量表

　3 教师的职称和薪水这两个变量的数据类型分别属于（）

　A 命名数据等比数据 B 等距数据等比数据 C 顺序数据等距数据 D 顺序数据等比数据

　4 下列数据类型属于比率数据的是（）

　A 智商分数 B 反应时 C 年纪 D 数学成绩

　练习题思路解析 1

　见第一页 2

　见第一页 3

　职称：讲师副教授教授这三个职称能排序，但不能做加减法。（顺序数据）

　薪水：

　能排序能做加减法，也具有绝对零点（没工资）能做乘除法。

　（比率数据）

　智商分数：加减法可做不能做乘除（智商测量表测量出来人为规定零）（等距数据）

　反应时：有绝对零点（比率数据）

　年级：只能大小排序（顺序数据）

　数学成绩：人为规定零点（等距数据）

　第二章统计图表（重要但不怎么考）（图表的特点）

　第一节数据的初步整理（将数据制成统计图表的第一步）

　一数据排序

　排序就是按照某种标准，对收集到的杂乱无章的数据按照一定的顺序标准进行排列。数据排序是正理数据最简单的方法。

　二统计分组统计分组只根据被研究对象的特征，将所得到的数据划分到各个分组中去。

　数据的取舍原则：三个标准差原则

　三统计表统计表：用来表达统计指标与被说明的事物间关系的表格。

　特点：简洁清晰准确表中数据易于比较分析。

　三线表

　四统计图

　统计图：用来表达统计指标与被说明事物之间数量关系的图形，是统计数据资料的可

　视化显示方式。

　第二节次数分布表（最重要的一类统计表）（皮尔逊次数分布表次数分布图）

　一简单次数分布表（既可用于计数数据的整理，又可用于测量数据的整理）

　简单次数分布表：依据每一个分数值在一列数据中出现的次数或总计数资料编制成的统

　计表。

　特点：对数据资料的来源没有过多要求，编制过程简单，应用广泛。

　二分组次数分布表当数据的取值过多时，不适合每个值记录一个频次。

　把所有数据先划分为若干个分组区间，然后将数据按其数值大小划归相应组内，分别计算各个组别中的数据个数，再用列表的形式呈现出来，就构成了分组次数分布表。

　制作过程：

　1 求全距（离散量度）

　全距=最大值-最小值（离散 2 决定组数组数  4 . 01 87 . 1   N K

　（N 为数据个数，K 取近似整数）（经验公式）

　3 决定组距（任意一组的起点和终点之间的距离）

　组距是一个组的上限与下限之差

　组距=全距/组数 4 列出分组区间（组限）（一个组起点值与终点值之间的距离）

　组上限：一个组的终止点

　组下限：一个组的起始点

　表示方法：

　表述组限：10-19

　 20-29

　30-39

　精确组限：9.5-19.499

　19.5-29.499

　29.5-39.499

　分组次数分布表的意义与缺点

　意义：显示数据的分布状况，集中状况。

　假设：各区间的数据均匀分布，并用各组的组中值代表各原始数据。

　缺点：由于假设所造成的误差为归组效应。

　三相对次数分布表

　1 含义：相对次数是指各组次数 f 对数据总个数 N 的比值，用符号 f/N 表示。

　所有相对次数之和 ∑f/N 等于 1.

　2 制作：将分组次数分布表的各组次数转化为相对次数，用 f/N 或 f/N×100%作标

　志来表示次数就制成了相对次数分布表。

　四累加次数分布表

　1 实际累加次数

　把各组次数 f 由下而上或由上而下依次累加的和，用符号 cf 表示。

　2 相对累加次数

　把各组的相对次数 p 由上而下或由下而上依次累加的和，累加之和为 1.

　五双列次数分布表（相关次数分布表）

　1 含义：对有联系的两列变量用一个表来表示次数分布。（体重与血压；智力与成

　绩）

　2 制作：先按照分组次数表的编制方法，分别列出各变量的分组区间，登记时，每

　次同一对变量同时登记在相应的格内。

　第三节次数分布图

　一直方图（又称等距直方图，用于等距变量）

　用一系列宽度相等、高度不一的矩形表示数据分布的统计图。以矩形的面积表示连续性随机变量次数分布的图形。

　一般用纵轴表示数据的频数，用数轴表示数据的等距分组点，也就是各组分组区间的上限和下限，有时也使用组中值。

　二次数多边图（变化趋势）

　一种线形图，凡是等距分组的可以用直方图表示的数据，都可以用次数多边图表示。

　绘制时，横坐标是用各分组区间组中值表示的连续变量，纵坐标是数据的次数。以每个分组区间的组中值为横坐标，一个组的次数为纵坐标标点，连接各点，就成为一条折线。

　三累加次数分布图在累加次数分布表的基础上绘制的，有直方图式和曲线式两种，最为常用的是累加曲线图。

　累加次数分布曲线

　横轴：原始分数

　百分位数

　纵轴：等级排名

　百分等级

　正偏态分布：小端的数据特别多，大端的数据不是很多，比较分散，表现在曲线就是上肢

　长于下肢。（分数分布在低端）

　负偏态分布：大端的数据比较多，小端的数据不是很多，但比较分散，表现在曲线就是下

　肢长于上肢。（分数分布在高端）

　正态分布

　：中端的数据最多，两端的数据少，平均两侧的数据个数差不多，表现在曲线

　是上肢和下肢长度相当。（中数众数平均数三合一、曲线上拐点 50%）

　第四节其他类型的统计图表

　一条形图表示的是离散型数据资料，宜用宽度相同的条形长短或高低来表示统计数据的大小或变动情况的统计图。

　一个是分类轴（横轴），表示类别，描述的是计数的数据。（离散数据（类别））

　一个是数量轴（纵轴），表示大小多少，描述的是计量数据。（连续数据（测量数据））

　条形图与直方图的本质区别（选择

　简答

　多选）

　条形图与直方图的本质区别条形图直观图

　数据类型离散数据（分类）

　连续数据（分组区间）

　数据表示方式直条的长度面积

　坐标轴（横轴）

　分类轴刻度值直观状态有间隔没有间隔

　二圆形图（饼图）

　以整个圆的面积带鞭被研究对相的总体，按照组成部分占总体的比重大小，把圆面积分

　成若干扇形，用来表示某一现象的部分对总体的比例关系。

　适用于离散性的数据。

　三线形图 1 用来表示连续性资料，是以起伏的线条来说明事物因时间、条件推移而变迁的趋势。

　 (考点）

　 2 表示的是两边两之间的函数关系或描述某种现象的发展趋势，或一种现象随着另一种

　现象变化发展的情形。

　 3 通常用横轴表示自变量，用纵轴表示因变量。

　四散点图

　1 用相同大小的圆点的多少或疏密表示统计资料数量的大小以及变化趋势等。

　2 还可以表示相关程度。

　（正相关、负相关、无相关、可能相关）

　练习题 1 某考生最高分为 81 分，在下列次数分布表中，能直接判断有多少考生得分比他低的

　是（）

　A 简单次数分布表

　 B 分组次数分布表

　C 累加次数分布表

　D 相对次数分布表

　2 运用相对累加次数分布曲线，可以快速计算出原始分数相对应的统计量是（）

　A 百分等级

　B Z 分数

　C T 分数

　D 频次

　适用于描述某种心里属性在时间上的变化趋势的统计分析图（）

　A 茎叶图

　B 箱形图

　C 散点图

　D 线形图

　 4 用于描述两个变量之间相关关系的统计图（）

　A 直方图

　 B 线形图

　C 条形图

　D 散点图

　答案及解析

　 1 C 见第 5 页

　2 A

　3 D 见第 7 页

　 4 D

　前两章没什么特别重要的知识但不要放松必拿分数。

　第三章集中量数（2-3 选择）

　数据的集中趋势就是指数据分布中大连数据朝向某个方向集中的程度，用于描述数据集中程度的统计量。

　第一节算书平均数

　一概念及计算公式

　 1 概念

　算术平均数，是所有观测值（或变量）的总和除以总数所得得商。

　符号：X 或 M

　2 计算公式

　公式一（平均数的定义公式）

　NXXi—

　公式二（平均数的估算公式）

　NXAM X "—

　 AM 估算值

　例题

　现有一组实验观测数据，25 27 28 27 25 29 30 34 32 33.计算他们的平均数。

　解法一：

　根据题意已知 N=10，根据公式：

　解法二：

　先设定一个估计平均数 AM=27，求 x=Xi-A 的值。

　 -2

　先估计平均值为 27（预估计）（大的数据用估计法好算有利于简化

　计算过程）

　二平均数的特点

　1 一组变量值的和等于变量的个数与平均数的乘积，

　  —X N X

　 2 一组变量值的离均差之和等于零，（说明了平均数是一组数据的重心最能表达一

　组数据的集中趋势）

　    0 ）

　（—X X

　 3 在一组变量中，每个变量值加上或减去、乘以或除以常数 c c ，所得的平均数等于

　原平均数加上或减去、乘以或除以常数 c c 。

　三平均数的意义

　1 平均数是应用最普遍的一种集中量数。

　2 是真值渐进、最佳的估计值。（概率分布中心极限定理）（真值=μ总体平均数）

　3 当观测次数无限增加时，算术平均数趋近于真值。

　（样本平均数量趋近于总体平均数）

　（观测次数较少时样本统计量是总体参数的无偏估计）

　四平均数的优缺点（选择题的重要内容）

　 1 优点：反应灵敏；计算严密；计算简单；内容容易理解；适合进一步代数运算、

　较少受抽样变动的影响。

　2 缺点：容易受极端数据的影响；如果出现模糊不清的数据，无法使用。

　第二节中数与众数

　一中数

　中数又称中位数，间称中数用 Md 表示，是按一定顺序排列的一组数中央位臵的数值。

　中数是一种位臵量数。

　中数的计算（主要考中数的计算方式）

　 1 中数附近无重复数时

　若数据个数（N）奇数时，中数则为（N+1)/2 位臵的那个数。

　若数据个数（N）偶数时，中数则为居于中间两个数的平均数

　  2 / X1 2 / 2 / N NX

　 2 中数附近有重复数时（难点没考过考很正常）采用画图法（王老师开创）

　例：求 11 11 11 11 13 13 13 17 17

　分析：N=9 中间位臵为 5，第 5 个数为 13。但数据中有 3 个 13，意味着 3 个 13 占

　了一个单位。（统计学上把 13 看为一个区间，三个 13 共享这个区间，把区

　间划分为三段，

　 12.5+1/6

　第一小段的组中值

　二众数

　 1 含义：

　众数（mode）是指一群数据中出现次数最多的那个数,不只有一个，用oM 表

　示。

　 2 计算方法：

　（1）

　直接观察法

　未分组数据---次数最多的数值

　次数分布表---次数最多一组的组中值

　（2)

　公式计算法

　皮尔逊经验公式：

　（牢记）

　—X Md X O 2 3  

　三平均数

　中数

　众数三者间的关系（出小了计算形式为主的选择题

　出大了简答题）

　 1 正态分布

　  X M MOd

　 2 偏态分布 —X Md X O 2 3  

　左偏分布=负偏态右偏分布=正偏态（比较三数大小直接画图即可直观看出）

　第三节其他集中数（往往没怎么考过）（统计中基本不考）

　一加权平均数

　是观测数据（iX ）与相应的权数（W）乘积的和除以总权数 ) ........ (3 2 1 nW W W W    

　所得的商。用符号wM 表示。

　权数是指各变量在构成总体重的相对重要性，权数的大小，由观测者依据一定的理论

　或经验而定。

　nn nW W WX W X W X WM    .............2 12 2 1 1n

　每个数对总体的贡献不一样权重不一样

　二几何平均数

　三调和平均数：先将各个数据取倒数平均，然后再取倒数，表述符号为HM ,主要用于

　描述速度方面的集中趋势。

　练习题

　1 现有一列数据，4 4 5 3 5 5 2。这列数据的平均数、众数和全距依次是（）

　2 有一组数据 3 6 2 7 32 4 8 要描述这组苏剧的特征，受极端数据之影响的统计

　量是（）

　平均数

　中数

　四分位数

　众数

　3 数据 2 5 9 11 8 9 10 13 10 24 的中位数是（）

　4 一组数据的分布曲线称双峰状态，据此可以推测改组数据中可能有两个（）

　A 中数

　 B 众数

　C 平均数

　D 几何平均数

　5 要比较几个不同性质的测验分数，比较恰当的是比较（）

　A 原始分数

　B 众数

　C 百分等级

　D 平均数

　6 测验总分呈负偏态分布说明测验难度（）

　A 偏难

　B 偏易

　C 适中

　 7 甲乙两图表示数据分布形态分别是（）

　8 描述甲乙靓图特征的集中量数中，数据最大的分别是（）

　答案及解析 1 B 选择题用省时间的方式哪个好算先算那个 2 A 见第 3 9.5 4 B 5 C

　百分等级是原始分数在所在团体中的位臵

　位臵量数 6 B

　7 正偏态负偏态

　框架小结

　算术平均数（定义公式特点）

　集中量数

　中数（特点计算方法）

　众数（计算特点）

　三者之间的关系（正态

　偏态）

　众数

　最具代表性的最具优势的

　中数

　当个别数据偏大或偏小时用中数比较合适

　平均数

　第四章差异量数

　表示一组数据的差异情况或离散程度的量数；反应数据的分布的离中趋势；描述事物差

　异性的表现。差异量越小，平均数的代表性越好。差异量越大，平均数的代表性越差。

　第一节全距与百分位差（容易受极端数据影响不怎么用）

　一全距（没用）

　定义：一列数据中最大数与最小数之差

　特点：不可靠不灵敏

　二百分位差

　（一）百分位数（原始分数）--百分等级

　量尺上的一个点，在此点以下包括数据分布中全部数据个数的一定百分比，符

　号为PP 。

　 9075 P

　百分位数为 90 （90 为原始分数）

　在 90 分以下的包含了整个数据的 75%

　（二）百分位差

　 10 90P P 

　三四分位差

　 1 四分位数可视为百分位数的特例，用 Q 来表示。

　 2 75 50 25P P P 把数据分成四等份，所以称为四分位数。

　25P (第一个四分位，1Q )

　50P (第二个四分位，2Q )

　75P (第三个四分位，3Q )

　 3 四分位差是百分位差的特例：

　 2 / ) ( 2 / )1 3 25 75Q Q P P    （

　实质：反映了中间 50% 数据的离散程度。

　四分位差越小中间 50%数据越集中

　四分位差越大中间 50%数据越离散

　四百分等级

　（RP 表示）

　1 含义：指某个数据在整个数据中所处的百分位臵。

　2 作用：可以表示任何一个分数在该团体中的相对位臵。

　百分等级 —百分位数 —百分位数百分等级RPPP 第二节

　平均差/ / 方差与标准差（有单位不能比较不同事物的离散程度）

　一平均差

　 1 含义：原始数据与平均数绝对离差的平均值。

　 2 符号：

　. .D A

　n n-. .i ixX XD A—

　 . .D A

　平均差

　离均差

　3 特点：

　较好反映了数据分布的离散程度；

　平均差是绝对值，使用受到了限制；(绝对值不容易进一步代数运算）

　属于低效的差异量数。

　二方差与标准差

　1 含义：

　 (1) 方差：离均差平方的算数平均数，表示一列数据平均差距的平方。

　符号：

　样本方差——2s

　总体方差——2

　 NX XS22) (—(定义公式）

　（2）标准差：方差的算数平方根，表示一列数据的平均差距。

　符号：

　样本标准差—— s

　总体标准差—— 

　NX Xs2—

　计算过程

　 1 先计算平均数

　2 求离均差的平方和

　3 代入方差和标准差的公式

　完整表述一列数据：

　) , ( S M X

　 2 方差、标准差的性质和意义

　（1）性质

　每一个观测值加一个常数 C 标准差不变。

　每一个观测值乘一个常数 C ，新数据标准差为原标准差乘此常数。

　（2）意义

　表述数据离散程度的最好指标。

　第三节标准差的应用

　一变异系数（ CV ）

　（相对离散程度

　没有单位

　可以比较不同类型数据的离散程度）

　一组数据的标准差与其相应的均值之比。

　 % 100  —XsCV

　适应范围：

　（1 1 ）不同质的数据

　（2 2 ）同质但是差距大

　二标准分数(没有单位有正负）（线性变换变换完了保持相对位臵）

　（一）概念和公式

　标准分数:又称 Z 分数，是以标准差为单位的一种量数。表示的是一个原始分

　数在团体中所处的相对位臵。

　计算公式:

　 sX XZ—

　原始数据

　 —X

　原始数据的平均数

　原始数据的标准差

　 n nZ XZ XZ X            ..2 21 1

　用sX XZ— 将 X 转换为 Z

　（二）

　性质：

　1 Z 分数是一个相对量，以平均数为参照点，以标准差为单位。

　2 一组原始数据的 Z 分数分布：平均数为 0，标准差为 1。

　3 Z 分数的均值为 0 0。

　 NZ Zs Z2) (—

　因为 0 —Z 所以Nzs z2

　因为sX XZ—

　所以 222sX Xz—

　因为NX Xs22—所以 N z 2

　所以 1 zs

　即一组原始数据的 Z 分数分布：平均数为 0，标准差为 1

　（三）标准分数的应用

　 1 观测值在数据分布中相对位臵的高低

　 2 当已知各不同质的观测值的次数分布为正态时，可用 Z 分数求不同的观测值的总

　和或平均值，以表明在总体中的位臵。

　（可加性）

　3 表示标准测验分数转换成正态标准分数，线性转换

　b aZ Z   "

　4 异常值的取舍

　标准：

　3  Z

　三个 z 就占了 99.73。

　前四种低效的用的不多

　方差标准差表示离散程度最好的差异量数。

　百分等级无相等单位是顺序数据

　z 分数有相等单位（标准差）

　等距数据框架小结

　68.26%

　 95.44%

　99.73%

　 Z 分数只适合符合正态分布的的数据

　网上资料

　所有正态分布都可以通过 Z 分数公式转换成标准正态分布

　将成正态分布的数据中的原始分数转换为 z 分数，我们就可以通过查阅 z

　分数在正态曲线下面积的表格来得知平均数与 z 分数之间的面积，进而得

　知原始分数在数据集合中的百分等级。

　第五章相关量数描述统计的重点（理解记忆）

　两列或两列以上的的数据

　第一节相关系数与散点图一相关

　（一）实物可能存在的关系

　 1 因果关系：A 是引起 B 的原因，B 是导致 A 的结果。

　 2 共变关系：表面看似有关系的两个事物，实际上是因为两者都与第三个事物

　有关的缘故。

　 3 相关关系：A 与 B 在发展变化方向与大小方面（关系密切程度）存在一定关

　系。

　（二）相关类别

　 1 方向上

　正相关负相关零相关

　 2 形状上

　直线相关

　曲线相关

　 3 相关程度上

　完全相关强相关弱相关零相关

　二相关系数

　概念：相关系数是变量之间相关程度的指标，计算相关系数一般需要大样本。

　符号：样本相关系数：

　总体相关系数：

　

　取值：-1—+1

　性质：顺序数据(没有单位）

　第二节积差相关

　一概念级适用范围

　是计算两个变量线性相关的一种方法

　适用范围：

　数据成对。

　两变量总体正态分布或接近正态分布。

　两变量是连续变量。

　两变量为线性关系。

　二计算公式（定义公式）

　y x sNsY Y X Xr ) )( (— —

　N 为成对数据的数目

　或

　y x ZZNr1

　协方差：两个变量离均差乘积的平均数，协方差的绝对值越大 xy 之间的相关关系

　越强这些点越接近一条直线。

　Nxy  xy  ) )( (— —Y Y X X

　第三节等级相关

　一等级相关的意义

　等级相关是根据等级资料（顺序数据）来研究变量之间相互关系的方法。

　数据来源：一是等级评定的资料，二是等距或比率资料转化而成的等级评定资料。

　优点：适用范围比积差相关更广

　缺点：没积差相关精确。

　二斯皮尔曼等级相关

　斯皮尔曼等级相关：是根据两列变量的成对等级差数计算计算相关系数，又叫等级差

　数法。

　条件：

　成对；线性相关；无正态假设；无大样本设定。

　结论：比皮尔逊积差相关应用范围广。

　计算公式

　一无相同等级时：

　（1）利用等级差计算   16122 N NDr R

　N 为等级个数 D 指二列成对变量的等级差数

　（2）利用等级直接计算

　二有相同等级的计算公式（不考）

　三肯德尔和谐系数（测量意义：多列等级数据评价一致性）

　1 肯德尔 W 系数又称和谐系数，是表示多列等级变量下个关程度的一种方法。

　2 适用范围：

　（1）采用等级评定的方法收集等级数据，让 k 个评委（被试）评定 N 个

　事物，或一个评委（被试）先后 k 次评定 N 件事物。

　（2）每个评价者对 N 件事物排出一个等级顺序，最小的等级顺序为 1，

　最大为 N，若并列等级时，则评分共同应该占据的等级。

　3 计算公式：

　  N N KsW3 2121

　  NRRNRR siiii222   

　 iR 代表评价对象获得的 K 个等级之和

　 N 代表被等级评定的对象的数目

　K 代表等级评定者的数目

　有相同等级时分母减 TK

　 123n nT

　n 为相同等级数（有几个相同的就加几次）

　肯德尔 U 系数与 W 系数处理问题相同但评价者采用对偶比较法

　第四节质与量相关

　一点二列相关（应用较二列相关广）

　（一）定义：研究一列等距数据或比率数据与一列“二分”名称变量之间相关的统计方

　法称做点二列相关，符号：pbr

　（二）适用范围：

　（1）一列数据等比或等距，总体服从正态分布；

　（2）另一列变量按事物的性质划分为两类的变量（真正二分变量）

　（3）多用于测验中评价题目的区分度

　（三）计算公式 pqsX Xrtq p— — —pX 是与二分称名变量的一个值对应的连续变量的平均数； q X—是与二分称名变量的另一个值对应的连续变量的平均数；

　p 与 q 是二分称名变量的两个值各自所占的比率， 1  q p ； ts 是连续变量的标准差；取值在 1 ~ 1 -  之间相关越高，绝对值越接近 1。

　二二列相关（不考）

　（一）定义：二列相关系数是研究一列正态的比率或等距变量和一列人为“二分”名称

　变量之间的相互关系的统计方法，符号：br

　（二）适用范围：两个变量都是等距或等比数据，服从正态分布，其中一列被人为地划

　分为两列。

　在测验中用于测验效度和试题区分度的分析。

　（三）计算公式：

　ypqsX Xrtq pb— — ts 与—tX 分别是连续变量的标准差与平均数；

　p X—为与二分变量中某一分类对偶的连续变量的平均数； q X—为与二分变量中另一分类对偶的连续变量的平均数； p 为某一分类在所有二分变量中所占比的比率； y 为标准正态曲线中 p 值对应的高度，查正态分布表能得到；二列相关系数的取值正-1.00~1.00 之间。绝对值越接近 1.00，其相关程度越高。

　第五节品质相关四分相关（不考）

　两个都是人为二分的  相关两列数据都是真正二分

　     d c d b c a b abc adr   

　第六章概率分布（基础）

　前三节每年都要出题选择理解简答多选

　这一章才刚刚进入统计

　第一节概率的基本概念

　一概率

　实验，事件：在相同条件下，对某事物或现象所进行的观察或实验叫试验，把观

　察或试验的结果叫做事件。

　基本事件：如果某一随机实验可以分成有限的 n 种可能结果，这 n 种结果之间是

　互不交叉的，而且这些结果出现的可能性相等，该结果就为基本事件。

　概率：事件在试验中出现的可能性大小，事件 A 的概率用 ) (A P 表示。

　（一）

　古典概率（先验概率）

　在只含有有限个基本事件的试验中，任意事件 A 发生的概率定义为 ) () () (nm AA P基本事件数所包含的基本事件数事件

　（二）

　统计概率（后验概率）

　在相同条件下进行 n 次试验，事件 A 出现了 m 次，如果试验次数 n 充分大，

　且事件 A 出现的频率稳定在某一数值 p 附近，则 p 为事件 A 的概率。由于 p

　也是一抽象的值，常常用 n 在充分大时的代替。

　      nnmp A P ) (

　二概率的基本性质（选择）

　1 加法定理（ n 种情况，或）

　两个互不相容事件 A , B 之和的概率，等于两个事件概率之和。

　) ( ) ( ) ( B P A P B A P   

　 2 乘法定理（ n 个步骤，与）

　两个独立事件同时出现的概率等于该两件事件概率的乘积， ) ( ) ( ) ( B P A P AB P  

　三概率分布

　是用来描述随机变量取某些值时的概率的数学模型。

　类型：

　离散分布与连续分布

　经验分布与理论分布

　基本随机变量分布与抽样分布

　分布三要素形态平均数标准差

　基本随机变量分布：

　基本随机变量分布是一个与随机变量的函数相对应的。随机变量的

　函数，依然是随机变量。

　抽样分布：

　抽样是从总体中随机的，选取一个样本的过程，每一个样本都可以计、

　算平均数，方差标准差，相关系数，等指标。这些指标的概率分布就

　是抽样分布。

　第二节正态分布

　（一）正态分布定义

　  2, ~   N X

　正态分布也呈常态分布，是连续随机变量概率分布的一种，中间量次数分布多，两端

　量次数分布少，呈对称的概率分析。

　在正态分布中:

　平均数决定着曲线在轴上的位臵。

　标准数决定的曲线的形状。（离散程度宽窄）

　当标准差相同而平均数不同时，曲线形状相同位臵各异。

　当平均数相同而标准差不同时正态曲线有不同的形状，越大，曲线越是“低调”，

　越小曲线越是“高窄”。

　（二）正态分布的特征（选择简答）

　1.正态分布的形式是对称的，对称轴是经过平均数的垂线。

　2.正态分布的中央点最高，然后逐渐向两侧下降，曲线先向内弯，后向外弯，两

　端靠近基线处无限延伸。（拐点在正负一个标准差处）

　3.正态曲线下的面积为 1，故对称轴正态曲线下的面积划分为相等的两部分。

　4.正态分布是一族分布

　5.标准正态分布均值为 0。标准差为 1 只有一条

　三

　正态分布表的编制与使用。

　标准正态分布函数的数值表:将一般正太分布化为标准正态分布，通过查表可解决

　正态分布的概率计算问题。

　（1）正态分布曲线的面积，高度与标准分数。

　（2）标准正态分布曲线相应内容的求解方法。

　 1.已知 Z 值，求面积 p

　 1）求均数（Z=0）与某个 Z 之间 p 的值,可直接查正态曲线表

　例如:求至 Z=0~

　Z=-1 之间的面积

　 2）求任何两个 z 之间的 p

　例如:求 z=1~z=2 之间的面积

　 3）求每个 z 值以下或以上的面积。

　例如:z=-0.85 以下和 z=1.76 以上的面积

　（三）正态分布中的几个常用值。

　 % 99 33 . 2% 95 64 . 1% 7 . 99 3% 99 58 . 2% 95 96 . 1% 26 . 68 1                       ssssss单侧双侧正态分布的特点（它有的标准正态都有）

　1.正态分布的形式是对称的，对称轴是经过平均数的垂线。

　2.正态分布的中央点最高，然后逐渐向两侧下降，曲线先向内弯，后向外弯，两端靠近基线 2.处无限延伸。（拐点在正负一个标准差处）

　3.正态曲线下的面积为 1，故对称轴正态曲线下的面积划分为相等的两部分。

　4.正态分布是一族分布 5.标准正态分布均值为 0。标准差为 1 只有一条标准正态分布是正态分布的一种，平均数为 0，标准差为 1。

　区别：正态分布是一族分布，它随随机变量的平均数、标准差的大小与单位不同而有不同的分布形态。标准正态分布的平均数和标准差都是固定的。

　联系：标准正态分布是正态分布的一种，具有正态分布的所有特征。所有正态分布都可以通过 Z 分数公式转换成标准正态分布。

　第三节二项分布

　一二项试验与二项分布

　（一）二项试验(条件）

　任何一次实验恰好有两个结果，成功与失败。

　共有 n 次试验，且 n 是预先给定的任一正整数。

　每次试验各自独立，各次实验之间无相互影响

　某种结果出现的概率在任何一次实验中都是固定的。

　例如抛硬币实验

　二项式

　nq p ) ( 

　（二）二项式定理的特点

　 1.项数:二项式的展开式中共有 n+1 项。

　 2,方次:二项式中，p 的方次从 n~0 为降幂，则 q

　从 0~n 为升幂，且每项

　的 p,q 方次之和等于 n

　 (三)二项式的概率分布及其二项分布曲线。

　 1. 二项式的概率分布

　根据二项式的定理，若在 n 次实验中，求 r 次成功的概率分布函数。可由公式求

　得，r n r rn rq p C P

　上式也可写成r n rrq pr n rnP)! ( !!

　二项分布的优点在于它能迅速地确定各种可能结果的概率。

　 2. 二项分布曲线（离散分布）

　当21  q p 时，无论 n 多大，二项分布曲线都总是对称的。

　当 q p  时，且当 n 相当小，则图形显偏态。

　当当 n n 相当大时( ( 30  n ) ) ，二项分布曲线逐渐接近正态分布。

　二二项分布的平均数和标准差。

　 * * 二项分布接近正太分布的条件：

　 5 ,   np q p 或 5 ,   nq q p

　平均数 np  

　标准差 npq  

　第四节正态分布

　一正态分布及渐进正态分布

　中心极限定理：总体服从正态分布 1.总体呈正态,总体方差2 已知，则样本均数的分布也呈正态

　根据中心极限定理则有：

　 (1)样本均数的均数等于总体均数，即

　  x

　 (2)样本均数的标准差等于总体标准差除以样本容量的平方根。即

　nx （标准误_XSE ）

　 (3)转为标准正态分布

　_XSEXZ —

　 2.总体呈非正态，总体方差2 ，已知，样本容量足够大（ 30  n ），样本

　平均数的分布为渐近正态分布（看作正太分布）。

　根据中心极限定理，亦有。

　 (1)样本均数的均数等于总体均数。

　   x

　 (2)样本均数的标准差等于总体标准差除以样本容量的平方根。

　 nx 

　 (3)转为标准正态分布

　 _XSEXZ —

　二 t 分布

　 1. t 分布的定义（学生氏分布）

　 t 分布是由小样本统计量形成的概率分布。

　 2.七分布的应用

　 (1)总体正态，2 未知，且 30  n ，样本平均数的分布呈 t 分布。

　t 分布的标准误为

　1_nSSEnX

　检验值为

　 _XSEXt —

　2)总体成非正太，2 未知， 30  n 则样本均数的分布近似为 t 分布和渐近正

　态分布

　其样本均数的标准误为：

　1_nSSEnX

　检验值

　_XSEXt —

　或

　_XSEXZ —

　 t t 分布（选择简答）（标准差大于 1 1 ）（0 0 为均值）

　 t 分布是类似正态分布的一种对称分部，他通常要比正太分布平坦和分散。一个特

　定的分布依赖于称之为自由度（ 1   n df ）的参数，随着自由度的增大(N>45)分布

　也逐渐趋于正态分布。

　标准正态分布不管 n n 的大小，曲线只有一条，而 t t 分布是一族曲线

　一个服从正态的整体

　 2 的平方分布检验值为

　122222 n dfnsX X i —

　 (二)2 分布的特点( ( 合成分布）( ( 选择简答）

　 1.2 分部是一个正偏态分布， n 越小 x 平方分布越偏斜。

　随着参数 n n 的增大，分

　布趋近于正态分布。

　 2.2 值都是正值。

　 3.2 平方分布具有可加性。

　 4. 如果 df 大于 2 2 ，2 分布的平均数等于 df，方差等于 2 2 df （特殊情况）

　四，F 分布

　(一)F 分布

　F 分布是由两个卡方分布构成而成的一个新的分布。

　若随机变量  121/ n    随机变量的函数的  2 1 ,nn F 分布规律称为 F 分布

　222121dfdfF

　其中参数 n1，n2 是两个自由度。任意一个自由度不同就是另一个 f 分布。

　正如正态分布中均值或方差不同就是另一个正太分布一样

　(二)F 分布的特点(多选）

　 1.F 分布是正偏态分布，随着两个自由度的增大。趋近于正态分布

　 2.F F 总为正值

　 3.当分子自由度为 1，分母的自由度为任意值时，F 分布与分母自由度

　相同概率的 t 值。(双侧概率)的平方相等，这一点说明当组间自由度

　为为 1 1 时，f f 检验与 t t 检验的结果相同。

　第七章参数估计第一节点估计、区间估计与标准误

　一点估计的定义

　以样本的统计量(数轴上的一个点)作为总体参数的估计值称为点估计。如:用样本平均数作为总体参数  的估计值，样本标准差作为总体标准差 

　例如:知样本的语文成绩的平均数是 75 分，我们便推论这个样本的总体参数(字母)也是 75 分。

　二

　良好估计量的标准 1.无偏性:（多选简答）

　即用多个样本的统计量作为总体参数的估计值，其偏差的平均数为 0。

　例如:用样本平均数作为总体  的估计值就是无偏估计，因为无数个样本平均数的平均值既为  。

　如果多个样本的统计量作为总体参数的估计值，其偏差的平均数大于或者小于零，则为偏估计，例如:样本方差2s 就不是2 无偏估计而是21  ns

　2.有效性当总体参数的无偏估计不止一个统计时，无偏估计变异小的有效性高，反之则有效性低。

　即样本统计量的方差越小越好。(考虑d OM M M 、、 )（平均数方差最小）

　例如:判断下列两个平均数的样本哪个有效。

　3.一致性

　当样本容量无限增大时，估计值应能够越来越接近他所估计的总体参数，估计值越来越精确，逐渐趋于真值。

　如:当      —，时， X s Nn2 11 4.充分性指一个容量为 n 的样本统计量，是否充分的反应了全部 n 个数据所反应总体的信息。

　例如平均数 m 就能充分反映各个数据的信息。

　中数 Md 和 Mo 只能反映部分数据信息。

　三，区间估计与标准误一,区间估计的定义（名词解释）

　区间估计是一个统计量的区间来估计相应的总体参数，它要求按照一定的概率要求，根据样本统计量来估计总体参数可能落入的数值范围。

　特点，用数轴上的一段距离来表示未知参数可能落入的范围。

　例如:当已知样本的平均数是 60 时可以用区间(55.65)来估计总体参数的范围。

　二,臵信区间与显著性水平。（名词解释选择题）

　1.臵信区间

　也叫臵信间距:是指在特定的可靠性(即臵信系数)要求下估计总体参数所落的区间范围。

　例如:在 95%的可靠下，总体的参数落在(90 100)5%以下为小概率事件 2.臵信系数是指被估计的总体参数落在臵信区间内的概率，又叫臵信水平，臵信度。

　例如:臵信系数为 95%时是指总体参数落在某个区间时的可靠性为 95%，意味着可靠性能提高。

　3.显著性水平一个臵信系数同时反映了在做出一个估计时所犯错误的小概率(  ),即可靠性为95%时意味着犯错误的概率为 5%，可靠...

推荐访问:统计学心理教育

上一篇：电子科技公司成本管理策略研究

下一篇：商务酒店财务类管理制度

现代心理与教育统计学

相关推荐

热门排行