原始理解:通过样本去估计总体,无论是点/区间估计、假设检验、方差分析还是线性回归。
样本 → 总体
课本定义:
①一门 收集分析、表述和解释数据的科学。
②一组方法,用来设计实验、获得数据,然后在数据的基础上组织、概括、演示、分析、解释和得出结论。
总体数据相对比较难获取,有时候也没有必要获取。
①统计分析是数据到结论的必经之路,大数据亦需要抽样( ETL???)
②统计是统计学习的基础,如KNN、朴素贝叶斯、决策树。
〇提供相关性的依据??
①提供数据挖掘方法的理论支撑
②提供从数据到规律的路径
③提供数据处理的理论支撑(描述统计的统计)
④大数据不一定等于总体(时间),样本估计总体还用的上。
https://www.zhihu.com/question/20593064/answer/26200327
https://www.zhihu.com/people/primes/answers
| 类型 | 统计量 |
| 基本统计量 | 均值、中位数、众数、百分位数、极值等 |
| 其他描述性统计量 | 偏度、方差、标准差、显著性等 |
| 其他统计知识 | 总体和样本、参数和统计量、ErrorBar |
| 概率分布与假设检验 | 各种分布、假设检验流程 |
| 其他概率论知识 | 条件概率、贝叶斯 |
| 抽样分布 | one | all |
| t分布 | 小样本的均值分布 | |
| 卡方分布 | 符合正太分布统计量的平方和 | 卡方检验:独立性、拟合优度 |
| F分布 | 两个卡方分布均值的比值 | 同质性检验||多因素方差分析,组间/组内 |
| 理论分布 | one | all |
| 自然分布 | 自然啊 | X-μ/σ(扶正) |
| 二项分布 | 事件结果只有成功/失败 感情趣的是成功X次的概率是多少 | |
| 泊松分布 | 事件独立 任意相同时间范围,事件发生概率相同 想知道的是某个时间范围内,发生X次的概率 | 假设服从,进行卡方检验 |
| 几何分布 | 感兴趣的是第N次会成功的概率 | 前X-1次失败,第X次成功得概率 |
| 超几何分布 | N种有M类,取n个,会有k个类的概率。 不放回抽样 |
| 基础概念 | one | all |
| 统计学 | 描述统计和推理统计 | 数据的收集整理,总体估计和检验 |
| 描述统计 | 统计数据的收集整理、显示和分析 | 箱线图、频数分布、列联表 tag |
| 均值 | 算术、几何、均方根、调和平均值 | |
| 偏差 | 和均值之差的和的均值((x-μ)+...+(xn-un))/n | 无法正确反映和均值的离散程度,正负抵消 |
| 方差 | 和均值之差的平方和的均值 | 离散程度、但是程度扩大,因为进行了平方操作 |
| 标准差 | 和均值之差的平方和的开方的均值 | 离散程度最为准确 |
| 正态分布 | 自然分布 | Z分布,±1.96 |
| 中心极限定理 | 当样本或者实验次数接近无穷,其分布近似正态分布 | 均值为样本均值μ 方差为(σ^2)/n,σ为样本方差 |
| 推理统计 | 总体估计和检验 | 就是描述统计+概率论。均值、方差加上 |
| 估计 | 通过样本统计量估计总体参数 | |
| 评价估计量的标准 | 无偏性、有效性、一致性(分布往参数靠) | 无偏:估计量的期望=参数 有效性:期望分布的方差,不同估计量 一致性:期望分布的方差,不同样本量 |
| 点估计 | 利用样本均值、方差估计总体均值方差 | 极大似然估计、最小二乘估计? |
| 区间估计 | 点估计 + 分布 | 大样本的Z分布Z=(X-μ )/ σ(s)/√N 小样本的t分布t = (X-μ )/S/√(N-1) 为求方差构造的卡方分布量:(n-1)S2/σ2 ∵(x-μ)/σ服从正太分布(即转标准正态分布) 其平方和服从卡方分布。结果就是S2*(n-1)/σ2 服从卡方分布 ∴构造的统计量服从正太分布 |
| Z分布 | 正态分布、自然分布 | ±1.96,大样本、小样本(方差已知) |
| t分布 | 小样本的均值分布 | 只为小样本 |
| 卡方分布 | 符合正态分布的统计量平方和服从 | 卡方检验:独立性、拟合优度(观察值、预期) |
| F分布 | 符合卡方检验得变量比值 | 方差分析(单因素、有无交互作用)、单尾检验 |
| 统计独立性 | 过程互不影响 | 统计独立必不相关 |
| 统计相关性 | 过程相互影响 | |
| 假设检验 | 给个假设 验证假设 结论(拒绝原假设、无法拒绝原假设) | 方差分析,假设均值都相等(无显著变化)。 |
| 独立性检验 | 卡方检验的一种,通过样本求出独立比例的期望值。 检验观察值和期望值是否服从同一分布 | |
| 方差分析 | 多个总体的两辆检验,t检验不好用了 方差分析,可以给你维持原显著水平的一次性检验 | 齐性检验 单因素 双因素 有交互作用 |
1.探索性分析
2.验证性和探索性因子分析
3.卡方检验的要求
4. ETL是什么东东,为什么需要抽样?
卡方分布本身是连续型分布,但是在分类资料的统计分析中,显然频数只能以整数形式出现,因此计算出的统计量是非连续的。只有当样本量比较充足时,才可以忽略两者问的差异,否则将可能导致较大的偏差具体而言,一般认为对于卡方检验中的每一个单元格,要求其最小期望频数均大于1,且至少有4/5的单元格期望频数大于5,此时使用卡方分布计算出的概率值才是准确的。如果数据不符合要求,可以采用确切概率法进行概率的计算。
0.正态分布,线性变换n倍后的均值和n个独立变量的均值(x→nx+b nE(x)、a2σ)(nE(x)、nσ2)
1.两个正态总体的叠加,结果还是正态分布。(其变量相互独立)
2.F分布的应用,方差分析、两个总体方差的比值
3.拟合优度检验是什么?卡方检验的一种,单因素拟合检验。双因素列联表分析。
3.5列联表分析和方差分析有何不同?方差分析????
4.回归分析,若样本比较小呢,需要进行非不相关t检验,若多元,F检验
5.泊松分布,离散分布,极限是正态分布
6.可以用正态分布近似二项分布,当N足够大的时候。(np>10,nq>10)
7.泊松分布亦同。
8.大数据往往意味着有大偏差
9.样本随机抽取很重要
10抽样误差
11.非抽样误差、不回应误差、响应误差
12.效度:实际关联 信度:真实,可重复
13.大数据也要抽样啊,ETL啥的
14.均值&中位数,均衡量数据的中间水平,但差别可能较大。
15可视化工具power python spss stata minitab excel
16.时间序列预测:ARIMA模型、自回归积分滑动平均模型
17.齐性检验、(有)无交互ANOVA
18分类数据种的成对数据,可以通过系统差异和个体差异来衡量数据具体的变化RP\RV(SVENSSON METHOD)
19.贝叶斯公式、先验和后验概率的转换
免责声明:本文系网络转载或改编,未找到原创作者,版权归原作者所有。如涉及版权,请联系删