统计学上的试验概述

简介: 在数据分析上面,群体的数据统计分析非常常用,譬如我进行一个二类分析(二类预测),我们需要对比这两个群体的feature“分布”是否“相似”。如果相似,这个feature作用不大,如果显著不一样,那么这个feature非常有用。然后我们需要进行一些试验(tests)对比feature的分布。 基本概念 ------- 去分析一个问题,我们总需要由一些基本概念开始。 我们总是一个变

在数据分析上面,群体的数据统计分析非常常用,譬如我进行一个二类分析(二类预测),我们需要对比这两个群体的feature“分布”是否“相似”。如果相似,这个feature作用不大,如果显著不一样,那么这个feature非常有用。然后我们需要进行一些试验(tests)对比feature的分布。

基本概念

去分析一个问题,我们总需要由一些基本概念开始。

我们总是一个变量“variable”去定量地描述一个物体。譬如下面的表格由两个变量描述一个人,Height高度和Sex性别。

Height Sex
170.3 cm M
160.0 cm F
168.0 cm M

统计上,可以把一个变量variable分为qualitative variable和quantitative variable。Qualitative variable是指分类的变量,譬如上面的Sex/性别属于qualitative variable. Quantitative variable是数值型的描述,上面的Height属于quantitative variable。

常用的统计试验 tests

由于每个试验(tests)的值的scale都不一样,最后,统计学家把所有试验的输出值都归一化为p value。

t-test用于对比小群体,这两个群体由quantitative variable组成。t-test一般用于小于30个样本的群体。t-test不需要知道群体的variance。t-test是基于mean,用于对比两个分布是否显著不一样。(当p value低于0.05的时候,两个群体显著不一样)。

z-test用于对打大群体,这两个群体由quantitative variable组成。z-test一般用于大于30个样本的群体。z-test需要知道群体的variance和mean。用于对比两个分布是否显著不一样。当p value低于0.05的时候,两个群体显著不一样。

f-test指基于variance的对比, 这两个群体由quantitative variable组成。当p value低于0.05的时候,两个群体显著不一样。

Pearson's chi-squared test是基于category变量的试验,意思说每个事件的变量输出的独立的,下面的wikipedia的例子计算“男女两个群体和左右手习惯是否两个独立事件”,结论是我们不能否定“男女”和“惯用左右手”没有关系。

https://zh.wikipedia.org/wiki/%E7%9A%AE%E7%88%BE%E6%A3%AE%E5%8D%A1%E6%96%B9%E6%AA%A2%E5%AE%9A

总计
43 44 87
9 4 13
总计 52 48 100

这个方法广泛用于AB测试中,对比不同的方法,效果(譬如点击率)是否有明显的增加。

目录
相关文章
|
6月前
|
机器学习/深度学习 数据采集 人工智能
机器学习基础知识——基本原理、常用算法与评估指标
机器学习基础知识——基本原理、常用算法与评估指标
118 0
|
6月前
|
存储 供应链 算法
《数学模型(第五版)》学习笔记(2)第3章 简单的优化模型 第4章 数学规划模型
《数学模型(第五版)》学习笔记(2)第3章 简单的优化模型 第4章 数学规划模型
67 1
|
12天前
|
机器学习/深度学习 自然语言处理 算法
|
7天前
R语言多臂试验 - 我们应该考虑多重性吗?
R语言多臂试验 - 我们应该考虑多重性吗?
13 1
|
机器学习/深度学习
机器学习数学基础十一:方差分析
分析四个行业之间的服务质量是否有显著差异,也就是要判断“行业”对“投诉次数”是否有显著影响。如果它们的均值相等,就意味着“行业”对投诉次数是没有影响的,即它们之间的服务质量没有显著差异;如果均值不全相等,则意味着“行业”对投诉次数是有影响的,它们之间的服务质量有显著差异
182 0
机器学习数学基础十一:方差分析
|
机器学习/深度学习 监控 算法
机器学习测试笔记(23)——综合_拟合线
机器学习测试笔记(23)——综合_拟合线
105 0
机器学习测试笔记(23)——综合_拟合线
|
机器学习/深度学习 算法 数据可视化
机器学习测试笔记(10)——K邻近算法(上)
机器学习测试笔记(10)——K邻近算法(上)
134 0
机器学习测试笔记(10)——K邻近算法(上)
|
机器学习/深度学习 人工智能 监控
机器学习测试笔记(10)——K邻近算法(下)
机器学习测试笔记(10)——K邻近算法(下)
111 0
|
机器学习/深度学习 算法
十二、评估机器学习算法
十二、评估机器学习算法
十二、评估机器学习算法
|
机器学习/深度学习 算法 安全
机器学习的统计方法 贝叶斯决策理论入门(公式修正版)
机器学习的统计方法 贝叶斯决策理论入门(公式修正版)
112 0
机器学习的统计方法 贝叶斯决策理论入门(公式修正版)