Likelihood Function

Likelihood Function 中文名叫似然函数

似然函数描述了在给定参数下观测数据出现的概率。它是一个关于参数的函数,参数取值不同,似然函数的值也不同。一般来说,似然函数的值越大,表示观测数据在该参数取值下出现的可能性越高。

假设我们有一组观测数据 X,服从某个分布 (不一定是正态分布),其中参数为 θ。那么似然函数 就是给定参数 下观测数据 出现的概率密度函数(对于连续分布)或概率质量函数(对于离散分布)。似然函数通常用 表示,表示在已知观测数据 的条件下,参数 θ 的似然函数。

MLE 极大似然估计

前情提要

如果是 已知确定的, 是变量,这个函数叫做概率函数(Probability Function),它描述对于不同的样本点 ,其出现概率是多少。

如果 是已知确定的, 是变量,这个函数叫做似然函数(Likelihood Function), 它描述对于不同的模型参数,出现 这个样本点的概率是多少。

例题

假如有一个罐子,里面有黑白两种颜色的球,数目多少不知,两种颜色的比例也不知。我们想知道罐中白球和黑球的比例,那如何不全部倒出来数,就能知道它的总数呢?现在我们可以每次任意从已经摇匀的罐中拿一个球出来,记录球的颜色,然后把拿出来的球再放回罐中。这个过程可以重复,我们可以用记录的球的颜色来估计罐中黑白球的比例。假如在前面的一百次重复记录中,有七十次是白球,请问罐中白球所占的比例最有可能是多少?

现在令在一百次抽样中,七十次是白球的,三十次为黑球事件的概率是 P(样本结果|Model)

P(样本结果|Model)&= P(x1,x2,…,x100|Model)\\ &= P(x1|M)P(x2|M)…P(x100|M)\\ &= p^{70}(1-p)^{30}. \end{align*}

MLE 看似复杂,实则只需对 求导,让这个样本结果出现的可能性最大,这就是 MLE 蕴含的意思。

承上启下,继续看 Box-Cox Transformation

Box-Cox Transformation

当资料不满足正态分布时,可以通过变量变换将原始数据做某种函数的转换,实际中就经常采用 Box-Cox Transformation,标准表达式为:

Winsorize处理

Winsorize处理是一种对样本(通常是大样本)极端值处理的办法,Winsorize处理也叫缩尾处理,自己选择要缩尾的百分数(比如 1%)

合理联想:去掉一个最高分和去掉一个最低分。

# [winsorize函数]
winsorize <- function(data,p = 0.01,drop = FALSE){ 
	q <- 1-p
	trim <- quantile(data,c(p,q),na.rm = T) #缺失值不参与
	if (drop == FALSE){
		data[data < trim[1]] <- trim[1]
		data[data > trim[2]] <- trim[2]
	}
	else if(drop == TRUE){
		data[data < trim[1]] <- NA
		data[data > trim[2]] <- NA
	}
	data