Likelihood Function

Likelihood Function 中文名叫似然函数，

似然函数描述了在给定参数下观测数据出现的概率。它是一个关于参数的函数，参数取值不同，似然函数的值也不同。一般来说，似然函数的值越大，表示观测数据在该参数取值下出现的可能性越高。

假设我们有一组观测数据 X，服从某个分布 (不一定是正态分布），其中参数为 θ。那么似然函数 $L (θ)$ 就是给定参数 $θ$ 下观测数据 $X$ 出现的概率密度函数（对于连续分布）或概率质量函数（对于离散分布）。似然函数通常用 $L (θ ∣ x)$ 表示，表示在已知观测数据 $X$ 的条件下，参数 θ 的似然函数。

MLE 极大似然估计

前情提要

如果是 $θ$ 已知确定的， $x$ 是变量，这个函数叫做概率函数(Probability Function)，它描述对于不同的样本点 $x$ ，其出现概率是多少。

如果 $x$ 是已知确定的， $θ$ 是变量，这个函数叫做似然函数(Likelihood Function), 它描述对于不同的模型参数，出现 $x$ 这个样本点的概率是多少。

例题

假如有一个罐子，里面有黑白两种颜色的球，数目多少不知，两种颜色的比例也不知。我们想知道罐中白球和黑球的比例，那如何不全部倒出来数，就能知道它的总数呢？现在我们可以每次任意从已经摇匀的罐中拿一个球出来，记录球的颜色，然后把拿出来的球再放回罐中。这个过程可以重复，我们可以用记录的球的颜色来估计罐中黑白球的比例。假如在前面的一百次重复记录中，有七十次是白球，请问罐中白球所占的比例最有可能是多少？

现在令在一百次抽样中，七十次是白球的,三十次为黑球事件的概率是 P(样本结果|Model)

P(样本结果|Model)&= P(x1,x2,…,x100|Model)\\ &= P(x1|M)P(x2|M)…P(x100|M)\\ &= p^{70}(1-p)^{30}. \end{align*}

MLE 看似复杂，实则只需对 $p^{70} (1 - p)^{30}$ 求导，让这个样本结果出现的可能性最大，这就是 MLE 蕴含的意思。

承上启下，继续看 Box-Cox Transformation

Box-Cox Transformation

当资料不满足正态分布时，可以通过变量变换将原始数据做某种函数的转换，实际中就经常采用 Box-Cox Transformation，标准表达式为：

y (λ) = = \frac{y ^{λ} - 1}{λ} l n y

Winsorize处理

Winsorize处理是一种对样本（通常是大样本）极端值处理的办法，Winsorize处理也叫缩尾处理，自己选择要缩尾的百分数（比如 1%）

合理联想：去掉一个最高分和去掉一个最低分。

# [winsorize函数]
winsorize <- function(data,p = 0.01,drop = FALSE){ 
	q <- 1-p
	trim <- quantile(data,c(p,q),na.rm = T) #缺失值不参与
	if (drop == FALSE){
		data[data < trim[1]] <- trim[1]
		data[data > trim[2]] <- trim[2]
	}
	else if(drop == TRUE){
		data[data < trim[1]] <- NA
		data[data > trim[2]] <- NA
	}
	data

August's Digital Garden

学习笔记（1）

Likelihood Function

MLE 极大似然估计

前情提要

例题

Box-Cox Transformation

Winsorize处理

Graph View

Table of Contents