HTML框架 比特微 进程 macos configuration ios7 textview tinymce grunt Semantic UI php项目实战 mysql升序 oracle取第一条数据 phpstorm插件 matlab输入参数太多 java代码注释 java对象序列化 linuxshell编程 网页游戏代码 pascal教程 swing布局 网络适配器驱动 subprocess 忧思华光玉 修改tomcat端口 笔记本外接显示器好吗 图片放大软件 dll之家 big5 魔兽地图七个人 原创检测工具 软件龙头股 fastcgi 圣武枪魂 su镜像 js绑定事件的方法 ae怎么复制图层 ps测量长度 winrar无广告版 笔底春风
当前位置: 首页 > 学习教程  > 编程语言

机器学习之KNN

2020/10/8 20:32:36 文章标签:

高斯分布 一维高斯分布:p(x)12πσe−(x−μ)2/2σ2p(x)\frac{1}{\sqrt{2\pi}\sigma}e^{-(x-\mu)^2/2\sigma^2}p(x)2π​σ1​e−(x−μ)2/2σ2 多维高斯分布:p(X;μ,Σ)1(2π)(n/2)∣Σ∣1/2exp⁡{−12(X−μ)TΣ−1(X−μ)}p(X;\mu,\Sigma)\frac{1}{(…

高斯分布

一维高斯分布: p ( x ) = 1 2 π σ e − ( x − μ ) 2 / 2 σ 2 p(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-(x-\mu)^2/2\sigma^2} p(x)=2π σ1e(xμ)2/2σ2
多维高斯分布: p ( X ; μ , Σ ) = 1 ( 2 π ) ( n / 2 ) ∣ Σ ∣ 1 / 2 exp ⁡ { − 1 2 ( X − μ ) T Σ − 1 ( X − μ ) } p(X;\mu,\Sigma)=\frac{1}{(2\pi)^{(n/2)}|\Sigma|^{1/2}}\exp\{-\frac{1}{2}(X-\mu)^T\Sigma^{-1}(X-\mu)\} p(X;μ,Σ)=(2π)(n/2)Σ1/21exp{21(Xμ)TΣ1(Xμ)}

贝叶斯公式

类条件概率: P ( X ∣ Y ) P(X|Y) P(XY)
先验概率: P ( Y ) P(Y) P(Y),一般会给定 Y ∼ N ( μ , Σ ) Y\sim N(\mu,\Sigma) YN(μ,Σ)
后验概率: P ( Y = i ∣ X ) = P ( X ∣ Y = i ) P ( Y = i ) P ( X ) = P ( X ∣ Y = i ) P ( Y = i ) ∑ P ( X ∣ Y = i ) P ( Y = i ) = π i P i ( X ) ∑ π i P i ( X ) = q i ( X ) P(Y=i|X)=\frac{P(X|Y=i)P(Y=i)}{P(X)}=\frac{P(X|Y=i)P(Y=i)}{\sum P(X|Y=i)P(Y=i)}=\frac{\pi_iP_i(X)}{\sum\pi_iP_i(X)}=q_i(X) P(Y=iX)=P(X)P(XY=i)P(Y=i)=P(XY=i)P(Y=i)P(XY=i)P(Y=i)=πiPi(X)πiPi(X)=qi(X)
贝叶斯测试: q i ( x ) ≶ q j ( x ) q_i(x)\lessgtr q_j(x) qi(x)qj(x)
似然率: l ( X ) = q i ( X ) q j ( X ) \mathcal{l}(X)=\frac{q_i(X)}{q_j(X)} l(X)=qj(X)qi(X)
区分方程: h ( x ) = ln ⁡ q i ( X ) q j ( X ) ≶ ln ⁡ π j π i h(x)=\ln\frac{q_i(X)}{q_j(X)}\lessgtr\ln\frac{\pi_j}{\pi_i} h(x)=lnqj(X)qi(X)lnπiπj

例:假设 Y = 1 Y=1 Y=1 Y = 2 Y=2 Y=2两类, Y 1 ∼ N ( μ 1 , Σ ) , Y 2 ∼ N ( μ 2 , Σ ) Y_1\sim N(\mu_1,\Sigma),Y_2\sim N(\mu_2,\Sigma) Y1N(μ1,Σ),Y2N(μ2,Σ)贝叶斯分类器分出来,分界线应该是一条直线
ln ⁡ p 1 π 1 p 2 π 2 = ln ⁡ π 1 exp ⁡ { − 1 2 ( X − μ 1 ) T Σ − 1 ( X − μ 1 ) } π 2 exp ⁡ { − 1 2 ( X − μ 2 ) T Σ − 1 ( X − μ 2 ) = − 1 2 ( X − μ 1 ) T Σ − 1 ( X − μ 1 ) + 1 2 ( X − μ 2 ) T Σ − 1 ( X − μ 2 ) + ln ⁡ π 1 π 2 = 1 2 ( − X T Σ − 1 X + μ 1 T Σ − 1 X + X T Σ − 1 μ 1 − μ 1 T Σ − 1 μ 1 + X T Σ − 1 X − μ 2 T Σ − 1 X − X T Σ − 1 μ 2 + μ 2 T Σ − 1 μ 2 ) + ln ⁡ π 1 π 2 = ( μ 1 T Σ − 1 − μ 2 T Σ − 1 ) X + 1 2 ( μ 1 T Σ − 1 μ 1 − μ 2 T Σ − 1 μ 2 ) + ln ⁡ π 1 π 2 = 0 \ln\frac{p_1\pi_1}{p_2\pi_2}=\ln\frac{\pi_1\exp\{-\frac{1}{2}(X-\mu_1)^T\Sigma^{-1}(X-\mu_1)\}}{\pi_2\exp\{-\frac{1}{2}(X-\mu_2)^T\Sigma^{-1}(X-\mu_2)}\\=-\frac{1}{2}(X-\mu_1)^T\Sigma^{-1}(X-\mu_1)+\frac{1}{2}(X-\mu_2)^T\Sigma^{-1}(X-\mu_2)+\ln\frac{\pi_1}{\pi_2}\\=\frac{1}{2}(-X^T\Sigma^{-1}X+\mu_1^T\Sigma^{-1}X+X^T\Sigma^{-1}\mu_1-\mu_1^T\Sigma^{-1}\mu_1+X^T\Sigma^{-1}X-\mu_2^T\Sigma^{-1}X-X^T\Sigma^{-1}\mu_2+\mu_2^T\Sigma^{-1}\mu_2)+\ln\frac{\pi_1}{\pi_2}\\=(\mu_1^T\Sigma^{-1}-\mu_2^T\Sigma^{-1})X+\frac{1}{2}(\mu_1^T\Sigma^{-1}\mu_1-\mu_2^T\Sigma^{-1}\mu_2)+\ln\frac{\pi_1}{\pi_2}=0 lnp2π2p1π1=lnπ2exp{21(Xμ2)TΣ1(Xμ2)π1exp{21(Xμ1)TΣ1(Xμ1)}=21(Xμ1)TΣ1(Xμ1)+21(Xμ2)TΣ1(Xμ2)+lnπ2π1=21(XTΣ1X+μ1TΣ1X+XTΣ1μ1μ1TΣ1μ1+XTΣ1Xμ2TΣ1XXTΣ1μ2+μ2TΣ1μ2)+lnπ2π1=(μ1TΣ1μ2TΣ1)X+21(μ1TΣ1μ1μ2TΣ1μ2)+lnπ2π1=0
计算完发现这就是 w T X + b = 0 w^TX+b=0 wTX+b=0的形式

贝叶斯估计的错误率

r ( X ) = min ⁡ [ q 1 ( x ) , … , q n ( x ) ] r(X)=\min[q_1(x),\dots,q_n(x)] r(X)=min[q1(x),,qn(x)]
当是一个二分类问题的时候, r ( X ) = min ⁡ [ q 1 ( x ) , q 2 ( x ) ] r(X)=\min[q_1(x),q_2(x)] r(X)=min[q1(x),q2(x)]
ε = E [ r ( X ) ] = ∫ r ( x ) p ( x ) d x = ∫ min ⁡ [ q 1 ( x ) π 1 , q 2 ( x ) π 2 ] d x = π 1 ε 1 + π 2 ε 2 \varepsilon=E[r(X)]=\int r(x)p(x)dx=\int\min[q_1(x)\pi_1,q_2(x)\pi_2]dx=\pi_1\varepsilon_1+\pi_2\varepsilon_2 ε=E[r(X)]=r(x)p(x)dx=min[q1(x)π1,q2(x)π2]dx=π1ε1+π2ε2
并且能够证明,贝叶斯估计的误差是最小的(取两个高斯分布的交点),当如果两个高斯分布没有交点时,可以通过给两个高斯分布乘以某一个系数 a , b a,b a,b,然后再计算
在这里插入图片描述
其中 ε 1 = S ( A ) , ε = S ( B + C ) \varepsilon_1=S(A),\varepsilon=S(B+C) ε1=S(A),ε=S(B+C)

产生式学习,判别式学习

h ( x ) = − ln ⁡ q 1 ( X ) + ln ⁡ q 2 ( X ) ≶ ln ⁡ π 1 π 2 h(x)=-\ln q_1(X)+\ln q_2(X)\lessgtr\ln\frac{\pi_1}{\pi_2} h(x)=lnq1(X)+lnq2(X)lnπ2π1中,已知 ln ⁡ π 1 π 2 \ln\frac{\pi_1}{\pi_2} lnπ2π1去寻找 g ( X 1 , X 2 ) g(X_1,X_2) g(X1,X2)叫做带参数的产生式学习,不知道 ln ⁡ π 1 π 2 \ln\frac{\pi_1}{\pi_2} lnπ2π1去寻找 g ( X 1 , X 2 ) g(X_1,X_2) g(X1,X2)叫做没有参数的产生式学习;判别式学习就是去直接寻找 g ( X 1 , X 2 ) g(X_1,X_2) g(X1,X2)

KNN(K邻近算法)

当一个预测一个样本时,我们把其嵌入我们的 N N N维空间中,然后统计与它最相邻的 k k k个点,并且按照一定的权重去处理这些距离,最后我们得到的距离最小的那个类就是这个样本的类别。
p ^ ( X ) = 1 N k − 1 V ( X ) \hat{p}(X)=\frac{1}{N}\frac{k-1}{V(X)} p^(X)=N1V(X)k1
h ( x ) = − ln ⁡ p 1 ( X ) p 2 ( X ) = − ln ⁡ ( k 1 − 1 ) N 2 V 2 ( X ) ( k 2 − 1 ) N 1 V 1 ( X ) ≶ ln ⁡ π 1 π 2 h(x)=-\ln\frac{p_1(X)}{p_2(X)}=-\ln\frac{(k_1-1)N_2V_2(X)}{(k_2-1)N_1V_1(X)}\lessgtr\ln\frac{\pi_1}{\pi_2} h(x)=lnp2(X)p1(X)=ln(k21)N1V1(X)(k11)N2V2(X)lnπ2π1,其中 K 1 + K 2 = K , V 1 = V 2 , N 1 N 2 = π 2 π 1 K_1+K_2=K,V_1=V_2,\frac{N_1}{N_2}=\frac{\pi_2}{\pi_1} K1+K2=K,V1=V2,N2N1=π1π2,那么 h ( x ) = − ln ⁡ k 1 − 1 k 2 − 1 h(x)=-\ln\frac{k_1-1}{k_2-1} h(x)=lnk21k11,就只跟数量有关了
$$

距离度量

L 1 L_1 L1范数: ∣ x − x ′ ∣ = ∑ i = 1 n ∣ x i − x ′ ∣ |x-x'|=\sum\limits_{i=1}^n|x_i-x'| xx=i=1nxix
L ∞ L_\infin L范数: max ⁡ ∣ x − x ′ ∣ \max{|x-x'|} maxxx
欧氏距离: D ( x , x ′ ) = ∑ σ i 2 ( x i − x i ′ ) 2 = ( x − x ′ ) T Σ − 1 ( x − x ′ ) D(x,x')=\sqrt{\sum\sigma_i^2(x_i-x_i')^2}=\sqrt{(x-x')^T\Sigma^{-1}(x-x')} D(x,x)=σi2(xixi)2 =(xx)TΣ1(xx)
马氏距离:当欧氏距离的 Σ \Sigma Σ满且对称
角度: cos ⁡ ( X 1 , X 2 ) = X 1 T X 2 ∣ X 1 ∣ ∣ X 2 ∣ \cos(X_1,X_2)=\frac{X_1^TX_2}{|X_1||X_2|} cos(X1,X2)=X1X2X1TX2

kd树


本文链接: http://www.dtmao.cc/news_show_250339.shtml

附件下载

相关教程

    暂无相关的数据...

共有条评论 网友评论

验证码: 看不清楚?