Logistic回归

在用线性模型进行回归训练时,有时需要根据这个线性模型进行分类,则要找到一个单调可微的用于分类的函数将线性回归模型的预测值关联起来。这时就要用到逻辑回归,之前看吴军博士的《数学之美》中说腾讯和谷歌广告都有使用logistics回归算法。

如下图,可以清晰看到线性回归和逻辑回归的关系,一个线性方程被逻辑方程归一化后就成了逻辑回归。.

这里写图片描述

Logistic模型

对于二分类,输出 y{0,1} ,假如线性回归模型为 z=θTx ,则要将z转成y,即 y=g(z) 。于是最直接的方式是用单位阶跃函数来表示,即

y=0,0.5,1,z<0;z=0;z>0;

如图,
这里写图片描述

但阶跃函数不连续,于是用sigmoid函数替代之,为

y=11+ez

如图,
这里写图片描述
则有,
y=11+e(θTx)

即logistics函数,可化为,
lny1y=θo+θ1x1+θ2x2+...+θmxm

此即为对数几率回归模型,其中y看成是样本x正例的概率,1-y则为样本x负例的概率,则
lnp(y=1|x)1p(y=1|x)=θTx

现在要解决的问题是如何求得 θ 。对于给定样本集 {(xi,yi)}mi=1 ,每个样本出现的概率为,

p(yi,xi)=p(yi=1|xi)yi(1p(yi=1|xi))1yi

其中 yi 为1或0。则样本集出现的似然函数为
L(θ)=i=1mp(yi,xi)=i=1mp(yi=1|xi)yi(1p(yi=1|xi))1yi

对数似然为:

l(θ)=i=1mlnp(yi,xi)

=i=1myilnp(yi=1|xi)+(1yi)ln(1p(yi=1|xi))

=i=1myilnp(yi=1|xi)1p(yi=1|xi)+i=1mln(1p(yi=1|xi))

=i=1myiθTxii=1mln(1+eθTxi)

求对数似然最大化的 θ 。其中通过求导没办法求得解,所以肯定要用迭代去逼近最优解,可以用梯度下降法或者牛顿法求的解。

实现代码

import tensorflow as tf
from numpy import *

x_train = [[1.0, 2.0], [2.0, 1.0], [2.0, 3.0], [3.0, 5.0], [1.0, 3.0], [4.0, 2.0], [7.0, 3.0], [4.0, 5.0], [11.0, 3.0],
           [8.0, 7.0]]
y_train = [1, 1, 0, 1, 0, 1, 0, 1, 0, 1]
y_train = mat(y_train)

theta = tf.Variable(tf.zeros([2, 1]))
theta0 = tf.Variable(tf.zeros([1, 1]))
y = 1 / (1 + tf.exp(-tf.matmul(x_train, theta) + theta0))

loss = tf.reduce_mean(- y_train.reshape(-1, 1) * tf.log(y) - (1 - y_train.reshape(-1, 1)) * tf.log(1 - y))
train = tf.train.GradientDescentOptimizer(0.01).minimize(loss)

init = tf.initialize_all_variables()

sess = tf.Session()
sess.run(init)
for step in range(1000):
    sess.run(train)
print(step, sess.run(theta).flatten(), sess.run(theta0).flatten())

========广告时间========

公众号的菜单已分为“分布式”、“机器学习”、“深度学习”、“NLP”、“Java深度”、“Java并发核心”、“JDK源码”、“Tomcat内核”等,可能有一款适合你的胃口。

鄙人的新书《Tomcat内核设计剖析》已经在京东销售了,有需要的朋友可以购买。感谢各位朋友。

为什么写《Tomcat内核设计剖析》

=========================
欢迎关注:

这里写图片描述

GitHub 加速计划 / te / tensorflow
184.55 K
74.12 K
下载
一个面向所有人的开源机器学习框架
最近提交(Master分支:2 个月前 )
a49e66f2 PiperOrigin-RevId: 663726708 3 个月前
91dac11a This test overrides disabled_backends, dropping the default value in the process. PiperOrigin-RevId: 663711155 3 个月前
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐