逻辑回归模型：什么是逻辑回归理论，实践技巧和模型评价方法

qinzhiqiang 07-17 9:11 1,017次浏览

分类问题无论在现实，还是商业中都是非常常见的问题，具有非常广泛的应用场景，Logistic分类作为作为一种简单有效的有监督分类模型，一般都被视为一个基础模型，虽然简单但往往也能取得令人满意的效果，今天就从理论，实践流程和模型评价三个方面为大家简单介绍一下Logistic分类模型。

现实以及商业中的分类问题

用户广告点击行为预测
基于文本内容的垃圾短信识别
O2O优惠券使用预测
基于运营商数据的个人征信评估
P2P网络借贷平台的经营风险量化分析
微额借款用户人品预测
图片识别
客户流失率预测

解决分类问题的机器学习模型

线性分类器（Logistic分类器, SoftMax分类器）
支持向量机（分类）
朴素贝叶斯
K近邻（分类）
决策树
集成模型（分类）

Logistic分类器—理论介绍

自变量的线性组合得到 Z 值，然后再利用sigmod函数将其转化为 [0,1] 之间的概率值，即可得到样本分别属于0和1的概率。

理论介绍1

理论介绍2

Logistic回归模型参数估计

Logistic回归模型参数估计就是通过已知样本估计表达式中的 w 和 b 值，这里采用极大似然估计来估计。简单理解极大似然估计，就是说样本当前的情况既然出现了，那么它就应该是最可能的情况，也就是说所有样本同时发生的概率应该是最大的，据此可以得到相应的似然函数，取log得到对数似然函数。

参数估计

Logistic回归模型参数学习

当样本数据较多参数量较大时，往往是难以采用精确计算的解析方法直接求解出参数值的，因此一般采用快速估计的数值优化方法，也就是我们所说的机器学习方法、、

参数学习

Logistic分类模型实践

机器学习模型的实践流程一般可以分为以下三步：

数据描述
特征工程
模型建立

数据描述（以Pandas-DataFrame为例）

data.head() #数据初看
data.info() #数据的基本统计信息/完整性/理解数据
data.describe() #数据的描述性统计信息
数据可视化

特征工程

数据类型

（1）名义（Nominal）：无序列别变量，比如乘客性别：男/女

（2）有序（Ordinal）：有序类别变量，比如乘客划分为：低/中/高

（3）度量（Scale）：连续性变量，比如年龄

特征分析和处理

（1）名义变量： One-Hot编码

（2）有序变量：按照因变量影响由小到大的顺序编码为1,2,3,…

（3）缺失值填充

特征选择

模型建立（以Sklearn为例）

数据标准化

使得预测结果不会被某些维度中过大的特征值而主导

训练模型参数

fit( )函数/模块

对测试集数据进行预测

（1）predict( )函数/模块

（2）predict_proba ( )函数/模块

Logistic分类器—性能评估

Logistic分类模型的评价方式一般有两种，混淆矩阵和ROC曲线。

混淆矩阵

混淆矩阵

ROC曲线

ROC曲线1

一文看懂逻辑回归理论，实践技巧和模型评价方法

上一篇：互联网金融行业运营模式分析（将成金融业主流发展方向）下一篇：什么是b端营销，阿里工程师手把手教你设计 B 端垂类营销中心

暂无推荐