逻辑回归模型:什么是逻辑回归理论,实践技巧和模型评价方法

qinzhiqiang 07-17 9:11 1,017次浏览

分类问题无论在现实,还是商业中都是非常常见的问题,具有非常广泛的应用场景,Logistic分类作为作为一种简单有效的有监督分类模型,一般都被视为一个基础模型,虽然简单但往往也能取得令人满意的效果,今天就从理论实践流程模型评价三个方面为大家简单介绍一下Logistic分类模型。

现实以及商业中的分类问题

  • 用户广告点击行为预测
  • 基于文本内容的垃圾短信识别
  • O2O优惠券使用预测
  • 基于运营商数据的个人征信评估
  • P2P网络借贷平台的经营风险量化分析
  • 微额借款用户人品预测
  • 图片识别
  • 客户流失率预测

解决分类问题的机器学习模型

  • 线性分类器(Logistic分类器, SoftMax分类器)
  • 支持向量机(分类)
  • 朴素贝叶斯
  • K近邻(分类)
  • 决策树
  • 集成模型(分类)

Logistic分类器—理论介绍

自变量的线性组合得到 值,然后再利用sigmod函数将其转化为 [0,1] 之间的概率值,即可得到样本分别属于0和1的概率。

一文看懂逻辑回归理论,实践技巧和模型评价方法

理论介绍1

一文看懂逻辑回归理论,实践技巧和模型评价方法

理论介绍2

Logistic回归模型参数估计

Logistic回归模型参数估计就是通过已知样本估计表达式中的 w 和 b 值,这里采用极大似然估计来估计。简单理解极大似然估计,就是说样本当前的情况既然出现了,那么它就应该是最可能的情况,也就是说所有样本同时发生的概率应该是最大的,据此可以得到相应的似然函数,取log得到对数似然函数

一文看懂逻辑回归理论,实践技巧和模型评价方法

参数估计

Logistic回归模型参数学习

当样本数据较多参数量较大时,往往是难以采用精确计算的解析方法直接求解出参数值的,因此一般采用快速估计的数值优化方法,也就是我们所说的机器学习方法、、

一文看懂逻辑回归理论,实践技巧和模型评价方法

参数学习

Logistic分类模型实践

机器学习模型的实践流程一般可以分为以下三步:

  1. 数据描述
  2. 特征工程
  3. 模型建立

数据描述(以Pandas-DataFrame为例)

  • data.head() #数据初看
  • data.info() #数据的基本统计信息/完整性/理解数据
  • data.describe() #数据的描述性统计信息
  • 数据可视化

特征工程

  • 数据类型

(1)名义(Nominal):无序列别变量,比如乘客性别:男/女

(2)有序(Ordinal):有序类别变量,比如乘客划分为:低/中/高

(3)度量(Scale):连续性变量,比如年龄

  • 特征分析和处理

(1)名义变量: One-Hot编码

(2)有序变量:按照因变量影响由小到大的顺序编码为1,2,3,…

(3)缺失值填充

  • 特征选择

模型建立(以Sklearn为例)

  • 数据标准化

使得预测结果不会被某些维度中过大的特征值而主导

  • 训练模型参数

fit( )函数/模块

  • 对测试集数据进行预测

(1)predict( )函数/模块

(2)predict_proba ( )函数/模块

Logistic分类器—性能评估

Logistic分类模型的评价方式一般有两种,混淆矩阵和ROC曲线。

  • 混淆矩阵
一文看懂逻辑回归理论,实践技巧和模型评价方法

混淆矩阵

  • ROC曲线
一文看懂逻辑回归理论,实践技巧和模型评价方法

ROC曲线1

一文看懂逻辑回归理论,实践技巧和模型评价方法
  • 暂无推荐