成为 AI 产品经理
刘海丰
京东高级架构师
23717 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 38 讲
成为 AI 产品经理
15
15
1.0x
00:00/00:00
登录|注册

11 | 逻辑回归:如何预测用户是否会购买商品?

性别
购买率
点击率
产品销量预测
股价预测
商品推荐
商品点击率
广告点击率
对非线性分布的预测结果不理想
模型分布更集中
可解释性强
运算效率高
选择特定的损失函数根据不同算法
采用交叉熵函数作为损失函数的评估目标
预测用户行为
解决分类问题
采用平滑函数(如 sigmod 函数)转化预测值为 0~1 的概率值
线性回归基础上转化为事件概率
与 KNN 算法的区别
应用场景
缺点
优点
计算最优解
应用
原理
逻辑回归算法

该思维导图由 AI 生成,仅供参考

你好,我是海丰。
上节课,我们讲了线性回归算法。这节课,我们要讲一个和线性回归在名字上很相近的算法,它叫逻辑回归(LR,Logistic Regression)。虽然名字很相近,但是它们却有着本质上的差异。因为,逻辑回归是一种分类算法,解决的是分类问题,或者说,逻辑回归就是用来预测某个事情是“是或者否”这样的概率。
那为什么会有这样的差异,它们的区别到底是什么,逻辑回归可以解决什么样的分类问题呢?我们今天就通过一个预测用户购买商品的例子来好好聊一聊。

如何理解逻辑回归算法?

假设,最近你们公司组织了一场创新技术大赛,你作为 AI 产品经理,兴致勃勃地报了名。大赛的题目是预测公司附近的房价在未来某一天是涨还是跌,现有数据是公司附近每天的人口数量房屋面积,以及房屋价格
仔细分析已知数据之间的关系,我们发现,房屋价格会受到公司附近的人口数量和房屋面积这两个因素影响,它们之间关系大概率会是线性的。如果用我们上节课学过的线性回归算法来解决,这就是个二元线性回归问题,也就是通过每天已知的人口数量和房屋面积来预测房屋的价格。
这个时候,线性回归方程是:房价 = A1*人口数量 + A2*房屋面积 + B
不过,当有两个变量的时候,问题就会更复杂,所以为了方便你理解,我们把这个模型简化一下,先只把“人口数量”这个影响房价的重要特征留下。这样一来,我们根据线性回归算法就能画出一个房价随人口数量变化的图形,它的公式是:房价 = 人口数量 * A + B。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

逻辑回归算法是一种经典的机器学习分类算法,通过将线性回归结果转化为概率值来解决分类问题。该算法继承了线性回归的高效运算和强解释性等优点,同时通过采用平滑函数减小了极端值对整体分布的影响,使模型分布更加集中。逻辑回归广泛应用于广告点击率、商品推荐、股价预测等领域。然而,由于其基于线性分布转化为概率的特性,对于非线性分布的预测结果可能不理想。此外,逻辑回归还可以用于预测用户性别等实际问题。总的来说,逻辑回归算法简单易实现,运算效率高,可解释性强,但对非线性分布的预测结果可能不理想。文章还提到了逻辑回归与KNN算法的区别,并提出了一个课后讨论问题,引发读者思考和设计方案。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《成为 AI 产品经理》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(20)

  • 最新
  • 精选
  • 悠悠
    1、目标变量:性别的概率,男标记为0,女标记为1,阈值为0.5; 2、数据样本1000条,分成训练集900条和测试集50条,验证集50条(不确定总消费额是否要加入模型,男女一样的能花钱); 3、训练模型,性别=美妆x+零食y+母婴z+服装k,使用平滑函数; 4、输入新的用户行为数据,输出大于等于0.5为女性,小于0.5为男性。
    2021-01-06
    2
    19
  • 无觅
    1.本身想用k邻近算法,但考虑到特征比较多,不适合用k邻近算法。 2.前几个特征单位都是PV,后面一个是消费金额单位元,所以量纲不一致,需要特征归一化,归一化特征值=(原值-最小特征值)/(最大特征值-最小特征值)。 3.设线性回归函数Y=X+a*PV1+ b*PV2+c*PV3+ d*PV4+ e*Money。 4.然后用平滑函数处理函数Y,目标变量是性别的概率,可以定义0为男,1为女,如果平滑函数结果大于0.5则是女,小于0.5则是男。 5.再用交叉熵函数处理平滑函数。 6.用800条数据训练,100条数据验证,100条数据测试。
    2021-10-17
    13
  • 热寂
    step1:模型设计 目标变量:确定用户性别 数据样本:1000个 step2:特征工程 数据清洗:用归一化让量纲一致 特征提取:已提供的数据都是数值型特征,无需继续处理 特征选择:选择的特征有美妆PV、服装PV、零食PV、母婴PV、消费额 训练集500、测试集300、验证集200 step3:模型训练 选择算法:把选择出来的特征做成散点图,确定特征之间是线性关系,决定采用逻辑回归的算法 模型训练:公式y=a1x1+a2x2+a3x3+a4x4+a5x5+b,且用平滑函数P处理y,P=f(y),P大于0.5为女性,小于0.5为男性 将训练集代入模型进行训练,找到让损失函数即交叉熵函数L最小的参数a1、a2、a3、a4、a5、b step4:模型验证 将测试集的数据代入确定参数的模型中,找到拟合能力和泛化能力的平衡点,该过程可用的评估指标:判断模型性能的有召回率、F1、KS、AUC;判断模型稳定性的有PSI step5:模型融合 利用投票方法进行模型融合 step6:模型部署 根据模型所服务的业务是实时响应类型的还是可以非实时响应的,确定交付给开发人员的接口类型
    2022-05-28
    12
  • Justin
    1、性别=x美妆+y服装+z零食+k母婴+h总消费额。 2、给这个线性回归函数加一个sgmod函数 3、根据后续输入的值预估概率,美妆、零食概率、总消费额加权概率大的为女性;美妆小、零食小、总金额加权概率小的为男性?
    2021-01-06
    4
  • Rosa rugosa
    【借鉴悠悠同学的】 1、目标变量:性别的概率,男标记为0,女标记为1,阈值为0.5; 2、数据样本1000条,分成训练集600条和测试集200条,验证集200条; 3、训练模型,性别=美妆x+零食y+服装k,使用平滑函数; 4、输入新的用户行为数据,输出大于等于0.5为女性,小于0.5为男性
    2021-03-12
    3
  • escray
    刚才发现自己犯了一个新手错误,LR 代表逻辑回归 Logistic Regression,而不是线性回归 Linear Regression。 另外一点,逻辑回归处理的是分类问题,而线性回归属于回归问题。 看的有一点迷糊,我怎么感觉逻辑回归就是在线性回归的基础上,增加了一个平滑函数,比如 sigmod?结果从一个数值,变成了从 0 到 1 的一个概率值? 比如,线性回归,可以预测房价在 1 年后涨到多少;如果是逻辑回归,那么可能就是预测房价 1 年后是涨是跌(或者上涨是否超过某一个阈值)? 查询平滑函数 sigmod 的时候,发现 sigmoid 也是同样的意思,在神经网络中也经常使用,被称为激活函数或者激励函数。 除了 Sigmoid 之外,常见的激活函数还有 Tanh、ReLu、leaky relu 等。
    2022-04-13
    2
  • liqin
    道理我都懂,但为什么大家如此自觉认为大于0.5就是女性,小于0.5就是男性?哈哈
    2022-10-15归属地:广东
    1
    1
  • 我不过是善良
    总额消费不应该算在x里吧,它是前面几个的线性和
    2021-01-12
    2
    1
  • Jove
    对数几率函数,Sigmoid 均方误差,MSE 交叉熵误差,CEE
    2021-01-07
    1
  • SPIC_DT
    这一节讲的不太明白啊
    2023-11-25归属地:山东
收起评论
显示
设置
留言
20
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部