23 | Spark MLlib:从“房价预测”开始
吴磊
你好,我是吴磊。
从今天这一讲开始,我们进入课程的第三个模块:Spark MLlib 机器学习。在数据科学、机器学习与人工智能火热的当下,积累一些机器学习的知识储备,有利于我们拓展视野,甚至为职业发展提供新的支点。
在这个模块中,我们首先从一个“房价预测”的小项目入手,来初步了解机器学习以及 Spark MLlib 的基本用法。接下来,我们会着重讲解机器学习的两个关键环节:特征工程与模型调优,在深入学习 Spark MLlib 的同时,进一步优化“房价预测”的模型效果,从而让房价的预测越来越准。
熟悉了关键环节之后,我们再去探讨,在 Spark MLlib 的框架之下,高效构建机器学习流水线的一般方法。好啦,话不多说,让我们先来一起看看“房价预测”这个小项目吧。
为兼顾项目的权威性与代表性,这里我选择了 Kaggle(数据科学竞赛平台)的“House Prices - Advanced Regression Techniques”竞赛项目。这个项目的要求是,给定房屋的 79 个属性特征以及历史房价,训练房价预测模型,并在测试集上验证模型的预测效果。
数据准备
虽然项目的要求相当清晰明了,不过你可能会说:“我没有机器学习背景,上面提到这些什么特征啊、模型啊,还有测试集、效果验证,我都没有概念,那接下来的课程,要怎么学呢?”别担心,随着课程的推进,我会逐渐把这些概念给你讲清楚。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
本文详细介绍了使用Spark MLlib机器学习框架进行房价预测的过程。作者首先解释了机器学习的基本概念,包括训练数据、测试数据、模型训练和模型测试等术语。随后,文章涵盖了数据准备、特征选择、数据提取、训练样本准备等方面,展示了如何使用Spark MLlib框架进行实际项目的实现。在模型选型方面,作者提到了线性回归模型作为拟合房价与房屋属性之间线性关系的首选。此外,文章还介绍了模型训练的过程,包括构建并训练线性回归模型的简单直接过程,以及模型效果评估的重要性。通过对房价预测项目的实现,读者可以深入理解机器学习的基本概念和常用术语,以及如何使用Spark MLlib框架进行实际项目的实现。整体而言,本文为初学者提供了一份实用的指南,帮助他们快速了解机器学习的基本概念和Spark MLlib的基本用法。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《零基础入门 Spark》,新⼈⾸单¥59
《零基础入门 Spark》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(12)
- 最新
- 精选
- AndyHouse Prices - Advanced Regression Techniques 数据需要代理插件才能显示注册码。否则无法注册账号下载数据,数据可在这下载。 链接:https://pan.baidu.com/s/1J4LklHyYz5S6d32uZPp6nA 提取码:xr96
作者回复: 感谢老弟提供下载链接,非常感谢~
2022-02-085 - markliang看文章学习技术的同时,顺带可以学习文章里的写作方法和学习方法:联想方法,现实生活模型,费曼学习法,等等。学到的远不止是技术。👐格局打开
作者回复: 生活化联想、类比,费曼学习法,确实受益匪浅~
2021-11-032 - Geek_995b78老师 可以把相关数据上传到git一份吗,不好下载
作者回复: 好的, 回头我上传一下~
2021-11-031 - 东围居士老师,数据集上传到哪了呢,在你的 github 里面没找到
作者回复: 这一章的数据,从这里下载哈~ https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data
2021-12-05 - pythonbug老师好,“预测” 体现在哪里呢,是指我给特征向量,然后根据模型算出房价吗
作者回复: 是的~
2021-11-19 - pythonbug真的蛮好玩的,我迭代10次是40000多,我想试试迭代100次试试,结果43000多
作者回复: 训练集上面的结果吗?还是测试集的结果?讲道理,训练集的cost,随着迭代次数增加,应该越来越小才对;测试集的cost,倒是有可能因为过拟合,而导致越来越高~
2021-11-19 - 千里马老师,数据不好下载,能提供一份么?
作者回复: 好的,我回头上传一份到github
2021-11-16 - 强从性能调优过来的,打算看完之后。找工作了(被公司裁了)
作者回复: 一起加油~ 老弟!
2021-11-032 - 阿海在训练集的数据分布中,房价的值域在(34900,755000)之间,因此,45798.86 的预测误差还是相当大的。 45798不是落在上面的区间内吗2022-05-2411
- 星星📷老师,结果必然是45798.86吗?2023-03-20归属地:山东
收起评论