数据分析实战 45 讲
即学即用的数据分析入门课
陈旸  清华大学计算机博士
专栏
已完结·共 49 讲
|
12.4w 人已学
|
收藏
Geek_889ca5
非常认可老师说的,学习就是认知过程的升级,而且一个人的成长就是认知过程的成长。第二个是,任何的认知不是懂道理就行的,要去实践,要多多的去实践,没经历过实践的知识是理论上的知识,不是自己的认知,更不可能让你真正掌握。
2022-08-24
QQ
刚刚加入,最大的感觉就是会不虚此行,之前一直是边学边记,现在在尝试课后复盘再整理笔记,目前还没比出优劣,一样边学习边比较得到最适合我的学习方法
作者回复:加油~ QQ
2019-05-01
数据挖掘可以帮助个人或组织更好地认识事物的规律,做更好的决策。
2022-01-18
浅倩的哆唻咪
学习方法:看书&听课 看书后,会在公众号晒读书笔记以督促自己,并整理导图,尽量会要求自己写一点读后感/一些自留作业让自己去思考并应用,但是坚持力欠佳,老是断断续续,希望这次的课程能成功坚持。 做笔记的两个主要工具:幕布和石墨文档,幕布一键生成导图十分方便,适合内容较少的,石墨很适合大段式摘抄,排版也很简便可以专注内容。
作者回复:感谢同学的分享
2020-05-04
于宜杉Everlyne@优浮Uengager
数据采集是最为重要的一环,通常的路径是先采集再清洗,但清洗完了发现与业务匹配度很低,这里的关键就是,为什么要做分析和采集这些事? 核心就是提升某特定业务绩效,所以,如果我们能够在业务一线实时采集高相关度的数据,既能免去清洗的成本和损耗,还能直接提升业务绩效。我们的产品优浮Uengager就是基于这样的逻辑由来的,大家有空可以试用并探讨,Uengager的产品逻辑是前端引导业务流程转化,同步实现后端数据采集和分析,数据输出没有滞后。希望不要误以为这是广告,主要是对于数据分析太有的说了,但实际上又有那么多对数据的误解和误用。这也是本次课程的功德所在。可以在微信搜这两篇文章: 数据分析怎样做才真正具有价值? & 用干货实例告诉你,用户行为分析如何提升营销和业务绩效? 欢迎同圈的朋友多交流。
2019-06-08
wonderland
step1:将红作为属性来划分,有两个叶子节点D1,D2,分别对应是和否。用+代表是好苹果,-代表不是好苹果。 故 D1 = {红=是}={1+,2+},D2={红=否}={3-,4-}; 先分别计算2个叶子结点的信息熵: Ent(D1)=0,Ent(D2)=0,作为子节点的归一化信息熵为:1/2*0+1/2*0=0 并且:训练集中有4条数据,2个是好苹果,2个不是,故根节点的信息熵为:Ent(D)=-(2/4*LOG2(2/4)+2/4*LOG2(2/4))=1 step2:计算每个节点的信息增益 Gain(D,红)=Ent(D)-0=1 同理可得,大属性作为根节点的信息增益Gain(D,大)=0 所以红作为属性的信息增益更大,选择红作为根节点。 Step3:构造决策树 红 是 否 {1+,2+} {3-,4-} 可以看到上面的决策树纯度已经很高,不需要进一步划分。所以最终的决策树即为下所示,只有红一个节点: 红 是 否 好苹果(是) 好苹果(否)
2019-01-23
西南偏北
这些东西,大家都一定要上手去实现一遍。最简单的就是,搞一个文本,把这些数据放进去,用Python读这个文本,转成dataframe,把老师讲的那些清洗相关的API都一个一个试一下,才会有体会,光看一遍真的没啥用的! 现在只是很少的几十条数据,等你真正去搞那些上亿的数据的时候,就知道核对数据是个多么复杂的事情了……
作者回复:对的 一定要自己模拟操作下
2019-01-07
伪君子
老师您好,我根据您的代码修改了一下,主要是添加了一个图片的目录,然后是下载大图。这里的大图是因为 /photo/thumb/public/ 这样的链接下载的图片是缩略图,只有把 thumb 替换成 l 之后下载的图片才是相对来说的大图。replace 方法和 re 中的 sub 方法都能实现替换,我的疑问是哪个实现起来更高速一点呢?提前感谢老师,我写的代码在下面~ # coding:utf-8 import requests import json import re import os query = '王祖贤' path = os.getcwd() # 当前路径,可以替换成别的路径 picpath = path + '/' + query # 设置的图片目录 print(picpath) # 输出设置的图片目录 if not os.path.isdir(picpath): # 如果图片目录未创建则创建一个 os.mkdir(picpath) def download(src, id): dir = picpath + '/' + str(id) + '.jpg' try: pic = requests.get(src, timeout=10) except requests.exceptions.ConnectionError: # print 'error, %d 当前图片无法下载', %id print('图片无法下载') fp = open(dir, 'wb') fp.write(pic.content) fp.close() ''' for 循环 请求全部的 url ''' for i in range(0, 22471, 20): # url = 'https://www.douban.com/j/search_photo?q=' + query + '&limit=20&start=' + str(i) html = requests.get(url).text # 得到返回结果 response = json.loads(html, encoding='utf-8') # 将 JSON 格式转换成 Python 对象 print('已下载 ' + str(i) + ' 张图片') for image in response['images']: image['src'] = image['src'].replace('thumb', 'l') # image['src'] = re.sub(r'thumb', r'l', image['src']) print(image['src']) # 查看当前下载的图片网址 download(image['src'], image['id']) # 下载一张图片
2019-01-04
哇,给我的认知加了一层
作者回复:哈哈哈 因为这个世界一直都存在 所以就写了下实现原理
2018-12-25
晴天小雨
# 我感觉他们写得好复杂!!! import numpy as np # 将学员的各科成绩抽象成数组 dtype = np.dtype({'names': ['name', 'Chinese', 'English', 'Math'], 'formats': ['S32', 'i', 'i', 'i']}) students_score_info = np.array([('ZhangFei', 66, 65, 30), ('GuanYu', 95, 85, 98), ('ZhaoYun', 93, 92, 96), ('HuangZhong', 90, 88, 77), ('DianWei', 80, 90, 90)], dtype=dtype) # 去除名字项,并将结构化数组转换为矩阵 students_score = np.array([list(score) for score in np.array(students_score_info[['Chinese', 'English', 'Math']])]) # 平均成绩 Chiese_mean, Enlish_mean, Math_mean = np.mean(students_score, axis=0) print('语文、英语、数学平均成绩分别为{}、{}、{}'.format(Chiese_mean, Enlish_mean, Math_mean)) # 最小成绩 Chiese_min, Enlish_min, Math_min = np.min(students_score, axis=0) print('语文、英语、数学最小成绩分别为{}、{}、{}'.format(Chiese_min, Enlish_min, Math_min)) # 最大成绩 Chiese_max, Enlish_max, Math_max = np.max(students_score, axis=0) print('语文、英语、数学最大成绩分别为{}、{}、{}'.format(Chiese_max, Enlish_max, Math_max)) # 方差 Chiese_var, Enlish_var, Math_var = np.var(students_score, axis=0) print('语文、英语、数学成绩方差分别为{}、{}、{}'.format(Chiese_var, Enlish_var, Math_var)) # 标准差 Chiese_std, Enlish_std, Math_std = np.std(students_score, axis=0) print('语文、英语、数学成绩标准差分别为{}、{}、{}'.format(Chiese_std, Enlish_std, Math_std)) # 总成绩排名 rank_lists = sorted(np.sum(students_score, axis=1),reverse=True) print('语文、英语、数学总成绩排名为{}'.format(rank_lists))
2018-12-23
讲师

陈旸

清华大学计算机博士

陈旸,清华大学计算机博士,前 IBM 中国研究院工程师。IEEE & ACM Member,中国人工智能协会成员,中国计算机协会 CCF 大数据专委。
编辑推荐
讲师的其他课程
SQL 必知必会
陈旸
清华大学计算机博士

50讲 | 73356 人已学习

¥68¥199
包含这门课的学习路径

Python工程师

19门课程 118.0w人学习
看过的人还看了
数据结构与算法之美
王争
前 Google 工程师

81讲 | 283805 人已学习

¥68¥199
编辑训练营
总编室
极客邦科技总编室

9讲 | 8401 人已学习

¥19.9
MySQL 实战 45 讲
林晓斌
网名丁奇,前腾讯云数据库负责人

49讲 | 224935 人已学习

¥68¥199
大规模数据处理实战
蔡元楠
硅谷资深工程师

46讲 | 41612 人已学习

¥59¥99
TensorFlow 快速入门与实战
彭靖田
Google Developers Expert,《深入理解 TensorFlow》作者

67讲 | 31209 人已学习

¥59¥129
左耳听风
陈皓
网名“左耳朵耗子”,资深技术专家

119讲 | 181001 人已学习

¥98¥399