Geek_889ca5
非常认可老师说的,学习就是认知过程的升级,而且一个人的成长就是认知过程的成长。第二个是,任何的认知不是懂道理就行的,要去实践,要多多的去实践,没经历过实践的知识是理论上的知识,不是自己的认知,更不可能让你真正掌握。
2022-08-24
2
QQ
刚刚加入,最大的感觉就是会不虚此行,之前一直是边学边记,现在在尝试课后复盘再整理笔记,目前还没比出优劣,一样边学习边比较得到最适合我的学习方法
作者回复:加油~ QQ
2019-05-01
熙
数据挖掘可以帮助个人或组织更好地认识事物的规律,做更好的决策。
2022-01-18
浅倩的哆唻咪
学习方法:看书&听课
看书后,会在公众号晒读书笔记以督促自己,并整理导图,尽量会要求自己写一点读后感/一些自留作业让自己去思考并应用,但是坚持力欠佳,老是断断续续,希望这次的课程能成功坚持。
做笔记的两个主要工具:幕布和石墨文档,幕布一键生成导图十分方便,适合内容较少的,石墨很适合大段式摘抄,排版也很简便可以专注内容。
作者回复:感谢同学的分享
2020-05-04
5
于宜杉Everlyne@优浮Uengager
数据采集是最为重要的一环,通常的路径是先采集再清洗,但清洗完了发现与业务匹配度很低,这里的关键就是,为什么要做分析和采集这些事? 核心就是提升某特定业务绩效,所以,如果我们能够在业务一线实时采集高相关度的数据,既能免去清洗的成本和损耗,还能直接提升业务绩效。我们的产品优浮Uengager就是基于这样的逻辑由来的,大家有空可以试用并探讨,Uengager的产品逻辑是前端引导业务流程转化,同步实现后端数据采集和分析,数据输出没有滞后。希望不要误以为这是广告,主要是对于数据分析太有的说了,但实际上又有那么多对数据的误解和误用。这也是本次课程的功德所在。可以在微信搜这两篇文章: 数据分析怎样做才真正具有价值? & 用干货实例告诉你,用户行为分析如何提升营销和业务绩效? 欢迎同圈的朋友多交流。
2019-06-08
2
wonderland
step1:将红作为属性来划分,有两个叶子节点D1,D2,分别对应是和否。用+代表是好苹果,-代表不是好苹果。
故 D1 = {红=是}={1+,2+},D2={红=否}={3-,4-};
先分别计算2个叶子结点的信息熵:
Ent(D1)=0,Ent(D2)=0,作为子节点的归一化信息熵为:1/2*0+1/2*0=0
并且:训练集中有4条数据,2个是好苹果,2个不是,故根节点的信息熵为:Ent(D)=-(2/4*LOG2(2/4)+2/4*LOG2(2/4))=1
step2:计算每个节点的信息增益
Gain(D,红)=Ent(D)-0=1
同理可得,大属性作为根节点的信息增益Gain(D,大)=0
所以红作为属性的信息增益更大,选择红作为根节点。
Step3:构造决策树
红
是 否
{1+,2+} {3-,4-}
可以看到上面的决策树纯度已经很高,不需要进一步划分。所以最终的决策树即为下所示,只有红一个节点:
红
是 否
好苹果(是) 好苹果(否)
2019-01-23
17
西南偏北
这些东西,大家都一定要上手去实现一遍。最简单的就是,搞一个文本,把这些数据放进去,用Python读这个文本,转成dataframe,把老师讲的那些清洗相关的API都一个一个试一下,才会有体会,光看一遍真的没啥用的!
现在只是很少的几十条数据,等你真正去搞那些上亿的数据的时候,就知道核对数据是个多么复杂的事情了……
作者回复:对的 一定要自己模拟操作下
2019-01-07
16
伪君子
老师您好,我根据您的代码修改了一下,主要是添加了一个图片的目录,然后是下载大图。这里的大图是因为 /photo/thumb/public/ 这样的链接下载的图片是缩略图,只有把 thumb 替换成 l 之后下载的图片才是相对来说的大图。replace 方法和 re 中的 sub 方法都能实现替换,我的疑问是哪个实现起来更高速一点呢?提前感谢老师,我写的代码在下面~
# coding:utf-8
import requests
import json
import re
import os
query = '王祖贤'
path = os.getcwd() # 当前路径,可以替换成别的路径
picpath = path + '/' + query # 设置的图片目录
print(picpath) # 输出设置的图片目录
if not os.path.isdir(picpath): # 如果图片目录未创建则创建一个
os.mkdir(picpath)
def download(src, id):
dir = picpath + '/' + str(id) + '.jpg'
try:
pic = requests.get(src, timeout=10)
except requests.exceptions.ConnectionError:
# print 'error, %d 当前图片无法下载', %id
print('图片无法下载')
fp = open(dir, 'wb')
fp.write(pic.content)
fp.close()
''' for 循环 请求全部的 url '''
for i in range(0, 22471, 20): #
url = 'https://www.douban.com/j/search_photo?q=' + query + '&limit=20&start=' + str(i)
html = requests.get(url).text # 得到返回结果
response = json.loads(html, encoding='utf-8') # 将 JSON 格式转换成 Python 对象
print('已下载 ' + str(i) + ' 张图片')
for image in response['images']:
image['src'] = image['src'].replace('thumb', 'l')
# image['src'] = re.sub(r'thumb', r'l', image['src'])
print(image['src']) # 查看当前下载的图片网址
download(image['src'], image['id']) # 下载一张图片
2019-01-04
8
钰
哇,给我的认知加了一层
作者回复:哈哈哈 因为这个世界一直都存在 所以就写了下实现原理
2018-12-25
1
晴天小雨
# 我感觉他们写得好复杂!!!
import numpy as np
# 将学员的各科成绩抽象成数组
dtype = np.dtype({'names': ['name', 'Chinese', 'English', 'Math'], 'formats': ['S32', 'i', 'i', 'i']})
students_score_info = np.array([('ZhangFei', 66, 65, 30), ('GuanYu', 95, 85, 98),
('ZhaoYun', 93, 92, 96), ('HuangZhong', 90, 88, 77),
('DianWei', 80, 90, 90)], dtype=dtype)
# 去除名字项,并将结构化数组转换为矩阵
students_score = np.array([list(score) for score in np.array(students_score_info[['Chinese', 'English', 'Math']])])
# 平均成绩
Chiese_mean, Enlish_mean, Math_mean = np.mean(students_score, axis=0)
print('语文、英语、数学平均成绩分别为{}、{}、{}'.format(Chiese_mean, Enlish_mean, Math_mean))
# 最小成绩
Chiese_min, Enlish_min, Math_min = np.min(students_score, axis=0)
print('语文、英语、数学最小成绩分别为{}、{}、{}'.format(Chiese_min, Enlish_min, Math_min))
# 最大成绩
Chiese_max, Enlish_max, Math_max = np.max(students_score, axis=0)
print('语文、英语、数学最大成绩分别为{}、{}、{}'.format(Chiese_max, Enlish_max, Math_max))
# 方差
Chiese_var, Enlish_var, Math_var = np.var(students_score, axis=0)
print('语文、英语、数学成绩方差分别为{}、{}、{}'.format(Chiese_var, Enlish_var, Math_var))
# 标准差
Chiese_std, Enlish_std, Math_std = np.std(students_score, axis=0)
print('语文、英语、数学成绩标准差分别为{}、{}、{}'.format(Chiese_std, Enlish_std, Math_std))
# 总成绩排名
rank_lists = sorted(np.sum(students_score, axis=1),reverse=True)
print('语文、英语、数学总成绩排名为{}'.format(rank_lists))
2018-12-23
2
编辑推荐
讲师的其他课程
包含这门课的学习路径
Python工程师
19门课程 118.0w人学习
看过的人还看了