作者回复: 你可以使用python+selenium的方式完成账户的自动登录,因为selenium是个自动化测试的框架,使用selenium 的webdriver就可以模拟浏览器的行为。找到输入用户名密码的地方,输入相应的值,然后模拟点击即可完成登录(没有验证码的情况下)
另外你也可以使用cookie来登录网站,方法是你登录网站时,先保存网站的cookie,然后用下次访问的时候,加载之前保存的cookie,放到request headers中,这样就不需要再登录网站了
作者回复: 滢同学总结整理的很不错,大家都可以看下
作者回复: 对的,主要是配置ChromeDriver的问题。有相同问题的人,可以看下这个留言
作者回复: GoodJob
作者回复: 咱们访问豆瓣查询图片的网址应该是一样的。只是我给出的是json的链接。方法是:用Chrome浏览器的开发者工具,可以监测出来网页中是否有json数据的传输,所以我给出的链接是json数据传输的链接 https://www.douban.com/j/search_photo?q=%E7%8E%8B%E7%A5%96%E8%B4%A4&limit=20&start=0
作者回复: 慢慢来,有些代码放到GitHub上了,可以先跑下
作者回复: NBA明星也是不错的选择
作者回复: 可以使用 try ... except ... 捕获下错误看看
作者回复: 网站的抓取和网页的HTML结构有很大关系,所以一般都是用XPath解析,如果你用第三方工具,比如八爪鱼,也是要个性化的把每个网站流程模拟出来,这样工具会自动定位XPath
网站的抓取和网页的HTML结构有很大关系,所以一般都是用XPath解析,如果你用第三方工具,比如八爪鱼,也是要个性化的把每个网站流程模拟出来,这样工具会自动定位XPath
如果想要做一个通用的解决方案,自动识别文章的标题和内容。就需要先把HTML下载下来,然后将HTML解析为DOM树,再对每个节点做评估(文章标题还是内容的可能性)
这样做的好处是通用性强,缺点就是可能会出错。
作者回复: JSON解析错误,可以使用try ... except ... 捕获下错误看看
作者回复: Good Job
作者回复: 赞 认真练习&分享的同学
作者回复: 这个也不错
作者回复: Good Job