作者回复: 先用pip安装 lxml 试一下
作者回复: 正确,xpath 性能会更高
作者回复: 看使用的是什么解析器来匹配,如果用xml,需要安装lxml包,因为解析器是c++写的,需要引入xml包
作者回复: lxml 和bs4 本来就不是对等的关系, lxml是使用xml语法解析网页,如果实现内容提取要用到xpath, bs4默认是html解析,提取内容要用到bs4的内置函数 如果要给他们定义一下场景的话, lxml更像是引擎 ,bs4是引擎+工具,趋向简单可以使用bs4工具 ,趋向高性能可以使用bs4+lxml,相当于给bs4换了发动机, 趋向专业和高效可以使用 lxml+xpath
作者回复: 应该是你的电脑有两个版本的python,pycharm 和命令行使用的python 可能不是同一个版本
作者回复: urllib和requests 是http客户端工具,负责请求和返回,返回的网页内容,需要beautifulsoap来解析
作者回复: html_doc 是网页点鼠标右键查看源代码获取的
作者回复: 不错,静态页面都可以用这种方式爬取的
作者回复: soup.p['class'] 默认取第一个,soup.find_all('p')取所有的p标签
作者回复: 试试下载离线包安装一下,上面的错误提示并没有明确错误的原因