作者回复: 感谢分享您的经验。确实,Selenium 的 API 有时候会进行更新,需要根据新版本来进行调整。在具体实现中,我们需要结合页面的 HTML 结构来进行 xpath 路径的选择,以确保能够定位到正确的元素。对于一些可能存在多个元素的情况,使用索引可以确保点击到正确的元素,避免影响程序的正常执行。
作者回复: 感谢提醒,后续我会统一修改一下。
作者回复: 虽然在 Scrapy 中可以通过 `response.xpath` 直接获取网页元素,但是有时候网页内容是通过 JavaScript 动态加载的,此时 Scrapy 可能无法获取这些需要 JavaScript 执行后才能得到的内容。 而使用 Selenium 就可以完全模拟浏览器行为,包括 JavaScript 的执行,可以获取到完整的网页内容。此外,某些网站会通过一些反爬虫技术来检测访问者是否是真正的浏览器,如果检测到是爬虫,则会拒绝访问。使用 Selenium 可以完美地解决这个问题。
作者回复: 同学,你好。 main.py文件是需要自己创建的。
作者回复: 同学你好,节后我会把源码放在github上,然后给你们链接。
作者回复: 关于第一个问题,看看能不能通过截图或者其他方式告诉我,关于微信群,我可以和官方商量一下,看看怎么搞。
作者回复: 同学你好,我来回答你的两个问题: A1:因为在parse_namedetail中已经获取到了http响应的内容,所以可以直接用,而不是再次请求网络,请求网络会有更多的耗时; A2:response对象包含来自Web服务器的HTML响应,并可用于提取响应数据,而selector对象是使用response对象创建的,它提供了一种方便的方法来从响应中选择和提取数据。因此,使用selector而不是response可以更方便地从HTML响应中提取和处理数据。