作者回复: 正则表达式是个很大的话题,完整掌握给你推荐两本书《python核心编程》第三版,《正则表达式》方便你系统学习。我说下我的经验,我在第一次接触的时候忽略掉了那些我不需要的信息也要用.*方式匹配,导致匹配失败,另一个是*号有正则贪婪性,尽可能多的匹配,它们是我学习的第一个鸿沟,第二个是元字符覆盖的范围经常匹配过长,其实现在有很多在线正则表达式测试网页,方便你来查看你匹配的是否正确,希望能对你学习正则表达式有帮助。
作者回复: re.S叫做单行模式,简单来说,就是你用正则要匹配的内容在多行里,会增加你要匹配的难度,这时候使用re.S把每行最后的换行符\n当做正常的一个字符串来进行匹配的一种小技巧
作者回复: 欢迎分享更详细的学习感受,共同提高
作者回复: 可以用xpath
作者回复: 正解,要根据实际情况(不同的网页格式、内容)调整正则的匹配规则。不可死记硬背