提取HTML信息的 Python 模块:scrape.py
scrape.py是从网页抓取内容的Python模块。使用它,您可以轻松地抓取页面,跟踪链接,并提交表格,Cookies,重定向和SSL自动处理。 (对于SSL,你要么需要一个带socket.ssl功能的Python版本,或者curl命令行实用程序。)
scrape.py
并不解析页面内容。
>>> s.doc <Region 0:25751> >>> s.headers {'content-length': '25751', 'accept-ranges': 'bytes', 'server': 'Apache/2.2.8' 'last-modified': 'Tue, 10 Sep 2013 21:38:28 GMT', 'connection': 'close', 'etag': '"5f4b02-6497-4e60e5347fd00"', 'date': 'Tue, 10 Sep 2013 21:55:37 GMT', 'content-type': 'text/html'} >>> s.url 'http://zesty.ca/'
本文由用户 jopen 自行上传分享,仅供网友学习交流。所有权归原作者,若您的权利被侵害,请联系管理员。
转载本站原创文章,请注明出处,并保留原始链接、图片水印。
本站是一个以用户分享为主的开源技术平台,欢迎各类分享!