| 注册
请输入搜索内容

热门搜索

Java Linux MySQL PHP JavaScript Hibernate jQuery Nginx
jopen
7年前发布

使用python 3实现的一个知乎内容的爬虫:zhihu_crawler

zhihu_crawler

使用python 3实现的一个知乎内容的爬虫,依赖requests、BeautifulSoup4。

功能

能够爬取以下内容:

  • 对于“问题”:标题、内容、关注人数、所在标签、所有回答(回答人、回答内容、赞数以及评论数)
  • 对于“用户”:提问数量、回答数量、获得的总赞数、被关注人数、关注的话题、关注的人

使用方法

需要在config.json里填上用户名以及密码,当程序运行时,登录时可能会需要输入验证码。

  • 对于“问题”
from zhihu_question import Question    qid = <qid>  # 问题id  q = Question(qid)  q.update()  # 获取信息  q.persist(open(str(qid)+'.json', 'w', encoding='utf-8'))  # 以json的格式存储下来

对于“用户”
from zhihu_person import Person    pid = '<pid>'  # 用户id  p = Person(pid)  p.update()  p.persist(open(str(pid)+'.json', 'w', encoding='utf-8'))  # 以json的格式存储下来

项目主页:http://www.open-open.com/lib/view/home/1442049261117

 本文由用户 jopen 自行上传分享,仅供网友学习交流。所有权归原作者,若您的权利被侵害,请联系管理员。
 转载本站原创文章,请注明出处,并保留原始链接、图片水印。
 本站是一个以用户分享为主的开源技术平台,欢迎各类分享!
 本文地址:https://www.open-open.com/lib/view/open1442049261117.html
爬虫 网络爬虫