| 注册
请输入搜索内容

热门搜索

Java Linux MySQL PHP JavaScript Hibernate jQuery Nginx
virtuala
8年前发布

"开源:SinaSpider - 动态IP解决新浪的反爬虫机制"

   <h2>SinaSpider</h2>    <p>动态IP解决新浪的反爬虫机制,快速抓取微博内容。</p>    <h2>Background</h2>    <p>抓取1000个公司(在companyList.py文件中)五年内相关的微博,进而统计评论数、转发数、点赞数等等。</p>    <h2>Environment</h2>    <ul>     <li>Python2.7</li>     <li>winxp服务器(通过某宝购买,关键是ADSL拨号功能,不然无法实现动态IP,也就解决不了新浪的反爬虫机制)</li>    </ul>    <h2>Results</h2>    <ul>     <li> <p>每个公司五年内的微博(通过sqlite3存储)</p> <p>下面截图为company0000.db的微博。</p> <p><img src="https://simg.open-open.com/show/c7851c67fa204ed33a87dd9b48fc9efd.png"></p> </li>     <li> <p>所有公司微博评论数、转发数、点赞数的统计(excel形式呈现)</p> </li>    </ul>    <p style="text-align: center;"><img src="https://simg.open-open.com/show/4eed65641550f6c1aa14a61b029f7554.png"></p>    <p> </p>    <p> </p>    <p> </p>    
 本文由用户 virtuala 自行上传分享,仅供网友学习交流。所有权归原作者,若您的权利被侵害,请联系管理员。
 转载本站原创文章,请注明出处,并保留原始链接、图片水印。
 本站是一个以用户分享为主的开源技术平台,欢迎各类分享!
 本文地址:https://www.open-open.com/lib/view/open1488335148316.html
新浪 网络爬虫