Akkuman 的博客

习技术,不积跬步无以至千里,不积小流无以成江海
2016 年 12 月 0 篇文章

Python异步爬虫的学习(一)

本文主要从一下几个方面进行说明: 什么是异步 (Asynchronous) 编程为什么要使用异步编程?如何利用 Python 实现异步什么是异步编程文章开始前,先简单介绍下各种 IO 模型:最容易做的是阻塞 IO 即读写数据时,需要等待操作完成,才能继续执行。进阶的做法就是用多线程来处理需要 IO 的部分,缺点是开销会有些大。接着是非阻塞 IO 即读写数据时,如果暂时不可读写,则立刻返回,而不等待。因为不知道什么时候是可读写

javbus爬虫-老司机你值得拥有

起因有个朋友叫我帮忙写个爬虫,爬取 javbus5 上面所有的详情页链接,也就是所有的 https://www.javbus5.com/SRS-055 这种链接,我一看,嘿呀,这是司机的活儿啊,我绝对不能辱没我老司机的名声(被败坏了可不好),于是开始着手写了构思爬虫调度启动程序 crawler.py 页面下载程序 downloader.py 页面解析程序 pageparser.py 数据库入库与去重管理程序 contro

突破百度云限速与网页限制批量下载

百度云限速比较坑,现在基本 200k 左右很多人都知道了,但是总有朋友问我,我说明一下首先下载 IDM(最好支持正版) 下载链接:百度云 shaoit 开始下载:一般的话,小文件直接打开浏览器就可以下载大文件下载:首先在 chrome 浏览器中装上一个 User-AgentSwitcherfor(Google)Chrome 插件, 然后选择安卓手机,也就是打开这个的手机页面,然后直接用 IDM 下载批量下载与外链获取使用这个