info_spider
一个舆情搜索爬虫,这是一个练手项目,很多功能还需要完善!
info_spider是什么?
- 可通过自定义过滤关键字,eg:爆炸、毒品等
- 可通过自定义添加贴吧 eg:李毅吧、胥渡吧等
- 可进行筛选导出html搜索报告
- 每个模块单独生成本地json文件资源
- 将加入微信公众号文章、新浪微博、以及论坛site等模块
info_spider有哪些功能?
- 爬取百度贴吧模块,无贴吧数量限制
- 爬取大江论坛模块,同时爬取十个论坛
- 爬取天涯论坛模块,同时十个论坛
- 方便的导入导出功能,导出结果为一个html格式的文件
用法
- 下载项目 | 1
 | $ git clone https://github.com/bbkali/info_spider.git
 |  
 
- 安装依赖 | 1
 | $ pip install -r requirements.txt
 |  
 
- 添加配置 | 1
 | $ vim config.ini|vim config_sample.ini //自行添加配置信息
 |  
 
- 启动爬虫 
有问题反馈
在使用中有任何问题,欢迎反馈给我,可以用以下联系方式跟我交流
- 邮件(shuiyue75381#gmail.com, 把#换成@)
关于作者
| 12
 
 | nickName  : "bb",site : "http://github.com/bbkali"
 
 | 
更新日志
| 12
 3
 4
 5
 6
 7
 8
 9
 10
 11
 12
 13
 14
 15
 16
 17
 18
 19
 20
 21
 22
 23
 24
 25
 26
 27
 28
 29
 30
 31
 32
 33
 34
 35
 36
 37
 38
 39
 40
 41
 42
 43
 44
 
 | 20190109
 1.完善贴吧爬取功能(已经完成)
 2.编写export_html.py读取json资源功能(已经完成)
 3.测试多线程运行多模块功能(已经完成)
 4.过滤规则完成(筛选时间--筛选关键字--筛选长度)(已经完成)
 1.时间筛选(已经完成){dj:'reply_time','ty':'create_time','tb':'reply_time'}
 2.关键字筛选(已经完成)
 3.筛选长度(已经完成)
 5.模板优化(已经完成)
 1标题头时间导入(已经完成)
 2数据统计加入(已经完成)
 
 20190112
 
 1.增加大江论坛爬取功能(已经完成)
 2.模板链接优化为点击跳转(已经完成),还有关键字标红,统计中加入爬取的目标(已经完成)
 3.window和linux下路径优化
 4.将大江资源结果导入result.html中(已经完成)
 5.将时间筛选功能嵌入大江模块里(已经完成)
 
 20190114
 
 1.增加天涯功能模块(已经完成)
 2.增加随机请求头功能(已经完成)
 3.增加天涯结果进入result.html(已经完成)
 4.将完整的run框架写出来(已经完成)
 
 20190116
 
 1.优化config.ini(已经完成)
 2.美化result(已经完成)
 3.readme格式优化(已经完成)
 4.增加代理功能
 5.增加爬取指定条件日期数据(已经完成)
 
 20190123
 
 1.支持各个模块并发运行,运行完导出报告
 2.html增加统计已爬取的帖子数量
 3.优化访问频繁切换代理或者休眠功能
 4.增加将数据储存到数据库功能
 5.优化一个模块util模板
 6.再增加一个论坛模块
 
 |