info_spider
一个舆情搜索爬虫,这是一个练手项目,很多功能还需要完善!
info_spider是什么?
- 可通过
自定义
过滤关键字,eg:爆炸、毒品等
- 可通过
自定义
添加贴吧 eg:李毅吧、胥渡吧等
- 可进行筛选导出
html
搜索报告
- 每个模块单独生成
本地json文件资源
- 将加入微信公众号文章、新浪微博、以及论坛site等模块
info_spider有哪些功能?
- 爬取
百度贴吧
模块,无贴吧数量限制
- 爬取
大江论坛
模块,同时爬取十个论坛
- 爬取
天涯论坛
模块,同时十个论坛
- 方便的
导入导出
功能,导出结果为一个html格式
的文件
用法
下载项目
1
| $ git clone https://github.com/bbkali/info_spider.git
|
安装依赖
1
| $ pip install -r requirements.txt
|
添加配置
1
| $ vim config.ini|vim config_sample.ini //自行添加配置信息
|
启动爬虫
有问题反馈
在使用中有任何问题,欢迎反馈给我,可以用以下联系方式跟我交流
- 邮件(shuiyue75381#gmail.com, 把#换成@)
关于作者
1 2
| nickName : "bb", site : "http://github.com/bbkali"
|
更新日志
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44
| 20190109
1.完善贴吧爬取功能(已经完成) 2.编写export_html.py读取json资源功能(已经完成) 3.测试多线程运行多模块功能(已经完成) 4.过滤规则完成(筛选时间--筛选关键字--筛选长度)(已经完成) 1.时间筛选(已经完成){dj:'reply_time','ty':'create_time','tb':'reply_time'} 2.关键字筛选(已经完成) 3.筛选长度(已经完成) 5.模板优化(已经完成) 1标题头时间导入(已经完成) 2数据统计加入(已经完成)
20190112
1.增加大江论坛爬取功能(已经完成) 2.模板链接优化为点击跳转(已经完成),还有关键字标红,统计中加入爬取的目标(已经完成) 3.window和linux下路径优化 4.将大江资源结果导入result.html中(已经完成) 5.将时间筛选功能嵌入大江模块里(已经完成) 20190114
1.增加天涯功能模块(已经完成) 2.增加随机请求头功能(已经完成) 3.增加天涯结果进入result.html(已经完成) 4.将完整的run框架写出来(已经完成)
20190116
1.优化config.ini(已经完成) 2.美化result(已经完成) 3.readme格式优化(已经完成) 4.增加代理功能 5.增加爬取指定条件日期数据(已经完成)
20190123 1.支持各个模块并发运行,运行完导出报告 2.html增加统计已爬取的帖子数量 3.优化访问频繁切换代理或者休眠功能 4.增加将数据储存到数据库功能 5.优化一个模块util模板 6.再增加一个论坛模块
|