info_spider


一个舆情搜索爬虫,这是一个练手项目,很多功能还需要完善!


info_spider是什么?

  1. 可通过自定义过滤关键字,eg:爆炸、毒品等
  2. 可通过自定义添加贴吧 eg:李毅吧、胥渡吧等
  3. 可进行筛选导出html搜索报告
  4. 每个模块单独生成本地json文件资源
  5. 将加入微信公众号文章、新浪微博、以及论坛site等模块

info_spider有哪些功能?

  • 爬取百度贴吧模块,无贴吧数量限制
  • 爬取大江论坛模块,同时爬取十个论坛
  • 爬取天涯论坛模块,同时十个论坛
  • 方便的导入导出功能,导出结果为一个html格式的文件

用法

  1. 下载项目

    1
    $ git clone https://github.com/bbkali/info_spider.git
  2. 安装依赖

    1
    $ pip install -r requirements.txt
  3. 添加配置

    1
    $ vim config.ini|vim config_sample.ini //自行添加配置信息
  4. 启动爬虫

    1
    $ python run.py

有问题反馈

在使用中有任何问题,欢迎反馈给我,可以用以下联系方式跟我交流

  • 邮件(shuiyue75381#gmail.com, 把#换成@)

关于作者

1
2
nickName  : "bb",
site : "http://github.com/bbkali"

更新日志

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
20190109

1.完善贴吧爬取功能(已经完成)
2.编写export_html.py读取json资源功能(已经完成)
3.测试多线程运行多模块功能(已经完成)
4.过滤规则完成(筛选时间--筛选关键字--筛选长度)(已经完成)
1.时间筛选(已经完成){dj:'reply_time','ty':'create_time','tb':'reply_time'}
2.关键字筛选(已经完成)
3.筛选长度(已经完成)
5.模板优化(已经完成)
1标题头时间导入(已经完成)
2数据统计加入(已经完成)

20190112

1.增加大江论坛爬取功能(已经完成)
2.模板链接优化为点击跳转(已经完成),还有关键字标红,统计中加入爬取的目标(已经完成)
3.window和linux下路径优化
4.将大江资源结果导入result.html中(已经完成)
5.将时间筛选功能嵌入大江模块里(已经完成)

20190114

1.增加天涯功能模块(已经完成)
2.增加随机请求头功能(已经完成)
3.增加天涯结果进入result.html(已经完成)
4.将完整的run框架写出来(已经完成)

20190116

1.优化config.ini(已经完成)
2.美化result(已经完成)
3.readme格式优化(已经完成)
4.增加代理功能
5.增加爬取指定条件日期数据(已经完成)

20190123

1.支持各个模块并发运行,运行完导出报告
2.html增加统计已爬取的帖子数量
3.优化访问频繁切换代理或者休眠功能
4.增加将数据储存到数据库功能
5.优化一个模块util模板
6.再增加一个论坛模块