powershell语法总结

认识PowerShell

$psversiontable查看版本

PowerShell强大之处

  1. 快捷方便
  2. 面向对象
  3. 支持兼容.net vbs等
  4. 可拓展性

    PowerShell快捷键

    1
    2
    alt+f7 清除命令的历史纪录
    esc 清空当前命令行
阅读全文
cmd命令总结(二)

重定向操作符

> 输出
>> 增加输出
< 输入

句柄的数字代码描述

  • 0:键盘输入
  • 1:输出到命令提示符窗口
  • 2:错误输出

di >right.txt 2>error.txt # 如果错误就输出到error.txt中去

阅读全文
cmd命令总结(一)

基本命令

cd 进入文件目录

dir 列出目录文件

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
/A          显示具有指定属性的文件。
属性 D 目录 R 只读文件
H 隐藏文件 A 准备存档的文件
S 系统文件 I 无内容索引文件
L 解析点 - 表示“否”的前缀
/B 使用空格式(没有标题信息或摘要)。
/C 在文件大小中显示千位数分隔符。这是默认值。用 /-C 来
禁用分隔符显示。
/D 跟宽式相同,但文件是按栏分类列出的。
/L 用小写。
/N 新的长列表格式,其中文件名在最右边。
/O 用分类顺序列出文件。
排列顺序 N 按名称(字母顺序) S 按大小(从小到大)
E 按扩展名(字母顺序) D 按日期/时间(从先到后)
G 组目录优先 - 反转顺序的前缀
/P 在每个信息屏幕后暂停。
/Q 显示文件所有者。
/R 显示文件的备用数据流。
/S 显示指定目录和所有子目录中的文件。
/T 控制显示或用来分类的时间字符域。
时间段 C 创建时间
A 上次访问时间
W 上次写入的时间
/W 用宽列表格式。
/X 显示为非 8.3 文件名产生的短名称。格式是 /N 的格式,
短名称插在长名称前面。如果没有短名称,在其位置则
显示空白。
/4 用四位数字显示年

阅读全文
scrapy-Spider详解

Scrapy教程03- Spider详解

Spider是爬虫框架的核心,爬取流程如下:

  1. 先初始化请求URL列表,并指定下载后处理response的回调函数。初次请求URL通过start_urls指定,调用start_requests()产生Request对象,然后注册parse方法作为回调
  2. 在parse回调中解析response并返回字典,Item对象,Request对象或它们的迭代对象。Request对象还会包含回调函数,之后Scrapy下载完后会被这里注册的回调函数处理。
  3. 在回调函数里面,你通过使用选择器(同样可以使用BeautifulSoup,lxml或其他工具)解析页面内容,并生成解析后的结果Item。
  4. 最后返回的这些Item通常会被持久化到数据库中(使用Item Pipeline)或者使用Feed exports将其保存到文件中。

尽管这个流程适合于所有的蜘蛛,但是Scrapy里面为不同的使用目的实现了一些常见的Spider。下面我们把它们列出来。

阅读全文
scrapy-Selector详解

Scrapy教程04- Selector详解

在你爬取网页的时候,最普遍的事情就是在页面源码中提取需要的数据,我们有几个库可以帮你完成这个任务:

  1. BeautifulSoup是python中一个非常流行的抓取库,
    它还能合理的处理错误格式的标签,但是有一个唯一缺点就是:它运行很慢。
  2. lxml是一个基于ElementTree的XML解析库(同时还能解析HTML),
    不过lxml并不是Python标准库

而Scrapy实现了自己的数据提取机制,它们被称为选择器,通过XPathCSS表达式在HTML文档中来选择特定的部分

XPath是一用来在XML中选择节点的语言,同时可以用在HTML上面。
CSS是一种HTML文档上面的样式语言。

Scrapy选择器构建在lxml基础之上,所以可以保证速度和准确性。

本章我们来详细讲解下选择器的工作原理,还有它们极其简单和相似的API,比lxml的API少多了,因为lxml可以用于很多其他领域。

完整的API请查看Selector参考

阅读全文
Algolia