python爬虫知识汇总

安装sudo apt install python3

vscode配置

安装python拓展插件

python安装第三方库

终端输入pip install xxx

from import

import后必须到为具体的模块(如xxx.yyy 必须为from xxx import yyy)或函数
用法1:from xxx模块(.py结尾的文件) import xxx函数
之后使用xxx函数可以直接写函数名调用,无需前面带上 xxx模块.
用法2:import xxx模块
之后用模块里的函数必须前面带上 xxx模块.
用法3:较大的模块可能会划分子模块 则变为 import xxx.yyy
用法4:from xxx模块 import *(不要使用!)

python多行

1.反斜杠后直接回车即可
2两端加三引号”’

with语句

可以起到和try except类似的作用。
用于对资源进行访问的场合,确保不管使用过程中是否发生异常都会执行必要的“清理”操作,释放资源。
比如文件使用后自动关闭,线程中锁的自动获取和释放等。
详解

渲染工具

1.Splash是Scrapy官方推荐的JavaScript渲染引擎,它是使用Webkit开发的轻量级无界面浏览器,提供基于HTTP接口的JavaScript渲染服务,支持以下功能: 为用户返回经过渲染的HTML页面或页面截图。
2.selenium与pyppeteer则是webdriver,通过驱动浏览器来进行渲染,他本身只是driver

典型工程

爬取qq空间

https://github.com/Maicius/QQZoneMood
https://www.zhihu.com/question/39271552
典型工程