2019-09-19
爬虫
00
  1. Splash在爬虫中的应用背景

Python爬虫框架Scrapy,因其语言易懂,配置简单和异步操作等优势,越来越多的受到爬虫爱好者的喜欢。当然本文讲解的内容和原理,也适用于其他语言所写的爬虫。

但是随着爬虫技术的升级,反扒技术也越来越高明。除了验证码以及限制爬取频率外,越来越多网站使用页面动态技术来阻挠爬虫的直接侵袭。动态页面是与静态页面相对应的概念。

静态页面 : 网页的主要(或所有)内容是以文本形式直接嵌入HTML框架中。这种页面,直接wget,然后就能从中获取我们需要的内容。

动态页面 : 只有少部分(往往不是我们需要的)内容是文本形式直接嵌入HTML框架中。其余大部分核心数据是以javascript的形式在页面加载完成以后或由用户的页面操作行为触发,去服务端加载之后,动态渲染到页面上的。这种页面,wget到的页面不会包含后面渲染的数据,用处不大。

虽然采用Hack方式直接debug页面javascript,会有一定概率破解页面关键细节,但是存在以下劣势:

2017-09-23
docker
00

1. Docker简介

Docker的出现是伴随着应用的微型化出现的。早期为了安装和测试新的应用,需要购买新的硬件和操作系统,成本极大。

后来出现了比如KVM,Exsi等一系列操作系统虚拟化技术,创建虚拟的操作系统,共用硬件,算是一个不小的进步。但是操作系统本身会占用比较多甚至主要的的硬件资源(CPU,RAM等),是一种浪费。

后来,伴随着计算机和操作系统技术的继续演进,尤其是出现了像namespace,cGroup,UnionFS等技术,是的应用的docker化变为可能。docekr公司也横空出世。

简单理解docker,就好像一颗颗种子,宿主机器(包括操作系统)是一块土壤,所有的种子在彼此不干扰情况下,从土壤中吸收养分生长。所以呈现给我们的画面就是: 一块土地上,有一片绿油油的小草, 彼此独立生长,绿叶随风飘扬。

2017-09-23
docker
00

1. docker

docker 既指代docker这家了不起的公司,也指代docker这种容器化的技术。下文的docker均指后者。