Jenkins 发展到2.x, 出现了pipeline,实现了真正意义上的 “pipeline as code”,即 完全的代码驱动构建。使用pipeline进行构建的过程跟用dockerfile进行镜像构建非常相似。pipeline是写在Jenkinsfile文件里面的。
以下是一段经典的jenkins pipeline “hello world” 示例:
pipeline { agent { docker 'centos:latest' } stages { stage('build') { steps { sh 'echo helloworld!' } } } }
其中,整个构建是在一个 最新版本的centos docker 镜像中构建,然后就能在输出中看到 “ hello world” 了。输出截图如下:
Python爬虫框架Scrapy,因其语言易懂,配置简单和异步操作等优势,越来越多的受到爬虫爱好者的喜欢。当然本文讲解的内容和原理,也适用于其他语言所写的爬虫。
但是随着爬虫技术的升级,反扒技术也越来越高明。除了验证码以及限制爬取频率外,越来越多网站使用页面动态技术来阻挠爬虫的直接侵袭。动态页面是与静态页面相对应的概念。
静态页面 : 网页的主要(或所有)内容是以文本形式直接嵌入HTML框架中。这种页面,直接wget,然后就能从中获取我们需要的内容。
动态页面 : 只有少部分(往往不是我们需要的)内容是文本形式直接嵌入HTML框架中。其余大部分核心数据是以javascript的形式在页面加载完成以后或由用户的页面操作行为触发,去服务端加载之后,动态渲染到页面上的。这种页面,wget到的页面不会包含后面渲染的数据,用处不大。
虽然采用Hack方式直接debug页面javascript,会有一定概率破解页面关键细节,但是存在以下劣势:
Docker的出现是伴随着应用的微型化出现的。早期为了安装和测试新的应用,需要购买新的硬件和操作系统,成本极大。
后来出现了比如KVM,Exsi等一系列操作系统虚拟化技术,创建虚拟的操作系统,共用硬件,算是一个不小的进步。但是操作系统本身会占用比较多甚至主要的的硬件资源(CPU,RAM等),是一种浪费。
后来,伴随着计算机和操作系统技术的继续演进,尤其是出现了像namespace,cGroup,UnionFS等技术,是的应用的docker化变为可能。docekr公司也横空出世。
简单理解docker,就好像一颗颗种子,宿主机器(包括操作系统)是一块土壤,所有的种子在彼此不干扰情况下,从土壤中吸收养分生长。所以呈现给我们的画面就是: 一块土地上,有一片绿油油的小草, 彼此独立生长,绿叶随风飘扬。