Post

0702Splash

Splash(p226)是一个 JavaScript 渲染服务,是一个含有 HTTPAPI的轻量级测览器,它还对接了 Python中的 Twisted 库和 QT库。利用它,同样可以爬取动态渲染的页面。

功能介绍

  • 利用 Splash,可以实现如下功能
  • 异步处理多个网页的渲染过程;
  • 获取渲染后页面的源代码或截图;0:
  • 通过关闭图片渲染或者使用 Adblock 规则的方式加快页面渲染的速度;
  • 执行特定的 JavaScript 脚本;
  • 通过 Lua 脚本控制页面的渲染过程;
  • 获取页面渲染的详细过程并以HAR(HTTPArchive)的格式呈现出来。

只能用docker安装来跑 lua脚本,还不能像Selenium一样直接python代码调用,而是一个服务(CS)的方式调用。Splash的源码都是python写的控制脚本居然还用lua,这个git3年前更新了,这这这这😭弃坑跑先。。。

This post is licensed under CC BY 4.0 by the author.