您的位置 首页 golang

爬虫管理平台Crawlab v0.3.0发布(Golang版本)

基于Golang的分布式爬虫管理平台,支持 Python 、NodeJS、 Java 、Go、PHP等多种 编程语言 以及多种爬虫框架。

项目自今年三月份上线以来受到爬虫爱好者们和开发者们的好评,不少使用者还表示会用Crawlab搭建公司的爬虫平台。经过近数月的迭代,我们陆续上线了定时任务、数据分析、网站信息、可配置爬虫、自动提取字段、下载结果、上传爬虫等功能,将Crawlab打造得更加实用,更加全面,能够真正帮助用户解决爬虫管理困难的问题。

Crawlab主要解决的是大量爬虫管理困难的问题,例如需要监控上百个网站的参杂和的项目不容易做到同时管理,而且命令行管理的成本非常高,还容易出错。Crawlab支持任何语言和任何框架,配合任务调度、任务监控,很容易做到对成规模的爬虫项目进行有效监控管理。

更新内容

本次版本是一次重大更新,主要是将原来基于Celery的Python版本后台用Golang替代了。更新内容如下:

为什么会重构Crawlab

用Golang重构的初衷是为了解决一些根本性的bug,例如定时任务无法稳定触发,节点不会自动显示为离线,等等。重构后的API会更加稳定,更加高性能,以前任务列表响应大概在几百毫秒,而现在仅仅需要几毫秒。此外,本次重构优化了用户使用流程,例如之前需要手动部署爬虫,需要用户点击很多次才能运行爬虫;而现在,所有爬虫都是自动部署,代价是用户上传爬虫之后需要等待不到1分钟的时间,待爬虫文件通过GridFS部署到所有节点之后,才可以运行(当然,主节点是可以直接运行的)。本次重构还加入了一些附加功能,例如用户权限的功能(提供了基础的权限管理)、节点拓扑图、文件管理等等。总的来说,本次更新将Crawlab打造得更加稳定和实用。

Crawlab截屏预览

登录

首页

节点列表

节点拓扑图

爬虫列表

爬虫概览

爬虫分析

爬虫文件

任务详情 – 抓取结果

定时任务

为什么没有可配置爬虫

很遗憾,由于时间紧张,没有将可配置爬虫移植到新版Crawlab上。但是我们后面会将该功能加入进来。

接下来的计划

不过,如果您有更好的 idea ,欢迎随时提需求。

社区

如果您觉得Crawlab对您的日常开发或公司有帮助,请加作者微信 tikazyq1 并注明”Crawlab”,作者会将你拉入群。欢迎在 Github 上进行star,以及,如果遇到任何问题,请随时在Github上提issue。另外,欢迎您对Crawlab做开发贡献。

本篇文章由一文多发平台ArtiPub自动发布 .

文章来源:智云一二三科技

文章标题:爬虫管理平台Crawlab v0.3.0发布(Golang版本)

文章地址:https://www.zhihuclub.com/86712.shtml

关于作者: 智云科技

热门文章

网站地图