您的位置 首页 php

Python实现知乎专栏文章转电子书!Python就是这么牛逼!

好的,又是愉快的周末写(shui)推送时间了~

相信很多小伙伴应该看过/实现过把 廖雪峰 网站的教程转换成PDF电子书吧,毕竟网上一搜一大把类似的教程。作为拥有大量优质文章的 知乎 专栏,我们是不是也可以依样画葫芦地来对它搞点事情呢?当然可以啦!今天我就带大家利用 Python 将知乎专栏文章转为PDF电子书。

让我们愉快地开始吧~

Python版本: 3.6.4

相关模块:

pdfkit模块;

argparse模块;

requests模块;

bs模块;

以及一些Python自带的模块。

其他工具:

wkhtmltopdf

进群:960410445 获取 源码 以及电子书!

python环境:

安装Python并添加到 环境变量 ,pip安装需要的相关模块即可。

wkhtmltopdf环境:

先到官网下载该软件的安装包并安装该软件,软件下载地址为:

例如我下载的是下图红色框框出的版本:

596bfc8f0c6b4607818a78181d460246

安装完成后将该软件安装路径下的 bin 文件夹添加到环境变量中,例如:

011ab695910d40c28aff56c0b8602362

OK,大功告成~

先睹为快

运行方式(cmd窗口):

python zl2pdf.py -u 知乎专栏地址

原理其实很简单,主要分三步。

第一步, 提取专栏所有文章的链接和其他必要的信息(例如文章标题)。简单 抓包 可以发现专栏所有文章的链接可以通过有规律地请求下图所示的链接获取(就是不断改变链接中的offset值):

94ccd4c4162d48038915e765a5304d4c

代码实现如下:

d68eb44e74754b2fb3e898d4795d25e7

第二步, 根据爬取到的所有文章的链接地址将文章从对应的网页中提取出来并保存为 HTML文件

14999064b34348948f9b3f1d02e323e1

代码实现如下:

9e02a37ac3774fd38eb68e514fbecc70

第三步, 将保存的HTML文件转为PDF即可。

代码实现如下:

069db89f8023421499662e3a58810386

All done~完整源代码详见相关文件。

文章来源:智云一二三科技

文章标题:Python实现知乎专栏文章转电子书!Python就是这么牛逼!

文章地址:https://www.zhihuclub.com/36523.shtml

关于作者: 智云科技

热门文章

网站地图