神奇的Python模块：pdfkit，将Python抓取的网址内容保存pdf文件

图/文：迷神

写 Python 爬虫写的多了，有时候想把网址页面内容，按照标题.pdf模式，直接保存为pdf电子书的形式。这样也非常方便备档阅读，特别是一些简洁的比如微信公众号的里面的文章，很简洁，很适合将网址内容保存成pdf文档。

于是，我就发现了神奇的Python模块：pdfkit，他可以将Python抓取的网址内容保存pdf文件形式，很优美的赶脚。

pdfkit安装，很简单，一行命令即可：

 pip install pdfkit

pdfkit需要一个wkhtmltopdf的软件做支持，如图：

wkhtmltopdf软件下载

我是win10系统64，下载wkhtmltopdf第一个如图的就行，然后将安装目录下的 bin 添加到环境变量的path中，如果不设置环境变量，那就需要指定了这个文件目录。

 import pdfkit
class pdf:
    def make(self):
        config = pdfkit. configuration (wkhtmltopdf=r"D:\wkhtmltopdf\bin\wkhtmltopdf.exe")
        pdfkit.from_url("url网址", "1.pdf", configuration=config)

if __name__ == '__main__':
    p = pdf()
    p.make()

执行结果

代码执行完之后，就可以看到1.pdf文件了，我使用的微信的地址，微信简洁清爽，这个pdf生成，超过一页了，可以有多页进行完整存储还是不错的。

pdfkit模块的源码中，代码量不大，大家喜欢可以看看，接口文件：pdfkit/ api .py，主要包含以下方法也在里面。

从接口文档上看，pdfkit可以支持三种的方法，除了上面，我们说的传入url地址之外，还支持另外两种模式：

1、form_file:传入的参数为 html文件

 def from_file( input , output_path, options=None, toc=None, cover=None, 
              css=None,configuration=None, cover_first=False)

2、form_string:传入的参数为字符串

 def from_string(input, output_path, options=None, toc=None, cover=None, css=None,
                configuration=None, cover_first=False)

好了，就这么多啦，我是迷神，更多精彩，记得关注我哦，请多多转发，有问题也可以评论哦。

智云一二三科技

神奇的Python模块：pdfkit，将Python抓取的网址内容保存pdf文件

关于作者: 智云科技

给这篇文章的作者打赏

关于作者: 智云科技

相关文章

阿里云免费虚拟主机安装WordPress博客图文教程

PHP框架yaf的优点和缺点

PHP垃圾回收机制的一些浅薄理解

热门文章

1分享新浪图床上传接口源码

2PHP简单实现路由Route功能

3Tideways、xhprof 和 xhgui 打造 PHP 非侵入式监控平台

4centos系统如何查看是否安装了mysql

5curl 工具简述