Markdown文件批量转PDF的Python脚本

Markdown文件批量转PDF

Typora提供了单文件的PDF转换功能,但没有把这个功能集成到命令行里,因此对于需要同时转换多个markdown文件时就比较麻烦了——因此这个小脚本主要支持批量转换MarkdownPDF的功能:smile:

1.所需工具pandoc、wkhtmltopdf

  • wkhtmltopdf——是一个使用 Qt WebKit 引擎做渲染的,能够把html 文档转换成 pdf 文档 或 图片(image) 的命令行工具。(强调一下:是 “命令行工具”

    1. 【下载请点击这里】 【http://wkhtmltopdf.org/downloads.html】
    2. 设置环境变量
    3. 通过命令行: wkhtmltopdf -V检验是否安装成功
  • Pandoc——是一个由 John MacFarlane 开发的通用文档转换工具,可以支持大量标记语言之间的格式转换,例如 Markdown 、Microsoft Word、PowerPoint、 Jupyter Notebook、HTML、PDF、LaTeX、Wiki、EPUB 格式之间的相互转换。官方称之为该领域中的“瑞士军刀”,并且给出了一个格式转换的示意图。

    Pandoc 可以自动解析 Markdown 文件里的图片链接,所以不论是本地存储的图片,还是图床上的图片,都可以正确转换并且显示到 pdf 文件里。

2.文档

采用之前很火”程序员菜谱”,其项目结构为多层次的文件夹和markdown文件组成。

E:.
├─.github
│  └─workflows
├─dishes
│  ├─braised
│  │  └─红烧肉
│  ├─breakfast
│  ├─condiment
│  ├─dessert
│  │  ├─提拉米苏
│  │  └─烤蛋挞
│  ├─drink
│  │  └─百香果橙子特调
│  │      └─imgs
│  ├─home-cooking
│  │  ├─香干芹菜炒肉
│  │  ├─香菇滑鸡
│  │  ├─鸡蛋羹
│  │  └─黄油煎虾
│  ├─semi-finished
│  │  └─速冻汤圆
│  ├─soup
│  │  ├─昂刺鱼豆腐汤
│  │  └─西红柿土豆炖牛肉
│  ├─staple
│  │  ├─pizza
│  │  ├─日式咖喱饭
│  │  ├─烙饼
│  │  └─老友猪肉粉
│  └─template
│      └─示例菜
└─tips
    ├─advanced
    └─learn

3.批量执行脚本

  • 提供批量转换功能
  • 文件夹嵌套处理
  • 统一导出到当前目录的./output/

md2pdf

直接采用Pandoc转PDF的方法不太好使,所以采取了折中的方案:先将MarkdownPandoc转换为HTML,然后再用wkhtmltopdf完成PDF转换。

Pandoc转换为HTML几乎完美,但是需要补充HTML头部以及CSS样式等。所以前端大佬可以直接修改html_head.txt中的文件完善。

import pdfkit
import pypandoc
import os
from argparse import ArgumentParser


# 输出目录
OUTPUT_DIR = "output/"
os.makedirs(OUTPUT_DIR, exist_ok=True)


def get_file_name(mk_file_path, file_list, outlist):
    """找到mk_file_path路径下的所有.md文件"""
    print(f'【{mk_file_path}】Markdown文件如下:')
    for root, dirs, files in os.walk(mk_file_path):
        for f in files:
            each = os.path.join(root, f)
            if ".md" in each:
                file_list.append(each)
                filename = each.replace('.md', '.pdf')
                f = filename.split("\\")[-1]
                outlist.append(os.path.join(OUTPUT_DIR, f))
    print('检索完毕')
    print(f"一共有{len(outlist)}个文件, 分别为{outlist}")


def convert(input_file, output_file):
    pypandoc.convert_file(input_file, 'html', outputfile='tmp.html')
    html_head_file = open("html_head.txt", "r", encoding='utf-8')
    html_head = html_head_file.read()
    html_head_file.close()
    html_tail = "\n</body>\n</html>"
    html_body_file = open('tmp.html', "r", encoding='utf-8')
    html_body_txt = html_body_file.read()
    html_body_file.close()
    html_body = html_head + html_body_txt + html_tail
    # 先创建临时的html文件
    with open('tmp.html', 'w', encoding='utf-8') as f:
        f.write(html_body)
        f.close()
    # 再将html文件转成pdf文件
    pdfkit.from_file('tmp.html', output_file, options={"enable-local-file-access": None})
    if os.path.exists('tmp.html'):
        os.remove('tmp.html')
    print(input_file + '转换成功!')


def _init_argumentParser():
    a = ArgumentParser(usage="Markdown->PDF批量转换助手")
    a.add_argument("-p", "--path", required=True, type=str, help="检索路径")
    return a.parse_args()


if __name__ == '__main__':
    # markdown文件路径
    # mk_path = "HowToCook/dishes"
    args = _init_argumentParser()

    # 修改文件路径List
    mk_file_list = []
    # 输出文件路径List
    output_pdf_file_list = []
    # 转换失败的文件
    failed = []

    # 获得文件名
    get_file_name(args.path, mk_file_list, output_pdf_file_list)
    # 对文件进行转换
    for i in range(len(mk_file_list)):
        try:
            convert(mk_file_list[i], output_pdf_file_list[i])
        except Exception as e:
            print(f"{mk_file_list[i]} 出现了问题 , 原因为: \n{e}")
            failed.append(mk_file_list[i])

    print(f"失败的有{len(failed)}个, {failed}")

Fork from : https://github.com/Dafeigy/md2pdf

demo-batch-markdown-to-pdf

from: 文章——如何把 Markdown 文件批量转换为 PDF

from pathlib import Path
import os

work_dir = Path.cwd()

export_pdf_dir = work_dir / 'pdf'
if not export_pdf_dir.exists():
    export_pdf_dir.mkdir()

for md_file in list(work_dir.glob('*.md')):
    md_file_name = md_file.name
    pdf_file_name = md_file_name.replace('.md', '.pdf')
    pdf_file = export_pdf_dir / pdf_file_name
    cmd = "pandoc '{}' -o '{}' --pdf-engine=xelatex -V mainfont='PingFang SC' --template=template.tex".format(md_file, pdf_file)
    os.system(cmd)

:question:没运行成功

附录

问题解决

IOError: No wkhtmltopdf executable found: “”

python使用pdfkit中,如果使用pdfkit.from_url 或者pdfkit.from_string等,就会出现上述错误。而且如果你使用pip安装了 wkhtmltopdf,还是会出现这个问题:

IOError: No wkhtmltopdf executable found: “”
  1. 因此需要去安装windows版本的*wkhtmltopdf*此处进入下载网址
  2. 安装完成之后添加环境变量后,再运行即可

pandoc报错

解决方案: pypandoc 转换html 为word 报错

No pandoc was found: either install pandoc and add it to your PATH or or call pypandoc.download_pandoc(...) or install pypandoc wheels with included pandoc.

参考了资料 关于python用pypandoc问题(python3)(探索ing)_晓星晨曦-CSDN博客_pypandoc未能解决,后面版本安装,指定pypandoc用的版本1.6.3,可行。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,716评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,558评论 1 294
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,431评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,127评论 0 209
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,511评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,692评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,915评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,664评论 0 202
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,412评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,616评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,105评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,424评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,098评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,096评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,869评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,748评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,641评论 2 271

推荐阅读更多精彩内容