文档格式转换
最近做毕设用到需要用到文档格式转换,整理了一些代码:
Doc、Docx转txt
#-*- coding: utf-8 -*-
from win32com import client as wcword = wc.Dispatch('Word.Application')
doc = word.Documents.Open('H:\\a.docx')
doc.SaveAs('H:\\a.pdf', 17) #17对应于下表中的pdf文件
doc.SaveAs('H:\\a.txt', 2) #2对应于下表中的txt文件
doc.Close()
word.Quit()
PDF转TXT
# -*- coding: utf-8 -*-
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfpage import PDFTextExtractionNotAllowed
from pdfminer.pdfinterp