当前位置: 代码迷 >> 综合 >> docx、ppt、pdf转txt
  详细解决方案

docx、ppt、pdf转txt

热度:13   发布时间:2023-12-21 00:44:24.0

文档格式转换

最近做毕设用到需要用到文档格式转换,整理了一些代码:

Doc、Docx转txt

#-*- coding: utf-8 -*-
from win32com import client as wcword = wc.Dispatch('Word.Application') 
doc = word.Documents.Open('H:\\a.docx') 
doc.SaveAs('H:\\a.pdf', 17) #17对应于下表中的pdf文件
doc.SaveAs('H:\\a.txt', 2)  #2对应于下表中的txt文件
doc.Close() 
word.Quit()

PDF转TXT

# -*- coding: utf-8 -*- 
from pdfminer.pdfparser import PDFParser  
from pdfminer.pdfdocument import PDFDocument  
from pdfminer.pdfpage import PDFPage  
from pdfminer.pdfpage import PDFTextExtractionNotAllowed  
from pdfminer.pdfinterp 
  相关解决方案