当前位置: 代码迷 >> python >> 基于Python的文档元数据解析器?
  详细解决方案

基于Python的文档元数据解析器?

热度:76   发布时间:2023-07-14 09:52:59.0

对于像unix这样的系统,有没有人知道python中文档元数据的好解析器。 在Java中, 很棒。

没有...请:)

谢谢

您不必使用Jython来使用Tika。 您可以使用从Python调用Java。 你可以找到合适的说明。

安装JCC时,您必须使用两个为setuptools提供的补丁之一,因此它可以构建共享对象。 c7版本在Ubuntu 10.04上为我工作。

另一种选择是使用python子进程模块来调用和捕获Tika的stdout。

如果你喜欢tika,你可以随时使用这样你就可以直接引用tika了。

蒂卡似乎是一个很好的选择。 它是我发现的唯一工具(除了服务器模式下的OpenOffice),它支持旧式XLS文件。 我已经完成了一些工作,可以更轻松地将Tika集成到Python项目中,您可以在找到 。

hachoir_metadata与excel文档配合得很好