问题描述
对于像unix这样的系统,有没有人知道python中文档元数据的好解析器。 在Java中, 很棒。
没有...请:)
谢谢
1楼
您不必使用Jython来使用Tika。 您可以使用从Python调用Java。 你可以找到合适的说明。
安装JCC时,您必须使用两个为setuptools提供的补丁之一,因此它可以构建共享对象。 c7版本在Ubuntu 10.04上为我工作。
另一种选择是使用python子进程模块来调用和捕获Tika的stdout。
2楼
如果你喜欢tika,你可以随时使用这样你就可以直接引用tika了。
3楼
蒂卡似乎是一个很好的选择。 它是我发现的唯一工具(除了服务器模式下的OpenOffice),它支持旧式XLS文件。 我已经完成了一些工作,可以更轻松地将Tika集成到Python项目中,您可以在找到 。
4楼
hachoir_metadata与excel文档配合得很好