© 1999-2048 dssz.net 粤ICP备11031372号
[其它] wikiextractor:从Wikipedia转储中提取纯文本的工具-源码
说明:WikiExtractor 是一个Python脚本,可从中提取和清除文本。 该工具是用Python编写的,不需要Python 3,但没有其他库。 警告:由于Windows上的Python实现对StringIO支持不佳, StringIO在Windows上已报告问题。 有关更多信息,请参见 。 维基百科卷云提取器 cirrus-extractor.py是从Wikipedia Cirrus转储执行提取的脚本版本。 Cirrus转储包含带有已扩展模板的文本。 Cirrus转储位于: 。 细节<weixin_42101384> 上传 | 大小:47kb