#start各阶段:
- fwork.py
- checker.py
- swork.py
- open.py #操作说明 ##预处理 首先用renamer把文件名中的空格去掉……不去掉转txt的时候会出问题。
然后是用winDecrypt.exe去掉加密。
最后用批处理+xpdf把pdf转成txt。(注意xpdf要加一些编码包才可保证顺利转换,我加了简中,繁中,韩语和日语) ##操作 将ver1下5个py文件放在一起,并在同目录下新建'err''errlog''input''output'四个文件夹。
将文件(txt)放入input中,运行start.py即可(注意使用python3)
#大概思路
##第一步 对txt 我们第一步用fwork处理 fwork的工作原理是打开txt后搜索第一个“董事会报告”(假设目录前面没有关键词) 然后对这个董事会报告,我们向后搜索最多五行,看看下一个是监事会报告还是重要事项并记录 然后往后搜索董事会报告并以之开头,直到之前记录的下一个关键词为止。 唯一会抛出的error就是在完成工作前读完文本,即关键字不足的情况。 通过对每行字数的限制也可以排除一些无关关键词
##第二步 我们用checker检查一下,checker工作原理与fwork相似,但是不写入output,相反它会读完整个程序并进行关键词的计数,对关键词数不匹配需求的抛出error。 第二步得到的error名单应该是包含第一步的名单的。我们把第二步唯一的叫做err+,其他的叫做err-
##第三步 我们用swork处理,依然沿用之前的流程,不过将处理对象限制为err+,处理方式为人工加机器,即假设目录部分无误,对后面的出现的关键词所在的行输出并人工判断,从而达到筛选关键词的目的。
##第四步 对于一些读取出来出问题的文件,我们只好用人工了,使用open自动打开txt,算是多多少少减轻一点工作量。 #作者 唐瀚林(FSOL/sinnfashen)
联系邮箱:[email protected]