GitHub - xmumcmp/Phase1-file_for_extracting

#start各阶段：

fwork.py
checker.py
swork.py
open.py #操作说明 ##预处理首先用renamer把文件名中的空格去掉……不去掉转txt的时候会出问题。

然后是用winDecrypt.exe去掉加密。

最后用批处理+xpdf把pdf转成txt。（注意xpdf要加一些编码包才可保证顺利转换，我加了简中，繁中，韩语和日语） ##操作将ver1下5个py文件放在一起，并在同目录下新建'err''errlog''input''output'四个文件夹。

将文件（txt）放入input中，运行start.py即可（注意使用python3）

#大概思路

##第一步对txt 我们第一步用fwork处理 fwork的工作原理是打开txt后搜索第一个“董事会报告”（假设目录前面没有关键词）然后对这个董事会报告，我们向后搜索最多五行，看看下一个是监事会报告还是重要事项并记录然后往后搜索董事会报告并以之开头，直到之前记录的下一个关键词为止。唯一会抛出的error就是在完成工作前读完文本，即关键字不足的情况。通过对每行字数的限制也可以排除一些无关关键词

##第二步我们用checker检查一下，checker工作原理与fwork相似，但是不写入output，相反它会读完整个程序并进行关键词的计数，对关键词数不匹配需求的抛出error。第二步得到的error名单应该是包含第一步的名单的。我们把第二步唯一的叫做err+，其他的叫做err-

##第三步我们用swork处理，依然沿用之前的流程，不过将处理对象限制为err+，处理方式为人工加机器，即假设目录部分无误，对后面的出现的关键词所在的行输出并人工判断，从而达到筛选关键词的目的。

##第四步对于一些读取出来出问题的文件，我们只好用人工了，使用open自动打开txt，算是多多少少减轻一点工作量。 #作者唐瀚林(FSOL/sinnfashen)

联系邮箱：[email protected]

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
tools		tools
ver1		ver1
ver2_notfinish		ver2_notfinish
README.md		README.md
新建文本文档.md		新建文本文档.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

About

Releases

Packages

Languages

xmumcmp/Phase1-file_for_extracting

Folders and files

Latest commit

History

Repository files navigation

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages