Skip to content

xmumcmp/Phase1-file_for_extracting

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

#start各阶段:

  1. fwork.py
  2. checker.py
  3. swork.py
  4. open.py #操作说明 ##预处理 首先用renamer把文件名中的空格去掉……不去掉转txt的时候会出问题。

然后是用winDecrypt.exe去掉加密。

最后用批处理+xpdf把pdf转成txt。(注意xpdf要加一些编码包才可保证顺利转换,我加了简中,繁中,韩语和日语) ##操作 将ver1下5个py文件放在一起,并在同目录下新建'err''errlog''input''output'四个文件夹。

将文件(txt)放入input中,运行start.py即可(注意使用python3)

#大概思路

##第一步 对txt 我们第一步用fwork处理 fwork的工作原理是打开txt后搜索第一个“董事会报告”(假设目录前面没有关键词) 然后对这个董事会报告,我们向后搜索最多五行,看看下一个是监事会报告还是重要事项并记录 然后往后搜索董事会报告并以之开头,直到之前记录的下一个关键词为止。 唯一会抛出的error就是在完成工作前读完文本,即关键字不足的情况。 通过对每行字数的限制也可以排除一些无关关键词

##第二步 我们用checker检查一下,checker工作原理与fwork相似,但是不写入output,相反它会读完整个程序并进行关键词的计数,对关键词数不匹配需求的抛出error。 第二步得到的error名单应该是包含第一步的名单的。我们把第二步唯一的叫做err+,其他的叫做err-

##第三步 我们用swork处理,依然沿用之前的流程,不过将处理对象限制为err+,处理方式为人工加机器,即假设目录部分无误,对后面的出现的关键词所在的行输出并人工判断,从而达到筛选关键词的目的。

##第四步 对于一些读取出来出问题的文件,我们只好用人工了,使用open自动打开txt,算是多多少少减轻一点工作量。 #作者 唐瀚林(FSOL/sinnfashen)

联系邮箱:[email protected]

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages