在线使用(GitHub) | 在线使用(Gitee) | uTools插件(@swjqq)
😣在复制PDF中的文字时,有时会出现莫名其妙的空格、换行、全角字符或乱码。
😫如果手动删改,工作量巨大;如果直接全文替换,可能会误删英文单词间的空格。
💡开发这个项目正是为了解决这些问题。
🚩如何使用?可直接在线使用后点击"使用说明",或前往B站查看视频介绍。
✍如果您在电脑上在线使用,在输入英文时,将为您检查语法 (基于Grammarly)。
😭Grammarly的开发者接口已于2024年1月10日废弃,目前该功能已无法使用,详情可见其官网公告。
- 删除引用角标,如: [1], [2, 3], [4-7], (1), (2, 3), (4-7)...
- 全角字符转半角字符
- 批量替换字符
- 汉字繁简转换
- 中英文标点转换
- ······
出现的若是空格的话,直接替换会误删英文单词中的空格;因此需要用到正则表达式来替换,有较高门槛。
仅粘贴文本、复制到记事本是去除格式,但并不能去除空行空格乱码这样的干扰内容,因为这些是"内容"而不是"格式"。
浏览器地址栏本质上是一个单行无格式输入框,确实可以去除换行符,但并不能处理空格、乱码和全角字符。
有条件复制粘贴的话还是不太建议用OCR,识别不准确的话会产生新的麻烦。
不考虑。若需PDF翻译功能,建议使用知云文献。
空行素材来自Acrobat,空格素材来自Zotero,乱码素材来源于CAJViewer,全角字符素材来自知云文献,重复换行素材来源于Typora。
😉为方便看代码的朋友,我把文本处理的方法都单独整理成了一个文件,并写了注释、规范了接口:
// handlers.ts
export interface TextHandler {
activate: boolean, // 默认是否启用
description: string, // 对该功能的描述
executor: (text: string) => string // 功能函数
}
😄若您有好的想法,可以在以上内容的基础上修改。欢迎在GitHub仓库上发起 pull request
😊
🥳若您觉得本项目还不错,可以在页面右上角为本项目点上一颗⭐~