是否可以直接删除pixiv小说爬取内容中[newpage]和[chapter:]部分呢 #124

Volta-XTY · 2024-10-12T09:38:07Z

似乎相当多pixiv小说内容里都有大量的[newpage]和[chapter:]，如下图所示：

这些多余部分主要会影响Sakura翻译器，造成行数不匹配进而进入逐行翻译：

上面的就是[newpage]无法被翻译器原样输出的例子。
进入逐行翻译以后，翻译器的效率剧烈下降，过滤掉这些字段或许有帮助。

FishHawk · 2024-10-13T07:47:46Z

我的行动点数有点跟不上网站维护了，得等等

Volta-XTY · 2024-10-15T11:58:15Z

/web/src/domain/translate/TranslateWeb.ts 里面似乎有对原文预处理的代码：

那么是不是可以姑且多加两个匹配规则作预处理呢：/\[newpage\]/ /\[chapter:[^\]]*\]/ 匹配到直接替换成空字符串。

FishHawk · 2024-10-16T14:00:08Z

那个是目录翻译处理，爬虫在后端。实在等不及可以提pr，爬虫这块不搭数据库也能测，用kotest就行。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

是否可以直接删除pixiv小说爬取内容中[newpage]和[chapter:]部分呢 #124

是否可以直接删除pixiv小说爬取内容中[newpage]和[chapter:]部分呢 #124

Volta-XTY commented Oct 12, 2024

FishHawk commented Oct 13, 2024

Volta-XTY commented Oct 15, 2024 •

edited

Loading

FishHawk commented Oct 16, 2024

是否可以直接删除pixiv小说爬取内容中[newpage]和[chapter:]部分呢 #124

是否可以直接删除pixiv小说爬取内容中[newpage]和[chapter:]部分呢 #124

Comments

Volta-XTY commented Oct 12, 2024

FishHawk commented Oct 13, 2024

Volta-XTY commented Oct 15, 2024 • edited Loading

FishHawk commented Oct 16, 2024

Volta-XTY commented Oct 15, 2024 •

edited

Loading