Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Blockの位置情報取得について #7

Open
pchikupark opened this issue Jan 6, 2022 · 3 comments
Open

Blockの位置情報取得について #7

pchikupark opened this issue Jan 6, 2022 · 3 comments

Comments

@pchikupark
Copy link

素晴らしいOCRの公開ありがとうございます。
質問させていただきたいことがございます。

行を示す緑色のBoundingBox(Block)のxとyを出力することは可能でしょうか?
文字毎の位置情報はjsonの"box"で出力されていることを確認しました。

@tanreinama
Copy link
Owner

緑色のBoundingBoxは、jsonの「bbox」の中にある「box」の左上座標の最小値と右下座標の最大値となります。

@pchikupark
Copy link
Author

pchikupark commented Jan 7, 2022

ご連絡ありがとうございます。
取得方法について承知しました。

若干表題からそれた内容で恐縮ですが、同じ文字でも判定がうまくいく場合といかない場合があります。
Block(行情報)を認識させたいのですが、読み込ませる画像側の処置でノウハウ等がございましたらご教示いただけませんでしょうか?
当方で試行した状況ですと、文字間隔を開けると精度が上がることを確認しました(2枚目、3枚目)。
test jpg-detections
2022-01-06_16h40_07 png-detections
2022-01-06_16h42_17 png-detections

@tanreinama
Copy link
Owner

そもそも行数とブロック数は別物の扱いでOCRしています
ブロックは、単一の行として認識するのではなく、複数の行からなることも可能な、ひとまとまりの文です
なので、行と行の間が開いていないと、1行=1ブロックとはなりません

これは公開モデルが、縦書き横書き両対応であるためなので、モデルのファインチューニングを視野に入れてください

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants