Blockの位置情報取得について #7

pchikupark · 2022-01-06T08:01:24Z

素晴らしいOCRの公開ありがとうございます。
質問させていただきたいことがございます。

行を示す緑色のBoundingBox（Block）のxとyを出力することは可能でしょうか？
文字毎の位置情報はjsonの"box"で出力されていることを確認しました。

tanreinama · 2022-01-06T08:21:49Z

緑色のBoundingBoxは、jsonの「bbox」の中にある「box」の左上座標の最小値と右下座標の最大値となります。

pchikupark · 2022-01-07T07:16:43Z

ご連絡ありがとうございます。
取得方法について承知しました。

若干表題からそれた内容で恐縮ですが、同じ文字でも判定がうまくいく場合といかない場合があります。
Block（行情報）を認識させたいのですが、読み込ませる画像側の処置でノウハウ等がございましたらご教示いただけませんでしょうか？
当方で試行した状況ですと、文字間隔を開けると精度が上がることを確認しました（2枚目、3枚目）。

tanreinama · 2022-01-08T03:35:11Z

そもそも行数とブロック数は別物の扱いでOCRしています
ブロックは、単一の行として認識するのではなく、複数の行からなることも可能な、ひとまとまりの文です
なので、行と行の間が開いていないと、1行＝1ブロックとはなりません

これは公開モデルが、縦書き横書き両対応であるためなので、モデルのファインチューニングを視野に入れてください

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Blockの位置情報取得について #7

Blockの位置情報取得について #7

pchikupark commented Jan 6, 2022

tanreinama commented Jan 6, 2022

pchikupark commented Jan 7, 2022 •

edited

Loading

tanreinama commented Jan 8, 2022

Blockの位置情報取得について #7

Blockの位置情報取得について #7

Comments

pchikupark commented Jan 6, 2022

tanreinama commented Jan 6, 2022

pchikupark commented Jan 7, 2022 • edited Loading

tanreinama commented Jan 8, 2022

pchikupark commented Jan 7, 2022 •

edited

Loading