diff --git a/_posts/study/2023-10-11-Deep Text Recognition.md b/_posts/study/2023-10-11-Deep Text Recognition.md index c4814cf4d024..11e44d281c60 100644 --- a/_posts/study/2023-10-11-Deep Text Recognition.md +++ b/_posts/study/2023-10-11-Deep Text Recognition.md @@ -1,13 +1,12 @@ --- layout: single -title: "Deep Text Recognition: What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis" +title: "What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis" permalink: /studies/paper/Deep Text Recognition tags: [Paper, Vision AI] categories: - ๐Ÿ“„ paper use_math: true date: 2023-10-11 -published: false --- *์ตœ๊ทผ ๋ช‡ ๋…„ ๋™์•ˆ Scene Text Recognition(STR) ๋ชจ๋ธ์— ๋Œ€ํ•œ ๋งŽ์€ ์ƒˆ๋กœ์šด ์ œ์•ˆ์ด ๋„์ž…๋˜์—ˆ๋‹ค. ๊ธฐ์กด ์—ฐ๊ตฌ๋“ค์€ ๊ธฐ์ˆ ์˜ ๊ฒฝ๊ณ„๋ฅผ ๋„“ํ˜”๋‹ค๊ณ  ์ฃผ์žฅํ•˜์ง€๋งŒ, ํ•™์Šต ๋ฐ ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์…‹์˜ ์ผ๊ด€์„ฑ ์—†๋Š” ์„ ํƒ์œผ๋กœ ์ธํ•ด ์ „์ฒด์ ์ด๊ณ  ๊ณต์ •ํ•œ ๋น„๊ต๊ฐ€ ๋Œ€๋ถ€๋ถ„ ๋ˆ„๋ฝ๋˜์—ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์€ ์„ธ ๊ฐ€์ง€ ์ฃผ์š” ๊ธฐ์—ฌ๋ฅผ ํ†ตํ•ด ์ด ์–ด๋ ค์›€์„ ํ•ด๊ฒฐํ•œ๋‹ค. ์ฒซ์งธ, ํ•™์Šต ๋ฐ ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์…‹์˜ ๋ถˆ์ผ์น˜์™€ ๋ถˆ์ผ์น˜๋กœ ์ธํ•œ ์„ฑ๋Šฅ ๊ฒฉ์ฐจ๋ฅผ ๊ฒ€ํ† ํ•œ๋‹ค. ๋‘˜์งธ, ๋Œ€๋ถ€๋ถ„์˜ ๊ธฐ์กด STR ๋ชจ๋ธ์— ๋งž์ถฐ์งˆ ์ˆ˜ ์žˆ๋Š” ํ†ตํ•ฉ๋œ ๋„ค ๋‹จ๊ณ„ STR ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์†Œ๊ฐœํ•œ๋‹ค. ์ด ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ์ด์ „์— ์ œ์•ˆ๋œ STR ๋ชจ๋“ˆ์˜ ๊ด‘๋ฒ”์œ„ํ•œ ํ‰๊ฐ€์™€ ์ด์ „์— ํƒ์ƒ‰๋˜์ง€ ์•Š์€ ๋ชจ๋“ˆ ์กฐํ•ฉ์˜ ๋ฐœ๊ฒฌ์ด ๊ฐ€๋Šฅํ•˜๋‹ค. ์…‹์งธ, ํ•˜๋‚˜์˜ ์ผ๊ด€๋œ ํ•™์Šต ๋ฐ ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์…‹ ์„ธํŠธ์—์„œ ์ •ํ™•๋„, ์†๋„ ๋ฐ ๋ฉ”๋ชจ๋ฆฌ ์š”๊ตฌ ์‚ฌํ•ญ ์ธก๋ฉด์—์„œ ๋ชจ๋“ˆ๋ณ„ ๊ธฐ์—ฌ๋„๋ฅผ ๋ถ„์„ํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ๋ถ„์„์€ ํ˜„์žฌ์˜ ๋น„๊ต์—์„œ ์ดํ•ดํ•˜๊ธฐ ์–ด๋ ค์šด ๊ธฐ์กด ๋ชจ๋“ˆ์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ๋Œ€ํ•œ ์žฅ์• ๋ฅผ ํ•ด๊ฒฐํ•œ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์˜ ์ฝ”๋“œ๋Š” [์ด ๋งํฌ](https://github.com/clovaai/deep-text-recognition-benchmark){:target="_blank"}์—์„œ ๊ณต๊ฐœ์ ์œผ๋กœ ์ด์šฉ ๊ฐ€๋Šฅํ•˜๋‹ค.* @@ -68,7 +67,7 @@ published: false - **IIIT5K-Words (IIIT):** Google ์ด๋ฏธ์ง€ ๊ฒ€์ƒ‰์—์„œ ํฌ๋กค๋งํ•œ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ 2,000๊ฐœ ํ•™์Šต ์ด๋ฏธ์ง€์™€ 3,000๊ฐœ ํ‰๊ฐ€ ์ด๋ฏธ์ง€๋ฅผ ํฌํ•จํ•œ๋‹ค. - **Street View Text (SVT):** Google Street View์—์„œ ์ˆ˜์ง‘๋œ ์•ผ์™ธ ๊ฑฐ๋ฆฌ ์ด๋ฏธ์ง€๋กœ 257๊ฐœ ํ•™์Šต ์ด๋ฏธ์ง€์™€ 647๊ฐœ ํ‰๊ฐ€ ์ด๋ฏธ์ง€๋ฅผ ํฌํ•จํ•œ๋‹ค. - **ICDAR2003 (IC03):** ์นด๋ฉ”๋ผ๋กœ ์ดฌ์˜๋œ ์žฅ๋ฉด ํ…์ŠคํŠธ๋ฅผ ์ฝ๊ธฐ ์œ„ํ•œ ICDAR 2003 Robust Reading ๊ฒฝ์Ÿ์„ ์œ„ํ•ด ์ƒ์„ฑ๋˜์—ˆ๋‹ค. 1,156๊ฐœ์˜ ํ•™์Šต ์ด๋ฏธ์ง€์™€ 1,110๊ฐœ์˜ ํ‰๊ฐ€ ์ด๋ฏธ์ง€๋ฅผ ํฌํ•จํ•œ๋‹ค.(๋น„์•ŒํŒŒ๋ฒณ ๋ฌธ์ž ๋˜๋Š” 3์ž ๋ฏธ๋งŒ ๋‹จ์–ด ์ œ์™ธ ์‹œ 867๊ฐœ) - - **ICDAR2013 (IC13):** IC03์˜ ๋Œ€๋ถ€๋ถ„ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์†๋ฐ›๊ณ  ICDAR 2013 Robust Reading ๊ฒฝ์Ÿ์„ ์œ„ํ•ด ์ƒ์„ฑ๋˜์—ˆ๋‹ค. 848๊ฐœ์˜ ํ›ˆ๋ จ ์ด๋ฏธ์ง€์™€ 1,095๊ฐœ์˜ ํ‰๊ฐ€ ์ด๋ฏธ์ง€๋ฅผ ํฌํ•จํ•œ๋‹ค. (๋น„์•ŒํŒŒ๋ฒณ ๋ฌธ์ž๋ฅผ ํฌํ•จํ•œ ๋‹จ์–ด ์ œ์™ธ ์‹œ 1,015๊ฐœ) + - **ICDAR2013 (IC13):** IC03์˜ ๋Œ€๋ถ€๋ถ„ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์†๋ฐ›๊ณ  ICDAR 2013 Robust Reading ๊ฒฝ์Ÿ์„ ์œ„ํ•ด ์ƒ์„ฑ๋˜์—ˆ๋‹ค. 848๊ฐœ์˜ ํ•™์Šต ์ด๋ฏธ์ง€์™€ 1,095๊ฐœ์˜ ํ‰๊ฐ€ ์ด๋ฏธ์ง€๋ฅผ ํฌํ•จํ•œ๋‹ค. (๋น„์•ŒํŒŒ๋ฒณ ๋ฌธ์ž๋ฅผ ํฌํ•จํ•œ ๋‹จ์–ด ์ œ์™ธ ์‹œ 1,015๊ฐœ) - **๋น„์ •๊ทœ ๋ฐ์ดํ„ฐ์…‹(irregular datasets):** ๊ณก์„ ์ด ์žˆ๋Š” ํ…์ŠคํŠธ, ์ž„์˜๋กœ ํšŒ์ „๋˜๊ฑฐ๋‚˜ ์™œ๊ณก๋œ ํ…์ŠคํŠธ์™€ ๊ฐ™์€ STR์˜ ์–ด๋ ค์šด ์ฝ”๋„ˆ ์ผ€์ด์Šค๋ฅผ ์ผ๋ฐ˜์ ์œผ๋กœ ํฌํ•จํ•œ๋‹ค. - **ICDAR2015 (IC15):** ICDAR 2015 Robust Reading ๊ฒฝ์Ÿ์„ ์œ„ํ•ด ์ƒ์„ฑ๋˜์—ˆ๋‹ค. Google Glass๋ฅผ ํ†ตํ•ด ์บก์ฒ˜๋œ 4,468๊ฐœ์˜ ํ•™์Šต ์ด๋ฏธ์ง€์™€ 2,077๊ฐœ์˜ ํ‰๊ฐ€ ์ด๋ฏธ์ง€๋ฅผ ํฌํ•จํ•œ๋‹ค. ๋งŽ์€ ์ด๋ฏธ์ง€๊ฐ€ ๋…ธ์ด์ฆˆ๊ฐ€ ๋งŽ๊ณ , ํ๋ฆฌ๋ฉฐ, ํšŒ์ „๋˜์—ˆ๊ณ , ์ผ๋ถ€๋Š” ํ•ด์ƒ๋„๊ฐ€ ๋‚ฎ๋‹ค. ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ๋˜ ๋‹ค๋ฅธ ๋ฒ„์ „์€ 1,811๊ฐœ์™€ 2,077๊ฐœ ์ด๋ฏธ์ง€๋ฅผ ํฌํ•จํ•˜๊ณ  ์žˆ์œผ๋ฉฐ,๋น„์•ŒํŒŒ๋ฒณ ๋ฌธ์ž ์ด๋ฏธ์ง€์™€ ์ผ๋ถ€ ๊ทน๋„๋กœ ํšŒ์ „๋˜๊ณ  ๊ด€์ ์ด ๋ณ€๊ฒฝ๋˜๋ฉฐ ๊ณก์„ ์ด ์žˆ๋Š” ์ด๋ฏธ์ง€๋ฅผ ์ œ์™ธํ•˜๊ณ  1,811๊ฐœ์˜ ์ด๋ฏธ์ง€๋งŒ ์‚ฌ์šฉํ–ˆ๋‹ค. - **SVT Perspective (SP):** Google Street View์—์„œ ์ˆ˜์ง‘๋œ 645๊ฐœ์˜ ํ‰๊ฐ€ ์ด๋ฏธ์ง€๋ฅผ ํฌํ•จํ•œ๋‹ค. ๋งŽ์€ ์ด๋ฏธ์ง€๊ฐ€ ๋น„์ •๋ฉด ์‹œ์ ์œผ๋กœ ์ธํ•œ ๊ด€์  ํˆฌ์˜์„ ํฌํ•จํ•œ๋‹ค. @@ -134,77 +133,101 @@ published: false ## 4. Experiment and Analysis ### 4.1. Implementation detail -- ํ•™์Šต ๋ฐ ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์…‹์˜ ์ค‘์š”์„ฑ: ํ•™์Šต, ๊ฒ€์ฆ, ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์…‹์˜ ์„ ํƒ์€ STR ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ ์ธก์ •์— ํฐ ์˜ํ–ฅ์„ ๋ฏธ์นฉ๋‹ˆ๋‹ค. -- STR ํ•™์Šต ๋ฐ ๋ชจ๋ธ ์„ ํƒ: - - ํ•™์Šต ๋ฐ์ดํ„ฐ: MJSynth 8.9M๊ณผ SynthText 5.5M(์ด 14.4M). - - ์˜ตํ‹ฐ๋งˆ์ด์ €: AdaDelta, ๊ฐ์‡ ์œจ 0.95. - - ํ•™์Šต ๋ฐฐ์น˜ ํฌ๊ธฐ: 192, ๋ฐ˜๋ณต ํšŸ์ˆ˜: 300K. - - ๊ฒฝ์‚ฌ ํด๋ฆฌํ•‘: ํฌ๊ธฐ 5์—์„œ ์‚ฌ์šฉ. - - ํŒŒ๋ผ๋ฏธํ„ฐ ์ดˆ๊ธฐํ™”: He์˜ ๋ฐฉ๋ฒ•. - - ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ: IC13, IC15, IIIT, SVT์˜ ํ•™์Šต ์„ธํŠธ ํ•ฉ์ง‘ํ•ฉ. - - ๋ชจ๋ธ ๊ฒ€์ฆ: 2000 ํ•™์Šต ์Šคํ…๋งˆ๋‹ค ์‹คํ–‰, ๊ฐ€์žฅ ๋†’์€ ์ •ํ™•๋„ ๋ชจ๋ธ ์„ ํƒ. - - IC03 ๋ฐ์ดํ„ฐ๋Š” ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์…‹๊ณผ์˜ ์ค‘๋ณต์„ ํ”ผํ•˜๊ธฐ ์œ„ํ•ด ์ œ์™ธ. -- ํ‰๊ฐ€ ๋ฉ”ํŠธ๋ฆญ: - - ์ •ํ™•๋„: 9๊ฐœ ์‹ค์„ธ๊ณ„ ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์…‹ ๋ฐ ํ†ตํ•ฉ ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์…‹(์ด 8,539๊ฐœ ์ด๋ฏธ์ง€)์—์„œ ์ด๋ฏธ์ง€ ๋‹น ๋‹จ์–ด ์˜ˆ์ธก ์„ฑ๊ณต๋ฅ  ์ธก์ •. - - ์†๋„: ์ฃผ์–ด์ง„ ํ…์ŠคํŠธ๋ฅผ ์ธ์‹ํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ ํ‰๊ท  ํด๋Ÿญ ์‹œ๊ฐ„(๋ฐ€๋ฆฌ์ดˆ ๋‹จ์œ„) ์ธก์ •. - - ๋ฉ”๋ชจ๋ฆฌ: ์ „์ฒด STR ํŒŒ์ดํ”„๋ผ์ธ์—์„œ ํ•™์Šต ๊ฐ€๋Šฅํ•œ ๋ถ€๋™ ์†Œ์ˆ˜์  ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜ ๊ณ„์‚ฐ. -- ์‹คํ—˜ ํ™˜๊ฒฝ: - - Intel Xeon(R) E5-2630 v4 2.20GHz CPU, NVIDIA TESLA P40 GPU, 252GB RAM. - - ๋ชจ๋“  ์‹คํ—˜์€ NAVER Smart Machine Learning (NSML) ํ”Œ๋žซํผ์—์„œ ์ˆ˜ํ–‰๋จ. +- ํ•™์Šต, ๊ฒ€์ฆ, ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์…‹์˜ ์„ ํƒ์€ STR ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ ์ธก์ •์— ํฐ ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค. +- ๊ณต์ •ํ•œ ๋น„๊ต๋ฅผ ์œ„ํ•ด ํ•™์Šต, ๊ฒ€์ฆ, ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์…‹์˜ ์„ ํƒ์„ ๊ณ ์ •ํ•ด์•ผ ํ•œ๋‹ค. +- **STR training and model selection** + - ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์€ MJSynth 8.9M๊ณผ SynthText 5.5M์œผ๋กœ ์ด 14.4M ์‚ฌ์šฉํ•œ๋‹ค. + - ์˜ตํ‹ฐ๋งˆ์ด์ €๋Š” AdaDelta๋ฅผ ์‚ฌ์šฉํ•˜๋ฉฐ, decay rate๋Š” 0.95๋กœ ์„ค์ •ํ•œ๋‹ค. + - ํ•™์Šต ๋ฐฐ์น˜ ํฌ๊ธฐ๋Š” 192์ด๋ฉฐ, ๋ฐ˜๋ณต ํšŸ์ˆ˜๋Š” 300K์ด๋‹ค. + - ๊ทธ๋ž˜๋””์–ธํŠธ ํด๋ฆฌํ•‘์˜ ํฌ๊ธฐ๋Š” 5์—์„œ ์‚ฌ์šฉ๋œ๋‹ค. + - ๋ชจ๋“  ํŒŒ๋ผ๋ฏธํ„ฐ He์˜ ๋ฐฉ๋ฒ•์œผ๋กœ ์ดˆ๊ธฐํ™”ํ•œ๋‹ค. + - ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ๋กœ IC13, IC15, IIIT, SVT์˜ ํ•™์Šต ์„ธํŠธ์˜ ํ•ฉ์ง‘ํ•ฉ์„ ์‚ฌ์šฉํ•œ๋‹ค. + - ๋ชจ๋ธ์„ 2,000 ํ•™์Šต ์Šคํ…๋งˆ๋‹ค ๊ฒ€์ฆํ•˜์—ฌ ๊ฐ€์žฅ ๋†’์€ ์ •ํ™•๋„ ๋ชจ๋ธ์„ ์„ ํƒํ•œ๋‹ค. + - IC03 ๋ฐ์ดํ„ฐ๋Š” ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์…‹๊ณผ์˜ ์ค‘๋ณต์„ ํ”ผํ•˜๊ธฐ ์œ„ํ•ด ์ œ์™ธํ•œ๋‹ค. +- **Evaluation metrics** + - ์ •ํ™•๋„, ์‹œ๊ฐ„, ๋ฉ”๋ชจ๋ฆฌ ์ธก๋ฉด์—์„œ STR ์กฐํ•ฉ์— ๋Œ€ํ•œ ์ฒ ์ €ํ•œ ๋ถ„์„์„ ์ œ๊ณตํ•œ๋‹ค. + - ์ •ํ™•๋„๋Š” ์ด๋ฏธ์ง€ ๋‹น ๋‹จ์–ด ์˜ˆ์ธก์˜ ์„ฑ๊ณต๋ฅ ์„ 9๊ฐœ ์‹ค์ œ ์„ธ๊ณ„ ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์…‹(์ด 8,539 ์ด๋ฏธ์ง€)์—์„œ ์ธก์ •ํ•œ๋‹ค. + - ์†๋„ ํ‰๊ฐ€๋Š” ๋™์ผํ•œ ์ปดํ“จํŒ… ํ™˜๊ฒฝ์—์„œ ์ฃผ์–ด์ง„ ํ…์ŠคํŠธ๋ฅผ ์ธ์‹ํ•˜๋Š” ๋ฐ ๊ฑธ๋ฆฌ๋Š” ํ‰๊ท  ํด๋Ÿญ ์‹œ๊ฐ„(๋ฐ€๋ฆฌ์ดˆ ๋‹จ์œ„)์„ ์ธก์ •ํ•œ๋‹ค. + - ๋ฉ”๋ชจ๋ฆฌ ํ‰๊ฐ€๋Š” ์ „์ฒด STR ํŒŒ์ดํ”„๋ผ์ธ์—์„œ ํ•™์Šต ๊ฐ€๋Šฅํ•œ ๋ถ€๋™ ์†Œ์ˆ˜์  ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ์ˆ˜๋ฅผ ๊ณ„์‚ฐํ•œ๋‹ค. +- **Environment** + - Intel Xeon(R) E5-2630 v4 2.20GHz CPU, NVIDIA TESLA P40 GPU, 252GB RAM ํ™˜๊ฒฝ์—์„œ ์ˆ˜ํ–‰ํ•œ๋‹ค. + - ๋ชจ๋“  ์‹คํ—˜์€ NAVER Smart Machine Learning (NSML) ํ”Œ๋žซํผ์—์„œ ์ˆ˜ํ–‰๋œ๋‹ค. ### 4.2. Analysis on training datasets -- ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์˜ ์„ ํƒ์ด ์„ฑ๋Šฅ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ: ๋‹ค์–‘ํ•œ ๊ทธ๋ฃน์˜ ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹ ์‚ฌ์šฉ์ด ๋ฒค์น˜๋งˆํฌ์—์„œ์˜ ์„ฑ๋Šฅ์— ํฐ ์˜ํ–ฅ์„ ๋ฏธ์นฉ๋‹ˆ๋‹ค. -- ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•œ ์‹คํ—˜ ๊ฒฐ๊ณผ: - - MJSynth๋งŒ ์‚ฌ์šฉํ–ˆ์„ ๋•Œ: 80.0% ์ด ์ •ํ™•๋„. - - SynthText๋งŒ ์‚ฌ์šฉํ–ˆ์„ ๋•Œ: 75.6% ์ •ํ™•๋„. - - MJSynth์™€ SynthText ๋‘˜ ๋‹ค ์‚ฌ์šฉํ–ˆ์„ ๋•Œ: 84.1% ์ •ํ™•๋„. -- ๋ฐ์ดํ„ฐ์…‹์˜ ๊ฒฐํ•ฉ์ด ์ •ํ™•๋„ ํ–ฅ์ƒ์— ๊ธฐ์—ฌ: MJSynth์™€ SynthText์˜ ๊ฒฐํ•ฉ์€ ๊ฐœ๋ณ„ ์‚ฌ์šฉ๋ณด๋‹ค 4.1% ์ด์ƒ ์ •ํ™•๋„๋ฅผ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค. -- ๋‹ค์–‘ํ•œ ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹ ์‚ฌ์šฉ์˜ ๋ณต์žก์„ฑ ์ธ์‹: ๋‹ค๋ฅธ ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹ ์‚ฌ์šฉ ๊ฒฐ๊ณผ์˜ ์„ฑ๋Šฅ ๋น„๊ต๋Š” ๋ถˆ๊ฐ€๋Šฅํ•˜๋ฉฐ, ๋ชจ๋ธ์˜ ๊ธฐ์—ฌ๋ฅผ ์ž…์ฆํ•˜๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. -- ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ๋‹ค์–‘์„ฑ์˜ ์ค‘์š”์„ฑ: MJSynth์˜ 20%์™€ SynthText์˜ 20%๋ฅผ ํ•จ๊ป˜ ํ•™์Šต์‹œํ‚จ ๊ฒฐ๊ณผ, ๊ฐœ๋ณ„ ์‚ฌ์šฉ๋ณด๋‹ค ๋†’์€ ์ •ํ™•๋„(81.3%)๋ฅผ ๋‹ฌ์„ฑํ•˜๋ฉฐ, ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ๋‹ค์–‘์„ฑ์ด ํ•™์Šต ์˜ˆ์ œ์˜ ์ˆ˜๋ณด๋‹ค ์ค‘์š”ํ•  ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค. +- ๋‹ค์–‘ํ•œ ๊ทธ๋ฃน์˜ ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹ ์‚ฌ์šฉ์ด ๋ฒค์น˜๋งˆํฌ์—์„œ์˜ ์„ฑ๋Šฅ์— ์–ผ๋งˆ๋‚˜ ํฐ ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š”์ง€ ์กฐ์‚ฌํ•œ๋‹ค. +- ์˜ค์ง MJSynth๋งŒ ์‚ฌ์šฉํ–ˆ์„ ๋•Œ ์ด ์ •ํ™•๋„ 80.0% ๋‹ฌ์„ฑํ•œ๋‹ค. +- ์˜ค์ง SynthText๋งŒ ์‚ฌ์šฉํ–ˆ์„ ๋•Œ 75.6% ๋‹ฌ์„ฑํ•œ๋‹ค. +- MJSynth์™€ SynthText๋ฅผ ํ•จ๊ป˜ ์‚ฌ์šฉํ–ˆ์„ ๋•Œ 84.1% ๋‹ฌ์„ฑํ•œ๋‹ค. +- MJSynth์™€ SynthText์˜ ๊ฒฐํ•ฉ์€ ๊ฐ๊ฐ์„ ๊ฐœ๋ณ„์ ์œผ๋กœ ์‚ฌ์šฉํ–ˆ์„ ๋•Œ๋ณด๋‹ค ์ •ํ™•๋„๋ฅผ 4.1% ์ด์ƒ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค. +- MJSynth์˜ 20% (1.8M)์™€ SynthText์˜ 20% (1.1M)๋ฅผ ํ•จ๊ป˜ ํ•™์Šต์‹œํ‚ฌ ๋•Œ ์ด 2.9M (SynthText์˜ ์ ˆ๋ฐ˜)์„ ์‚ฌ์šฉํ•˜์—ฌ 81.3%์˜ ์ •ํ™•๋„๋ฅผ ๋‹ฌ์„ฑํ•œ๋‹ค. ์ด๋Š” MJSynth๋‚˜ SynthText๋ฅผ ๊ฐœ๋ณ„์ ์œผ๋กœ ์‚ฌ์šฉํ–ˆ์„ ๋•Œ๋ณด๋‹ค ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค. +- MJSynth์™€ SynthText๋Š” ์™œ๊ณก๊ณผ ํ๋ฆผ๊ณผ ๊ฐ™์€ ๋‹ค๋ฅธ ์˜ต์…˜์„ ์‚ฌ์šฉํ•˜์—ฌ ์ƒ์„ฑ๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์— ์„œ๋กœ ๋‹ค๋ฅธ ํŠน์„ฑ์„ ๊ฐ€์ง„๋‹ค. +- ์ด ๊ฒฐ๊ณผ๋Š” ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ๋‹ค์–‘์„ฑ์ด ํ•™์Šต ์˜ˆ์ œ์˜ ์ˆ˜๋ณด๋‹ค ๋” ์ค‘์š”ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋‹ค๋ฅธ ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์˜ ํšจ๊ณผ๊ฐ€ ๋‹จ์ˆœํžˆ '๋” ๋งŽ์€ ๊ฒƒ์ด ๋” ์ข‹๋‹ค'๊ณ  ๊ฒฐ๋ก ์ง“๊ธฐ๋ณด๋‹ค ๋” ๋ณต์žกํ•˜๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ค€๋‹ค. ### 4.3. Analysis of trade-offs for module combinations -- ์ •ํ™•๋„-์†๋„ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„ - - T1๋ถ€ํ„ฐ T5๊นŒ์ง€์˜ ๋ชจ๋“ˆ ์กฐํ•ฉ์€ ์ˆœ์ฐจ์ ์œผ๋กœ ๋‹ค์Œ ๋ชจ๋“ˆ์„ ๋„์ž…ํ•จ์œผ๋กœ์จ ์ •ํ™•๋„๋ฅผ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค: ResNet, BiLSTM, TPS, Attn. - - T1์€ ๋ณ€ํ™˜ ๋˜๋Š” ์ˆœ์ฐจ ๋ชจ๋“ˆ์„ ํฌํ•จํ•˜์ง€ ์•Š์•„ ์ตœ์†Œ ์‹œ๊ฐ„์„ ์†Œ์š”ํ•ฉ๋‹ˆ๋‹ค. - - T5๊นŒ์ง€ ๊ฐ ๋‹จ๊ณ„๋งˆ๋‹ค ๋‹จ์ผ ๋ชจ๋“ˆ์ด ๋ณ€๊ฒฝ๋˜์–ด, ๊ณ„์‚ฐ ํšจ์œจ์„ฑ์˜ ๋น„์šฉ์œผ๋กœ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋ฉ๋‹ˆ๋‹ค. - - ResNet, BiLSTM, TPS๋Š” ๋น„๊ต์  ์ ๋‹นํ•œ ์ „์ฒด ์†๋„ ์ €ํ•˜๋กœ ์ •ํ™•๋„๋ฅผ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค. - - Attn ๋ชจ๋“ˆ์˜ ์ถ”๊ฐ€๋Š” ํšจ์œจ์„ฑ์˜ ํฐ ๋น„์šฉ์œผ๋กœ ์ •ํ™•๋„๋ฅผ ๋‹จ 1.1%๋งŒ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค. -- ์ •ํ™•๋„-๋ฉ”๋ชจ๋ฆฌ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„ - - P1๋ถ€ํ„ฐ P5๊นŒ์ง€์˜ ๋ชจ๋“ˆ ์กฐํ•ฉ์€ ๋ฉ”๋ชจ๋ฆฌ์™€ ์ •ํ™•๋„ ์‚ฌ์ด์˜ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. - - P1์€ ๋ฉ”๋ชจ๋ฆฌ ์†Œ๋น„๊ฐ€ ๊ฐ€์žฅ ์ ์€ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. - - P1์—์„œ P5๋กœ ๊ฐ€๋ฉด์„œ ๋ณ€๊ฒฝ๋œ ๋ชจ๋“ˆ์€ Attn, TPS, BiLSTM, ResNet์ž…๋‹ˆ๋‹ค. - - RCNN์€ VGG์™€ ๋น„๊ตํ•˜์—ฌ ๋” ๊ฐ€๋ณ๊ณ  ์ข‹์€ ์ •ํ™•๋„-๋ฉ”๋ชจ๋ฆฌ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. - - ๋ณ€ํ™˜, ์ˆœ์ฐจ, ์˜ˆ์ธก ๋ชจ๋“ˆ์€ ๋ฉ”๋ชจ๋ฆฌ ์†Œ๋น„์— ํฌ๊ฒŒ ๊ธฐ์—ฌํ•˜์ง€ ์•Š์œผ๋ฉฐ, ์ •ํ™•๋„ ํ–ฅ์ƒ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. - - ResNet์˜ ์ถ”๊ฐ€๋Š” ๋ฉ”๋ชจ๋ฆฌ ์†Œ๋น„๋ฅผ ํฌ๊ฒŒ ์ฆ๊ฐ€์‹œํ‚ค๋ฉด์„œ ์ •ํ™•๋„๋ฅผ ์•ฝ๊ฐ„ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค. -- ์†๋„์™€ ๋ฉ”๋ชจ๋ฆฌ์— ๊ฐ€์žฅ ์ค‘์š”ํ•œ ๋ชจ๋“ˆ - - ์†๋„์— ๋Œ€ํ•ด Attn ๋ชจ๋“ˆ์˜ ์ถ”๊ฐ€๊ฐ€ ์ „์ฒด STR ๋ชจ๋ธ์„ ์ƒ๋‹นํžˆ ๋Š๋ฆฌ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. - - ๋ฉ”๋ชจ๋ฆฌ์— ๋Œ€ํ•ด ํŠน์ง• ์ถ”์ถœ๊ธฐ๊ฐ€ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ๊ธฐ์—ฌ๋ฅผ ํ•ฉ๋‹ˆ๋‹ค. - - ์ด ๋ถ„์„์„ ํ†ตํ•ด, ๋‹ค๋ฅธ ์‘์šฉ ์‹œ๋‚˜๋ฆฌ์˜ค์™€ ์ œ์•ฝ ์กฐ๊ฑด ํ•˜์— ์žˆ๋Š” ์‚ฌ์šฉ์ž๋Š” ์ž์‹ ์˜ ํ•„์š”์— ๋งž๋Š” ์ตœ์ ์˜ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋ฅผ ์œ„ํ•ด ๋‹ค์–‘ํ•œ ๋ชจ๋“ˆ ์กฐํ•ฉ์„ ๊ณ ๋ คํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. +- ๋‹ค์–‘ํ•œ ๋ชจ๋“ˆ ์กฐํ•ฉ์—์„œ ๋‚˜ํƒ€๋‚˜๋Š” ์ •ํ™•๋„-์†๋„ ๋ฐ ์ •ํ™•๋„-๋ฉ”๋ชจ๋ฆฌ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„์— ์ดˆ์ ์„ ๋งž์ถ˜๋‹ค. +- Fig 4์™€ ๊ฐ™์ด ์ด 24๊ฐ€์ง€ ์กฐํ•ฉ์˜ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„ ํ”Œ๋กฏ์„ ์ œ๊ณตํ•œ๋‹ค. +- **Analysis of combinations along the trade-off frontiers.** + - accuracy-time trade-off (Fig 4(a)) + - Rosetta์™€ STAR-net์ด ํ”„๋ก ํ‹ฐ์–ด(์ตœ์ ์„ )์— ์œ„์น˜ํ•œ๋‹ค. + - T1๋ถ€ํ„ฐ T5๊นŒ์ง€์˜ ๋ชจ๋“ˆ ์กฐํ•ฉ์€ ์ˆœ์ฐจ์ ์œผ๋กœ ResNet, BiLSTM, TPS, Attn. ๋ชจ๋“ˆ์„ ๋„์ž…ํ•จ์œผ๋กœ์จ ์ •ํ™•๋„๋ฅผ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค. + - T1์€ ๋ณ€ํ™˜ ๋˜๋Š” ์ˆœ์ฐจ ๋ชจ๋“ˆ์„ ํฌํ•จํ•˜์ง€ ์•Š์•„ ์ตœ์†Œ ์‹œ๊ฐ„์„ ์†Œ์š”ํ•œ๋‹ค. + - T5๊นŒ์ง€ ๊ฐ ๋‹จ๊ณ„๋งˆ๋‹ค ๋‹จ์ผ ๋ชจ๋“ˆ์ด ๋ณ€๊ฒฝ๋˜์–ด, ๊ณ„์‚ฐ ํšจ์œจ์„ฑ์˜ ๋น„์šฉ์œผ๋กœ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋œ๋‹ค. + - ResNet, BiLSTM, TPS๋Š” ๋น„๊ต์  ์ ๋‹นํ•œ ์ „์ฒด ์†๋„ ์ €ํ•˜๋กœ ์ •ํ™•๋„๋ฅผ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค. + - Attn ๋ชจ๋“ˆ์˜ ์ถ”๊ฐ€๋Š” ํšจ์œจ์„ฑ์˜ ํฐ ๋น„์šฉ์œผ๋กœ ์ •ํ™•๋„๋ฅผ ๋‹จ 1.1%๋งŒ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค. + - accuracy-memory trade-off (Fig 4(b)) + - R2AM์ด ํ”„๋ก ํ‹ฐ์–ด(์ตœ์ ์„ )์— ์œ„์น˜ํ•œ๋‹ค. + - P1๋ถ€ํ„ฐ P5๊นŒ์ง€์˜ ๋ชจ๋“ˆ ์กฐํ•ฉ์€ ๋ฉ”๋ชจ๋ฆฌ์™€ ์ •ํ™•๋„ ์‚ฌ์ด์˜ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋ฅผ ๋ณด์—ฌ์ค€๋‹ค. + - P1์€ ๋ฉ”๋ชจ๋ฆฌ ์†Œ๋น„๊ฐ€ ๊ฐ€์žฅ ์ ์€ ๋ชจ๋ธ์ด๋‹ค. + - P1์—์„œ P5๋กœ ๊ฐ€๋ฉด์„œ ๋ณ€๊ฒฝ๋œ ๋ชจ๋“ˆ์€ Attn, TPS, BiLSTM, ResNet์ด๋‹ค. + - RCNN์€ VGG์™€ ๋น„๊ตํ•˜์—ฌ ๋” ๊ฐ€๋ณ๊ณ  ์ข‹์€ ์ •ํ™•๋„-๋ฉ”๋ชจ๋ฆฌ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋ฅผ ์ œ๊ณตํ•œ๋‹ค. + - ๋ณ€ํ™˜, ์ˆœ์ฐจ, ์˜ˆ์ธก ๋ชจ๋“ˆ์€ ๋ฉ”๋ชจ๋ฆฌ ์†Œ๋น„์— ํฌ๊ฒŒ ๊ธฐ์—ฌํ•˜์ง€ ์•Š์œผ๋ฉฐ, ์ •ํ™•๋„ ํ–ฅ์ƒ์„ ์ œ๊ณตํ•œ๋‹ค. + - ResNet์˜ ์ถ”๊ฐ€๋Š” ๋ฉ”๋ชจ๋ฆฌ ์†Œ๋น„๋ฅผ ํฌ๊ฒŒ ์ฆ๊ฐ€์‹œํ‚ค๋ฉด์„œ ์ •ํ™•๋„๋ฅผ ์•ฝ๊ฐ„ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค. +- **The most important modules for speed and memory.** + - ์†๋„์™€ ๋ฉ”๋ชจ๋ฆฌ์— ๊ฐ€์žฅ ์ค‘์š”ํ•œ ๋ชจ๋“ˆ, ์ฆ‰ ๊ฐ๊ฐ ์˜ˆ์ธก ๋ฐ ํŠน์ง• ์ถ”์ถœ ๋ชจ๋“ˆ์„ ๊ฐ๊ฐ ๋‚˜ํƒ€๋‚ด๋Š” ์‚ฐ์ ๋„๋ฅผ Fig 5์—์„œ ๋ณด์—ฌ์ค€๋‹ค. + - ์†๋„์—๋Š” ์˜ˆ์ธก ๋ชจ๋“ˆ์ด ๋ฉ”๋ชจ๋ฆฌ์—๋Š” ํŠน์ง• ์ถ”์ถœ ๋ชจ๋“ˆ์ด ๊ฐ€์žฅ ํฐ ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค. + - ์†๋„์— ๋Œ€ํ•ด Attn ๋ชจ๋“ˆ์˜ ์ถ”๊ฐ€๊ฐ€ ์ „์ฒด STR ๋ชจ๋ธ์„ ์ƒ๋‹นํžˆ ๋Š๋ฆฌ๊ฒŒ ํ•œ๋‹ค. + - ๋ฉ”๋ชจ๋ฆฌ์— ๋Œ€ํ•ด ํŠน์ง• ์ถ”์ถœ๊ธฐ๊ฐ€ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ๊ธฐ์—ฌ๋ฅผ ํ•œ๋‹ค. + +
+Figure_4
+Figure_5 +
### 4.4. Module analysis -- ๋ชจ๋“ˆ๋ณ„ ํ‰๊ท ํ™”๋œ ์ •ํ™•๋„ ๊ณ„์‚ฐ: ํ…Œ์ด๋ธ” 2์— ํฌํ•จ๋œ ๋ชจ๋“ˆ ์กฐํ•ฉ์„ ํ‰๊ท ๋‚ด์–ด ๊ฐ ๋ชจ๋“ˆ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. -- ์„ฑ๋Šฅ ํ–ฅ์ƒ ๋Œ€ ์ž์› ์š”๊ตฌ์‚ฌํ•ญ: ๊ฐ ๋‹จ๊ณ„์—์„œ ๋ชจ๋“ˆ์„ ์—…๊ทธ๋ ˆ์ด๋“œํ•˜๋ฉด ์ถ”๊ฐ€์ ์ธ ์ž์›, ์‹œ๊ฐ„, ๋˜๋Š” ๋ฉ”๋ชจ๋ฆฌ๊ฐ€ ํ•„์š”ํ•˜์ง€๋งŒ, ์ด๋Š” ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. -- ๋น„์ •๊ทœ ๋ฐ์ดํ„ฐ์…‹์—์„œ์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ: ๋น„์ •๊ทœ ๋ฐ์ดํ„ฐ์…‹์—์„œ์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์ด ์ •๊ทœ ๋ฒค์น˜๋งˆํฌ์˜ ์•ฝ ๋‘ ๋ฐฐ์ž„์„ ๋ฐœ๊ฒฌํ–ˆ์Šต๋‹ˆ๋‹ค. -- ์ •ํ™•๋„ ํ–ฅ์ƒ ๋Œ€๋น„ ์‹œ๊ฐ„ ์‚ฌ์šฉ ์ตœ์  ์ˆœ์„œ: None-VGG-None-CTC์˜ ๊ธฐ๋ณธ ์กฐํ•ฉ์—์„œ ResNet, BiLSTM, TPS, Attn ์ˆœ์œผ๋กœ ๋ชจ๋“ˆ์„ ์—…๊ทธ๋ ˆ์ด๋“œํ•˜๋Š” ๊ฒƒ์ด ์‹œ๊ฐ„ ๋Œ€๋น„ ์ •ํ™•๋„ ํ–ฅ์ƒ์— ๊ฐ€์žฅ ํšจ์œจ์ ์ž…๋‹ˆ๋‹ค. -- ์ •ํ™•๋„-๋ฉ”๋ชจ๋ฆฌ ๊ด€์ ์—์„œ์˜ ์ตœ์  ์ˆœ์„œ: RCNN, Attn, TPS, BiLSTM, ResNet ์ˆœ์œผ๋กœ ๋ชจ๋“ˆ์„ ์—…๊ทธ๋ ˆ์ด๋“œํ•˜๋Š” ๊ฒƒ์ด ๋ฉ”๋ชจ๋ฆฌ ๋Œ€๋น„ ์ •ํ™•๋„ ํ–ฅ์ƒ์— ๊ฐ€์žฅ ํšจ์œจ์ ์ž…๋‹ˆ๋‹ค. +- Table 2์— ํฌํ•จ๋œ ๋ชจ๋“ˆ ์กฐํ•ฉ์„ ํ‰๊ท ๋‚ด์–ด ๊ฐ ๋ชจ๋“ˆ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•œ๋‹ค. +- ๊ฐ ๋‹จ๊ณ„์—์„œ ๋ชจ๋“ˆ์„ ์—…๊ทธ๋ ˆ์ด๋“œํ•˜๋ฉด ์ถ”๊ฐ€์ ์ธ ์ž์›, ์‹œ๊ฐ„, ๋˜๋Š” ๋ฉ”๋ชจ๋ฆฌ๊ฐ€ ํ•„์š”ํ•˜์ง€๋งŒ, ์ด๋Š” ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์ œ๊ณตํ•œ๋‹ค. +- ๋น„์ •๊ทœ ๋ฐ์ดํ„ฐ์…‹์—์„œ์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์ด ์ •๊ทœ ๋ฒค์น˜๋งˆํฌ์˜ ์•ฝ ๋‘ ๋ฐฐ์ด๋‹ค. +- ์‚ฌ์šฉ ์ธก๋ฉด์—์„œ ResNet, BiLSTM, TPS, Attn ์ˆœ์„œ๊ฐ€ ๊ธฐ๋ณธ ์กฐํ•ฉ(None-VGG-None-CTC)์—์„œ ๋ชจ๋“ˆ์„ ์—…๊ทธ๋ ˆ์ด๋“œํ•˜๋Š” ๊ฐ€์žฅ ํšจ์œจ์ ์ธ ์ˆœ์„œ์ด๋‹ค. ์ด ์ˆœ์„œ๋Š” ์ •ํ™•๋„-์‹œ๊ฐ„ ํ”„๋ก ํ‹ฐ์–ด(T1โ†’T5)์˜ ์กฐํ•ฉ ์ˆœ์„œ์™€ ๋™์ผ์ด๋‹ค. +- ์ •ํ™•๋„-๋ฉ”๋ชจ๋ฆฌ ๊ด€์ ์—์„œ๋Š” RCNN, Attn, TPS, BiLSTM, ResNet ์ˆœ์„œ๊ฐ€ ๋ชจ๋“ˆ์„ ์—…๊ทธ๋ ˆ์ด๋“œํ•˜๋Š” ๊ฐ€์žฅ ํšจ์œจ์ ์ธ ์ˆœ์„œ์ด๋‹ค. ์ด ์ˆœ์„œ๋Š” ์ •ํ™•๋„-๋ฉ”๋ชจ๋ฆฌ ํ”„๋ก ํ‹ฐ์–ด(P1โ†’P5)์˜ ์กฐํ•ฉ ์ˆœ์„œ์™€ ๊ฐ™๋‹ค. - ์‹œ๊ฐ„ ๋Œ€ ๋ฉ”๋ชจ๋ฆฌ์—์„œ์˜ ๋ชจ๋“ˆ ์ˆœ์„œ ์ฐจ์ด: ์‹œ๊ฐ„์— ๋Œ€ํ•œ ๋ชจ๋“ˆ์˜ ํšจ์œจ์  ์ˆœ์„œ๋Š” ๋ฉ”๋ชจ๋ฆฌ์— ๋Œ€ํ•œ ์ˆœ์„œ์™€ ๋ฐ˜๋Œ€์ž…๋‹ˆ๋‹ค. -- ๋ชจ๋“ˆ๋ณ„ ๊ธฐ์—ฌ๋„ ๋ถ„์„: - - TPS ๋ณ€ํ™˜: ๊ณก์„  ๋ฐ ์›๊ทผ ํ…์ŠคํŠธ๋ฅผ ํ‘œ์ค€ํ™”๋œ ๋ทฐ๋กœ ์ •๊ทœํ™”ํ•˜์—ฌ ํ…์ŠคํŠธ ์ธ์‹์„ ๊ฐœ์„ ํ•ฉ๋‹ˆ๋‹ค. - - ResNet: ๋ฐ€์ง‘ํ•œ ๋ฐฐ๊ฒฝ ์žก์Œ๊ณผ ๋ณด์ง€ ๋ชปํ•œ ํฐํŠธ์—์„œ ๋” ๋‚˜์€ ํ‘œํ˜„๋ ฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. - - BiLSTM: ๋” ๋‚˜์€ ์ปจํ…์ŠคํŠธ ๋ชจ๋ธ๋ง์„ ํ†ตํ•ด ๊ด€๋ จ ์—†์ด ์ž๋ฅธ ๋ฌธ์ž๋ฅผ ๋ฌด์‹œํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. - - Attn (์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜): ๋ˆ„๋ฝ๋˜๊ฑฐ๋‚˜ ๊ฐ€๋ ค์ง„ ๋ฌธ์ž๋ฅผ ์ฐพ์•„๋‚ด์–ด ํ…์ŠคํŠธ ์ธ์‹์„ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค. +- **Qualitative analysis** + - Fig 7์€ ํŠน์ • ๋ชจ๋“ˆ์ด ์—…๊ทธ๋ ˆ์ด๋“œ๋  ๋•Œ(์˜ˆ: VGG์—์„œ ResNet ๋ฐฑ๋ณธ์œผ๋กœ)๋งŒ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ์ธ์‹๋˜๋Š” ์ƒ˜ํ”Œ์„ ๋ณด์—ฌ์ค€๋‹ค. + - ์—…๊ทธ๋ ˆ์ด๋“œ๋ฅผ ํ†ตํ•ด ์ธ์‹์ด ๊ฐ€๋Šฅํ•ด์ง„ ๊ฐœ์„  ์‚ฌํ•ญ์„ ๋ณด์—ฌ์ค€๋‹ค. + - TPS ๋ณ€ํ™˜์€ ๊ณก์„  ๋ฐ ๊ด€์  ํ…์ŠคํŠธ๋ฅผ ํ‘œ์ค€ํ™”๋œ ๋ทฐ๋กœ ์ •๊ทœํ™”ํ•˜์—ฌ ํ…์ŠคํŠธ ์ธ์‹์„ ๊ฐœ์„ ํ•œ๋‹ค. + - ResNet์€ ๋ฐ€์ง‘ํ•œ ๋ฐฐ๊ฒฝ ์žก์Œ๊ณผ ๋ณด์ง€ ๋ชปํ•œ ํฐํŠธ์—์„œ ๋” ๋‚˜์€ ํ‘œํ˜„๋ ฅ์„ ์ œ๊ณตํ•œ๋‹ค. + - BiLSTM์€ ๋” ๋‚˜์€ ๋งฅ๋ฝ ๋ชจ๋ธ๋ง์„ ํ†ตํ•ด ๊ด€๋ จ ์—†์ด ์ž๋ฅธ ๋ฌธ์ž๋ฅผ ๋ฌด์‹œํ•  ์ˆ˜ ์žˆ๋‹ค. + - Attn (์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜)์€ ๋ˆ„๋ฝ๋˜๊ฑฐ๋‚˜ ๊ฐ€๋ ค์ง„ ๋ฌธ์ž๋ฅผ ์ฐพ์•„๋‚ด์–ด ํ…์ŠคํŠธ ์ธ์‹์„ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค. + +
+Figure_7 +
### 4.5. Failure case analysis -- ์บ˜๋ฆฌ๊ทธ๋ž˜ํ”ผ ํฐํŠธ: ๋ธŒ๋žœ๋“œ ๋˜๋Š” ์ƒ์  ์ด๋ฆ„์— ์‚ฌ์šฉ๋œ ๋…ํŠนํ•œ ํฐํŠธ ์Šคํƒ€์ผ์€ ์ผ๋ฐ˜ํ™”๋œ ์‹œ๊ฐ์  ํŠน์ง•์„ ์ œ๊ณตํ•˜๋Š” ์ƒˆ๋กœ์šด ํŠน์ง• ์ถ”์ถœ๊ธฐ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. -- ์„ธ๋กœ ํ…์ŠคํŠธ: ํ˜„์žฌ์˜ STR ๋ชจ๋ธ๋“ค์€ ์ฃผ๋กœ ์ˆ˜ํ‰ ํ…์ŠคํŠธ ์ด๋ฏธ์ง€๋ฅผ ์ฒ˜๋ฆฌํ•˜๋„๋ก ์„ค๊ณ„๋˜์–ด ์žˆ์–ด, ์„ธ๋กœ ํ…์ŠคํŠธ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค. -- ํŠน์ˆ˜ ๋ฌธ์ž: ํ˜„์žฌ ๋ฒค์น˜๋งˆํฌ๋Š” ํŠน์ˆ˜ ๋ฌธ์ž๋ฅผ ํ‰๊ฐ€ํ•˜์ง€ ์•Š์œผ๋ฏ€๋กœ, ํŠน์ˆ˜ ๋ฌธ์ž๋ฅผ ํ•™์Šต์—์„œ ์ œ์™ธํ•˜๊ฒŒ ๋˜์–ด ์ด๋ฅผ ์˜์ˆซ์ž ๋ฌธ์ž๋กœ ์ž˜๋ชป ์ธ์‹ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. -- ์‹ฌ๊ฐํ•œ ๊ฐ€๋ฆผ ํ˜„์ƒ: ํ˜„์žฌ ๋ฐฉ๋ฒ•๋“ค์€ ๋ฌธ๋งฅ ์ •๋ณด๋ฅผ ์ถฉ๋ถ„ํžˆ ํ™œ์šฉํ•˜์ง€ ๋ชปํ•ด ๊ฐ์ฒด๊ฐ€ ๊ฐ€๋ ค์ง„ ๊ฒฝ์šฐ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜์ง€ ๋ชปํ•ฉ๋‹ˆ๋‹ค. -- ์ €ํ•ด์ƒ๋„: ์ €ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•œ ๋ช…์‹œ์ ์ธ ๋ฐฉ๋ฒ•์ด ๋ถ€์กฑํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฏธ์ง€ ํ”ผ๋ผ๋ฏธ๋“œ๋‚˜ ์ดˆํ•ด์ƒ๋„ ๋ชจ๋“ˆ์ด ํ•ด๊ฒฐ์ฑ…์ด ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. -- ๋ผ๋ฒจ ๋…ธ์ด์ฆˆ: ์‹คํŒจ ์˜ˆ์ œ ์ค‘ ์ผ๋ถ€๋Š” ์ž˜๋ชป๋œ ๋ผ๋ฒจ๋ง ๋•Œ๋ฌธ์ด์—ˆ์Šต๋‹ˆ๋‹ค. ํŠน์ˆ˜ ๋ฌธ์ž๋ฅผ ๊ณ ๋ คํ•˜์ง€ ์•Š์„ ๋•Œ์˜ ์˜ค๋ฅ˜ ๋ผ๋ฒจ๋ง ๋น„์œจ์€ 1.3%, ํŠน์ˆ˜ ๋ฌธ์ž๋ฅผ ๊ณ ๋ คํ•  ๋•Œ๋Š” 6.1%, ๋Œ€์†Œ๋ฌธ์ž๋ฅผ ๊ณ ๋ คํ•  ๋•Œ๋Š” 24.1%์˜€์Šต๋‹ˆ๋‹ค. +- 8,539๊ฐœ์˜ ๋ฒค์น˜๋งˆํฌ ๋ฐ์ดํ„ฐ์…‹ ์˜ˆ์‹œ ์ค‘ 644๊ฐœ ์ด๋ฏธ์ง€(7.5%)๊ฐ€ 24๊ฐœ ๋ชจ๋ธ ์ค‘ ์–ด๋Š ๊ฒƒ์œผ๋กœ๋„ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ์ธ์‹๋˜์ง€ ์•Š๋Š” 6๊ฐ€์ง€ ์‹คํŒจ ์‚ฌ๋ก€๋ฅผ Fig 6์— ๋ณด์—ฌ์ค€๋‹ค. +- **Calligraphic fonts:** ๋ธŒ๋žœ๋“œ ๋˜๋Š” ์ƒ์  ์ด๋ฆ„์— ์‚ฌ์šฉ๋œ ๋…ํŠนํ•œ ํฐํŠธ ์Šคํƒ€์ผ์€ ์ผ๋ฐ˜ํ™”๋œ ์‹œ๊ฐ์  ํŠน์ง•์„ ์ œ๊ณตํ•˜๋Š” ์ƒˆ๋กœ์šด ํŠน์ง• ์ถ”์ถœ๊ธฐ ๊ฐœ๋ฐœ์ด๋‚˜ ๊ทœ์ œํ™”๋ฅผ ํ†ตํ•œ ์ ‘๊ทผ์ด ํ•„์š”ํ•˜๋‹ค. +- **Vertical texts:** ํ˜„์žฌ์˜ STR ๋ชจ๋ธ๋“ค์€ ์ฃผ๋กœ ์ˆ˜ํ‰ ํ…์ŠคํŠธ ์ด๋ฏธ์ง€๋ฅผ ์ฒ˜๋ฆฌํ•˜๋„๋ก ์„ค๊ณ„๋˜์–ด ์žˆ์–ด, ์„ธ๋กœ ํ…์ŠคํŠธ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์—†๋‹ค. +- **Special characters:** ํ˜„์žฌ ๋ฒค์น˜๋งˆํฌ๋Š” ํŠน์ˆ˜ ๋ฌธ์ž๋ฅผ ํ‰๊ฐ€ํ•˜์ง€ ์•Š์œผ๋ฏ€๋กœ, ํŠน์ˆ˜ ๋ฌธ์ž๋ฅผ ํ•™์Šต์—์„œ ์ œ์™ธํ•˜๊ฒŒ ๋˜์–ด ์ด๋ฅผ ์˜์ˆซ์ž ๋ฌธ์ž๋กœ ์ž˜๋ชป ์ธ์‹ํ•˜๊ฒŒ ๋œ๋‹ค. ํŠน์ˆ˜ ๋ฌธ์ž๋ฅผ ํฌํ•จํ•œ ํ•™์Šต์ด ์ •ํ™•๋„๋ฅผ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค. +- **Heavy occlusions:** ํ˜„์žฌ ๋ฐฉ๋ฒ•๋“ค์€ ๋ฌธ๋งฅ ์ •๋ณด๋ฅผ ์ถฉ๋ถ„ํžˆ ํ™œ์šฉํ•˜์ง€ ๋ชปํ•ด ๊ฐ์ฒด๊ฐ€ ๊ฐ€๋ ค์ง„ ๊ฒฝ์šฐ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜์ง€ ๋ชปํ•œ๋‹ค. +- **Low resolution:** ์ €ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•œ ๋ช…์‹œ์ ์ธ ๋ฐฉ๋ฒ•์ด ๋ถ€์กฑํ•˜๋‹ค. ์ด๋ฏธ์ง€ ํ”ผ๋ผ๋ฏธ๋“œ๋‚˜ ์ดˆํ•ด์ƒ๋„ ๋ชจ๋“ˆ์ด ํ•ด๊ฒฐ์ฑ…์ด ๋  ์ˆ˜ ์žˆ๋‹ค. +- **Label noise:** ์‹คํŒจ ์˜ˆ์ œ ์ค‘ ์ผ๋ถ€๋Š” ๋ถ€์ •ํ™•ํ•œ ๋ ˆ์ด๋ธ”๋ง ๋•Œ๋ฌธ์ด์—ˆ๋‹ค. ํŠน์ˆ˜ ๋ฌธ์ž๋ฅผ ๊ณ ๋ คํ•˜์ง€ ์•Š์„ ๋•Œ์˜ ์˜ค๋ฅ˜ ๋ผ๋ฒจ๋ง ๋น„์œจ์€ 1.3%, ํŠน์ˆ˜ ๋ฌธ์ž๋ฅผ ๊ณ ๋ คํ•  ๋•Œ๋Š” 6.1%, ๋Œ€์†Œ๋ฌธ์ž๋ฅผ ๊ณ ๋ คํ•  ๋•Œ๋Š” 24.1%์˜€๋‹ค. + +
+Figure_6 +
## 5. Conclusion -- ๋ฌธ์ œ์˜ ๋ฐฐ๊ฒฝ: ์ƒˆ๋กœ์šด ์žฅ๋ฉด ํ…์ŠคํŠธ ์ธ์‹(STR) ๋ชจ๋ธ๋“ค์ด ํฌ๊ฒŒ ๋ฐœ์ „ํ–ˆ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ์ผ๊ด€์„ฑ ์—†๋Š” ๋ฒค์น˜๋งˆํฌ๋กœ ์ธํ•ด ์ œ์•ˆ๋œ ๋ชจ๋“ˆ์ด STR ๊ธฐ๋ณธ ๋ชจ๋ธ์„ ์–ด๋–ป๊ฒŒ ๊ฐœ์„ ํ•˜๋Š”์ง€ ํŒ๋‹จํ•˜๊ธฐ ์–ด๋ ค์› ์Šต๋‹ˆ๋‹ค. -- ์—ฐ๊ตฌ์˜ ๋ชฉํ‘œ: ์ด์ „์— ์ผ๊ด€๋˜์ง€ ์•Š์€ ์‹คํ—˜ ์„ค์ •์œผ๋กœ ์ธํ•ด ๊ฐ€๋ ค์กŒ๋˜ ๊ธฐ์กด STR ๋ชจ๋ธ์˜ ๊ธฐ์—ฌ๋ฅผ ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค. -- ์—ฐ๊ตฌ ๋ฐฉ๋ฒ•: ์ฃผ์š” STR ๋ฐฉ๋ฒ•๋ก ๋“ค ๊ฐ„์˜ ๊ณตํ†ต ํ”„๋ ˆ์ž„์›Œํฌ ๋ฐ ์ผ๊ณฑ ๊ฐœ์˜ ๋ฒค์น˜๋งˆํฌ ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์…‹๊ณผ ๋‘ ๊ฐœ์˜ ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹(MJ์™€ ST) ๋„์ž…. -- ์ œ๊ณต๋œ ๋น„๊ต: ์ฃผ์š” STR ๋ฐฉ๋ฒ•๋ก ๋“ค ๊ฐ„์˜ ๊ณต์ •ํ•œ ๋น„๊ต๋ฅผ ์ œ๊ณตํ•˜๋ฉฐ, ์–ด๋–ค ๋ชจ๋“ˆ์ด ๊ฐ€์žฅ ํฐ ์ •ํ™•๋„, ์†๋„, ๊ทธ๋ฆฌ๊ณ  ํฌ๊ธฐ์˜ ์ด๋“์„ ๊ฐ€์ ธ์˜ค๋Š”์ง€ ๋ถ„์„. -- ๋ถ„์„๊ณผ ๊ธฐ์—ฌ: STR์˜ ์ „ํ˜•์ ์ธ ๋„์ „ ๊ณผ์ œ์™€ ๋‚จ์•„ ์žˆ๋Š” ์‹คํŒจ ์‚ฌ๋ก€์— ๋Œ€ํ•ด ๋ชจ๋“ˆ๋ณ„ ๊ธฐ์—ฌ์— ๋Œ€ํ•œ ๊ด‘๋ฒ”์œ„ํ•œ ๋ถ„์„์„ ์ œ๊ณตํ•จ. \ No newline at end of file +- ์ƒˆ๋กœ์šด ์žฅ๋ฉด ํ…์ŠคํŠธ ์ธ์‹(STR) ๋ชจ๋ธ๋“ค์ด ํฌ๊ฒŒ ๋ฐœ์ „ํ–ˆ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ์ผ๊ด€์„ฑ ์—†๋Š” ๋ฒค์น˜๋งˆํฌ๋กœ ์ธํ•ด ์ œ์•ˆ๋œ ๋ชจ๋“ˆ์ด STR ๊ธฐ๋ณธ ๋ชจ๋ธ์„ ์–ด๋–ป๊ฒŒ ๊ฐœ์„ ํ•˜๋Š”์ง€ ํŒ๋‹จํ•˜๊ธฐ ์–ด๋ ค์› ๋‹ค. +- ์ด์ „์— ์ผ๊ด€๋˜์ง€ ์•Š์€ ์‹คํ—˜ ์„ค์ •์œผ๋กœ ์ธํ•ด ๊ฐ€๋ ค์กŒ๋˜ ๊ธฐ์กด STR ๋ชจ๋ธ์˜ ๊ธฐ์—ฌ๋ฅผ ๋ถ„์„ํ•œ๋‹ค. +- ์ฃผ์š” STR ๋ฐฉ๋ฒ•๋ก ๋“ค ๊ฐ„์˜ ๊ณตํ†ต ํ”„๋ ˆ์ž„์›Œํฌ ๋ฐ 7 ๊ฐœ์˜ ๋ฒค์น˜๋งˆํฌ ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์…‹๊ณผ 2 ๊ฐœ์˜ ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹(MJ์™€ ST) ๋„์ž…ํ•œ๋‹ค. +- ์ฃผ์š” STR ๋ฐฉ๋ฒ•๋ก ๋“ค ๊ฐ„์˜ ๊ณต์ •ํ•œ ๋น„๊ต๋ฅผ ์ œ๊ณตํ•˜๋ฉฐ, ์–ด๋–ค ๋ชจ๋“ˆ์ด ๊ฐ€์žฅ ํฐ ์ •ํ™•๋„, ์†๋„, ๊ทธ๋ฆฌ๊ณ  ํฌ๊ธฐ์˜ ์ด๋“์„ ๊ฐ€์ ธ์˜ค๋Š”์ง€ ๋ถ„์„ํ•œ๋‹ค. +- STR์˜ ์ „ํ˜•์ ์ธ ๋„์ „ ๊ณผ์ œ์™€ ๋‚จ์•„ ์žˆ๋Š” ์‹คํŒจ ์‚ฌ๋ก€์— ๋Œ€ํ•ด ๋ชจ๋“ˆ๋ณ„ ๊ธฐ์—ฌ์— ๋Œ€ํ•œ ๊ด‘๋ฒ”์œ„ํ•œ ๋ถ„์„์„ ์ œ๊ณตํ•œ๋‹ค. \ No newline at end of file