diff --git a/_posts/study/2023-10-11-Deep Text Recognition.md b/_posts/study/2023-10-11-Deep Text Recognition.md index c4814cf4d024..11e44d281c60 100644 --- a/_posts/study/2023-10-11-Deep Text Recognition.md +++ b/_posts/study/2023-10-11-Deep Text Recognition.md @@ -1,13 +1,12 @@ --- layout: single -title: "Deep Text Recognition: What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis" +title: "What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis" permalink: /studies/paper/Deep Text Recognition tags: [Paper, Vision AI] categories: - ๐ paper use_math: true date: 2023-10-11 -published: false --- *์ต๊ทผ ๋ช ๋ ๋์ Scene Text Recognition(STR) ๋ชจ๋ธ์ ๋ํ ๋ง์ ์๋ก์ด ์ ์์ด ๋์ ๋์๋ค. ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ๊ธฐ์ ์ ๊ฒฝ๊ณ๋ฅผ ๋ํ๋ค๊ณ ์ฃผ์ฅํ์ง๋ง, ํ์ต ๋ฐ ํ๊ฐ ๋ฐ์ดํฐ์ ์ ์ผ๊ด์ฑ ์๋ ์ ํ์ผ๋ก ์ธํด ์ ์ฒด์ ์ด๊ณ ๊ณต์ ํ ๋น๊ต๊ฐ ๋๋ถ๋ถ ๋๋ฝ๋์๋ค. ๋ณธ ๋ ผ๋ฌธ์ ์ธ ๊ฐ์ง ์ฃผ์ ๊ธฐ์ฌ๋ฅผ ํตํด ์ด ์ด๋ ค์์ ํด๊ฒฐํ๋ค. ์ฒซ์งธ, ํ์ต ๋ฐ ํ๊ฐ ๋ฐ์ดํฐ์ ์ ๋ถ์ผ์น์ ๋ถ์ผ์น๋ก ์ธํ ์ฑ๋ฅ ๊ฒฉ์ฐจ๋ฅผ ๊ฒํ ํ๋ค. ๋์งธ, ๋๋ถ๋ถ์ ๊ธฐ์กด STR ๋ชจ๋ธ์ ๋ง์ถฐ์ง ์ ์๋ ํตํฉ๋ ๋ค ๋จ๊ณ STR ํ๋ ์์ํฌ๋ฅผ ์๊ฐํ๋ค. ์ด ํ๋ ์์ํฌ๋ฅผ ์ฌ์ฉํ๋ฉด ์ด์ ์ ์ ์๋ STR ๋ชจ๋์ ๊ด๋ฒ์ํ ํ๊ฐ์ ์ด์ ์ ํ์๋์ง ์์ ๋ชจ๋ ์กฐํฉ์ ๋ฐ๊ฒฌ์ด ๊ฐ๋ฅํ๋ค. ์ ์งธ, ํ๋์ ์ผ๊ด๋ ํ์ต ๋ฐ ํ๊ฐ ๋ฐ์ดํฐ์ ์ธํธ์์ ์ ํ๋, ์๋ ๋ฐ ๋ฉ๋ชจ๋ฆฌ ์๊ตฌ ์ฌํญ ์ธก๋ฉด์์ ๋ชจ๋๋ณ ๊ธฐ์ฌ๋๋ฅผ ๋ถ์ํ๋ค. ์ด๋ฌํ ๋ถ์์ ํ์ฌ์ ๋น๊ต์์ ์ดํดํ๊ธฐ ์ด๋ ค์ด ๊ธฐ์กด ๋ชจ๋์ ์ฑ๋ฅ ํฅ์์ ๋ํ ์ฅ์ ๋ฅผ ํด๊ฒฐํ๋ค. ๋ณธ ๋ ผ๋ฌธ์ ์ฝ๋๋ [์ด ๋งํฌ](https://github.com/clovaai/deep-text-recognition-benchmark){:target="_blank"}์์ ๊ณต๊ฐ์ ์ผ๋ก ์ด์ฉ ๊ฐ๋ฅํ๋ค.* @@ -68,7 +67,7 @@ published: false - **IIIT5K-Words (IIIT):** Google ์ด๋ฏธ์ง ๊ฒ์์์ ํฌ๋กค๋งํ ๋ฐ์ดํฐ์ ์ผ๋ก 2,000๊ฐ ํ์ต ์ด๋ฏธ์ง์ 3,000๊ฐ ํ๊ฐ ์ด๋ฏธ์ง๋ฅผ ํฌํจํ๋ค. - **Street View Text (SVT):** Google Street View์์ ์์ง๋ ์ผ์ธ ๊ฑฐ๋ฆฌ ์ด๋ฏธ์ง๋ก 257๊ฐ ํ์ต ์ด๋ฏธ์ง์ 647๊ฐ ํ๊ฐ ์ด๋ฏธ์ง๋ฅผ ํฌํจํ๋ค. - **ICDAR2003 (IC03):** ์นด๋ฉ๋ผ๋ก ์ดฌ์๋ ์ฅ๋ฉด ํ ์คํธ๋ฅผ ์ฝ๊ธฐ ์ํ ICDAR 2003 Robust Reading ๊ฒฝ์์ ์ํด ์์ฑ๋์๋ค. 1,156๊ฐ์ ํ์ต ์ด๋ฏธ์ง์ 1,110๊ฐ์ ํ๊ฐ ์ด๋ฏธ์ง๋ฅผ ํฌํจํ๋ค.(๋น์ํ๋ฒณ ๋ฌธ์ ๋๋ 3์ ๋ฏธ๋ง ๋จ์ด ์ ์ธ ์ 867๊ฐ) - - **ICDAR2013 (IC13):** IC03์ ๋๋ถ๋ถ ์ด๋ฏธ์ง๋ฅผ ์์๋ฐ๊ณ ICDAR 2013 Robust Reading ๊ฒฝ์์ ์ํด ์์ฑ๋์๋ค. 848๊ฐ์ ํ๋ จ ์ด๋ฏธ์ง์ 1,095๊ฐ์ ํ๊ฐ ์ด๋ฏธ์ง๋ฅผ ํฌํจํ๋ค. (๋น์ํ๋ฒณ ๋ฌธ์๋ฅผ ํฌํจํ ๋จ์ด ์ ์ธ ์ 1,015๊ฐ) + - **ICDAR2013 (IC13):** IC03์ ๋๋ถ๋ถ ์ด๋ฏธ์ง๋ฅผ ์์๋ฐ๊ณ ICDAR 2013 Robust Reading ๊ฒฝ์์ ์ํด ์์ฑ๋์๋ค. 848๊ฐ์ ํ์ต ์ด๋ฏธ์ง์ 1,095๊ฐ์ ํ๊ฐ ์ด๋ฏธ์ง๋ฅผ ํฌํจํ๋ค. (๋น์ํ๋ฒณ ๋ฌธ์๋ฅผ ํฌํจํ ๋จ์ด ์ ์ธ ์ 1,015๊ฐ) - **๋น์ ๊ท ๋ฐ์ดํฐ์ (irregular datasets):** ๊ณก์ ์ด ์๋ ํ ์คํธ, ์์๋ก ํ์ ๋๊ฑฐ๋ ์๊ณก๋ ํ ์คํธ์ ๊ฐ์ STR์ ์ด๋ ค์ด ์ฝ๋ ์ผ์ด์ค๋ฅผ ์ผ๋ฐ์ ์ผ๋ก ํฌํจํ๋ค. - **ICDAR2015 (IC15):** ICDAR 2015 Robust Reading ๊ฒฝ์์ ์ํด ์์ฑ๋์๋ค. Google Glass๋ฅผ ํตํด ์บก์ฒ๋ 4,468๊ฐ์ ํ์ต ์ด๋ฏธ์ง์ 2,077๊ฐ์ ํ๊ฐ ์ด๋ฏธ์ง๋ฅผ ํฌํจํ๋ค. ๋ง์ ์ด๋ฏธ์ง๊ฐ ๋ ธ์ด์ฆ๊ฐ ๋ง๊ณ , ํ๋ฆฌ๋ฉฐ, ํ์ ๋์๊ณ , ์ผ๋ถ๋ ํด์๋๊ฐ ๋ฎ๋ค. ํ๊ฐ๋ฅผ ์ํ ๋ ๋ค๋ฅธ ๋ฒ์ ์ 1,811๊ฐ์ 2,077๊ฐ ์ด๋ฏธ์ง๋ฅผ ํฌํจํ๊ณ ์์ผ๋ฉฐ,๋น์ํ๋ฒณ ๋ฌธ์ ์ด๋ฏธ์ง์ ์ผ๋ถ ๊ทน๋๋ก ํ์ ๋๊ณ ๊ด์ ์ด ๋ณ๊ฒฝ๋๋ฉฐ ๊ณก์ ์ด ์๋ ์ด๋ฏธ์ง๋ฅผ ์ ์ธํ๊ณ 1,811๊ฐ์ ์ด๋ฏธ์ง๋ง ์ฌ์ฉํ๋ค. - **SVT Perspective (SP):** Google Street View์์ ์์ง๋ 645๊ฐ์ ํ๊ฐ ์ด๋ฏธ์ง๋ฅผ ํฌํจํ๋ค. ๋ง์ ์ด๋ฏธ์ง๊ฐ ๋น์ ๋ฉด ์์ ์ผ๋ก ์ธํ ๊ด์ ํฌ์์ ํฌํจํ๋ค. @@ -134,77 +133,101 @@ published: false ## 4. Experiment and Analysis ### 4.1. Implementation detail -- ํ์ต ๋ฐ ํ๊ฐ ๋ฐ์ดํฐ์ ์ ์ค์์ฑ: ํ์ต, ๊ฒ์ฆ, ํ๊ฐ ๋ฐ์ดํฐ์ ์ ์ ํ์ STR ๋ชจ๋ธ์ ์ฑ๋ฅ ์ธก์ ์ ํฐ ์ํฅ์ ๋ฏธ์นฉ๋๋ค. -- STR ํ์ต ๋ฐ ๋ชจ๋ธ ์ ํ: - - ํ์ต ๋ฐ์ดํฐ: MJSynth 8.9M๊ณผ SynthText 5.5M(์ด 14.4M). - - ์ตํฐ๋ง์ด์ : AdaDelta, ๊ฐ์ ์จ 0.95. - - ํ์ต ๋ฐฐ์น ํฌ๊ธฐ: 192, ๋ฐ๋ณต ํ์: 300K. - - ๊ฒฝ์ฌ ํด๋ฆฌํ: ํฌ๊ธฐ 5์์ ์ฌ์ฉ. - - ํ๋ผ๋ฏธํฐ ์ด๊ธฐํ: He์ ๋ฐฉ๋ฒ. - - ๊ฒ์ฆ ๋ฐ์ดํฐ: IC13, IC15, IIIT, SVT์ ํ์ต ์ธํธ ํฉ์งํฉ. - - ๋ชจ๋ธ ๊ฒ์ฆ: 2000 ํ์ต ์คํ ๋ง๋ค ์คํ, ๊ฐ์ฅ ๋์ ์ ํ๋ ๋ชจ๋ธ ์ ํ. - - IC03 ๋ฐ์ดํฐ๋ ํ๊ฐ ๋ฐ์ดํฐ์ ๊ณผ์ ์ค๋ณต์ ํผํ๊ธฐ ์ํด ์ ์ธ. -- ํ๊ฐ ๋ฉํธ๋ฆญ: - - ์ ํ๋: 9๊ฐ ์ค์ธ๊ณ ํ๊ฐ ๋ฐ์ดํฐ์ ๋ฐ ํตํฉ ํ๊ฐ ๋ฐ์ดํฐ์ (์ด 8,539๊ฐ ์ด๋ฏธ์ง)์์ ์ด๋ฏธ์ง ๋น ๋จ์ด ์์ธก ์ฑ๊ณต๋ฅ ์ธก์ . - - ์๋: ์ฃผ์ด์ง ํ ์คํธ๋ฅผ ์ธ์ํ๋ ๋ฐ ํ์ํ ํ๊ท ํด๋ญ ์๊ฐ(๋ฐ๋ฆฌ์ด ๋จ์) ์ธก์ . - - ๋ฉ๋ชจ๋ฆฌ: ์ ์ฒด STR ํ์ดํ๋ผ์ธ์์ ํ์ต ๊ฐ๋ฅํ ๋ถ๋ ์์์ ํ๋ผ๋ฏธํฐ ์ ๊ณ์ฐ. -- ์คํ ํ๊ฒฝ: - - Intel Xeon(R) E5-2630 v4 2.20GHz CPU, NVIDIA TESLA P40 GPU, 252GB RAM. - - ๋ชจ๋ ์คํ์ NAVER Smart Machine Learning (NSML) ํ๋ซํผ์์ ์ํ๋จ. +- ํ์ต, ๊ฒ์ฆ, ํ๊ฐ ๋ฐ์ดํฐ์ ์ ์ ํ์ STR ๋ชจ๋ธ์ ์ฑ๋ฅ ์ธก์ ์ ํฐ ์ํฅ์ ๋ฏธ์น๋ค. +- ๊ณต์ ํ ๋น๊ต๋ฅผ ์ํด ํ์ต, ๊ฒ์ฆ, ํ๊ฐ ๋ฐ์ดํฐ์ ์ ์ ํ์ ๊ณ ์ ํด์ผ ํ๋ค. +- **STR training and model selection** + - ํ์ต ๋ฐ์ดํฐ์ ์ MJSynth 8.9M๊ณผ SynthText 5.5M์ผ๋ก ์ด 14.4M ์ฌ์ฉํ๋ค. + - ์ตํฐ๋ง์ด์ ๋ AdaDelta๋ฅผ ์ฌ์ฉํ๋ฉฐ, decay rate๋ 0.95๋ก ์ค์ ํ๋ค. + - ํ์ต ๋ฐฐ์น ํฌ๊ธฐ๋ 192์ด๋ฉฐ, ๋ฐ๋ณต ํ์๋ 300K์ด๋ค. + - ๊ทธ๋๋์ธํธ ํด๋ฆฌํ์ ํฌ๊ธฐ๋ 5์์ ์ฌ์ฉ๋๋ค. + - ๋ชจ๋ ํ๋ผ๋ฏธํฐ He์ ๋ฐฉ๋ฒ์ผ๋ก ์ด๊ธฐํํ๋ค. + - ๊ฒ์ฆ ๋ฐ์ดํฐ๋ก IC13, IC15, IIIT, SVT์ ํ์ต ์ธํธ์ ํฉ์งํฉ์ ์ฌ์ฉํ๋ค. + - ๋ชจ๋ธ์ 2,000 ํ์ต ์คํ ๋ง๋ค ๊ฒ์ฆํ์ฌ ๊ฐ์ฅ ๋์ ์ ํ๋ ๋ชจ๋ธ์ ์ ํํ๋ค. + - IC03 ๋ฐ์ดํฐ๋ ํ๊ฐ ๋ฐ์ดํฐ์ ๊ณผ์ ์ค๋ณต์ ํผํ๊ธฐ ์ํด ์ ์ธํ๋ค. +- **Evaluation metrics** + - ์ ํ๋, ์๊ฐ, ๋ฉ๋ชจ๋ฆฌ ์ธก๋ฉด์์ STR ์กฐํฉ์ ๋ํ ์ฒ ์ ํ ๋ถ์์ ์ ๊ณตํ๋ค. + - ์ ํ๋๋ ์ด๋ฏธ์ง ๋น ๋จ์ด ์์ธก์ ์ฑ๊ณต๋ฅ ์ 9๊ฐ ์ค์ ์ธ๊ณ ํ๊ฐ ๋ฐ์ดํฐ์ (์ด 8,539 ์ด๋ฏธ์ง)์์ ์ธก์ ํ๋ค. + - ์๋ ํ๊ฐ๋ ๋์ผํ ์ปดํจํ ํ๊ฒฝ์์ ์ฃผ์ด์ง ํ ์คํธ๋ฅผ ์ธ์ํ๋ ๋ฐ ๊ฑธ๋ฆฌ๋ ํ๊ท ํด๋ญ ์๊ฐ(๋ฐ๋ฆฌ์ด ๋จ์)์ ์ธก์ ํ๋ค. + - ๋ฉ๋ชจ๋ฆฌ ํ๊ฐ๋ ์ ์ฒด STR ํ์ดํ๋ผ์ธ์์ ํ์ต ๊ฐ๋ฅํ ๋ถ๋ ์์์ ํ๋ผ๋ฏธํฐ์ ์๋ฅผ ๊ณ์ฐํ๋ค. +- **Environment** + - Intel Xeon(R) E5-2630 v4 2.20GHz CPU, NVIDIA TESLA P40 GPU, 252GB RAM ํ๊ฒฝ์์ ์ํํ๋ค. + - ๋ชจ๋ ์คํ์ NAVER Smart Machine Learning (NSML) ํ๋ซํผ์์ ์ํ๋๋ค. ### 4.2. Analysis on training datasets -- ํ์ต ๋ฐ์ดํฐ์ ์ ์ ํ์ด ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ: ๋ค์ํ ๊ทธ๋ฃน์ ํ์ต ๋ฐ์ดํฐ์ ์ฌ์ฉ์ด ๋ฒค์น๋งํฌ์์์ ์ฑ๋ฅ์ ํฐ ์ํฅ์ ๋ฏธ์นฉ๋๋ค. -- ํ์ต ๋ฐ์ดํฐ์ ์ ๋ํ ์คํ ๊ฒฐ๊ณผ: - - MJSynth๋ง ์ฌ์ฉํ์ ๋: 80.0% ์ด ์ ํ๋. - - SynthText๋ง ์ฌ์ฉํ์ ๋: 75.6% ์ ํ๋. - - MJSynth์ SynthText ๋ ๋ค ์ฌ์ฉํ์ ๋: 84.1% ์ ํ๋. -- ๋ฐ์ดํฐ์ ์ ๊ฒฐํฉ์ด ์ ํ๋ ํฅ์์ ๊ธฐ์ฌ: MJSynth์ SynthText์ ๊ฒฐํฉ์ ๊ฐ๋ณ ์ฌ์ฉ๋ณด๋ค 4.1% ์ด์ ์ ํ๋๋ฅผ ํฅ์์ํต๋๋ค. -- ๋ค์ํ ํ์ต ๋ฐ์ดํฐ์ ์ฌ์ฉ์ ๋ณต์ก์ฑ ์ธ์: ๋ค๋ฅธ ํ์ต ๋ฐ์ดํฐ์ ์ฌ์ฉ ๊ฒฐ๊ณผ์ ์ฑ๋ฅ ๋น๊ต๋ ๋ถ๊ฐ๋ฅํ๋ฉฐ, ๋ชจ๋ธ์ ๊ธฐ์ฌ๋ฅผ ์ ์ฆํ๊ธฐ ์ด๋ ต์ต๋๋ค. -- ํ์ต ๋ฐ์ดํฐ์ ๋ค์์ฑ์ ์ค์์ฑ: MJSynth์ 20%์ SynthText์ 20%๋ฅผ ํจ๊ป ํ์ต์ํจ ๊ฒฐ๊ณผ, ๊ฐ๋ณ ์ฌ์ฉ๋ณด๋ค ๋์ ์ ํ๋(81.3%)๋ฅผ ๋ฌ์ฑํ๋ฉฐ, ํ์ต ๋ฐ์ดํฐ์ ๋ค์์ฑ์ด ํ์ต ์์ ์ ์๋ณด๋ค ์ค์ํ ์ ์์์ ์์ฌํฉ๋๋ค. +- ๋ค์ํ ๊ทธ๋ฃน์ ํ์ต ๋ฐ์ดํฐ์ ์ฌ์ฉ์ด ๋ฒค์น๋งํฌ์์์ ์ฑ๋ฅ์ ์ผ๋ง๋ ํฐ ์ํฅ์ ๋ฏธ์น๋์ง ์กฐ์ฌํ๋ค. +- ์ค์ง MJSynth๋ง ์ฌ์ฉํ์ ๋ ์ด ์ ํ๋ 80.0% ๋ฌ์ฑํ๋ค. +- ์ค์ง SynthText๋ง ์ฌ์ฉํ์ ๋ 75.6% ๋ฌ์ฑํ๋ค. +- MJSynth์ SynthText๋ฅผ ํจ๊ป ์ฌ์ฉํ์ ๋ 84.1% ๋ฌ์ฑํ๋ค. +- MJSynth์ SynthText์ ๊ฒฐํฉ์ ๊ฐ๊ฐ์ ๊ฐ๋ณ์ ์ผ๋ก ์ฌ์ฉํ์ ๋๋ณด๋ค ์ ํ๋๋ฅผ 4.1% ์ด์ ํฅ์์ํจ๋ค. +- MJSynth์ 20% (1.8M)์ SynthText์ 20% (1.1M)๋ฅผ ํจ๊ป ํ์ต์ํฌ ๋ ์ด 2.9M (SynthText์ ์ ๋ฐ)์ ์ฌ์ฉํ์ฌ 81.3%์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ๋ค. ์ด๋ MJSynth๋ SynthText๋ฅผ ๊ฐ๋ณ์ ์ผ๋ก ์ฌ์ฉํ์ ๋๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค. +- MJSynth์ SynthText๋ ์๊ณก๊ณผ ํ๋ฆผ๊ณผ ๊ฐ์ ๋ค๋ฅธ ์ต์ ์ ์ฌ์ฉํ์ฌ ์์ฑ๋์๊ธฐ ๋๋ฌธ์ ์๋ก ๋ค๋ฅธ ํน์ฑ์ ๊ฐ์ง๋ค. +- ์ด ๊ฒฐ๊ณผ๋ ํ์ต ๋ฐ์ดํฐ์ ๋ค์์ฑ์ด ํ์ต ์์ ์ ์๋ณด๋ค ๋ ์ค์ํ ์ ์์ผ๋ฉฐ, ๋ค๋ฅธ ํ์ต ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ๋ ๊ฒ์ ํจ๊ณผ๊ฐ ๋จ์ํ '๋ ๋ง์ ๊ฒ์ด ๋ ์ข๋ค'๊ณ ๊ฒฐ๋ก ์ง๊ธฐ๋ณด๋ค ๋ ๋ณต์กํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ### 4.3. Analysis of trade-offs for module combinations -- ์ ํ๋-์๋ ํธ๋ ์ด๋์คํ - - T1๋ถํฐ T5๊น์ง์ ๋ชจ๋ ์กฐํฉ์ ์์ฐจ์ ์ผ๋ก ๋ค์ ๋ชจ๋์ ๋์ ํจ์ผ๋ก์จ ์ ํ๋๋ฅผ ํฅ์์ํต๋๋ค: ResNet, BiLSTM, TPS, Attn. - - T1์ ๋ณํ ๋๋ ์์ฐจ ๋ชจ๋์ ํฌํจํ์ง ์์ ์ต์ ์๊ฐ์ ์์ํฉ๋๋ค. - - T5๊น์ง ๊ฐ ๋จ๊ณ๋ง๋ค ๋จ์ผ ๋ชจ๋์ด ๋ณ๊ฒฝ๋์ด, ๊ณ์ฐ ํจ์จ์ฑ์ ๋น์ฉ์ผ๋ก ์ฑ๋ฅ์ด ํฅ์๋ฉ๋๋ค. - - ResNet, BiLSTM, TPS๋ ๋น๊ต์ ์ ๋นํ ์ ์ฒด ์๋ ์ ํ๋ก ์ ํ๋๋ฅผ ํฌ๊ฒ ํฅ์์ํต๋๋ค. - - Attn ๋ชจ๋์ ์ถ๊ฐ๋ ํจ์จ์ฑ์ ํฐ ๋น์ฉ์ผ๋ก ์ ํ๋๋ฅผ ๋จ 1.1%๋ง ํฅ์์ํต๋๋ค. -- ์ ํ๋-๋ฉ๋ชจ๋ฆฌ ํธ๋ ์ด๋์คํ - - P1๋ถํฐ P5๊น์ง์ ๋ชจ๋ ์กฐํฉ์ ๋ฉ๋ชจ๋ฆฌ์ ์ ํ๋ ์ฌ์ด์ ํธ๋ ์ด๋์คํ๋ฅผ ๋ณด์ฌ์ค๋๋ค. - - P1์ ๋ฉ๋ชจ๋ฆฌ ์๋น๊ฐ ๊ฐ์ฅ ์ ์ ๋ชจ๋ธ์ ๋๋ค. - - P1์์ P5๋ก ๊ฐ๋ฉด์ ๋ณ๊ฒฝ๋ ๋ชจ๋์ Attn, TPS, BiLSTM, ResNet์ ๋๋ค. - - RCNN์ VGG์ ๋น๊ตํ์ฌ ๋ ๊ฐ๋ณ๊ณ ์ข์ ์ ํ๋-๋ฉ๋ชจ๋ฆฌ ํธ๋ ์ด๋์คํ๋ฅผ ์ ๊ณตํฉ๋๋ค. - - ๋ณํ, ์์ฐจ, ์์ธก ๋ชจ๋์ ๋ฉ๋ชจ๋ฆฌ ์๋น์ ํฌ๊ฒ ๊ธฐ์ฌํ์ง ์์ผ๋ฉฐ, ์ ํ๋ ํฅ์์ ์ ๊ณตํฉ๋๋ค. - - ResNet์ ์ถ๊ฐ๋ ๋ฉ๋ชจ๋ฆฌ ์๋น๋ฅผ ํฌ๊ฒ ์ฆ๊ฐ์ํค๋ฉด์ ์ ํ๋๋ฅผ ์ฝ๊ฐ ํฅ์์ํต๋๋ค. -- ์๋์ ๋ฉ๋ชจ๋ฆฌ์ ๊ฐ์ฅ ์ค์ํ ๋ชจ๋ - - ์๋์ ๋ํด Attn ๋ชจ๋์ ์ถ๊ฐ๊ฐ ์ ์ฒด STR ๋ชจ๋ธ์ ์๋นํ ๋๋ฆฌ๊ฒ ํฉ๋๋ค. - - ๋ฉ๋ชจ๋ฆฌ์ ๋ํด ํน์ง ์ถ์ถ๊ธฐ๊ฐ ๊ฐ์ฅ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํฉ๋๋ค. - - ์ด ๋ถ์์ ํตํด, ๋ค๋ฅธ ์์ฉ ์๋๋ฆฌ์ค์ ์ ์ฝ ์กฐ๊ฑด ํ์ ์๋ ์ฌ์ฉ์๋ ์์ ์ ํ์์ ๋ง๋ ์ต์ ์ ํธ๋ ์ด๋์คํ๋ฅผ ์ํด ๋ค์ํ ๋ชจ๋ ์กฐํฉ์ ๊ณ ๋ คํ ์ ์์ต๋๋ค. +- ๋ค์ํ ๋ชจ๋ ์กฐํฉ์์ ๋ํ๋๋ ์ ํ๋-์๋ ๋ฐ ์ ํ๋-๋ฉ๋ชจ๋ฆฌ ํธ๋ ์ด๋์คํ์ ์ด์ ์ ๋ง์ถ๋ค. +- Fig 4์ ๊ฐ์ด ์ด 24๊ฐ์ง ์กฐํฉ์ ํธ๋ ์ด๋์คํ ํ๋กฏ์ ์ ๊ณตํ๋ค. +- **Analysis of combinations along the trade-off frontiers.** + - accuracy-time trade-off (Fig 4(a)) + - Rosetta์ STAR-net์ด ํ๋ก ํฐ์ด(์ต์ ์ )์ ์์นํ๋ค. + - T1๋ถํฐ T5๊น์ง์ ๋ชจ๋ ์กฐํฉ์ ์์ฐจ์ ์ผ๋ก ResNet, BiLSTM, TPS, Attn. ๋ชจ๋์ ๋์ ํจ์ผ๋ก์จ ์ ํ๋๋ฅผ ํฅ์์ํจ๋ค. + - T1์ ๋ณํ ๋๋ ์์ฐจ ๋ชจ๋์ ํฌํจํ์ง ์์ ์ต์ ์๊ฐ์ ์์ํ๋ค. + - T5๊น์ง ๊ฐ ๋จ๊ณ๋ง๋ค ๋จ์ผ ๋ชจ๋์ด ๋ณ๊ฒฝ๋์ด, ๊ณ์ฐ ํจ์จ์ฑ์ ๋น์ฉ์ผ๋ก ์ฑ๋ฅ์ด ํฅ์๋๋ค. + - ResNet, BiLSTM, TPS๋ ๋น๊ต์ ์ ๋นํ ์ ์ฒด ์๋ ์ ํ๋ก ์ ํ๋๋ฅผ ํฌ๊ฒ ํฅ์์ํจ๋ค. + - Attn ๋ชจ๋์ ์ถ๊ฐ๋ ํจ์จ์ฑ์ ํฐ ๋น์ฉ์ผ๋ก ์ ํ๋๋ฅผ ๋จ 1.1%๋ง ํฅ์์ํจ๋ค. + - accuracy-memory trade-off (Fig 4(b)) + - R2AM์ด ํ๋ก ํฐ์ด(์ต์ ์ )์ ์์นํ๋ค. + - P1๋ถํฐ P5๊น์ง์ ๋ชจ๋ ์กฐํฉ์ ๋ฉ๋ชจ๋ฆฌ์ ์ ํ๋ ์ฌ์ด์ ํธ๋ ์ด๋์คํ๋ฅผ ๋ณด์ฌ์ค๋ค. + - P1์ ๋ฉ๋ชจ๋ฆฌ ์๋น๊ฐ ๊ฐ์ฅ ์ ์ ๋ชจ๋ธ์ด๋ค. + - P1์์ P5๋ก ๊ฐ๋ฉด์ ๋ณ๊ฒฝ๋ ๋ชจ๋์ Attn, TPS, BiLSTM, ResNet์ด๋ค. + - RCNN์ VGG์ ๋น๊ตํ์ฌ ๋ ๊ฐ๋ณ๊ณ ์ข์ ์ ํ๋-๋ฉ๋ชจ๋ฆฌ ํธ๋ ์ด๋์คํ๋ฅผ ์ ๊ณตํ๋ค. + - ๋ณํ, ์์ฐจ, ์์ธก ๋ชจ๋์ ๋ฉ๋ชจ๋ฆฌ ์๋น์ ํฌ๊ฒ ๊ธฐ์ฌํ์ง ์์ผ๋ฉฐ, ์ ํ๋ ํฅ์์ ์ ๊ณตํ๋ค. + - ResNet์ ์ถ๊ฐ๋ ๋ฉ๋ชจ๋ฆฌ ์๋น๋ฅผ ํฌ๊ฒ ์ฆ๊ฐ์ํค๋ฉด์ ์ ํ๋๋ฅผ ์ฝ๊ฐ ํฅ์์ํจ๋ค. +- **The most important modules for speed and memory.** + - ์๋์ ๋ฉ๋ชจ๋ฆฌ์ ๊ฐ์ฅ ์ค์ํ ๋ชจ๋, ์ฆ ๊ฐ๊ฐ ์์ธก ๋ฐ ํน์ง ์ถ์ถ ๋ชจ๋์ ๊ฐ๊ฐ ๋ํ๋ด๋ ์ฐ์ ๋๋ฅผ Fig 5์์ ๋ณด์ฌ์ค๋ค. + - ์๋์๋ ์์ธก ๋ชจ๋์ด ๋ฉ๋ชจ๋ฆฌ์๋ ํน์ง ์ถ์ถ ๋ชจ๋์ด ๊ฐ์ฅ ํฐ ์ํฅ์ ๋ฏธ์น๋ค. + - ์๋์ ๋ํด Attn ๋ชจ๋์ ์ถ๊ฐ๊ฐ ์ ์ฒด STR ๋ชจ๋ธ์ ์๋นํ ๋๋ฆฌ๊ฒ ํ๋ค. + - ๋ฉ๋ชจ๋ฆฌ์ ๋ํด ํน์ง ์ถ์ถ๊ธฐ๊ฐ ๊ฐ์ฅ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ๋ค. + +