diff --git a/_posts/study/2023-10-11-Deep Text Recognition.md b/_posts/study/2023-10-11-Deep Text Recognition.md
index ffd0e502e156..c4814cf4d024 100644
--- a/_posts/study/2023-10-11-Deep Text Recognition.md
+++ b/_posts/study/2023-10-11-Deep Text Recognition.md
@@ -20,95 +20,117 @@ published: false
- [5. Conclusion](#5-conclusion)
## 1. Introduction
-- 자연 장면에서 텍스트를 읽는 장면 텍스트 인식(STR)은 다양한 산업 응용 분야에서 중요한 작업입니다.
-- 기존 OCR 방법들은 실제 세계의 다양한 텍스트 외형과 장면이 캡처된 불완전한 조건들로 인해 STR 작업에서 그만큼 효과적이지 못했습니다.
-- 이전 연구들은 특정 도전을 해결하는 깊은 신경망으로 이루어진 다단계 파이프라인을 제안했습니다.
-- 새롭게 제안된 모듈이 현재의 예술에 비해 어떻게 개선되었는지 평가하기 어려웠습니다. 이는 다른 평가 및 테스트 환경으로 인한 것입니다.
-- 학습 데이터셋과 평가 데이터셋 사용에 일관성이 없어 다른 모델들 사이의 성능 비교가 공정하지 않았습니다.
-- 이 논문은 STR 데이터셋 사용의 일관성 없음과 그 원인을 분석합니다.
-- 통합된 STR 프레임워크를 소개하여 기존 방법에 대한 공통적인 관점을 제공합니다.
-- 통합 실험 설정 아래에서 정확도, 속도, 및 메모리 요구 사항 측면에서 모듈별 기여를 연구합니다.
-- 개별 모듈의 기여를 더 엄격하게 평가하고, 현재의 예술보다 개선된 이전에 간과된 모듈 조합을 제안합니다.
-- 벤치마크 데이터셋에서의 실패 사례를 분석하여 STR에서 남아있는 도전 과제를 식별합니다.
+- 자연 장면에서 텍스트를 읽는 장면 텍스트 인식(Scene Text Recognition, STR)은 다양한 산업 응용 분야에서 중요한 작업이다.
+- 기존 광학 문자 인식(Optical Character Recognition, OCR) 방법들은 실제 세계의 다양한 텍스트 외형과 장면이 캡처된 불완전한 조건들로 인해 STR 작업에서 그만큼 효과적이지 못하다.
+- 이전 연구들은 특정 도전을 해결하는 깊은 신경망으로 이루어진 다단계 파이프라인을 제안했다.
+- 예를 들어, Shi et al.은 입력된 문자 수의 변화를 처리하기 위해 순환 신경망을, 문자 수를 식별하기 위해 연결주의 시간 분류 손실을 제안했다.
+- 새롭게 제안된 모듈이 기존의 방법을 어떻게 개선하는지 평가하기 어렵다. 이는 다른 평가 및 테스트 환경이 상이하기 때문이다.
+- 학습 데이터셋과 평가 데이터셋 사용에 일관성이 없어 다른 모델들 사이의 성능 비교가 공정하지 않았다.
+- 본 논문은 STR 데이터셋을 분석하여 데이터셋 사용의 일관성 없음과 그 원인을 분석한다.
+- STR을 위한 통합 프레임워크를 소개하여 기존 방법에 대한 공통적인 관점을 제공한다.
+- 모델을 변환(Trans.), 특징 추출(Feat.), 시퀀스 모델링(Seq.), 예측(Pred.)의 네 가지 연속적인 작업 단계로 나눈다.
+- 통합 실험 설정 아래에서 정확도, 속도, 및 메모리 요구 사항 측면에서 모듈별 기여를 연구한다.
+- 개별 모듈의 기여를 더 엄격하게 평가하고, 기존 모델보다 개선된 모듈 조합을 제안한다.
+- 벤치마크 데이터셋에서의 실패 사례를 분석하여 STR의 남은 도전 과제를 식별한다.
## 2. Dataset Matters in STR
-- 이전 작업에서 사용된 다양한 학습 및 평가 데이터셋 검토
-- 데이터셋 사용에서의 차이점 다룸
-- 각 작업이 데이터셋을 구성하고 사용하는 방식의 차이 강조
-- 다른 작업 간 성능 비교 시 일관성 없음으로 인한 편향 조사
-- 데이터셋의 일관성 없음으로 인한 성능 격차 측정 및 논의
+- 이전 작업에서 사용된 다양한 학습 및 평가 데이터셋 검토하고 차이점을 다룬다.
+- 각 연구가 데이터셋을 구성하고 사용하는 방식에서 어떻게 다른지 강조한다.
+- 다른 작업 간 성능 비교 시 일관성 없음으로 인한 편향 조사한다.
+- 데이터셋의 불일치로 인한 성능 격차 측정 및 논의한다.
### 2.1. Synthetic datasets for training
-- STR 모델 학습 시 실제 데이터 대신 합성 데이터셋 사용
-- 가장 인기 있는 두 가지 합성 데이터셋 소개:
- - MJSynth (MJ): STR을 위해 설계된 합성 데이터셋, 8.9M 단어 상자 이미지 포함. 생성 과정에는 폰트 렌더링, 테두리 및 그림자 렌더링, 배경 색칠, 폰트/테두리/배경의 합성, 투영 왜곡 적용, 실제 세계 이미지와의 혼합, 노이즈 추가가 포함됨.
- - SynthText (ST): 장면 텍스트 검출을 위해 원래 설계된 또 다른 합성 생성 데이터셋. 단어 상자를 자르고 비알파벳 문자를 필터링하여 STR에도 사용됨. 5.5M 학습 데이터가 있음.
-- 이전 작업들은 MJ, ST, 또는 다른 출처들의 다양한 조합을 사용
-- 데이터셋 사용의 일관성 부족이 성능 개선이 모듈의 기여 때문인지, 아니면 더 나은 또는 더 큰 학습 데이터 때문인지 의문을 제기함
-- 미래의 STR 연구에서 사용된 학습 데이터셋을 명확히 표시하고 모델을 동일한 학습 세트를 사용하여 비교할 것을 제안
+- STR 모델 학습 시, 현장 텍스트 이미지의 레이블링 비용이 많이 소요되고 충분한 레이블링 데이터를 얻기 어렵기 때문에, 대부분의 STR 모델은 학습을 위해 합성 데이터셋을 사용한다.
+- Fig 1과 같이 가장 인기 있는 두 가지 합성 데이터셋 소개: MJSynth (MJ), SynthText (ST)
+- **MJSynth (MJ)**
+ - STR을 위해 설계된 합성 데이터셋이다.
+ - 총 8.9M 단어 상자 이미지 포함한다.
+ - 생성 과정에는 폰트 렌더링, 테두리 및 그림자 렌더링, 배경 색칠, 폰트/테두리/배경의 합성, 투영 왜곡 적용, 실제 세계 이미지와의 혼합, 노이즈 추가가 포함된다.
+- **SynthText (ST)**
+ - 또 다른 합성으로 생성된 데이터셋으로, 원래는 장면 텍스트 검출을 위해 설계된다.
+ - 장면이미지에 단어를 렌더링하는 예시를 포함된다.
+ - 비록 SynthText가 장면 텍스트 검출 작업을 위해 설계되었지만, 단어 박스를 잘라내어 STR에도 사용된다.
+ - 비영숫자 문자를 제외하고 단어 박스를 잘라내고 필터링하면 5.5M의 학습 데이터가 있다.
+- 이전 작업들은 MJ, ST, 또는 다른 출처들의 다양한 조합을 사용한다.
+- 데이터셋 사용의 일관성 부족이 성능 개선이 모듈의 기여 때문인지, 아니면 더 나은 또는 더 큰 학습 데이터 때문인지 의문을 제기한다.
+- 학습 데이터셋이 벤치마크에서의 최종 성능에 미치는 영향에 대해 실험적으로 설명한다.
+- 향후 STR 연구에서는 사용된 학습 데이터셋을 명확히 밝히고 동일한 학습 세트를 사용하여 모델을 비교할 것을 제안한다.
+
+
+
+
### 2.2. Real-world datasets for evaluation
-- STR 모델 평가에 널리 사용되는 일곱 가지 실제 데이터셋
-- 데이터셋의 부분집합 사용으로 인한 일관성 없는 비교 문제
-- 데이터셋을 "정규"와 "비정규"로 분류
-- 정규 데이터셋은 비교적 쉬운 STR 사례를 대표:
- - IIIT5K-Words (IIIT): Google 이미지 검색에서 크롤링, 2,000개 학습 이미지와 3,000개 평가 이미지
- - Street View Text (SVT): Google Street View에서 수집된 야외 거리 이미지, 257개 학습 이미지와 647개 평가 이미지
- - ICDAR2003 (IC03): ICDAR 2003 대회용, 1,156개 학습 이미지와 1,110개 평가 이미지 (비알파벳 문자 또는 3자 미만 단어 제외 시 867개)
- - ICDAR2013 (IC13): ICDAR 2013 대회용, 대부분 IC03 이미지 상속, 848개 학습 이미지와 1,095개 평가 이미지 (비알파벳 문자를 포함한 단어 제외 시 1,015개)
-- 평가를 위해 데이터셋의 다른 버전 사용으로 인한 차이점 존재
-
-비정규 데이터셋은 STR에 대한 더 어려운 코너 케이스를 포함하며, 주로 곡선이 있거나 임의로 회전하거나 왜곡된 텍스트를 포함합니다:
-
-ICDAR2015 (IC15)
-
-목적: ICDAR 2015 강건한 읽기 대회를 위해 제작됨.
-데이터셋 특징: Google Glass를 통해 캡처된 4,468개의 학습 이미지와 2,077개의 평가 이미지 포함. 많은 이미지가 노이즈가 많고, 흐리며, 회전되었고, 일부는 해상도가 낮음.
-평가 버전: 연구자들은 1,811개와 2,077개 이미지의 두 가지 다른 버전으로 평가했음. 비알파벳 문자 이미지와 일부 극도로 회전된, 관점이 변경된, 곡선이 있는 이미지를 제외하고 1,811개의 이미지만 사용함.
-SVT Perspective (SP)
-
-데이터셋 특징: Google Street View에서 수집된 645개의 평가 이미지 포함. 많은 이미지가 비정면 시점으로 인한 관점 투영을 포함함.
-CUTE80 (CT)
-
-데이터셋 특징: 자연 장면에서 수집된 288개의 잘린 이미지로 평가됨. 많은 이미지가 곡선 텍스트 이미지를 포함함.
-표 1은 이전 작업들이 다른 벤치마크 데이터셋에서 모델을 평가했다는 중요한 문제를 강조합니다. 특히, IC03, IC13, IC15의 다른 버전에서 평가가 이루어졌으며, IC03에서는 7개의 예시가 이전 성능들과 비교할 때 0.8%라는 큰 성능 격차를 일으킬 수 있습니다. IC13과 IC15에서는 예시 번호의 격차가 IC03보다 더 큽니다.
+- STR 모델 평가에 널리 사용되는 일곱 가지 실제 데이터셋이 있다.
+- Table 1과 같이 일부 벤치마크 데이터셋의 경우 이전 작업마다 평가를 위해 데이터셋의 **다른 하위 집합(different subsets)**이 사용되었으며, 이는 일관성 없는 비교를 초래한다.
+- Fig2와 같이 데이터셋을 "정규"와 "비정규"로 분류한다.
+- **정규 데이터셋(regular datasets):** 문자가 수평으로 배치되고 서로 사이에 균일한 간격이 있는 텍스트 이미지를 포함한다.
+ - **IIIT5K-Words (IIIT):** Google 이미지 검색에서 크롤링한 데이터셋으로 2,000개 학습 이미지와 3,000개 평가 이미지를 포함한다.
+ - **Street View Text (SVT):** Google Street View에서 수집된 야외 거리 이미지로 257개 학습 이미지와 647개 평가 이미지를 포함한다.
+ - **ICDAR2003 (IC03):** 카메라로 촬영된 장면 텍스트를 읽기 위한 ICDAR 2003 Robust Reading 경쟁을 위해 생성되었다. 1,156개의 학습 이미지와 1,110개의 평가 이미지를 포함한다.(비알파벳 문자 또는 3자 미만 단어 제외 시 867개)
+ - **ICDAR2013 (IC13):** IC03의 대부분 이미지를 상속받고 ICDAR 2013 Robust Reading 경쟁을 위해 생성되었다. 848개의 훈련 이미지와 1,095개의 평가 이미지를 포함한다. (비알파벳 문자를 포함한 단어 제외 시 1,015개)
+- **비정규 데이터셋(irregular datasets):** 곡선이 있는 텍스트, 임의로 회전되거나 왜곡된 텍스트와 같은 STR의 어려운 코너 케이스를 일반적으로 포함한다.
+ - **ICDAR2015 (IC15):** ICDAR 2015 Robust Reading 경쟁을 위해 생성되었다. Google Glass를 통해 캡처된 4,468개의 학습 이미지와 2,077개의 평가 이미지를 포함한다. 많은 이미지가 노이즈가 많고, 흐리며, 회전되었고, 일부는 해상도가 낮다. 평가를 위한 또 다른 버전은 1,811개와 2,077개 이미지를 포함하고 있으며,비알파벳 문자 이미지와 일부 극도로 회전되고 관점이 변경되며 곡선이 있는 이미지를 제외하고 1,811개의 이미지만 사용했다.
+ - **SVT Perspective (SP):** Google Street View에서 수집된 645개의 평가 이미지를 포함한다. 많은 이미지가 비정면 시점으로 인한 관점 투영을 포함한다.
+ - **CUTE80 (CT):** 자연 장면에서 수집된 288개의 잘린 이미지를 포함한다. 많은 이미지가 곡선 텍스트 이미지를 포함한다.
+- Table 1은 이전 작업들이 다른 벤치마크 데이터셋에서 모델을 평가했다는 중요한 문제를 강조한다.
+- IC03, IC13, IC15의 다른 버전에서 평가가 이루어졌으며, IC03에서는 7개의 예시가 이전 성능들과 비교할 때 0.8%라는 큰 성능 격차를 일으킬 수 있다.
+- IC13과 IC15에서는 예시 번호의 격차가 IC03보다 더 크다.
+
+
+
+
+
## 3. STR Framework Analysis
-- 장면 텍스트 인식(STR) 프레임워크는 네 단계로 구성되어 있으며, 각 단계는 다음과 같습니다:
- - 변환(Transformation): Spatial Transformer Network(STN)를 사용하여 입력 텍스트 이미지를 정규화하여 후속 단계를 용이하게 합니다.
- - 특성 추출(Feature extraction): 입력 이미지를 문자 인식에 관련된 속성에 초점을 맞춘 표현으로 매핑하면서 글꼴, 색상, 크기, 배경 등 관련 없는 특성을 억제합니다.
- - 시퀀스 모델링(Sequence modeling): 문자의 시퀀스 내에서 맥락 정보를 포착하여 다음 단계에서 각 문자를 더 견고하게 예측할 수 있게 합니다.
- - 예측(Prediction): 이미지의 식별된 특성으로부터 출력 문자 시퀀스를 추정합니다.
+- 독립적으로 제안된 STR 모델들 사이의 공통점에서 유래된 네 단계로 구성된 장면 텍스트 인식(STR) 프레임워크를 소개한다.
+- 컴퓨터 비전 작업(예: 객체 탐지) 및 시퀀스 예측 작업과의 유사성으로 인해, STR은 고성능 컨볼루셔널 신경망(CNN)과 순환 신경망(RNN)의 혜택을 받는다.
+- CNN과 RNN을 결합한 첫 번째 STR 응용인 Convolutional-Recurrent Neural Network (CRNN)는 입력 텍스트 이미지에서 CNN 특징을 추출하고, 이를 RNN으로 재구성하여 강력한 시퀀스 예측을 달성한다.
+- Fig 3과 같이 STR 프레임워크 네 단계로 분류한다.
+ - **Transformation (Trans.):** 입력 텍스트 이미지를 Spatial Transformer Network(STN)를 사용하여 정규화하여 후속 단계를 용이하게 한다.
+ - **Feature extraction (Feat.):** 입력 이미지를 문자 인식에 관련된 속성에 초점을 맞춘 표현으로 매핑하면서 글꼴, 색상, 크기, 배경 등 관련 없는 특징을 억제한다.
+ - **Sequence modeling (Seq.):** 문자의 시퀀스 내에서 맥락 정보를 포착하여 다음 단계에서 각 문자를 더 견고하게 예측할 수 있게 한다.
+ - **Prediction (Pred.):** 이미지의 식별된 특징으로부터 출력 문자 시퀀스를 추정한다.
+
+
+
+
### 3.1. Transformation stage
-- 이 단계의 모듈은 입력 이미지 �X를 정규화된 이미지 �~X~ 로 변환합니다.
-- 자연 장면에서의 텍스트 이미지는 다양한 형태를 띠며, 곡선이 있거나 기울어진 텍스트를 포함할 수 있습니다.
-- 입력 이미지가 변경 없이 제공되면, 후속 특성 추출 단계는 이러한 기하학적 변형에 대해 불변하는 표현을 학습해야 합니다.
-- 이러한 부담을 줄이기 위해, 씬 플레이트 스플라인(TPS) 변환을 적용합니다. TPS는 공간 변환 네트워크(STN)의 변형으로, 텍스트 라인의 다양한 종횡비에 유연하게 적용될 수 있습니다.
-- TPS는 일련의 기준점 사이에서 부드러운 스플라인 보간을 사용하며, 상단과 하단을 둘러싼 점들에서 다수의 기준점을 찾아 문자 영역을 미리 정의된 직사각형으로 정규화합니다.
-- 프레임워크는 TPS의 선택 또는 선택 해제를 허용합니다.
+- 이 단계의 모듈은 입력 이미지 X를 정규화된 이미지 $\tilde{X}$ 로 변환한다.
+- 자연 장면에서의 텍스트 이미지는 다양한 형태를 띠며, 곡선이 있거나 기울어진 텍스트를 포함할 수 있다.
+- 입력 이미지가 변경 없이 제공되면, 후속 특징 추출 단계는 이러한 기하학적 변형에 대해 불변하는 표현을 학습해야 한다.
+- 이러한 부담을 줄이기 위해 Thin-Plate Spline(TPS)변환을 적용해야 한다. TPS는 공간 변환 네트워크(STN)의 변형으로, 텍스트 라인의 다양한 종횡비에 유연하게 적용될 수 있다.
+- TPS는 일련의 기준점 사이에서 부드러운 스플라인 보간(smooth spline interpolation)을 사용하며, 상단과 하단을 둘러싼 점들에서 다수의 기준점(Fig 3에서 녹색 '+' 표시)을 찾아 문자 영역을 미리 정의된 직사각형으로 정규화한다.
+- 프레임워크는 TPS의 선택 또는 선택 해제를 허용한다.
### 3.2. Feature extraction stage
-- 특성 추출 단계에서 연구된 세 가지 아키텍처는 다음과 같습니다:
- - VGG - 여러 개의 컨볼루셔널 레이어를 거친 후 몇 개의 완전 연결 레이어로 구성됩니다.
- - RCNN - 문자 형태에 따라 수용 필드를 조정할 수 있도록 재귀적으로 적용될 수 있는 CNN의 변형입니다.
- - ResNet - 상대적으로 더 깊은 CNN의 학습을 용이하게 하는 잔류 연결을 가진 CNN입니다.
-
-### 3.3. Sequence modeling stage
-- 특성 재구성: 특성 추출 단계에서 추출된 특성들은 시퀀스 �V로 재구성됩니다. 특성 맵의 각 열 ��v i 는 시퀀스의 프레임으로 사용됩니다.
-- 문맥 정보 부족: 이 시퀀스는 문맥 정보가 부족할 수 있습니다.
-- 양방향 LSTM (BiLSTM) 사용: 일부 이전 작업들은 더 나은 시퀀스 �=Seq:(�) H=Seq:(V)를 만들기 위해 양방향 LSTM(BiLSTM)을 사용합니다.
-- BiLSTM 제거 옵션: Rosetta와 같은 일부 방법은 계산 복잡성과 메모리 소비를 줄이기 위해 BiLSTM을 제거했습니다.
-- BiLSTM 선택 가능: 프레임워크는 BiLSTM의 선택 또는 선택 해제를 허용합니다.
+- 특징 추출 단계의 목적은 CNN을 사용하여 입력 이미지 $\mathbf{X}$ 또는 $\tilde{\mathbf{X}}$를 추상화하고 시각적 특징 맵 $\mathbf{V} = \{v_i\}; i = 1, \ldots, I$를 출력하는 것이다. (여기서 $I$는 특징 맵의 열 수이다.)
+- 결과적인 특징 맵의 각 열은 입력 이미지의 수평선을 따른 구분 가능한 수용 필드에 해당하며, 이 특징들은 각 수용 필드에서 문자를 추정하는 데 사용된다.
+- 특징 추출 단계에서 연구된 세 가지 아키텍처는 다음과 같습니다
+ - **VGG:** 여러 개의 컨볼루셔널 레이어를 거친 후 몇 개의 완전 연결 레이어로 구성된다.
+ - **RCNN:** 문자 형태에 따라 수용 필드를 조정할 수 있도록 재귀적으로 적용될 수 있는 CNN의 변형이다.
+ - **ResNet:** 상대적으로 더 깊은 CNN의 학습을 용이하게 하는 잔여 연결을 가진 CNN입니다.
+- 이 단계에서의 아키텍처 선택은 STR 시스템의 전체 성능에 중요한 영향을 미치며, 다양한 형태의 텍스트 이미지에 대한 효과적인 특징 추출을 가능하게 한다.
+
+### 3.3. Sequence modeling stage
+- 특징 추출 단계에서 추출된 특징들을 시퀀스 형태의 특징 $V$로 재구성한다. 즉, 특징 맵의 각 열 $v_i \in V$는 시퀀스의 프레임으로 사용된다.
+- 이 시퀀스는 문맥 정보의 부족으로 인해 문제를 겪을 수 있다.
+- 일부 이전 작업들은 더 나은 시퀀스 $H=Seq(V)$를 만들기 위해 양방향 LSTM(**BiLSTM**)을 사용한다.
+- Rosetta와 같은 일부 방법은 계산 복잡성과 메모리 소비를 줄이기 위해 BiLSTM을 제거했다.
+- 본 논문의 프레임워크는 BiLSTM의 선택 또는 선택 해제를 허용한다.
+- 이 단계는 성능과 계산 복잡성 사이에서 균형을 맞출 수 있는 옵션을 갖는다.
### 3.4. Prediction stage
-- 이 단계에서는 입력 �H로부터 문자 시퀀스 �=�1,�2,…Y=y 1 ,y ,…를 예측하는 두 가지 주요 방법이 있습니다:
- - 연결주의 시간 분류 (CTC)
- - 고정된 수의 특성이 주어지더라도 고정되지 않은 수의 시퀀스를 예측할 수 있게 합니다.
- - 각 열 ℎ�∈�h i ∈H에서 문자를 예측하고, 반복되는 문자와 공백을 삭제함으로써 전체 문자 시퀀스를 고정되지 않은 문자 스트림으로 수정하는 방법을 사용합니다.
- - 주의 기반 시퀀스 예측 (Attention-based Sequence Prediction)
- - 입력 시퀀스 내의 정보 흐름을 자동으로 포착하여 출력 시퀀스를 예측합니다.
- - STR 모델이 출력 클래스 의존성을 나타내는 문자 수준 언어 모델을 학습할 수 있게 합니다.
+- 입력 $H$로부터 문자 시퀀스 (예: $Y=y_1,y_2,...$)를 예측하는 두 가지 모듈을 사용한다.
+- **Connectionist temporal classification (CTC)**
+ - 고정된 수의 특징이 주어지더라도 고정되지 않은 수의 시퀀스를 예측할 수 있게 한다.
+ - 주요 방법은 각 열 ($ℎ_i \in H$)에서 문자를 예측하고, 반복되는 문자와 공백을 삭제함으로써 전체 문자 시퀀스를 고정되지 않은 문자 스트림으로 수정하는 방법을 사용한다.
+- **attention-based sequence prediction (Attn)**
+ - 입력 시퀀스 내의 정보 흐름을 자동으로 포착하여 출력 시퀀스를 예측한다.
+ - STR 모델이 출력 클래스 의존성을 나타내는 문자 수준 언어 모델을 학습할 수 있게 한다.
+- CTC와 Attn 중에서 선택할 수 있다.
+- CTC는 고정되지 않은 길이의 출력을 다루는 데 유용하며, Attn은 문자 간 의존성을 더 잘 학습할 수 있는 장점을 가진다.
## 4. Experiment and Analysis
### 4.1. Implementation detail
@@ -173,7 +195,7 @@ CUTE80 (CT)
- Attn (주의 메커니즘): 누락되거나 가려진 문자를 찾아내어 텍스트 인식을 향상시킵니다.
### 4.5. Failure case analysis
-- 캘리그래피 폰트: 브랜드 또는 상점 이름에 사용된 독특한 폰트 스타일은 일반화된 시각적 특성을 제공하는 새로운 특징 추출기가 필요합니다.
+- 캘리그래피 폰트: 브랜드 또는 상점 이름에 사용된 독특한 폰트 스타일은 일반화된 시각적 특징을 제공하는 새로운 특징 추출기가 필요합니다.
- 세로 텍스트: 현재의 STR 모델들은 주로 수평 텍스트 이미지를 처리하도록 설계되어 있어, 세로 텍스트를 효과적으로 처리할 수 없습니다.
- 특수 문자: 현재 벤치마크는 특수 문자를 평가하지 않으므로, 특수 문자를 학습에서 제외하게 되어 이를 영숫자 문자로 잘못 인식하게 됩니다.
- 심각한 가림 현상: 현재 방법들은 문맥 정보를 충분히 활용하지 못해 객체가 가려진 경우를 효과적으로 처리하지 못합니다.