Bomb Kirby Running
본문 바로가기
프로젝트+스터디

[논문요약] Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation

by 코낄2 2024. 10. 31.

Introduction & Related work

 

장면 텍스트 감지는 컴퓨터 비전 분야에서 중요한 연구 주제로, 다양한 응용 프로그램에서 활용되고 있습니다. 예를 들어, 실시간 텍스트 번역, 시각 장애인 보조, 로봇 감지 등이 있습니다. 기존의 방법들은 수평 및 기울어진 텍스트 감지에 초점을 맞추었지만, 곡선 텍스트와 같은 불규칙한 형태의 텍스트 감지는 여전히 도전 과제로 남아 있습니다.

이 논문에서는 적응형 텍스트 영역 표현을 활용한 새로운 장면 텍스트 감지 방법을 제안합니다. 입력 이미지를 받으면, 먼저 텍스트 영역 제안 네트워크를 통해 텍스트 제안을 추출하고, 이후 정제 네트워크를 통해 이 제안들을 검증하고 보완합니다. 정제 네트워크는 텍스트/비텍스트 분류, 경계 상자 보정, 그리고 순환 신경망(RNN)을 기반으로 한 적응형 텍스트 영역 표현의 세 가지 브랜치로 구성됩니다. RNN은 경계 점의 쌍을 예측하며, 새로운 점이 발견되지 않을 때까지 반복합니다. 이를 통해 다양한 형태의 텍스트 영역을 감지하고, 더 정확한 경계 점 표현을 제공합니다.

연구 결과, 제안된 방법은 CTW1500, TotalText, ICDAR2013, ICDAR2015, MSRA-TD500 등 다섯 개의 벤치마크에서 최첨단 성능을 보였습니다. 전통적인 텍스트 감지 방법들은 성능이 낮았으나, 딥 러닝의 발전으로 인해 최근에는 경계 상자 회귀 기반 방법이 인기를 끌고 있습니다. 이는 텍스트를 객체로 간주하고 직접적으로 경계 상자를 추정하는 방식입니다.

결론적으로, 이 논문은 곡선 및 임의 형태의 텍스트 감지를 개선하기 위한 혁신적인 방법을 제안하며, 다양한 데이터셋에서 우수한 성능을 입증했습니다.

💡경계 상자 회귀 기반 방법은 객체 감지 분야에서 널리 사용되는 기술로, 텍스트를 객체로 간주하고 그 경계 상자를 직접적으로 추정하는 방식을 말합니다. 이 방법은 이미지에서 특정 객체(예: 텍스트)를 찾기 위해, 해당 객체가 위치할 가능성이 있는 영역을 정의하는 사각형인 경계 상자를 예측합니다.

이 과정은 주로 다음과 같은 단계로 이루어집니다.
특징 추출: 입력 이미지에서 중요한 특징을 추출하기 위해 합성곱 신경망(CNN)을 사용합니다.
경계 상자 회귀: 추출된 특징을 기반으로 경계 상자의 위치와 크기를 예측합니다. 이때, 텍스트가 포함될 가능성이 있는 영역에 대해 회귀 분석을 수행하여 최적의 경계 상자를 결정합니다.
비최대 억제(NMS): 중복된 경계 상자를 제거하기 위해 비최대 억제 기법을 적용하여 최종적으로 선택된 상자만 남깁니다.

이러한 경계 상자 회귀 기반 방법은 전통적인 방법보다 높은 정확도를 제공하며, 빠른 처리 속도를 자랑합니다. 특히, 딥 러닝의 발전으로 인해 이러한 방법이 더욱 발전하고 있으며, 다양한 형태의 텍스트 감지에 효과적으로 적용되고 있습니다.

 

방법론

경계 상자 회귀 기반 방법은 장면 텍스트 감지를 두 가지 유형으로 나눌 수 있습니다. 일단계 방법은 텍스트 영역의 경계 상자를 한 번의 단계에서 직접 추정하며, 예를 들어 Deep Direct Regression, EAST와 같은 방법이 포함됩니다. 반면, 이단계 방법은 텍스트 제안 생성 단계에서 후보 텍스트 영역을 만들고, 이후 경계 상자 보정 단계에서 이를 검증하고 보완하는 방식으로, R2CNN, Mask TextSpotter 등이 이 범주에 속합니다. 이단계 방법은 일반적으로 더 높은 성능을 보입니다.

대부분의 기존 방법은 고정된 수의 점으로 구성된 다각형을 사용하여 텍스트 영역을 표현합니다. 예를 들어, 수평 텍스트는 2개의 점, 다방향 텍스트는 4개의 점, 곡선 텍스트는 14개의 점으로 표현됩니다. 그러나 긴 곡선 텍스트 같은 복잡한 경우에는 14점조차도 부족할 수 있으며, 수평 및 기울어진 텍스트에는 오히려 많은 점이 필요할 수 있습니다. 이를 해결하기 위해, 본 논문에서는 텍스트 영역의 형태에 따라 적응형으로 점의 수를 조절하는 새로운 표현 방식을 제안합니다.

이 방법은 RNN을 활용하여 텍스트 영역을 직접 레이블링하고, 픽셀 단위의 분할이 필요하지 않습니다. 입력 이미지에서 텍스트 후보를 생성한 후, 정제 네트워크를 통해 검증 및 보완합니다. 정제 네트워크는 텍스트/비텍스트 분류, 경계 상자 회귀, 적응형 텍스트 영역 표현의 세 가지 브랜치로 구성됩니다. RNN은 텍스트 영역의 경계에 있는 쌍을 이루는 점을 예측하며, 각 시간 단계에서 좌표와 정지 레이블을 예측합니다.

정지 레이블 예측은 분류 문제인 반면, 좌표 예측은 회귀 문제이기 때문에, 이들을 같은 브랜치에 두는 것은 적절하지 않습니다. 따라서 LSTM의 각 시간 단계에는 점 좌표 회귀를 위한 브랜치와 정지 레이블 예측을 위한 브랜치의 두 가지가 있습니다. 각 단계에서 텍스트 영역의 두 쌍의 경계 점의 좌표와 레이블 (정지/계속)을 예측합니다. 레이블이 계속일 경우, 다음 시간 단계에서 또 다른 두 점의 좌표와 새로운 레이블이 예측됩니다. 그렇지 않으면 예측이 멈추고 이전에 예측된 점으로 텍스트 영역이 표현됩니다.

 

마지막으로, 탐지된 텍스트 영역은 다각형으로 표현되며, 일반 객체 감지에서 사용하는 비최대 억제(NMS) 대신, 다각형 면적을 기반으로 하는 다각형 NMS가 적용됩니다. 이를 통해 최종적으로 남은 텍스트 영역이 탐지 결과로 출력됩니다. 이 방법은 곡선 텍스트와 다양한 형태의 텍스트를 효과적으로 감지할 수 있도록 설계되었습니다.


이 논문에서는 성능 평가를 위해 다섯 가지 벤치마크가 사용되며, 각 벤치마크는 다음과 같이 소개됩니다:

  • CTW1500: CTW1500 데이터셋[17]은 500개의 테스트 이미지와 1000개의 학습 이미지로 구성되어 있으며, 다방향 텍스트, 곡선 텍스트 및 불규칙한 형태의 텍스트를 포함합니다. 이 데이터셋의 텍스트 영역은 문장 수준에서 14개의 장면 텍스트 경계 점으로 레이블이 지정됩니다.
  • TotalText: TotalText 데이터셋[2]은 300개의 테스트 이미지와 1255개의 학습 이미지로 구성되어 있으며, 3개 이상의 다른 텍스트 방향(수평, 다방향, 곡선)을 포함합니다. 이 이미지의 텍스트는 단어 수준에서 적응형 코너 점 수로 레이블이 지정됩니다.
  • ICDAR2013: ICDAR2013 데이터셋[10]은 ICDAR 강건 독서 대회를 위한 집중 장면 텍스트를 포함합니다. 233개의 테스트 이미지와 229개의 학습 이미지가 포함되어 있으며, 장면 텍스트는 수평 방향으로 2개의 점으로 구성된 수평 경계 상자로 레이블이 지정됩니다.
  • ICDAR2015: ICDAR2015 데이터셋[9]은 ICDAR 강건 독서 대회에서 우연한 장면 텍스트에 중점을 두고 있습니다. 500개의 테스트 이미지와 1000개의 학습 이미지가 포함되어 있으며, 장면 텍스트는 다양한 방향을 가지며 4개의 점으로 구성된 기울어진 상자로 단어 수준에서 레이블이 지정됩니다.
  • MSRA-TD500: MSRA-TD500 데이터셋[29]은 200개의 테스트 이미지와 300개의 학습 이미지로 구성되어 있으며, 중국어와 영어로 된 임의 방향의 텍스트를 포함합니다. 텍스트는 문장 수준에서 4개의 점으로 구성된 기울어진 상자로 레이블이 지정됩니다. 이 데이터셋에는 긴 직선 텍스트 라인도 존재합니다.

ICDAR 2013 및 ICDAR 2015의 결과는 ICDAR 강건 독서 대회 플랫폼을 통해 평가할 수 있으며, 나머지 세 데이터셋의 결과는 Recall(재현율), Precision(정밀도) 및 Hmean(조화 평균) 측면에서 ICDAR 평가 프로토콜을 따릅니다.

💡 Recall은 올바르게 검출된 텍스트 영역의 수와 데이터셋 내 총 텍스트 영역의 수의 비율을 나타내고, Precision은 올바르게 검출된 텍스트 영역의 수와 검출된 총 텍스트 영역의 수의 비율을 나타냅니다. Hmean은 Recall과 Precision을 결합하여 품질을 나타내는 단일 측정값입니다. 검출된 텍스트 영역은 해당 영역과 실제 텍스트 영역의 겹침이 주어진 임계값보다 클 경우 올바른 것으로 간주됩니다.

제안된 장면 텍스트 검출 네트워크는 ImageNet 분류를 위해 사전 훈련된 VGG16 모델을 기반으로 하며, 다섯 가지 데이터셋에서 훈련 이미지만을 사용하여 다양한 모델을 학습합니다. 총 10만 번의 반복 훈련을 진행하고, 학습률은 초기 0.001에서 시작하여 특정 반복 후 1/10로 줄어듭니다. 멀티 스케일 훈련을 통해 짧은 변의 크기를 {400, 600, 720, 1000, 1200}으로 설정하고, 긴 변은 2000으로 유지합니다.

각 데이터셋은 적응형 텍스트 영역 표현을 지원하며, ICDAR 2013, ICDAR 2015, MSRA-TD500 데이터셋은 사각형 상자로 쉽게 변환할 수 있습니다. 그러나 CTW1500과 TotalText 데이터셋은 추가적인 변환 작업이 필요합니다. CTW1500의 경우, 14점을 7개의 점 쌍으로 그룹화하고, 각 점 쌍에 대해 각도를 계산하여 다각형의 면적 비율을 확인합니다. TotalText는 짝수 개의 점은 쉽게 그룹화할 수 있지만, 홀수 개의 점은 시작과 끝 점을 기준으로 처리해야 합니다.

제안된 방법은 단일 스케일 입력 이미지에서 테스트되며, 서로 다른 스케일을 사용하여 최상의 성능을 발휘합니다. ICDAR 2013은 960 × 1400, ICDAR 2015는 1200 × 2000, 나머지 데이터셋은 720 × 1280의 스케일로 설정됩니다. 실험은 Nvidia P40 GPU에서 수행되었습니다.

백본 네트워크로는 SE-VGG16이 사용되며, VGG16과 성능을 비교한 결과 SE-VGG16이 더 우수한 성능을 보였습니다. 또한, CTW1500 데이터셋에서 아블레이션 연구를 통해 적응형 텍스트 영역 표현이 고정된 표현보다 높은 재현율(80.2% 대 76.4%)을 기록하며, 임의의 형태의 텍스트 감지에 더 적합하다는 것을 입증했습니다.

고정된 점과 적응형(변화 되는) 점을 이용한 방식의 차이

 

논문에서 제안된 방법의 성능을 입증하기 위해 여러 벤치마크에서 테스트를 진행했습니다. 첫째, CTW1500과 TotalText에서 다중 방향 및 곡선 텍스트에 대한 최첨단 방법들과 성능을 비교했습니다. 둘째, 가장 널리 사용되는 ICDAR 2013 및 ICDAR 2015 벤치마크에서 비교를 진행했습니다. 마지막으로, 긴 직선 텍스트와 다국어 텍스트(중국어+영어)가 포함된 MSRA-TD500에서도 성능을 평가했습니다.

 

 

표 4와 표 5는 CTW1500과 TotalText에서 제안된 방법과 최첨단 방법들을 비교한 결과를 보여줍니다. CTW1500에서 제안된 방법은 곡선 텍스트에 특화된 CTD, CTD+TLOC, TextSnake 등 모든 방법보다 우수한 성능을 보였습니다(Hmean: 80.1% vs. 69.5%, 73.4%, 75.6%). 또한, TotalText에서도 제안된 방법은 78.5%의 Hmean으로 모든 방법보다 더 나은 성능을 달성했습니다. 이 두 데이터셋에서의 성능은 논문의 방법이 임의의 형태의 텍스트를 효과적으로 검출할 수 있음을 나타냅니다.

 

표 6은 ICDAR2013 데이터셋에서의 실험 결과를 보여줍니다. 제안된 방법은 Hmean 91.7%로, Mask TextSpotter와 동일하게 최고 성능을 달성했습니다. 제안된 방법은 단일 스케일 입력 이미지와 단일 모델을 통해 테스트되었으며, 해당 조건에서 생성된 결과만 사용되었습니다. 이 결과는 제안된 방법이 수평 텍스트도 잘 처리할 수 있음을 보여줍니다.

 

표 7은 ICDAR 2015 데이터셋에서의 실험 결과를 보여주며, 제안된 방법은 Hmean 87.6%로 두 번째로 높은 성능을 달성했으며, FOTS의 88.0%보다 약간 낮습니다. FOTS는 텍스트 검출과 인식을 결합하여 엔드 투 엔드로 훈련된 반면, 제안된 방법은 텍스트 검출만을 위해 훈련되었기 때문에 FOTS보다 훈련이 훨씬 쉽습니다. 이 결과 역시 단일 스케일 입력 이미지와 단일 모델을 통해 테스트된 결과만 사용되었습니다. 이 결과는 제안된 방법이 최첨단 방법들과 비교하여 유사한 성능을 달성하였으며, 다중 방향 텍스트 또한 잘 처리할 수 있음을 의미합니다.

표 8은 MSRA-TD500 데이터셋에서의 결과를 보여주며, 제안된 검출 방법이 긴 직선 텍스트 라인 검출과 중영문(중국어+영어) 검출을 잘 지원할 수 있음을 나타냅니다. 제안된 방법은 Hmean 83.6%를 달성하여 다른 모든 방법보다 우수한 성능을 보였습니다.

속도 비교

제안된 방법의 속도는 임의 모양의 장면 텍스트를 처리할 수 있는 다른 방법들과 비교하여 표에 나타납니다. 결과에 따르면, 제안된 방법은 Mask TextSpotter와 TextSnake보다 훨씬 빠른 속도를 보여주었습니다. Mask TextSpotter와 TextSnake가 픽셀 단위 예측을 요구하는 반면, 제안된 방법은 그러한 예측이 필요 없기 때문에 계산량이 적어 더욱 효율적 입니다.


결론

이 논문에서는 적응형 텍스트 영역 표현을 이용해 임의 형태의 장면 텍스트를 검출하는 효과적인 방법을 제안합니다. 텍스트 제안은 Text-RPN을 통해 수행되며, 각 텍스트 영역은 RNN을 사용해 적응형 경계점 수를 예측하고 검증합니다. 다섯 개의 벤치마크 실험 결과, 제안된 방법은 수평 및 다양한 방향의 텍스트뿐만 아니라 곡선 텍스트와 같은 임의 형태의 텍스트도 효과적으로 검출할 수 있음을 입증했습니다. 특히 CTW1500과 MSRA-TD500에서 기존 방법들보다 뛰어난 성능을 보였습니다.


향후 개선 방향으로는, 모서리 점 검출을 통한 성능 향상과 함께, 보다 간편한 학습용 이미지 주석이 필요합니다. 또한, 최종 목표인 텍스트 인식을 위해 임의 형태의 장면 텍스트에 대한 엔드투엔드 텍스트 인식이 고려될 것입니다.