Sangmun

LayoutLM: Pre-training of Text and Layout for Document Image Understanding 본문

논문리뷰

LayoutLM: Pre-training of Text and Layout for Document Image Understanding

상상2 2023. 3. 5. 21:26

https://arxiv.org/abs/1912.13318

 

LayoutLM: Pre-training of Text and Layout for Document Image Understanding

Pre-training techniques have been verified successfully in a variety of NLP tasks in recent years. Despite the widespread use of pre-training models for NLP applications, they almost exclusively focus on text-level manipulation, while neglecting layout and

arxiv.org

Introduction

Document AI는 사업 관련 문서를 자동으로 분석하고 이해하는데 활용될 수 있는 task로써 사업 관련 문서는 디지털 문서, 혹은 스캔된 문서를 포함하며, 거래 내역, 보고서 등을 포함한다.

문서들의 형식이나 스캔된 문서의 퀄리티등에 따라 문서를 이해하는 task는 굉장히 어려운 일이다. 따라서 이러한 어려움을 해결하기 위해 Document AI모델은 computer vision과 NLP 기술을 이용하여 자동으로 문서를 분류하고 유용한 정보를 추출하도록 디자인되었다. 하지만 그동안의 제시되었던 방법에는 2가지 한계점이 있었다.

 

(1) 그동안의 방법들은 NLP의 Large 모델들 처럼 대규모의 unlabeled 된 데이터를 사전학습하지 않고 소규모의 label 데이터만으로 학습을 하였고 (2) CV나 NLP의 사전학습된 모델을 각각 차용만 하였지 두 개의 이종 데이터를 연계해서 학습하지는 않았다.

따라서 대규모의 데이터를 사전학습하는것과 두 개의 이종데이터를 연계해서 학습하는 것이 매우 중요하며 LayoutLM은 BERT로부터 영감을 받아. 2-D position embedding과, an image enbedding 등 2가지의 추가적인 임베딩 데이터를 더하여 학습에 확 용한다.

 

또한 사전학습 방법으로 multi-task learning objective인 Masked Visual-Language Model (MVLM)과 a Multi-label Document Classification (MDC) loss을 이용하여 대규모의 데이터에 사전학습을 실시한다.

 

마지막으로 FUNSD dataset, SROIE dataset, RVL-CDIP dataset을 활용하여 fine-tuning을 진행하였고 각각의 task에서 sota 성능을 달성하였다.

 

본 논문의 기여점은 크게 2가지이다. 처음으로 문자데이터와 layout정보를 하나의 프레임워크에 합쳐서 학습을 하는 시도를 하였고, masked visual-language model, multi-label document classification pre-training objective를 이용하여 down stream task에서 sota 성능을 달성하였다.

LayoutLM

The LayoutLM Model

LayoutLM model은 BERT로부터 영감을 받아 BERT의 구조를 backbond으로 이용하고 추가적인 2가지 embedding 정보를 학습에 활용한다.

첫 번째는 Document Layout Information으로 document에서 추출된 문자의 layout에서의 상대적인 위치정보이다. 예를 들어서 document에서 "Passport ID:"라는 문자가 추출되었다면 이것과 상응되는 값은 "Passport :ID"보다 오른쪽이나 아래쪽에 있을 확률이 높다. 이러한 위치정보를 2-D position representation으로 표현하여 학습에 활 요한다.

이러한 position 정보는 (x0, y0, x1, y1) 형태로 제공되며 (x0, y0)는 bounding box의 왼쪽 위, (x1, y1)는 bouding box의 오른쪽 아래를 의미한다. 

 

두 번째는 Visual Information으로 각각의 텍스트에 해당하는 실제 이미지이다. 실제로 Document에서 중요한 부분은 밑줄이나 다른 폰트를 사용등으로 강조되어 있다. 이러한 시각적인 정보를 학습에 활용하는 것이다. 이러한 이미지들은 OCR로부터 얻은 bounding box로 전체 layout에서 해당하는 부분만 이미지를 잘라내어 그 이미지와 상응하는 text의 embedding으로 넣어준다. text에 상응하는 image embedding은 Faster R-CNN을 이용하여 embedding을 생성한다. [CLS] 토큰은 전체 layout의 embedding에 해당하며 문서 전체의 카테고리 분류에 활용될 수 있다.

 

Pre-training LayoutLM

Task #1: Masked Visual-Language Model

BERT의 Masked Language Model에서 영감을 얻었고 pre-train 간에 text token은 마스크를 하지만 그에 상응하는 2-D positional embedding은 마스크를 하지 않고 학습을 한다. 이러한 학습 과정을 거치면서 visual 정보와 언어정보의 차이를 어느 정도 반영하게 된다.

 

Task #2: Multi-label Document Classification (MDC)

Document image를 이해하려면 높은 수준의 document representation이 필요하다. 따라서 (MDC)를 통하여 문서의 표현을 학습하고 분류를 하는데 이러한 학습과정은 document의 label이 필요함으로 대규모의 학습데이터에서는 사용하기가 한계가 있다. 해당 pre-train은 선택적이며 이후의 단락에서 MDC의 효과에 대해서 비교결과를 제시한다.

 

 

Fine-tuning LayoutLM

LayoutLM이라는 사전 학습된 모델은 양식 이해 작업, 영수증 이해 작업 및 문서 이미지 분류 작업을 포함한 세 가지 문서 이미지 이해 task에 대해 fine-tuning 되었으며, 양식 및 영수증 이해 작업에서 LayoutLM은 각 토큰에 대해 {B, I, E, S, O} 태그를 예측하고 순차적 레이블링을 사용하여 데이터셋에서 각 유형의 엔티티를 감지한다. 문서 이미지 분류 작업에서는 LayoutLM이 [CLS] 토큰의 표현을 사용하여 클래스 레이블을 예측한다.

Experiments

Result

FUNSD dataset을 이용하여 form understanding을 수행해 본 결과는 아래와 같으며 LayoutLM이 Bert와 Roberta보다 더 성능이 뛰어났으며 LayoutLM에서도 large 모델이, 더 많은 데이터로 사전 훈련을 시켰을 때 성능이 더 뛰어났다. 또한 image데이터의 유무도 성능에 영향을 미쳤다.

아래는 구체적으로 FUNSD dataset에 fine-tuning 하기 이전에 사전학습에 사용된 데이터의 양과 epoch에 따른 비교이다. 더 많은 데이터와 epoch를 사용하였을 때 성능이 올라가는 것을 확인할 수 있다.

또한 LayoutLM의 파라미터를 어떠한 모델의 파라미터로 초기화하느냐도 영향을 미쳤다. RoBERTa가 가장 성능에 좋게 영향을 미치는 것을 확인할 수 있다.

Receipt Understanding과 관련해서도 FUNSD datset에 fine-tune 하였을 때와 비슷한 결과를 얻을 수 있었으며 심지어 SROIE competition에서 최종적으로 제출되었던 모델보다 더 좋은 성능을 보여주었다.

마지막으로, RVL-CDIP 데이터셋을 사용하여 문서 이미지 분류 task의 결과는 아래와 같다. 문서 이미지는 대부분 다양한 스타일과 레이아웃으로 된 텍스트이기 때문에 일반적인 이미지와는 다르며. 이를 위해 기존의 이미지 기반 모델과 BERT, RoBERTa와 같은 텍스트 기반 모델을 비교해 보았고, LayoutLM 모델이 가장 성능이 좋았다. 결과적으로, LayoutLM는 이미지 기반 모델과 비교했을 때도 더 좋은 성능을 보였으며, 이미지 임베딩을 추가로 사용하면 94.42%의 높은 정확도를 달성하였다.

 

Conclusion

LayoutLM은 텍스트와 레이아웃 정보를 하나의 프레임워크에서 학습할 수 있는 모델이며, Transformer 아키텍처를 백본으로 사용하여 토큰 임베딩, 레이아웃 임베딩 및 이미지 임베딩과 같은 다중 모달 입력을 활용한다. 동시에 대규모 라벨 없는 스캔 문서 이미지를 기반으로 자기 지도 학습 방식으로 모델을 쉽게 학습시킬 수 있으며, LayoutLM 모델은 양식 이해, 영수증 이해 및 스캔 문서 이미지 분류 세 가지 작업에서 평가되었으며, 실험 결과 LayoutLM은 이러한 작업에서 SOTA 사전 학습 모델보다 크게 우수한 성능을 발휘하였다.

향후 연구에서는 더 많은 데이터 및 계산 리소스를 사용하여 사전 학습 모델을 조사할 예정이라고 하며, 또한, LARGE 아키텍처를 사용하여 텍스트 및 레이아웃을 포함하고, 사전 학습 단계에서 이미지 임베딩을 활용하여 LayoutLM을 학습할 것이라고 예정하고 있다.

 

 

 

 

 

 

 

 

 

Comments