Twinreader 란?

작성자 이호영 수정일 2022-10-28 11:11

#TwinReader, #문서분석, #OCR

아티클 관련 제품: TwinReader

이 글을 읽으면

Twinreader에 대해 알아보고 운영에 대해 간략히 확인 할 수 있습니다.

twinreader 란?

Twinreader는 AI 기반의 OCR 기술로 문서를 인식하여 사용자가 원하는 데이터를 추출하는 제품입니다.
하이브리드 알고리즘 기술을 바탕으로 재 학습 없이 문서 유형을 자동 분류 할 수 있습니다.

Twinreader 운영

Twinreader의 이미지 분석은 크게 4단계로 나눌 수 있습니다.
① 미리 정의된 경로에 이미지를 저장 한 뒤 Twinreader로 이미지 분석을 요청합니다.
② 요청을 받은 Twinreader가 내부에서 분석하는 단계입니다.
    ②-1. 미리 등록된 대표 문서를 바탕으로 문서를 분류합니다.
    ②-2. 모델들이 요청 들어온 문서의 글자들을 인식합니다.
③ 앞 과정에서 인식한 글자들을 최종 형태로 추출하기 위한 단계입니다.

    ③-1. 인식한 글자들 중 추출한 keyword 단어와 값으로 매핑하는 template
    ③-2. 인식한 단어를 활용하여 원하는 형태로 후 처리 작업을 정의하는 plugin
④ 최종 결과 JSON 파일을 미리 정의된 경로에 저장합니다.

Twinreader 문서 형식 탑재

- Twinreader 분류 모델은 확률 기반 알고리즘을 사용하여 매번 새로운 모델을 만들지 않고, 재 학습 없이 문서 유형을 자동 분류합니다.

① 대표 문서란?
 - 분류할 문서의 대표 문서 양식으로 문서의 형태를 인식하는 단계입니다.
② 대표 문서가 등록이 되면 Twinreader는 분석을 시작합니다.

    ②-1. 먼저 이미지를 전 처리를 하여 분석하기 쉽게 변경합니다.

    ②-2. 글자 탐지 및 인식을 하게 됩니다.
    ②-3. 표 구조 인식을 하게 됩니다.

    ②-4. 분석이 완료된 문서 형식을 Twinreader에 탑재합니다.
③ 요청이 들어온 이미지를 등록된 이미지와 비교하여 문서를 분류합니다.
    ③-1. 문서에서 인식한 글자의 위치를 파악합니다.
    ③-2. 글자들이 이루는 단어의 의미를 찾아냅니다.
    ③-3. 등록된 대표 문서와의 유사도를 측정해 가장 유사한 대표 문서의 유형으로 분류합니다.

마치며

Twinreader가 분석 요청을 받았을 때 운영되는 과정에 대해 알아보았습니다.

02-558-8300