아티클 관련 제품: TwinReader
이 글을 읽으면
- Twinreader에 대해 알아보고 운영에 대해 간략히 확인 할 수 있습니다.
twinreader 란?
- Twinreader는 AI 기반의 OCR 기술로 문서를 인식하여 사용자가 원하는 데이터를 추출하는 제품입니다.
- 하이브리드 알고리즘 기술을 바탕으로 재 학습 없이 문서 유형을 자동 분류 할 수 있습니다.
Twinreader 운영
Twinreader의 이미지 분석은 크게 4단계로 나눌 수 있습니다.
① 미리 정의된 경로에 이미지를 저장 한 뒤 Twinreader로 이미지 분석을 요청합니다.
② 요청을 받은 Twinreader가 내부에서 분석하는 단계입니다.
②-1. 미리 등록된 대표 문서를 바탕으로 문서를 분류합니다.
②-2. 모델들이 요청 들어온 문서의 글자들을 인식합니다.
③ 앞 과정에서 인식한 글자들을 최종 형태로 추출하기 위한 단계입니다.
③-1. 인식한 글자들 중 추출한 keyword 단어와 값으로 매핑하는 template
③-2. 인식한 단어를 활용하여 원하는 형태로 후 처리 작업을 정의하는 plugin
④ 최종 결과 JSON 파일을 미리 정의된 경로에 저장합니다.
Twinreader 문서 형식 탑재
- Twinreader 분류 모델은 확률 기반 알고리즘을 사용하여 매번 새로운 모델을 만들지 않고, 재 학습 없이 문서 유형을 자동 분류합니다.
① 대표 문서란?
- 분류할 문서의 대표 문서 양식으로 문서의 형태를 인식하는 단계입니다.
② 대표 문서가 등록이 되면 Twinreader는 분석을 시작합니다.
②-1. 먼저 이미지를 전 처리를 하여 분석하기 쉽게 변경합니다.
②-2. 글자 탐지 및 인식을 하게 됩니다.
②-3. 표 구조 인식을 하게 됩니다.
②-4. 분석이 완료된 문서 형식을 Twinreader에 탑재합니다.
③ 요청이 들어온 이미지를 등록된 이미지와 비교하여 문서를 분류합니다.
③-1. 문서에서 인식한 글자의 위치를 파악합니다.
③-2. 글자들이 이루는 단어의 의미를 찾아냅니다.
③-3. 등록된 대표 문서와의 유사도를 측정해 가장 유사한 대표 문서의 유형으로 분류합니다.
마치며
- Twinreader가 분석 요청을 받았을 때 운영되는 과정에 대해 알아보았습니다.
아티클이 유용했나요?
훌륭합니다!
피드백을 제공해 주셔서 감사합니다.
도움이 되지 못해 죄송합니다!
피드백을 제공해 주셔서 감사합니다.
피드백 전송
소중한 의견을 수렴하여 아티클을 개선하도록 노력하겠습니다.