들어가며
- Twinreader UI를 사용하지 않고 Command-Line-Interface를 사용하여 Template 제작하는 방법에 대해 알아봅니다.
- 이 글에서는 template 작성 단계 중 전 처리 단계인 공통, 삭제 대상 패턴, 인식 단어 변환, 분리 규칙에 대해 알아봅니다.
Template 란?
- Twinreader의 최종 분석 결과에 영향을 미치는 json 파일입니다.
- Template 파일의 저장 위치는 /[Data home]/twinreader/template 입니다.
- Template는 1개의 Plugin 파일과 1:1로 매핑됩니다.
Template 생성하기
Template가 위치해야 하는 경로로 이동하여 template file을 생성해줍니다.
cd /[Data home]/twinreader/template vi jinryebiTemplate.js
공통
공통은 정보 추출의 정확도를 높이기 위한 기능으로 허용 문자 이외의 모든 문자를 제거합니다.
"common": { "specCharWhiteList": "()+-,.", "charRangeWhiteList": "^[가-힣]*$", "charBlackList": [ "\\(\\+*\\)" ] }
- specCharWhiteList
- 분석 시 허용 할 특수 문자를 입력합니다. charRangeWhiteList
- 분석 시 허용 할 문자를 선택하여 정규 표현식으로 입력합니다.charBlackList
- 분석 시 허용 문자 처리 후 제거할 문자를 정규 표현식으로 입력합니다.
삭제 대상 패턴
삭제 대상 패턴은 이용하지 않을 문자를 제거하기 위해 사용하며 정규표현식으로 정의합니다.
"removePatternInfo": { "pattern": "^진료비총액$|^\\[진료비총액\\]$|^:$|^\\($|^\\)$", "confidenceThreshold": "1" }
- pattern
- 허용이 되지 않는 단어를 정규 표현식으로 입력합니다. - confidenceThreshold
- 제거 대상 문자의 신뢰 값을 입력합니다.
- 0.1 ~ 1.0 의 값을 입력합니다.
인식 단어 변환
인식 단어 변환은 변환할 단어(=keyword)로 변경할 인식 단어들을 입력해 줍니다.
"keywordInfo": { "진료비총액": [ "질료비총액", "질로비총액", "진료비푱액", "진뇨비총액", "진료비춍액" ] }
- 인식 할 단어(=진료비총액)로 변환 할 인식 단어들을 입력해 줍니다.
분리 규칙
분리 규칙은 하나의 셀에 잡힌 여러 개의 데이터 들 중 규칙에 맞는 경우 각각의 셀로 분리합니다.
"separatingValuePatterns": [ "^[0-9,.:%()]*원?$" ]
분리 규칙에 해당되는 경우 → |
작성 완료한 Template
{ "common": { "specCharWhiteList": "()+-,.", "charRangeWhiteList": "^[가-힣]*$", "charBlackList": [ "\\(\\+*\\)" ] }, "removePatternInfo": { "pattern": "^진료비총액$|^\\[진료비총액\\]$|^:$|^\\($|^\\)$", "confidenceThreshold": "1" }, "keywordInfo": { "진료비총액": [ "질료비총액", "질로비총액", "진료비푱액", "진뇨비총액", "진료비춍액" ] }, "separatingValuePatterns": [ "^[0-9,.:%()]*원?$" ] }
마무리
- Template 작성하는 방법 중 전 처리 단계에 대해 알아보았습니다.
- 다음 단계인 정보 인식에 관하여 CLI로 Template 작성하기 2에서 다루어 보겠습니다.
아티클이 유용했나요?
훌륭합니다!
피드백을 제공해 주셔서 감사합니다.
도움이 되지 못해 죄송합니다!
피드백을 제공해 주셔서 감사합니다.
피드백 전송
소중한 의견을 수렴하여 아티클을 개선하도록 노력하겠습니다.