Command로 Template 작성하기 1

작성자 이호영 수정일 2022-10-28 11:11

들어가며

Twinreader UI를 사용하지 않고 Command-Line-Interface를 사용하여 Template 제작하는 방법에 대해 알아봅니다.
이 글에서는 template 작성 단계 중 전 처리 단계인 공통, 삭제 대상 패턴, 인식 단어 변환, 분리 규칙에 대해 알아봅니다.

Template 란?

Twinreader의 최종 분석 결과에 영향을 미치는 json 파일입니다.
Template 파일의 저장 위치는 /[Data home]/twinreader/template 입니다.
Template는 1개의 Plugin 파일과 1:1로 매핑됩니다.

Template 생성하기

Template가 위치해야 하는 경로로 이동하여 template file을 생성해줍니다.

cd /[Data home]/twinreader/template
vi jinryebiTemplate.js

공통

공통은 정보 추출의 정확도를 높이기 위한 기능으로 허용 문자 이외의 모든 문자를 제거합니다.

"common": {
    "specCharWhiteList": "()+-,.",
    "charRangeWhiteList": "^[가-힣]*$",
    "charBlackList": [
      "\\(\\+*\\)"
    ]
  }

specCharWhiteList
- 분석 시 허용 할 특수 문자를 입력합니다.
charRangeWhiteList
- 분석 시 허용 할 문자를 선택하여 정규 표현식으로 입력합니다.
charBlackList
- 분석 시 허용 문자 처리 후 제거할 문자를 정규 표현식으로 입력합니다.

삭제 대상 패턴

삭제 대상 패턴은 이용하지 않을 문자를 제거하기 위해 사용하며 정규표현식으로 정의합니다.

"removePatternInfo": {
        "pattern": "^진료비총액$|^\\[진료비총액\\]$|^:$|^\\($|^\\)$",
        "confidenceThreshold": "1"
 }

pattern
- 허용이 되지 않는 단어를 정규 표현식으로 입력합니다.
confidenceThreshold
- 제거 대상 문자의 신뢰 값을 입력합니다.
- 0.1 ~ 1.0 의 값을 입력합니다.

인식 단어 변환

인식 단어 변환은 변환할 단어(=keyword)로 변경할 인식 단어들을 입력해 줍니다.

"keywordInfo": {
        "진료비총액": [
            "질료비총액",
            "질로비총액",
            "진료비푱액", 
            "진뇨비총액",
            "진료비춍액"
        ]
 }

인식 할 단어(=진료비총액)로 변환 할 인식 단어들을 입력해 줍니다.

분리 규칙

분리 규칙은 하나의 셀에 잡힌 여러 개의 데이터 들 중 규칙에 맞는 경우 각각의 셀로 분리합니다.

 "separatingValuePatterns": [
        "^[0-9,.:%()]*원?$"
    ]

분리 규칙에 해당되는 경우

→

작성 완료한 Template

{
    "common": {
        "specCharWhiteList": "()+-,.",
        "charRangeWhiteList": "^[가-힣]*$",
        "charBlackList": [
             "\\(\\+*\\)"
         ]
    },
    "removePatternInfo": {
        "pattern": "^진료비총액$|^\\[진료비총액\\]$|^:$|^\\($|^\\)$",
        "confidenceThreshold": "1"
    },
    "keywordInfo": {
        "진료비총액": [
            "질료비총액",
            "질로비총액",
            "진료비푱액", 
            "진뇨비총액",
            "진료비춍액"
        ]
    },
    "separatingValuePatterns": [
        "^[0-9,.:%()]*원?$"
    ]
}

마무리

Template 작성하는 방법 중 전 처리 단계에 대해 알아보았습니다.
다음 단계인 정보 인식에 관하여 CLI로 Template 작성하기 2에서 다루어 보겠습니다.