Command로 Template 작성하기 1

작성자 이호영 수정일 2022-10-28 11:11

들어가며


Template 란?

  • Twinreader의 최종 분석 결과에 영향을 미치는 json 파일입니다.
  • Template 파일의 저장 위치는 /[Data home]/twinreader/template 입니다.
  • Template는 1개의 Plugin 파일과 1:1로 매핑됩니다.


Template 생성하기

Template가 위치해야 하는 경로로 이동하여 template file을 생성해줍니다.
cd /[Data home]/twinreader/template
vi jinryebiTemplate.js


공통

공통은 정보 추출의 정확도를 높이기 위한 기능으로 허용 문자 이외의 모든 문자를 제거합니다.
"common": {
    "specCharWhiteList": "()+-,.",
    "charRangeWhiteList": "^[가-힣]*$",
    "charBlackList": [
      "\\(\\+*\\)"
    ]
  }
  • specCharWhiteList
    - 분석 시 허용 할 특수 문자를 입력합니다.

  • charRangeWhiteList
    - 분석 시 허용 할 문자를 선택하여 정규 표현식으로 입력합니다.

  • charBlackList 
    - 분석 시 허용 문자 처리 후 제거할 문자를 정규 표현식으로 입력합니다. 



삭제 대상 패턴

삭제 대상 패턴은 이용하지 않을 문자를 제거하기 위해 사용하며 정규표현식으로 정의합니다.
"removePatternInfo": {
        "pattern": "^진료비총액$|^\\[진료비총액\\]$|^:$|^\\($|^\\)$",
        "confidenceThreshold": "1"
 }
  • pattern
    - 허용이 되지 않는 단어를 정규 표현식으로 입력합니다.
  • confidenceThreshold 
    - 제거 대상 문자의 신뢰 값을 입력합니다.
    - 0.1 ~ 1.0 의 값을 입력합니다.     


인식 단어 변환

인식 단어 변환은 변환할 단어(=keyword)로 변경할 인식 단어들을 입력해 줍니다.
"keywordInfo": {
        "진료비총액": [
            "질료비총액",
            "질로비총액",
            "진료비푱액", 
            "진뇨비총액",
            "진료비춍액"
        ]
 }
  • 인식 할 단어(=진료비총액)로 변환 할 인식 단어들을 입력해 줍니다.



분리 규칙

분리 규칙은 하나의 셀에 잡힌 여러 개의 데이터 들 중 규칙에 맞는 경우 각각의 셀로 분리합니다.
 "separatingValuePatterns": [
        "^[0-9,.:%()]*원?$"
    ]
분리 규칙에 해당되는 경우 
 

작성 완료한 Template

{
    "common": {
        "specCharWhiteList": "()+-,.",
        "charRangeWhiteList": "^[가-힣]*$",
        "charBlackList": [
             "\\(\\+*\\)"
         ]
    },
    "removePatternInfo": {
        "pattern": "^진료비총액$|^\\[진료비총액\\]$|^:$|^\\($|^\\)$",
        "confidenceThreshold": "1"
    },
    "keywordInfo": {
        "진료비총액": [
            "질료비총액",
            "질로비총액",
            "진료비푱액", 
            "진뇨비총액",
            "진료비춍액"
        ]
    },
    "separatingValuePatterns": [
        "^[0-9,.:%()]*원?$"
    ]
}


마무리

  • Template 작성하는 방법 중 전 처리 단계에 대해 알아보았습니다.
  • 다음 단계인 정보 인식에 관하여 CLI로 Template 작성하기 2에서 다루어 보겠습니다.

아티클이 유용했나요?

훌륭합니다!

피드백을 제공해 주셔서 감사합니다.

도움이 되지 못해 죄송합니다!

피드백을 제공해 주셔서 감사합니다.

아티클을 개선할 수 있는 방법을 알려주세요!

최소 하나의 이유를 선택하세요
CAPTCHA 확인이 필요합니다.

피드백 전송

소중한 의견을 수렴하여 아티클을 개선하도록 노력하겠습니다.

02-558-8300