TwinDoc에서 사용할 수 있는 Model

작성자 김아름 수정일 2022-10-25 15:04

#TwinDoc2.0, #트윈독2.0, #model, #모델

아티클 관련 제품: TwinDoc2.0

목록



들어가며

  • TwinDoc에서는 목적에 맞게 데이터 수집 및 가공할 수 있도록 5가지의 model을 지원하고 있습니다.

  • 그 방법으로는 Fine Tuning 을 활용했습니다.

Fine Tuning 이란?
기존에 학습되어져 있는 모델을 기반으로,
새로운 목적에 맞게 변형하고 이미 학습된 모델의 weights로 부터 학습을 업데이트하는 방법입니다.



문서 분류

문서 분류란, 자연어 처리 중 가장 중요한 분야라고 할 수 있고 다양한 세부 응용 분야가 존재합니다.

텍스트를 입력으로 받아, 텍스트가 어떤 종류의 범주에 속하는 지를 구분하는 작업입니다.


아래 그림은 분류의 단편적인 예시입니다.


TwinDoc에서는 문서를 자동 분류하는 언어 Model 을 학습 및 배포 합니다.

  1. 분류 (Classification)
    문서의 내용을 분석하고, 문서를 사전에 정의한 하나의 범주에 자동으로 분류합니다.

  2. Multi Label 분류(Multi-Label Classification)
    문서의 내용을 분석하고, 문서를 사전에 정의한 여러 개의 범주에 자동으로 분류합니다.


문서 분류의 정의는 아래와 같습니다.

  • 문서 분류의 Input

분류하고자 하는 문서와, 분류되는 모든 클래스들의 집합이 필요합니다.


  • 문서 분류의 Output

input값으로 받은 문서가 어떠한 클래스에 속하는 지를 예측합니다.


문서 분류 예시를 보겠습니다.

  • 이메일 스팸 여부를 판단하여 분류
  • 감성 분류

영화의 리뷰가 긍정적인지 부정적인지 분류

감성 분류를 기반으로 선거 결과를 예측

  • 언어 분류
  • 어떤 언어로 만들어진 문서인지 분류



요약

문서 요약은 큰 원문을 핵심 내용만 간추려, 상대적으로 작은 요약문으로 변환하는 것입니다.

이는 읽는 사람이 시간을 단축하여 내용을 빠르게 이해할 수 있다는 장점이 있습니다.


문서 요약은 대상이 되는 문서의 개수, 문서 요약 방법, 외부 지식 사용 여부, 특정 제약에 따라 아래와 같이 나뉩니다.

  • 요약 하고자 하는 문서의 개수에 따라 Single Document or Mulit Document 로 나뉩니다.

  • 추출 방식에 따라 추출 요약 or 추상 요약으로 나뉩니다.

  • 외부 지식을 사용하면 Knowledge Rich, 그렇지 않으면 Knowledge Poor로 나뉩니다.

  • 제약 사항에 따라 Query focused, Update, Guided Summarization 으로 나뉩니다.
    Query focused : 특정 Query에 대한 답을 포함한 요약문을 만듭니다.
    Update : 이전 요약문을 새로운 관점으로 요약합니다.
    Guide : 주어진 Aspect List(요약문에 들어가야 하는 요소)를 담은 요약문을 만듭니다.



TwinDoc에서는 문서의 주요 내용을 요약하는 언어 Model 을 학습 및 배포합니다.

  1. 추출 요약 (Extractive Summarization)
    문서의 내용을 분석하고, 문서에서 중요한 문장을 추출하여 문서의 내용을 요약합니다.
    즉, 원문 텍스트에서 중요한 문장을 그래도 가져옵니다.
  2. 추상 요약 (Abstractive Summarization)

문서의 내용을 분석하고, 문서의 내용을 압축한 요약문을 생성합니다.
생성 요약 이라고도 하는 추상 요약은, 원문 텍스트를 보고 한 줄로 요약하듯 표현합니다.
추상 요약의 사전 학습은, 문장들 중 몇 개를 제거하여 모델이 제거된 문장을 예측합니다.



개체명 인식

개체명 인식이란, Named Entity Recognition으로 NER이라고 불리고, 이름을 가진 객체를 인식하는 것을 의미합니다.

즉, 어떤 이름을 의미하는 단어를 보고 그 단어가 어떤 유형 인지를 인식하는 것을 말합니다.


TwinDoc에서는 문서에서 사용자가 지정한 개체명을 인식하는 언어 Model 을 학습 및 배포합니다.

문서의 내용을 분석하고, 사전 정의된 개체명 범주에 따라 문서에 존재하는 유의한 개체를 인식하고 분류합니다.



개체명 인식의 정의는 아래와 같습니다.


미리 정의해 둔 사람, 회사, 장소, 시간, 단위 등에 해당하는 단어(개체명)를 문서에서 인식하여 추출 분류하는 기법입니다.

추출된 개체명은 인명, 지명, 기관명, 시간 등으로 분류됩니다.

개체명 인식은 정보 추출을 목적으로 시작되어 자연어 처리, 정보 검색 등에 사용됩니다.

예를 들어 영희는 2022년에 애자일소다에 입사했다. 라는 문장이 있을 때,

사람/조직/시간에 대해 개체명 인식을 수행하는 모델은 아래와 같은 결과를 보여줄 것입니다.


영희사람
2022년시간
애자일소다조직



개체명 인식은 자연어 처리 전반에 걸쳐 중요한 역할을 합니다.

자연어 처리를 이용한 정보 검색과 요약, 질문 및 답변, 지식 베이스 구축 등 다방면에서 사용되고 있습니다.

특히, 기계 번역 (Machine Translation)의 품질을 높여 사용자에게 맞춤형 번역을 제공할 수 있도록 도와줍니다.



개체명 인식의 활용 예시를 보겠습니다.

개체명 인식 모델은 최근 음성 비서 서비스 (챗봇) 등 다양한 응용 분야에 널리 활용되고 있습니다.


예를 들어, AI 스피커로 배달 음식을 주문하게 된다면, 아래와 같이 해석할 것입니다.

하이 빅*비, 배달의 *족에서 버*킹 주문하고 싶어

위 문장에 챗봇은 아래와 같이 인식할 것입니다.

하이 빅*비본인의 개체명
배달의 *족핸드폰 어플 명
버*킹햄버거의 브랜드 명


위의 예시와 같이 개체명 인식 모델은 다방면에서 활용될 수 있습니다.



마무리

  • TwinDoc에서 제공하는 언어 model에 대한 종류와, 그 model에 대한 설명을 알아보았습니다.

아티클이 유용했나요?

훌륭합니다!

피드백을 제공해 주셔서 감사합니다.

도움이 되지 못해 죄송합니다!

피드백을 제공해 주셔서 감사합니다.

아티클을 개선할 수 있는 방법을 알려주세요!

최소 하나의 이유를 선택하세요
CAPTCHA 확인이 필요합니다.

피드백 전송

소중한 의견을 수렴하여 아티클을 개선하도록 노력하겠습니다.

02-558-8300