TwinDoc의 Model 경량화

작성자 김아름 수정일 2022-10-25 15:04

#TwinDoc2.0, #트윈독2.0, #model, #모델, #압축

아티클 관련 제품: TwinDoc2.0

들어가며

  • Model을 개발한 후, 실제 서비스에 적용하기 위해서는 빠른 추론 시간이 중요합니다.

  • TwinDoc은 성능을 최대한 유지하면서, 빠른 추론 속도로 처리하기 위해 model 압축을 지원합니다.



지식 증류

지식 증류(Knowledge Distillation)란, 큰 모델로부터 증류한 지식을 작은 모델로 transfer하는 일련의 과정입니다.

TwinDoc은 사전 학습된 대형 model의 결과를, 소형 model에 전이 하는 방식의 model 압축 방법을 지원합니다.


지식 증류는 모델 배포 측면에서 필요성을 가지고 있습니다.

예를 들어, 연구 및 개발을 통해서 만들어진 복잡한 딥러닝 모델을 실제 서비스로 배포한다면

이 복잡한 모델은 사용자들에게 적합하지 않을 수 있습니다.

아래 그림과 같이, 모델이 배포된 모바일 장치는 복잡한 모델이 작동하는데 필요한 하드웨어가 아니기 때문입니다.

서비스의 종류에 따라 다를 수 있지만, 배포 관점에서는 단순한 모델이 필요하고 적합할 수 있습니다.

이러한 이유로 지식 증류가 탄생하게 되었습니다.



적응적 추론

Model에게 Input값을 주면, model 아키텍처 전체를 거쳐 계산하여 Output값을 받을 수 있습니다.

즉, 문제의 난이도와 상관 없이 모두 같은 계산량을 가지게 됩니다.

이는 model은 점차 복잡해지고 깊어져 성능이 좋을지라도, 추론 시간이 길어지는 단점이 있습니다.


이를 보안하기 위해 적응적 추론 (Adaptive Inference)가 등장합니다.

쉬운 문제는 model 아키텍처를 전부 거쳐 계산될 필요가 없다는 것입니다.

문제의 난이도에 따라 계산량을 다르게 하면 추론 시간을 감소 시킬 수 있습니다.


TwinDoc은 성능은 유지하면서 빠른 의사결정이 가능하도록 하는 Adptive Inference를 연구했습니다.

이로 인해 TwinDoc Input 의 난이도에 따라 Model 추론 시 발생하는 연산량을 설정하여 추론을 가속화하는 Model 압축 방법을 지원합니다.


즉, 모든 데이터가 Deep한 model의 아키텍처를 거칠 필요는 없습니다.

따라서 model 아키텍처에 새로운 layer를 추가합니다.

이에 따라 model의 definition 별 빠른 의사 결정 방법이 가능하게 됩니다.



마무리

  • TwinDoc에서 사용 가능한 model 압축 방법에 대해 알아보았습니다.

아티클이 유용했나요?

훌륭합니다!

피드백을 제공해 주셔서 감사합니다.

도움이 되지 못해 죄송합니다!

피드백을 제공해 주셔서 감사합니다.

아티클을 개선할 수 있는 방법을 알려주세요!

최소 하나의 이유를 선택하세요
CAPTCHA 확인이 필요합니다.

피드백 전송

소중한 의견을 수렴하여 아티클을 개선하도록 노력하겠습니다.

02-558-8300