요약
본 연구는 단어를 숫자로 표현하는 과정에 해당하는 continous word representations(=word embedding, =denser representation)중에서 언어의 모양새(형태학적인) 구조를 최대한 살려서 벡터화하는 것에 초점을 두고 있다. 기존의 word2vec, glove처럼 단어를 훈련데이터에서만 찾을 수 있는 구조(dictionary: vocabulary을 포함한 구조)에서 찾을 수 없는 경우는 적용이 어렵기 때문이다(=이를 OOV, out of vocabulary라고 함). 따라서, unseend word(rare words)에 대해서 강건한 모델을 만들기 위해서, n-grams을 이용해서, 각 단어를 <n-gram1, n-gram2..., 원형단어>의 세트로 처리하여, 단어를 표현하고 Skip-gram을 이용해서 훈련한 모델을 제시한다.
방법론
방법론을 이해하려면, word2vec의 skip-gram을 이해가 요구된다. 가장 중요한건 Skip-gram은 주어진 단어 하나로, 주변단어를 예측하는 문제이기 때문에, 아래의 같은 목적함수를 가진다. $w_{t}$은 t번 째의 주어진 단어이며, $w_{c}$은 t번째 단어의 주변단어이다. 즉, 한 단어가 주어졌을 때, 주변단어를 얼마나 잘 맞추는지에 관한 목적함수이다. 이 목적함수를 최대화하면된다. 그리고나서, 각 단어를 잘맞추는지(잘 분류해서 선택했는지) Softmax함수로 평가하면된다.
추가로, 기술적으로 할만한 것으로는 절대 주변에 없을 것 같은 단어들을 추가로 전달하여 손실함수로 사용해볼 수 있다. 이에 관한식이 아래와 같다. log()의 안에있는 식을 L()로 표현하면 아래의 식으로 변환할 수 있다.
Fasttext의 핵심을 subword model이다. 주어진 단어가 w가 있다고 했을떄, 각 단어를 w의 bag of n-gram으로 표현하는 것이다. 예를 들어, where이라는 단어가 주어졌을 때, <whe, her, ere>로 표현할 수 있다. 추가로 Fasttext은 원래 단어까지를 넣어 하나의 bag-of-n-gram을 구성한다. 즉, where -> <whe, her, ere, where>까지를 하나의 세트로 구성해서 표현한다. 이는 <her>의 단어와는 다르다. 왜냐하면 <her>은 하나의 세트가아니라 독립적인 단어이며 <whe, her, ere, where>안에 있는 "her"은 구별될 수 있기 떄문이다. 각각 bag-of-ngram에 표현될 수 있는 집합을 g라고 표현하고, 각n-gram으로 표현한게 G만큼의 사이즈를 가지면 아래와 같이 표현할 수 있다. $z_{g}$은 bag of n-gram에서 표현된 서브단어(subword)이고, v은 맞춰야할 단어를 의미한다. 따라서, subword와 원래단어를 동시에 임베딩하는 형식으로 OOV문제를 개선한 모델이라고 할 수 있다.
결과
1. word similarity: sg(skip-gram), cbow(continous bag of words), sisg-(subword information skipgram with OOV->null vector표기), sisg(subword로 처리한경우) AR, DE등은 아랍, 체코, 덴마크등의 언어인데, human judgement간의 유사도를 비교하였을때 가장 높은 성능을 보였다.
2. word analogy: analogical reasoning task로 word2vec에서 king-man=queen과 같은 논리적 추론을 의미한다. 과거에 각 언어별로 만들어 놓았던 analogical reaskong task로 실험해본 결과 sisg이 syntatic한 부분에서 우수한 성능을 보였다.
"y Mikolov et al. (2013a) for English, by Svoboda and Brychcin (2016) for Czech, by Köper et al. (2015) for German and by Berardi et al. (2015) for Italian."
3. morphological representation을 진행했던 사전연구와 human judgment와 모델의 스코어관의 상관관계를 봤을때, 스피어만 상관계수가 높을수록 사람의 판단과 유사한 성능을 내서 높은 성능이라는 해석할 수 있다.
'Best Paper review > Others' 카테고리의 다른 글
[XAI] RandomForest의 Feature importance의 해석 (0) | 2022.08.01 |
---|---|
[5분 요약] A deep quadruplet network for person re-identification: 해석 (0) | 2022.06.23 |
SVP(Supervised Paragraph Vector) 해석: 5분 컷 이해 (0) | 2021.11.22 |
자연어처리의 고전 BERT, 5분 컷 이해 (0) | 2021.10.25 |
ICLR 2018: FEW-SHOT LEARNING WITH Graph 풀이 (0) | 2021.06.22 |