Skip-gram NLP1 Fasttext: Enriching Word Vectors with Subword Information 5분 컷 리뷰 요약 본 연구는 단어를 숫자로 표현하는 과정에 해당하는 continous word representations(=word embedding, =denser representation)중에서 언어의 모양새(형태학적인) 구조를 최대한 살려서 벡터화하는 것에 초점을 두고 있다. 기존의 word2vec, glove처럼 단어를 훈련데이터에서만 찾을 수 있는 구조(dictionary: vocabulary을 포함한 구조)에서 찾을 수 없는 경우는 적용이 어렵기 때문이다(=이를 OOV, out of vocabulary라고 함). 따라서, unseend word(rare words)에 대해서 강건한 모델을 만들기 위해서, n-grams을 이용해서, 각 단어를 의 세트로 처리하여, 단어를 표현하고 Skip-gram을 이용.. 2021. 12. 7. 이전 1 다음