티스토리 뷰
w2v은 N 차원의 공간에 단어들을 투사하며 만들어진다. 빔프로젝트가 벽에 이미지를 투사하는 것과 유사하다고 생각하면 된다. 즉, w2v은 N이라는 벽에 단어를 벡터값으로 표현한다고 생각하면 된다.
각 단어는 소수로 표현이 되는데 이는 N차원의 공간에 단어들간의 배열관계를 의미한다.
다르면서도 연속적인 어떠한 잠재적인 공간에 단어를 투사하는 방법은 단어가 기본 상태(단어 상태)보다 흥미롭고 다양한 의미를 표현할 수 있는 미적분 특성(벡터)을 가질 것이다라는 생각이 들어있다.
w2v 알고리즘의 원리는 아래와 같다. 다음과 같은 문장이 있다고 생각해보자.
개가 공원에서 걸으려면 __ 가야한다.
빈칸에 '밖으로' 라고 쓸 수 있고, '밖에' 라고 쓸 수도 있다. w2v 알고리즘은 이러한 아이디어에서 나왔다.
빈칸을 체울 수 있는 모든 단어들은 유사성을 가질 것이다. 왜냐하면 그들은 같은 곳에 속하기 때문이다(함께 속한다?).(이것은 분포가설이라고 불린다.) 그러므로 '밖에'와 '밖으로'는 가까울 것이다. 반면에 '앵무새'와 같은 단어는 더 멀리 있을 것이다.
이 원리는 w2v에 있는 '직관'과 같은 것이다.
원문 :
TLDR: Word2Vec is building word projections (embeddings) in a latent space of N dimensions, (N being the size of the word vectors obtained). The float values represents the coordinates of the words in this N dimensional space.
The major idea behind latent space projections, putting objects in a different and continuous dimensional space, is that your objects will have a representation (a vector) that has more interesting calculus characteristics than basic objects.
Word2Vec algorithms do this:
Imagine that you have a sentence:
The dog has to go ___ for a walk in the park.
You obviously want to fill the blank with the word "outside" but you could also have "out". The w2v algorithms are inspired by this idea. You'd like all words that fill in the blanks near, because they belong together - This is called the Distributional Hypothesis - Therefore the words "out" and "outside" will be closer together whereas a word like "carrot" would be farther away.
This is sort of the "intuition" behind word2vec. For a more theorical explanation of what's going on i'd suggest reading:
출처 : https://stackoverflow.com/questions/27032517/what-does-the-vector-of-a-word-in-word2vec-represents