일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 한빛아카데미
- 밑바닥부터시작하는딥러닝2
- jupyter
- 크롤링
- Apache
- 셀레니움
- 비지도학습
- Selenium
- 수동설치
- 생활코딩
- 밑바닥부터시작하는딥러닝
- 논문리뷰
- 가비아
- CBOW
- MySQL
- 예제중심HTML&자바스크립트&CSS
- 머신러닝
- Crawling
- 딥러닝
- AndroidStudio를활용한안드로이드프로그래밍
- image
- 프로그램새내기를위한자바언어프로그래밍
- word2vec
- 한빛미디어
- deeplearning
- aws
- Lamp
- attention
- 소스설치
- 컴파일설치
- Today
- Total
목록밑바닥부터시작하는딥러닝2 (9)
안녕, 세상!
CBOW 모델을 확률 관점에서 살펴보겠습니다. (1) CBOW 모델과 확률 확률 표기법 동시 확률 : P(A , B) - A와 B가 동시에 일어날 확률 사후 확률 : P(A | B) - B(라는 정보)가 주어졌을 때 A가 일어날 확률 말뭉치를 w1,w2, ... ,wr 처럼 단어로 표기한다면 특정 단어와 그 단어에 대한 윈도우 크기가 1인 맥락을 다음과 같이 표현할 수 있습니다. 그렇다면 W(t-1) 과 W(t+1)이 주어졌을 때 Wt의 확률은 다음과 같이 표현할 수 있습니다. 이 식을 이용하여 CBOW 모델의 손실함수를 나타낼 수 있습니다. 앞서 Cross-entropy를 사용했으므로 교차 엔트로피식으로 생각해보겠습니다. 교차 엔트로피 식은 과 같습니다. tk와 yk 모두 one-hot-encoding..
'추론 기반 기법'으로 단어를 분석하는데, 대표적인 신경망 모델인 word2vec을 사용합니다. 이번에는 처리 효율을 희생하지만 이해하기 쉽게 단순하게 word2vec을 구현해보겠습니다. (1) 추론 기반 기법과 신경망 단어를 벡터로 표현하는 방법 중 가장 성공적인 기법들을 크게 두 분류로 나눌 수 있습니다. '통계 기반'과 '추론 기반' 기법입니다. 단어의 의미를 얻는 방식은 서로 크게 다르지만, 그 배경에는 모두 분포 가설이 있습니다. 분포 가설이란, '단어의 의미는 주변 단어에 의해 형성된다'라는 가설입니다. 추론 기반 기법에서는 이를 추측 문제로 귀결시킵니다. 두 기법 모두 분포 가설에 근거하여 '단어의 동시발생 가능성'을 얼마나 잘 모델링하는가를 초점으로 맞추고 있습니다. ① 통계 기반 기법의 ..
앞서 SVD(Singular Value Decomposition) 특이값 분해를 이용해서 차원 축소를 사용하였습니다. 하지만 이 차원 축소를 사용하는데 왜 U의 일부만 사용하는지 의미하는 바가 무엇인지 설명이 부족하였습니다. 이번에는 SVD 자체에 대해서는 깊게 다루지 않고 전반적인 의미를 해석하는 식으로 SVD를 이용한 차원 축소에 초점을 맞춰서 이야기를 해보겠습니다. (1) Singular Value Decomposition 우선 SVD의 식은 다음과 같습니다. X는 Original 데이터를 의미하고, U와 V는 Orthogonal matrix(직교 행렬)이며, S는 Diagonal matrix(대각 행렬)입니다. (2) Principal Component Analysis 차원 축소는 크게 다음과 같..
(1) 자연어 처리 (Natural Language Processing) 자연어 : 우리가 평소에 쓰는 말 일반적인 프로그래밍 언어는 기계적이고 고정되어 있습니다. 반면, 자연어는 똑같은 의미의 문장도 여러 형태로 표현할 수 있거나, 문장의 뜻이 애매할 수도 있고, 의미나 형태가 유연하게 바뀌는 부드러운 언어입니다. 자연어 처리는 우리의 말을 컴퓨터에게 이해시키기 위한 기술입니다. 우리의 말은 문자로 구성되며 말의 의미는 단어로 구성됩니다. 컴퓨터한테 단어의 의미를 잘 파악하는 표현 방법은 시소러스, 통계 기반 기법, 추론 기반 기법 등 있습니다. (2) 시소러스 사전이 단어의 각각 의미를 설명하는 것과 같이 사람이 직접 단어의 의미를 정의하는 방식을 사용하는 방법입니다. 이를 유의어로 통해 컴퓨터에게 ..