일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- word2vec
- 컴파일설치
- Apache
- 프로그램새내기를위한자바언어프로그래밍
- 한빛미디어
- 가비아
- CBOW
- 수동설치
- 밑바닥부터시작하는딥러닝2
- attention
- 한빛아카데미
- AndroidStudio를활용한안드로이드프로그래밍
- 예제중심HTML&자바스크립트&CSS
- Crawling
- 머신러닝
- deeplearning
- 밑바닥부터시작하는딥러닝
- MySQL
- aws
- 소스설치
- jupyter
- 비지도학습
- image
- 딥러닝
- 크롤링
- 생활코딩
- 논문리뷰
- 셀레니움
- Lamp
- Selenium
- Today
- Total
목록It공부/Deep learning (19)
안녕, 세상!
transformer은 워낙 유명한 모델이며 현재 다양한 분야에서 응용되어 사용되고 있습니다. 그리하여 기본적인 작동에 대한 설명이 잘 되어 있는 글은 정말 많습니다. 제 글은 transformer에서 특정 구조의 설계에 대한 이유, 무슨 의도로 다음과 같이 구성을 하였는지에 대한 설명을 중점으로 기술하였습니다. (1) Seq2seq의 한계와 attention의 발전 Attention seq to seq의 문제점은 context vector가 고정된 크기로 되었다는 것입니다. 입력 data의 문장의 길이와 상관없이 context vector가 고정되었다는 것은 긴 문장들의 경우에 과도하게 정보를 압축하게 되므로 정보의 손실이 발생되며 효율적이지 못한 방법입니다. 사람이 문장을 번역할 때 '어떤 단어'에 ..
(1) RNNLM 구현 구현할 RNNLM의 형태는 다음과 같습니다. 이를 코드로 나타내면 다음과 같습니다. #import sys #sys.path.append('..') import numpy as np #from common.time_layers import * class SimpleRnnlm: def __init__(self, vocab_size, wordvec_size, hidden_size): V, D, H = vocab_size, wordvec_size, hidden_size # wordvec_size는 입력벡터차원수(특정단어 분산표현) rn = np.random.randn # 가중치 초기화 embed_W = (rn(V, D) / 100).astype('f') rnn_Wx = (rn(D, H) ..
(1) RNN 구현 구현해야 할 신경망은 가로 방향으로 성장한 신경망입니다. 이 가로 방향으로 성장하는 신경망을 '하나의 계층'으로 구현하면 다음과 같습니다. 위의 그림과 같이 상하 방향의 입출력을 하나로 묶으면 하나의 계층으로 볼 수 있습니다. Time RNN 계층 내에서 한 단계의 작업을 수행하는 계층을 'RNN 계층'이라고 하고, T개 단계분의 작업을 한꺼번에 처리하는 계층을 'Time RNN 계층'이라고 합니다. (시계열 데이터를 한꺼번에 처리하는 계층 앞에는 'Time'이라는 표현을 붙이겠음) ① RNN 구현 미니 배치를 적용한 RNN의 식은 다음과 같습니다. 이를 바탕으로 작성한 RNN 클래스의 코드는 다음과 같습니다. class RNN: def __init__(self, Wx, Wh, b):..
지금까지 살펴본 신경망은 피드 포워드(feed forward)라는 유형의 신경망입니다. feed forward란 흐름이 단방향인 신경망을 말합니다. feed forward 신경망은 구성이 단순하여 많은 문제에 응용할 수 있지만 시계열 데이터를 잘 다루지 못한다는 단점이 있습니다. 단순한 시계열 데이터의 성질을 단방향 신경망에서는 충분히 학습할 수 없습니다. 그래서 순환 신경망(Recurrent Neural Network)이 등장하게 됩니다. (1) 확률과 언어 모델 이전의 CBOW 모델의 맥락은 타깃을 중심으로 좌우 대칭으로 생각해왔었습니다. 이번에는 맥락을 왼쪽 윈도우만으로 한정해보겠습니다. 왼쪽 두 단어만을 맥락으로 생각하면 출력 확률은 다음과 같습니다. 앞서 CBOW 모델의 학습으로 수행하는 일은 ..