일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 프로그램새내기를위한자바언어프로그래밍
- Selenium
- Crawling
- 비지도학습
- aws
- 한빛아카데미
- attention
- 가비아
- word2vec
- 예제중심HTML&자바스크립트&CSS
- image
- 수동설치
- MySQL
- 한빛미디어
- AndroidStudio를활용한안드로이드프로그래밍
- 논문리뷰
- 딥러닝
- CBOW
- 셀레니움
- 소스설치
- 머신러닝
- 크롤링
- jupyter
- Lamp
- 생활코딩
- 밑바닥부터시작하는딥러닝2
- deeplearning
- 컴파일설치
- 밑바닥부터시작하는딥러닝
- Apache
- Today
- Total
목록It공부 (94)
안녕, 세상!
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/dlXUqp/btqTIp08z2c/JYb6AyP4GwVgtLvdAoTcVk/img.png)
'추론 기반 기법'으로 단어를 분석하는데, 대표적인 신경망 모델인 word2vec을 사용합니다. 이번에는 처리 효율을 희생하지만 이해하기 쉽게 단순하게 word2vec을 구현해보겠습니다. (1) 추론 기반 기법과 신경망 단어를 벡터로 표현하는 방법 중 가장 성공적인 기법들을 크게 두 분류로 나눌 수 있습니다. '통계 기반'과 '추론 기반' 기법입니다. 단어의 의미를 얻는 방식은 서로 크게 다르지만, 그 배경에는 모두 분포 가설이 있습니다. 분포 가설이란, '단어의 의미는 주변 단어에 의해 형성된다'라는 가설입니다. 추론 기반 기법에서는 이를 추측 문제로 귀결시킵니다. 두 기법 모두 분포 가설에 근거하여 '단어의 동시발생 가능성'을 얼마나 잘 모델링하는가를 초점으로 맞추고 있습니다. ① 통계 기반 기법의 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/At64e/btqTJmbHVAS/0vvZuieNAcjh0NZA4KkNIk/img.png)
앞서 SVD(Singular Value Decomposition) 특이값 분해를 이용해서 차원 축소를 사용하였습니다. 하지만 이 차원 축소를 사용하는데 왜 U의 일부만 사용하는지 의미하는 바가 무엇인지 설명이 부족하였습니다. 이번에는 SVD 자체에 대해서는 깊게 다루지 않고 전반적인 의미를 해석하는 식으로 SVD를 이용한 차원 축소에 초점을 맞춰서 이야기를 해보겠습니다. (1) Singular Value Decomposition 우선 SVD의 식은 다음과 같습니다. X는 Original 데이터를 의미하고, U와 V는 Orthogonal matrix(직교 행렬)이며, S는 Diagonal matrix(대각 행렬)입니다. (2) Principal Component Analysis 차원 축소는 크게 다음과 같..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/nWpdN/btqSa9SYOAs/Dx4brPFIgiEg4kzeSt1JKK/img.png)
(1) 확률적 클러스터링 K-means 기법은 데이터 점이 반드시 클러스터에 할당됩니다. 하지만 같은 클러스터로 분류된 데이터 내부에서 클러스터 중심 벡터로부터 가까운 데이터가 있고 먼 데이터가 있습니다. 이에 따라 특정 클러스터 중심벡터로 부터 먼 데이터의 경우 또 다른 클러스터의 데이터일 확률도 존재할 것입니다. 확률적 클러스터링은 입력 데이터에 대한 클러스터를 분류하되, 입력 데이터들의 각각에 대한 전체 클러스터의 종류에 속할 확률까지 고려한 클러스터링 기법입니다. 전체 클러스터에 대한 입력데이터의 클러스터 확률을 부담률(responsibility)이라고 하며 γ(감마)로 표기합니다. 부담률의 합은 1이어야 합니다. ex) [0.5, 0.3, 0.2] 입력 데이터에 대한 클러스터를 분류하는 행렬은 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/F4yvj/btqSsSorWR1/vjI0vRxp3TnrPYD4Bkh7bK/img.png)
(1) 클러스트링 (Clustering) 비지도 학습은 지도학습과는 다르게 입력 데이터들에 대한 정답 레이블이 없습니다. 따라서 입력 데이터들에 대한 특징들을 기반으로 연관성에 따라 정답 없이 분류를 해야 합니다. 즉, 클러스트링은 입력 데이터가 비슷한 것 끼리 클래스를 나누는 것입니다. 입력 데이터들이 넓은 범위로 흩어져 분포해 있을 것인데 데이터의 분포 모양을 클러스터(Cluster)라고 합니다. 데이터 분포에서 클러스터를 찾아, 동일한 클러스터에 속하는 데이터들은 같은 클래스로 분류하고 다른 클러스트에 속하는 데이터들은 다른 클래스를 할당하는 것이 클러스터링입니다. (2) K-means K-means 기법은 분류할 클러스터 수(K) 를 직접 정하고 클러스터 수 만큼의 중심 벡터(점)를 가지고 중심 ..