clustering 2

[혼공머신] 13. K-Means Clustering

K-means¶ 앞선 절에서는 사과, 파인애플, 바나나 사진임을 미리 알고 있었기에 과일의 평균을 구할 수 있었다. 그러나 실제 비지도 학습에서는 어떤 과일이 들어있는지 알지 못한다. 이런 경우 k-means clustering을 통해 알고리즘이 평균값을 자동으로 찾아준다. 이 평균값이 클러스터의 중심에 위치하기 때문에 클러스터 중심(cluster center) 또는 센트로이드(centroid)라고도 부른다. K-means 알고리즘 소개¶ k-means 알고리즘의 작동 방식은 다음과 같다. 무작위로 k개의 centroid를 잡는다. 각 샘플에서 가장 가까운 centroid를 찾아 해당 클러스터의 샘플로 지정한다. 클러스터에 속한 샘플의 평균값으로 centroid를 변경한다. centroid의 변화가 없을..

[혼공머신] 12. Clustering Algorithm

Clustering Algorithm¶ 과일 사진 데이터 준비하기¶ 코랩 코드 셀에서 '!' 문자로 시작하면 코랩은 이후 명령을 파이썬 코드가 아니라 리눅스 쉘 명령으로 이해한다. wget 명령은 원격 주소에서 데이터를 다운로드하여 저장한다. -O 옵션에서 저장할 파일 이름을 지정할 수 있다. 아래는 juypyter notebook에서 사용하기 위해 stack overflow에 검색하여 다른 코드를 사용한 것이다. In [1]: import urllib.request url = 'https://bit.ly/fruits_300_data' filename = 'fruits_300.npy' urllib.request.urlretrieve('https://bit.ly/frui..