[혼자 공부하는 6기] 혼자 공부하는 머신러닝+딥러닝 5주차 미션
#혼공단지 #혼공챌린지 #혼공머신 #혼자공부하는 머신러닝 딥러닝
[5주차 미션] - 기본 미션 : k - 평균 알고리즘의 동작방식 설명하기 - 선택 미션 : Ch.06-3 문제풀어 인증샷 챕터 06 > 06-1. 군집 알고리즘 흑백사진을 분류하기 위해 다양한 아이디어를 내면서 비지도 학습과 군집 알고리즘에 대해 이해한다.
1) 비지도 학습 타깃이 없을 때 사용하는 머신러닝 알고리즘
2. 과일 사진 데이터를 준비하는
subplts() 함수를 사용하면 여러 그래프를 배열처럼 쌓을 수 있도록 돕는다.
3.픽셀값을 분석하는히스토그램을 보면 바나나 사진은 픽셀 평균치가 작아 분류 가능하지만 사과와 파인애플은 구분이 쉽지 않다.사과, 파인애플, 바나나 그래프다 과일에 따라 비싼 구간이 다르다.3개의 과일은 픽셀 위치에 따라 가격이 다르다. 사과, 파인애플, 바나나로 구분 가능.
4. 평균치에 가까운 사진을 고른다애플_mean이랑 제일 가까운 거 100개 고르면 다 사과야이렇게 비슷한 샘플끼리 그룹에 모으는 작업을 군집이라고 한다. 군집은 대표적인 비지도 학습작업의 하나.군집 알고리즘으로 만든 그룹을 클러스터라고 부르는 포인트-비지도 학습: 머신러닝의 일종. 훈련 데이터가 없기 때문에 외부의 도움 없이 스스로 유용한 무언가를 배울 필요가 있다. 군중, 자원 축소가 대표적이다.- 히스토그램 : 구간별로 값이 발생한 빈도를 그래프로 표시한다.- 군집 : 비슷한 샘플끼리 한 그룹으로 모으는 대표적인 비지도 학습. 군집 알고리즘으로 모은 샘플 그룹을 클러스터라고 한다.챕터 06-2.k-평균 알고리즘의 작동 방식을 이해하고 과일 사진을 자동으로 모으는 비지도 학습 모델을 만든다.
1) k-평균 알고리즘-작동 방식 1.무작위로 k개의 클러스터 중심을 정한다. 각 샘플에서 가장 가까운 클러스터 중심을 찾아 해당 클러스터의 샘플로 지정한다. 3. 클러스터에 속하는 샘플의 평균값으로 클러스터 중심을 변경. 4. 클러스터 중심으로 변화가 없을 때까지 2회로 돌아가 반복한다.
k-알고리즘은 이들 샘플을 완벽하게 구별하지 못한다. 하지만 훈련 데이터에 타깃 레이블을 전혀 제공하지 않는데도 스스로 비슷한 샘플을 잘 모은 것으로 보인다.
3) 최적의 k 찾는 엘보 방법은 클러스터 개수를 늘리면서 이너셔의 변화를 관찰하여 최적의 클러스터 개수를 찾는 방법이다.휘어지는 지점이 뚜렷하다 없지만, k=3 에서 그래프의 기울기가 조금 바뀐 것을 알 수 있다.엘보 지점보다 클러스터 개수가 많아지면 이너셔 변화가 줄어들고 군집 효과도 감소하지만 이 그래프는 지점이 명확하지 않다.
포인트-k-평균: 알고리즘은 처음에 랜덤으로 클러스터 중심을 정하고 클러스터를 만듭니다. 그 다음 클러스터의 중심을 이동하고 다시 클러스터를 만드는 방법으로 반복하여 최적의 클러스터를 구성하는 알고리즘.- 클러스터 중심 : k - 평균 알고리즘이 만든 클러스터에 속하는 샘플의 특성 평균값. 센트로이드라고도 부른다 - 엘보 방법 : 최적의 클러스터 수를 정하는 방법 중 하나. 클러스터 개수에 의해 이너샤 감소가 멈추는 지점이 적절한 클러스터수 k가 된다.기본 미션 k-알고리즘 작동방식의 설명 1.무작위로 k개의 클러스터 중심을 정한다.2. 각 샘플에서 가장 가까운 클러스터 중심을 찾아 해당 클러스터의 샘플로 지정한다.3. 클러스터에 속하는 샘플의 평균값으로 클러스터 중심을 변경한다.4. 클러스터 중심으로 변화가 없을 때까지 2번으로 돌아가 반복한다.챕터 06-3. 주성분 분석 차원 축소에 대해 이해하고 대표적인 차원 축소 알고리즘의 하나인 PCA(주성분 분석) 모델을 만든다.
1) 차원과 차원 축소 데이터가 가지는 속성을 특성이라고 한다. 「과일 사진의 경우 1만개의 픽셀이 있기 때문에 1만개의 특성이 있는 것이다.」머신 러닝에서는 이러한 특성을 「차원」이라고 부른다. 만개의 특성은 결국 만개의 차원이라는 것인데, 이 차원을 줄일 수 있다면 저장 공간을 크게 절약할 수 있다.
2. PCCA클래스이 주성분은 원본 데이터에서 가장 분산이 큰 방향을 순서대로 나타낸 것.1만개의 특성을 50개로 줄여 접어서 손실이 발생하지만, 최대한 분산이 큰 방향으로 데이터를 투영했기 때문에 원본 데이터의 대부분을 재구성.
사과랑 파인애플 클러스터의 경계가 가까워 이 두 클러스터의 샘플은 몇 가지 혼동을 일으키기 쉬우며 데이터를 시각화하면 예기치 못한 통찰을 얻을 수 있는 면에서 차원 축소는 매우 유용한 툴 중 하나이다.포인트-차원축소:오리지널 데이터의 특성을 적은 수의 새로운 특성으로 변환하는 비지도 학습의 일종. 저장 공간을 줄이고 시각화하기 쉬워 다른 알고리즘 성능을 높일 수 있음 - 주성분 분속 : 차원 축소 알고리즘의 하나로 데이터에서 가장 분산이 큰 방향을 찾는 방법.- 설명된 분산: 주성분 분석에서 주성분이 얼마나 원본 데이터의 분산을 잘 나타내고 있는지를 기록한 것.선택미션 Ch.06-3 문제풀고 인증샷5주차 스터디 끝













