K Vecinos más Cercanos – Práctica | #41 Curso Machine Learning con Python

여러분 안녕하세요, 채널의 새로운 비디오에 오신 것을 환영합니다 오늘 우리는 실용적인 부분을 보게 될 것입니다 가장 가까운 K 이웃 알고리즘 중 주어진 데이터에 따른 유방암

그러나 프로그램을 시작하기 전에 빨간 버튼으로 채널을 구독하도록 초대합니다 아래에있는 동영상을 놓치지 마세요 또한 이론에 관한 이전 비디오를 보지 못한 경우 권장합니다 Scikit Learn 라이브러리를 사용하여이 알고리즘을 구현하는 방법을 잠시 멈추십시오 이 비디오와 당신은 그들이 설명 할 내용을 이해하기위한 기초이기 때문에 그들을 보러갑니다 이것에서 이 비디오의 링크는 설명 상자에 있습니다

이제이 비디오부터 시작하겠습니다 이 프로젝트에서는 유방암 데이터 세트를 계속 사용하거나 scikit 학습 라이브러리에서 사용 가능한 BreastCancer 이것은 회귀 알고리즘의 실제 부분에 사용하는 것과 동일한 데이터 집합입니다 여기에서 물류는 데이터를 가져 와서 해당 데이터의 전처리를 수행합니다 이러한 이유로 우리는 K 이웃 알고리즘을 구현하는 방법에만 초점을 맞출 것입니다 더 가까이

이 경우 해당 컨텐츠에 게시 된 정보를 볼 것을 권장합니다 이 프로젝트의 첫 번째 부분을 수행하는 방법에 대해 더 알고 싶습니다 이 시점에서 이미 데이터와 데이터에 해당하는“X”데이터를 분리했습니다 목표에 해당하는 "and"의 결과로, 훈련에서 데이터를 분리해야합니다 이것을 테스트하기 위해 우리는 sklearn에서 모듈 train_test_split을 가져 와서 적용합니다 각 분리를 수행합니다 이것으로 모델 개발을 시작할 준비가되었습니다 이런 이유로 우리는 수입 “skelarn

neighbors”에있는 알고리즘은 KNeighborsClassifier를 가져옵니다 이 작업이 완료되면 알고리즘을 정의하고 여기에서 구성하면 "k" 이웃의 수가 5와 같으면 메트릭은 "minkowski"이고 "p"는 이 두 요소의 조합은 알고리즘을 나타냅니다 유클리드 거리를 사용하여 이웃 사이의 거리를 확인합니다 이것은 위에서 설명했다 이것들을 보면 알고리즘이 구성된 기본 데이터입니다 원하는 경우이 구성을 삭제하고 괄호를 비워 둘 수는 있지만 나중에 모델을 개선하기 위해 변경하고 조정할 수 있습니다

알고리즘이 정의되면 이제 훈련 데이터를 사용하여 모델을 훈련시킵니다 그리고 테스트 데이터를 사용하여 예측합니다 계산 된 데이터와 실제 데이터를 비교하면 대부분은 일치하지만 일부는 일치하지 않지만 대부분 일치하면 언뜻보기에 모델이 잘 개발되었다고 판단 할 수 있습니다 그러나 이것이 사실인지 확인하고 혼동 행렬을 계산합시다 sklearn 메트릭의 confusion_matrix 메소드를 예측 데이터와 함께 구현합니다

실제 데이터 보시다시피, 정확하게 예측 된 데이터는 거의 없었습니다 주 대각선에있는 데이터는 정확하게 예측 된 데이터임을 기억하십시오 보조 대각선에는 오류가 있습니다 이 요소들을 추가하면 109 개의 정확한 데이터와 5 개의 잘못된 데이터 만 얻었습니다 이제 모델의 정밀도를 보도록하겠습니다

이를 위해 메트릭에서 "precision_score"를 가져옵니다 예측 및 실제 데이터와 함께 구현합니다 이 계산의 결과는 097이며 이는 상당히 수용 가능한 값입니다 이것으로 우리는이 알고리즘으로 다음과 같은 결과를 얻을 수있다

이 데이터 세트 당신이 그것을 개선하고 얻을 수 있는지 확인하려면 그것은 당신에게 달려 있습니다 더 정확한 것을 위해, 알고리즘 구성 데이터를 수정할 수 있습니다 이것으로 우리는이 분석으로 결론을 맺습니다 의견이나 의견을 남겨 주시면 기꺼이 답변 해 드리겠습니다 전체 프로그램은 웹 사이트에서 찾을 수 있습니다

같은 방식으로 블로그를 둘러 보도록 권유합니다 머신 러닝에 대한 더 많은 정보를 찾을 수 있습니다 시청 해 주셔서 감사합니다 다음 비디오에서 see겠습니다 안녕

K Means Clustering Algorithm | K Means Clustering Example | Machine Learning Algorithm | Intellipaat

안녕하세요이 데이터 과학 과정의 9 번째 모듈을 다시 환영합니다

그래서 이전 비디오에서는 감독되지 않은 기계 학습에 대해 논의했으며 작동 메커니즘을 사용합니다 그런 다음 k-means 또는 pca와 같은 많은 알고리즘에 대해서도 논의했습니다 무 감독 학습 그러나 우리는 이러한 알고리즘이 무엇인지와 어떻게 작동합니까? 오늘의 모듈에서 우리는 깊이있게 될 것입니다 k-means 클러스터링 알고리즘으로 들어가기

그래서이 모듈에서 우리는 먼저 클러스터링의 개념을 이해하면 다른 유형을 살펴볼 것입니다 우리는 k-means 클러스터링으로 이동할 것입니다 주요 주제 오늘 우리의 토론의 그리고 마지막으로 우리는 k- 평균 알고리즘을 탐색하기 전에 k- 평균 클러스터링을 먼저 해봅시다 클러스터링이 무엇인지 이해하십시오 그래서 간단한 말로 클러스터링은 이제 데이터 세트를 유사한 데이터 포인트 또는 피쳐 그룹으로 나눕니다

클러스터링의 정의를 살펴 보겠습니다 따라서 클러스터링은 데이터 세트를 같은 그룹의 데이터 포인트가 가능한 한 유사하고 다른 그룹의 데이터 포인트는 다음과 같습니다 가능한 한 유사하지 않으므로 왜 클러스터링이 필요한지 또는 실제로 적용 할 수있는 곳은 어디입니까? 우리가 클러스터링을 사용한다고 말할 수 있습니다 예를 들어 슈퍼마켓에 갈 때마다 일상적인 활동 모든 야채가 한 줄에 그룹화되어 있다는 것을 알게 될 것입니다 다른 행에 다른 포장 식품

그래서 그들은 서로 다른 클러스터로 여러 떼 이제 이것이 차례로 고정시키는 데 도움이됩니다 당신의 쇼핑 프로세스가 아마존의 제품 목록이 될 것입니다 또는 플립 카트 따라서 이러한 온라인 쇼핑 응용 프로그램은 과거의 역사에

그래서 과거에 뭘 보았습니까? 유사한 제품 또는 관련 제품 그렇다면 그들이 어떻게 당신에게 추천할까요? 비슷한 제품? 다시이 개념은 클러스터링입니다 그래서 거기에있다 클러스터링을 적용하기위한 기준은 무엇입니까? 그래서 이것들은 주로 두 가지입니다 마음에 두었습니다

두 그룹 사이의 거리는 매우 커야하며 그룹 구성원 간 거리가 매우 작아야합니다 서로 다른 두 그룹을 비교할 때 가능하고 두 데이터 포인트를 비교할 때 단일 그룹은 가능한 한 유사해야합니다 이제 나는 클러스터링의 다른 유형 따라서 세 가지 주요 유형의 클러스터링이 있습니다 즉 독점 클러스터링, 중복 클러스터링 및 계층 적 기술 클러스터링

그래서 독점 클러스터링부터 시작합시다 독점적 인 클러스터링은 하드 클러스터링 기술로서 데이터 포인트 오직 하나의 클러스터에만 속합니다 그래서 여러분은 여기서 모든 오렌지색 삼각형은 하나의 그룹에 속하며 모든 보라색 삼각형은 다른 그룹에 속합니다 그룹과이 두 클러스터는 서로 완전히 다릅니다 다음으로 클러스터링이 중복됩니다 그래서이 경우 일부 데이터 포인트 여러 그룹에 속한다

그래서 여기에서 오렌지와 오렌지의 일부를 볼 수 있습니다 보라색 삼각형은 두 그룹에 속하며 녹색으로 표시됩니다 색깔 그런 다음 계층 적 클러스터링을 사용합니다 따라서이 알고리즘은 모든 데이터 포인트는 자신의 클러스터에 할당 된 다음 두 개의 클러스터에 할당됩니다

가장 가까운 클러스터가 동일한 클러스터에 병합되고 결국이 알고리즘은 하나의 클러스터 만 남았고 이해할 수있을 때 종료됩니다 이것은 A와 B를 볼 수있는 예를 생각해 보겠습니다 그리고 D와 E는 다음과 같습니다 몇 가지 유사점을 바탕으로 결합 된 다음 단계에서 A와 B는 C와 매우 유사하므로 한 클러스터에서 비슷한 그룹으로 분류됩니다 다음 단계에서 D와 E의 조합은 F와 유사하므로 하나에서 그룹화됩니다

마지막으로 네 번째 단계에서 우리는 최종 트리가 모든 것을 포함한다는 것을 알 수 있습니다 클러스터는 하나의 단일 클러스터로 결합됩니다 이제 우리는 무엇이 클러스터링과 다른 유형은 K로 이동하자 오늘 토론의 주요 주제 따라서 k-means 클러스터링은 주요 목표는 유사한 데이터 포인트를 클러스터로 그룹화하고 그룹 또는 클러스터는 K로 표시되므로 k- 평균 클러스터링은 거리에서 실행됩니다

유클리드 거리를 사용하여 거리를 계산하는 계산 유클리드 거리에 대한 공식은 화면에 표시된 것과 같습니다 이제 유추를 이해하고 k-means 클러스터링이 무엇인지 이해해 봅시다 책 한 권을 받고 책을 정리해달라고 요청한 것을 고려해보십시오 도서관에서 이제 어떻게 그들을 분리하기 시작할 것입니까? 그러니까 당신이 강사가되어이 책들이 모두 세 가지 주제에 속한다는 것을 알게됩니다 이제는 무작위로 3 권의 책만 가져 가면 그 책은 이 세 개의 개별 클러스터에 대한 시작점

그래서 다시 너는 가야 해 엄청난 양의 초기 도서 그룹과 아래에서 확인할 각 책을 살펴보십시오 이 책이 속한 클러스터 이제 모든 항목을 확인해야하는 경우 저자, 출판물 및 연도와 같은 도서의 특성 하나의 클러스터 그래서 기술적으로 당신이 선택할 시작 책은 중심

이제 우리는 중심에 더 가까운 책을 고를 것입니다 우리는 원하는 결과를 얻을 때까지이 단계를 반복합니다 이제 k-means 클러스터링의 알고리즘으로 이동하여 k가 주어지면 k-means 알고리즘은 다음 단계에서 실행될 수 있습니다 그래서 1 단계에서 우리는 2 단계에서 개체를 k 개의 비어 있지 않은 하위 집합으로 분할합니다 현재 파티션의 클러스터 중심과 우리가 각각 지정하는 3 단계 특정 클러스터를 가리키고 4 단계에서 우리는 각 지점과 많은 지점을 거리에서 클러스터로 가리 킵니다

centroid가 최소이고 point를 realloting 한 마지막 단계에서 우리는 형성되는 새로운 클러스터의 중심 (centroid)과 너무 혼란 스러울지라도 실제로 그것을 더 나은 방법으로 이해하기위한 모범을 보입니다 그러니 당신은 슈퍼마켓을위한 새로운 택배 서비스를 시작했고 당신은 도시에 3 개의 배달 센터가 있으므로 처음에는 가능한 것을 식별해야합니다 당신이 직면하게 될 도전 과제는 주문이있는 지역을 파악할 필요가 있습니다 빈번하게 배치 된 다음 필요한 수의 수를 식별해야합니다 특정 지역을 커버하는 센터와 마침내 당신은 배달 센터를 유지하기위한 배달 센터 위치 슈퍼마켓과 배달 지점 간 거리가 최소한이므로 지금 대답하십시오

그러나 이러한 질문에는 많은 분석과 수학이 필요합니다 클러스터링은 실제와 같은 문제를 해결함으로써 삶을 편하게 만듭니다 방법을 참조하십시오 이제 이러한 점을 가장 가능성있는 것으로 간주하십시오 주문이 자주 배치되는 위치

이제이 세 가지 요점은 지역을보다 효율적으로 커버하는 배달 센터로 간주됩니다 최소한 배달 센터에서 배달 지점까지의 거리 중심이나 클러스터 중심으로 행동하십시오 이제 우리는 각 배달 위치에서 우리의 클러스터 센터 또는 배달 센터까지의 거리 그래서 최소한의 거리는 색깔에 착색 될 것입니다 배달 센터 오렌지 클러스터 센터에 다음 배달에 가깝습니다

위치는 주황색으로 비슷하게 표시됩니다 그들은 모든 배달 위치를 위해 그것을 할 것이므로 지금 우리는 모든 일부 클러스터 센터에 할당 된 배달 위치 이제 우리는 배달 센터는 3 개의 클러스터로 클러스터링됩니다 그래서 우리는 계속해서 계산할 것입니다 특정 클러스터 내에있는 모든 점의 중심

그래서 centroids가 현재 클러스터 센터로 보일 수도 있고 그렇지 않을 수도 있습니다 그리고 그들이 동일하다면 그것은 이상적인 시나리오입니다 그래서 여기서 도심은 현재의 클러스터와 다른 것으로 나온다 그래서 우리는이 새로운 클러스터 점을 중심으로 간주하고 이전 것들 이제 다시 거리를 계산할 것입니다 각 배달 위치에서부터 클러스터 센터까지 배달 위치가 클러스터 센터에 더 가깝도록 우리가 찾을 수 있도록 그 배달 위치를 새 클러스터 센터에 지정하고 색상을 지정하면됩니다

따라서 다시 한번 우리는 새로운 클러스터 중심을 찾아야 만합니다 포인트가되고 이전 클러스터 센터와 동일하게 나오면 괜찮 았으면 그 때까지 반복해야합니다 클러스터가 수렴하고 클러스터 센터가 수렴하지 않기 때문에 새로운 도심을 찾기 위해 같은 과정을 거치고 클러스터가 멈출 때만 멈 춥니 다 센터가 수렴하므로 우리가 돌볼 필요가있는 또 하나의 것이 있습니다

왜곡이라고 부르기 때문에 왜곡이 낮 으면 클러스터링이 좋기 때문에 일반적으로 몇 번에 걸쳐 실행하게됩니다 다른 무작위 초기화 및 가장 낮은 클러스터링 선택 왜곡 그래서이 주어진이 수식을 사용하여 계산이 왜곡이 우리는 왜곡을 염두에 두는 단계를 반복 할 것이므로이 경우 우리는 왜곡을 사용하여 거리의 이름을 지정하십시오 변수 X 이제 우리는 키의 수를 증가시키고 클러스터가 개선 또는 왜곡 이제 키의 가치를 확인하자 K의 값이 커질수록 왜곡이 줄어들면 왜곡이 감소한다는 것을 알 수 있습니다 키의 가치는 K가 2라고 말하면 클러스터는 다음과 같이 보일 것입니다

왜곡이 증가하므로 K의 값을 선택해야합니다 우리는 K의 값을 증가시킵니다 왜곡은 일정하게 유지됩니다 K에 대해 이상적인 값으로 불리는데 이것은 팔꿈치를 사용하여 식별 할 수 있습니다 방법이 왜곡이 일정하게 유지되는 지점까지 K의 이상적인 가치이며, 이것이 K가 클러스터링 작업을 의미하는 방식입니다 이제 요약 해 드리겠습니다

알고리즘은 처음에는 클러스터 수를 찾아야합니다 주어진 데이터 세트에 대한 중심점을 계산 한 후 중심으로부터의 거리를 확인합니다 최소 거리를 기준으로 그룹화하고 우리는이 단계를 반복 할 때까지 우리는 고정 안드로이드를 얻습니다 그래서 이것은 k- 평균 알고리즘에 관한 것입니다 참석을위한 세션 감사의 끝에 우리를 데리고 와서 만나요 다음 등급