K Vecinos más Cercanos – Práctica | #41 Curso Machine Learning con Python

여러분 안녕하세요, 채널의 새로운 비디오에 오신 것을 환영합니다 오늘 우리는 실용적인 부분을 보게 될 것입니다 가장 가까운 K 이웃 알고리즘 중 주어진 데이터에 따른 유방암

그러나 프로그램을 시작하기 전에 빨간 버튼으로 채널을 구독하도록 초대합니다 아래에있는 동영상을 놓치지 마세요 또한 이론에 관한 이전 비디오를 보지 못한 경우 권장합니다 Scikit Learn 라이브러리를 사용하여이 알고리즘을 구현하는 방법을 잠시 멈추십시오 이 비디오와 당신은 그들이 설명 할 내용을 이해하기위한 기초이기 때문에 그들을 보러갑니다 이것에서 이 비디오의 링크는 설명 상자에 있습니다

이제이 비디오부터 시작하겠습니다 이 프로젝트에서는 유방암 데이터 세트를 계속 사용하거나 scikit 학습 라이브러리에서 사용 가능한 BreastCancer 이것은 회귀 알고리즘의 실제 부분에 사용하는 것과 동일한 데이터 집합입니다 여기에서 물류는 데이터를 가져 와서 해당 데이터의 전처리를 수행합니다 이러한 이유로 우리는 K 이웃 알고리즘을 구현하는 방법에만 초점을 맞출 것입니다 더 가까이

이 경우 해당 컨텐츠에 게시 된 정보를 볼 것을 권장합니다 이 프로젝트의 첫 번째 부분을 수행하는 방법에 대해 더 알고 싶습니다 이 시점에서 이미 데이터와 데이터에 해당하는“X”데이터를 분리했습니다 목표에 해당하는 "and"의 결과로, 훈련에서 데이터를 분리해야합니다 이것을 테스트하기 위해 우리는 sklearn에서 모듈 train_test_split을 가져 와서 적용합니다 각 분리를 수행합니다 이것으로 모델 개발을 시작할 준비가되었습니다 이런 이유로 우리는 수입 “skelarn

neighbors”에있는 알고리즘은 KNeighborsClassifier를 가져옵니다 이 작업이 완료되면 알고리즘을 정의하고 여기에서 구성하면 "k" 이웃의 수가 5와 같으면 메트릭은 "minkowski"이고 "p"는 이 두 요소의 조합은 알고리즘을 나타냅니다 유클리드 거리를 사용하여 이웃 사이의 거리를 확인합니다 이것은 위에서 설명했다 이것들을 보면 알고리즘이 구성된 기본 데이터입니다 원하는 경우이 구성을 삭제하고 괄호를 비워 둘 수는 있지만 나중에 모델을 개선하기 위해 변경하고 조정할 수 있습니다

알고리즘이 정의되면 이제 훈련 데이터를 사용하여 모델을 훈련시킵니다 그리고 테스트 데이터를 사용하여 예측합니다 계산 된 데이터와 실제 데이터를 비교하면 대부분은 일치하지만 일부는 일치하지 않지만 대부분 일치하면 언뜻보기에 모델이 잘 개발되었다고 판단 할 수 있습니다 그러나 이것이 사실인지 확인하고 혼동 행렬을 계산합시다 sklearn 메트릭의 confusion_matrix 메소드를 예측 데이터와 함께 구현합니다

실제 데이터 보시다시피, 정확하게 예측 된 데이터는 거의 없었습니다 주 대각선에있는 데이터는 정확하게 예측 된 데이터임을 기억하십시오 보조 대각선에는 오류가 있습니다 이 요소들을 추가하면 109 개의 정확한 데이터와 5 개의 잘못된 데이터 만 얻었습니다 이제 모델의 정밀도를 보도록하겠습니다

이를 위해 메트릭에서 "precision_score"를 가져옵니다 예측 및 실제 데이터와 함께 구현합니다 이 계산의 결과는 097이며 이는 상당히 수용 가능한 값입니다 이것으로 우리는이 알고리즘으로 다음과 같은 결과를 얻을 수있다

이 데이터 세트 당신이 그것을 개선하고 얻을 수 있는지 확인하려면 그것은 당신에게 달려 있습니다 더 정확한 것을 위해, 알고리즘 구성 데이터를 수정할 수 있습니다 이것으로 우리는이 분석으로 결론을 맺습니다 의견이나 의견을 남겨 주시면 기꺼이 답변 해 드리겠습니다 전체 프로그램은 웹 사이트에서 찾을 수 있습니다

같은 방식으로 블로그를 둘러 보도록 권유합니다 머신 러닝에 대한 더 많은 정보를 찾을 수 있습니다 시청 해 주셔서 감사합니다 다음 비디오에서 see겠습니다 안녕