K Vecinos más Cercanos – Práctica | #41 Curso Machine Learning con Python

여러분 안녕하세요, 채널의 새로운 비디오에 오신 것을 환영합니다 오늘 우리는 실용적인 부분을 보게 될 것입니다 가장 가까운 K 이웃 알고리즘 중 주어진 데이터에 따른 유방암

그러나 프로그램을 시작하기 전에 빨간 버튼으로 채널을 구독하도록 초대합니다 아래에있는 동영상을 놓치지 마세요 또한 이론에 관한 이전 비디오를 보지 못한 경우 권장합니다 Scikit Learn 라이브러리를 사용하여이 알고리즘을 구현하는 방법을 잠시 멈추십시오 이 비디오와 당신은 그들이 설명 할 내용을 이해하기위한 기초이기 때문에 그들을 보러갑니다 이것에서 이 비디오의 링크는 설명 상자에 있습니다

이제이 비디오부터 시작하겠습니다 이 프로젝트에서는 유방암 데이터 세트를 계속 사용하거나 scikit 학습 라이브러리에서 사용 가능한 BreastCancer 이것은 회귀 알고리즘의 실제 부분에 사용하는 것과 동일한 데이터 집합입니다 여기에서 물류는 데이터를 가져 와서 해당 데이터의 전처리를 수행합니다 이러한 이유로 우리는 K 이웃 알고리즘을 구현하는 방법에만 초점을 맞출 것입니다 더 가까이

이 경우 해당 컨텐츠에 게시 된 정보를 볼 것을 권장합니다 이 프로젝트의 첫 번째 부분을 수행하는 방법에 대해 더 알고 싶습니다 이 시점에서 이미 데이터와 데이터에 해당하는“X”데이터를 분리했습니다 목표에 해당하는 "and"의 결과로, 훈련에서 데이터를 분리해야합니다 이것을 테스트하기 위해 우리는 sklearn에서 모듈 train_test_split을 가져 와서 적용합니다 각 분리를 수행합니다 이것으로 모델 개발을 시작할 준비가되었습니다 이런 이유로 우리는 수입 “skelarn

neighbors”에있는 알고리즘은 KNeighborsClassifier를 가져옵니다 이 작업이 완료되면 알고리즘을 정의하고 여기에서 구성하면 "k" 이웃의 수가 5와 같으면 메트릭은 "minkowski"이고 "p"는 이 두 요소의 조합은 알고리즘을 나타냅니다 유클리드 거리를 사용하여 이웃 사이의 거리를 확인합니다 이것은 위에서 설명했다 이것들을 보면 알고리즘이 구성된 기본 데이터입니다 원하는 경우이 구성을 삭제하고 괄호를 비워 둘 수는 있지만 나중에 모델을 개선하기 위해 변경하고 조정할 수 있습니다

알고리즘이 정의되면 이제 훈련 데이터를 사용하여 모델을 훈련시킵니다 그리고 테스트 데이터를 사용하여 예측합니다 계산 된 데이터와 실제 데이터를 비교하면 대부분은 일치하지만 일부는 일치하지 않지만 대부분 일치하면 언뜻보기에 모델이 잘 개발되었다고 판단 할 수 있습니다 그러나 이것이 사실인지 확인하고 혼동 행렬을 계산합시다 sklearn 메트릭의 confusion_matrix 메소드를 예측 데이터와 함께 구현합니다

실제 데이터 보시다시피, 정확하게 예측 된 데이터는 거의 없었습니다 주 대각선에있는 데이터는 정확하게 예측 된 데이터임을 기억하십시오 보조 대각선에는 오류가 있습니다 이 요소들을 추가하면 109 개의 정확한 데이터와 5 개의 잘못된 데이터 만 얻었습니다 이제 모델의 정밀도를 보도록하겠습니다

이를 위해 메트릭에서 "precision_score"를 가져옵니다 예측 및 실제 데이터와 함께 구현합니다 이 계산의 결과는 097이며 이는 상당히 수용 가능한 값입니다 이것으로 우리는이 알고리즘으로 다음과 같은 결과를 얻을 수있다

이 데이터 세트 당신이 그것을 개선하고 얻을 수 있는지 확인하려면 그것은 당신에게 달려 있습니다 더 정확한 것을 위해, 알고리즘 구성 데이터를 수정할 수 있습니다 이것으로 우리는이 분석으로 결론을 맺습니다 의견이나 의견을 남겨 주시면 기꺼이 답변 해 드리겠습니다 전체 프로그램은 웹 사이트에서 찾을 수 있습니다

같은 방식으로 블로그를 둘러 보도록 권유합니다 머신 러닝에 대한 더 많은 정보를 찾을 수 있습니다 시청 해 주셔서 감사합니다 다음 비디오에서 see겠습니다 안녕

Métodos de Selección de Características | #18 Curso Machine Learning con Python

안녕하세요 채널의 새로운 비디오에 오신 것을 환영합니다

이 비디오에서 나는 당신과 이야기 할 것입니다 특성 선택 방법 그러나 설명을 시작하기 전에 귀하의 채널을 구독하도록 초대합니다 빨간색 버튼이있어 동영상을 놓치지 마십시오 우리가 시작하면 지금

우리는 모두 데이터 세트를 보았으며 때로는 작아 질 수 있습니다 다른 사람들은 엄청나게 크기가 크며, 특히 숫자가 큰 경우 특성을 처리하여 처리하기가 매우 어렵습니다 이러한 유형의 고차원 데이터 세트를 사용하는 경우 Machine Learning 모델을 만들면 다음과 같은 결과를 초래할 수 있습니다 추가 기능은 기계 모델에 대한 잡음 역할을합니다 학습은 극도로 낮은 성과를 낼 수 있습니다

모델은 훈련하는 데 더 많은 시간이 걸립니다 이들에 대한 비현실적인 자원의 할당 특징들 이 모든 경우에, 특성의 선택은 기계의 프로젝트에서 구현되어야합니다 학습 특성 선택은 가장 중요하고 관련성이 높은 것을 선택하는 과정입니다 성능 향상을 목적으로하는 데이터 세트의 특성 예측 자 예측,보다 빠르고 수익성있는 예측 자 제공 데이터를 생성 한 기본 프로세스에 대해 더 잘 이해할 수 있습니다 다음으로, 우리는 당신을 모델은 더 효율적이고 효과적으로 작동합니다 필터 메소드 다음 이미지는 메소드 필터를 기반으로 특성을 선택하는 방법 : 필터 방법은 일반적으로 데이터 전처리 단계로 사용되며, 기능 선택은 기계 학습 알고리즘과 독립적입니다

특성은 결정하려는 통계적 점수에 따라 분류됩니다 결과 변수와 특성의 상관 관계를 염두에 두십시오 상관 관계는 매우 문맥상의 용어이며 한 가지 직업에 따라 다릅니다 다음 표는에 대한 상관 계수를 정의하는 데 사용할 수 있습니다 이 경우 서로 다른 유형의 데이터가 연속적이며 범주 형입니다

피어슨 상관 관계 : 사이의 선형 의존성을 측정하는 척도로 사용됩니다 두 개의 연속 변수 X와 Y는 값이 -1에서 +1까지 다양합니다 LDA : 선형 판별 분석을 사용하여 선형 조합을 찾습니다 변수의 두 개 이상의 클래스 또는 레벨을 특성화하거나 구분하는 특성 범주 형 ANOVA : 분산 분석을 의미하며 LDA와 유사합니다

단, 사실 하나 이상의 독립적 인 범주 형 기능과 연속적인 종속 형 기능을 통해 작동합니다 여러 그룹의 평균이 같은지 또는 다른 그룹의 평균이 동일한 지 여부에 대한 통계적 테스트를 제공합니다 아니요 Chi-square : 특성 그룹에 적용되는 통계 검정 그들 간의 상관 관계 또는 연관성을 평가하는 범주 형 그것의 빈도 분포를 사용한다 한 가지 명심해야 할 것은 필터 방법이 다중 공선 성을 제거하지 않는다는 것입니다 따라서 데이터 모델을 교육하기 전에 해당 모델을 다루어야합니다

Wrap methods 필터 메소드와 마찬가지로, 나는 당신을 보여줍니다 이 방법이 가장 잘 설명 된 그래프 : 보시다시피 랩 메서드에는 기계 학습 알고리즘이 필요합니다 성능을 평가 기준으로 사용합니다 이 메소드는 특성을 찾습니다 이는 알고리즘에 더 적합하며 성능을 향상시키는 데 목적이 있습니다

따라서 우리는 피처의 서브 세트를 사용하고 모델을 훈련 시키려고 노력합니다 그것들을 사용하여 이전 모델에서 추출한 추론을 기반으로 우리는 하위 집합의 기능을 추가하거나 제거하십시오 문제는 본질적으로 줄어 듭니다 검색 문제 이 방법은 일반적으로 계산 상 매우 비쌉니다 랩 메소드의 일반적인 예는 다음과 같습니다

앞으로 선택 : 그것은 우리가 시작하는 반복적 인 방법이다 모델에 기능이 없어도됩니다 우리는 새로운 변수의 추가가 개선되지 않을 때까지 모델을 가장 잘 향상시키는 함수 모델의 성능 뒤로 선택 : 모든 기능부터 시작합니다 각 반복에서 가장 중요하지 않은 기능을 제거하여 성능을 향상시킵니다

모델의 제거의 개선이 관찰되지 않을 때까지이 작업을 반복합니다 의 특징 재귀 특성 제거 (Recursive Feature Elimination) : 알고리즘입니다 더 나은 성능으로 기능의 하위 집합을 찾는 최적화의 반복적으로 생성 모델을 선택하고 각 반복에서 최상의 성능 또는 최악의 성능 기능을 제쳐 두십시오 모든 것이 다 소모 될 때까지 왼쪽의 특성을 가진 다음 모델을 만든다

특성은 그 제거 순서에 따라 특성을 분류합니다 통합 된 방법 (Integrated Methods) 필터 및 봉투 독자적인 메소드를 가지는 알고리즘에 의해 구현됩니다 내장 기능을 선택할 수 있습니다 이러한 방법의 가장 보편적 인 예는 LASSO 및 RIDGE 회귀 분석, overfitting을 줄이기위한 내장형 패널티 기능이 있습니다

이제 filter와 wrap 메서드의 차이점에 대해 이야기 해 봅시다 필터와 래핑 방법의 주요 차이점은 다음과 같습니다 특징은 다음과 같습니다 필터 방법은 기계 학습 모델을 통합하여 특성은 좋거나 나쁘다 포장 방법은 그것을 사용한다

그들은 그것이 필수적인지 아닌지를 결정하기 위해 그를 훈련시킨다 필터 메소드는 랩핑 메소드에 비해 훨씬 빠르며, 모델 교육을 포함하지 않기 때문입니다 한편, 래핑 방법 그것들은 계산적으로 값 비싸며 대량의 데이터 세트의 경우에는 줄 바꿈은 고려해야 할 가장 효과적인 기능 선택 방법이 아닙니다 필터 메소드는 다음 중 특성의 가장 좋은 하위 집합을 찾지 못할 수 있습니다 통계적 상관 관계를 모델링하기에 충분한 데이터가없는 경우 기능을 제공하지만 래핑 방법은 항상 그것의 철저한 성격 때문에 특징의 제일 하부 조직

기계의 최종 모델에서 포장 방법의 특성 사용 랩핑 메소드를 사용하면 학습이 과도하게 조정될 수 있습니다 기계로 특성을 가진 배우는 모형은 진짜 힘에 영향을 미치고 학습의 그러나 필터 방법의 특성으로 인해 대부분의 경우 과다 조절 이 비디오를 통해 필자는 기능 선택을 수행 할 수있는 좋은 아이디어를 얻었습니다 귀하의 모델을 최대한 활용하십시오

이들은 일반적으로 사용되는 광범위한 범주입니다 기능을 선택합니다 이를 통해 잠재적으로 모델을 향상시킬 수 있습니다 이것으로 우리는 비디오로 끝을 맺습니다 여기서 설명하는 것이 무엇인지 분명히하고 싶습니다

if 질문이 있으시면 의견에 남겨두고 기꺼이 답변 해 드리겠습니다 블로그를 통해이 주제에 관한 더 많은 정보를 얻을 수 있습니다 링크 설명 상자에 남겨 둡니다 만나서 반갑습니다 다음 동영상 차오