JUPYTER NOTEBOOK PYTHON MACHINE LEARNING CURSO MULTILINEAR REGRESSION 2019

좋은 아침, 함께 일합시다, 목성 공책, 함께 일합시다 다중 선형 회귀, 첫 번째는 여기에 데이터 로딩을로드한다는 것입니다 훈련 테스트 분할 훈련, 우리는 모델을로드 여기에 데이터를로드합니다

여기에 데이터로 구성된 키가 보입니다 목적 함수 란 무엇입니까? 함수 이름은 기능입니다 설명하고 샘플 파일은이 데이터와 같습니다 여기에서 우리가 제공하는 모양을 봅니다 여기 치수는 506과 13입니다 여기에 506 개의 행과 13 개의 열이 있습니다

이것이 CRIM이 ZN이라는 의미입니다 우리는 무엇을 공부할 것입니까? RM 이것은 각 집의 평균 방입니다 AGE는 소유자가 점유 한 유닛의 비율입니다 1940 년 이전에는 DIS의 거리였습니다 보스턴에 5 곳의 고용 센터가 있으며, 우리는 매우 잘 협력 할 것입니다 그 세 우리는 자이언트 팬더를로드 한 numpy에서로드하고 여기에서 볼 수있는 데이터 프레임으로 변환합니다 데이터 프레임을 살펴 보겠습니다 여기를 두 번 클릭하여 확장합니다

하지만 여기에 열이 있고 여기에 줄이 있습니다 더블 클릭 그것을 압축, 나는이 열을 참조 그런 다음 CRIM의 함수 이름에 대해 이미 이야기했습니다 ZN은 이 RM, AGE 및 DIS에 관심이 있습니다 이것부터 이름까지 파티의 데이터 프레임이 이미 여기 있다면 열을 사용하면 이제 기능의 대상입니다 목표는 가격 하우스가 될 것입니다 그리고이 각각의 가치 집의 가격이 이러한 특징을 고려한다는 의미 모든 좋은 이제 기능에 대한 비용을 지불 할 수 있도록 이름을 변경하겠습니다 마지막 열의 대상 열 마지막 열에는 이미 가격이 있습니다

여기 우리는 가격 이름을 바꾸었고 여기에 기능입니다 그런 다음이 기능을 사용하여 예측하십시오 집의 가치 예를 들어 첫 번째 열한 줄을보고 싶다면 여기에 head 명령을 입력하고 숫자 11을 입력합니다 여기에서 첫 번째 열 한 개를 알려줍니다 시작된 것을 기억하십시오 제로 이제 훈련과 테스트의 두 부분으로 나눈 다음 훈련하고 여기서 테스트는 여기에 데이터와 목표는 데이터가 이러한 기능을 가지고 실제 목표는 가격과 관련이 있습니다

아주 좋아요, 모양을보고 분리를 부분으로 만듭니다 훈련 및 시험의 다른 부분은 375 훈련과 127이 있습니다 테스트를 위해 총 데이터가 제공되었습니다 훈련은 약 75 %, 나머지 25 %는 이 경우 선형 함수의 선형 회귀를 정의합니다 지금 우리는 좋은 일을하고 있습니다 모델의 경우 이제 매우 잘 계산됩니다 성공의 73 %는 능선에서 작업하는 것과 같습니다

73 % 이 데이터에 대한 선형 함수이기 때문에 근사값은 아닙니다 대단하다 여기에 첫 번째 열의 좋은 예가 있고 0을 넣습니다 첫 번째 열을 보여줬습니다 이것은 첫 번째 줄이 아니며 첫 번째 열은 나입니다 첫 번째 열을 보여주는 것은 매우 좋습니다 이제이 경우에는 처음 두 열이 있고 처음 두 열이 있습니다 우리가 보자 처음 두 열을 보여주고 모든 행을 알려줍니다

이제 여기에 첫 번째 5 줄과 5 줄인 5 열이 있습니다 처음 다섯 줄과 다섯 번째, 여섯 번째 및 일곱 번째 열은 그가 항상 하나에 간다는 것을 주목합니다 여기를보기 전에 RM, AGE, DIS 열에 관심이 있습니다 우리는 각각의 라인을 설명했습니다 처음 5 줄부터 0-4까지 매우 훌륭합니다

이제 5, 6, 7 열과 모든 ROWS를 선택했습니다 여기에 우리가 모델을하는 대상을 배치합니다 그리고 데이터 세트, 좋은 훈련 및 훈련 여기서 우리는 선형 회귀를 수행합니다 여기서는 세 개의 열 RM, AGE, DIS 만 사용합니다 이전 기사에서는 모든 열의 모든 열에 대해 작업했습니다 가격 이외에 목표는, 여기 계수와 교차 통지 계수는 85 값입니다 -0

097,-043과 교차점은 무엇입니까 축 -23 우리는 정확하게 여기를보고 예측에주의를 기울입니다 이것은이 암호의 54 %이며, 내가 어디에 있는지 아는 명령입니다 리눅스에서 여기에 매우 중요한 다중 회귀 방정식이 있습니다 그런 다음 찾은 값을 살펴보십시오 a, b1, b2 및 b3 여기에 방정식이 있습니다

여기에 a의 값이 있습니다 b1 값, b2 값, b3 값, 그리고 예측 라인 0에서, 이것을 말하자, 그들이 라인의 의미에주의를 기울이십시오 0은 3 개의 값을가집니다 그런 다음 세 개의 값을 사용하여 값을 나타냅니다 제로 라인은 rm = 6,575 665입니다 나이 = 65

2 및 dis 409, 우리가 대체 할 세 가지 값 다변량 선형 방정식,이 세 가지 값을 대체하여 나의 예측 인 Express는이 3 가지를 대체합니다 값-처음 2308, 859 값 x1은 6575 감소 0 포인트, 우리는 모든 소수점을 넣습니다 두 번째 연령 값은 652이며 그런 다음 DIS의 값, 즉 x3에 대한 모든 값은 -0

43입니다 409는 값 25를 제공합니다 이제 값은 실제로 테스트 값입니다 30

1 이것이이 방법이이 다중 선형 방정식에 적합하지 않은 이유입니다 대단히 감사합니다

K Vecinos más Cercanos – Práctica | #41 Curso Machine Learning con Python

여러분 안녕하세요, 채널의 새로운 비디오에 오신 것을 환영합니다 오늘 우리는 실용적인 부분을 보게 될 것입니다 가장 가까운 K 이웃 알고리즘 중 주어진 데이터에 따른 유방암

그러나 프로그램을 시작하기 전에 빨간 버튼으로 채널을 구독하도록 초대합니다 아래에있는 동영상을 놓치지 마세요 또한 이론에 관한 이전 비디오를 보지 못한 경우 권장합니다 Scikit Learn 라이브러리를 사용하여이 알고리즘을 구현하는 방법을 잠시 멈추십시오 이 비디오와 당신은 그들이 설명 할 내용을 이해하기위한 기초이기 때문에 그들을 보러갑니다 이것에서 이 비디오의 링크는 설명 상자에 있습니다

이제이 비디오부터 시작하겠습니다 이 프로젝트에서는 유방암 데이터 세트를 계속 사용하거나 scikit 학습 라이브러리에서 사용 가능한 BreastCancer 이것은 회귀 알고리즘의 실제 부분에 사용하는 것과 동일한 데이터 집합입니다 여기에서 물류는 데이터를 가져 와서 해당 데이터의 전처리를 수행합니다 이러한 이유로 우리는 K 이웃 알고리즘을 구현하는 방법에만 초점을 맞출 것입니다 더 가까이

이 경우 해당 컨텐츠에 게시 된 정보를 볼 것을 권장합니다 이 프로젝트의 첫 번째 부분을 수행하는 방법에 대해 더 알고 싶습니다 이 시점에서 이미 데이터와 데이터에 해당하는“X”데이터를 분리했습니다 목표에 해당하는 "and"의 결과로, 훈련에서 데이터를 분리해야합니다 이것을 테스트하기 위해 우리는 sklearn에서 모듈 train_test_split을 가져 와서 적용합니다 각 분리를 수행합니다 이것으로 모델 개발을 시작할 준비가되었습니다 이런 이유로 우리는 수입 “skelarn

neighbors”에있는 알고리즘은 KNeighborsClassifier를 가져옵니다 이 작업이 완료되면 알고리즘을 정의하고 여기에서 구성하면 "k" 이웃의 수가 5와 같으면 메트릭은 "minkowski"이고 "p"는 이 두 요소의 조합은 알고리즘을 나타냅니다 유클리드 거리를 사용하여 이웃 사이의 거리를 확인합니다 이것은 위에서 설명했다 이것들을 보면 알고리즘이 구성된 기본 데이터입니다 원하는 경우이 구성을 삭제하고 괄호를 비워 둘 수는 있지만 나중에 모델을 개선하기 위해 변경하고 조정할 수 있습니다

알고리즘이 정의되면 이제 훈련 데이터를 사용하여 모델을 훈련시킵니다 그리고 테스트 데이터를 사용하여 예측합니다 계산 된 데이터와 실제 데이터를 비교하면 대부분은 일치하지만 일부는 일치하지 않지만 대부분 일치하면 언뜻보기에 모델이 잘 개발되었다고 판단 할 수 있습니다 그러나 이것이 사실인지 확인하고 혼동 행렬을 계산합시다 sklearn 메트릭의 confusion_matrix 메소드를 예측 데이터와 함께 구현합니다

실제 데이터 보시다시피, 정확하게 예측 된 데이터는 거의 없었습니다 주 대각선에있는 데이터는 정확하게 예측 된 데이터임을 기억하십시오 보조 대각선에는 오류가 있습니다 이 요소들을 추가하면 109 개의 정확한 데이터와 5 개의 잘못된 데이터 만 얻었습니다 이제 모델의 정밀도를 보도록하겠습니다

이를 위해 메트릭에서 "precision_score"를 가져옵니다 예측 및 실제 데이터와 함께 구현합니다 이 계산의 결과는 097이며 이는 상당히 수용 가능한 값입니다 이것으로 우리는이 알고리즘으로 다음과 같은 결과를 얻을 수있다

이 데이터 세트 당신이 그것을 개선하고 얻을 수 있는지 확인하려면 그것은 당신에게 달려 있습니다 더 정확한 것을 위해, 알고리즘 구성 데이터를 수정할 수 있습니다 이것으로 우리는이 분석으로 결론을 맺습니다 의견이나 의견을 남겨 주시면 기꺼이 답변 해 드리겠습니다 전체 프로그램은 웹 사이트에서 찾을 수 있습니다

같은 방식으로 블로그를 둘러 보도록 권유합니다 머신 러닝에 대한 더 많은 정보를 찾을 수 있습니다 시청 해 주셔서 감사합니다 다음 비디오에서 see겠습니다 안녕

Métodos de Selección de Características | #18 Curso Machine Learning con Python

안녕하세요 채널의 새로운 비디오에 오신 것을 환영합니다

이 비디오에서 나는 당신과 이야기 할 것입니다 특성 선택 방법 그러나 설명을 시작하기 전에 귀하의 채널을 구독하도록 초대합니다 빨간색 버튼이있어 동영상을 놓치지 마십시오 우리가 시작하면 지금

우리는 모두 데이터 세트를 보았으며 때로는 작아 질 수 있습니다 다른 사람들은 엄청나게 크기가 크며, 특히 숫자가 큰 경우 특성을 처리하여 처리하기가 매우 어렵습니다 이러한 유형의 고차원 데이터 세트를 사용하는 경우 Machine Learning 모델을 만들면 다음과 같은 결과를 초래할 수 있습니다 추가 기능은 기계 모델에 대한 잡음 역할을합니다 학습은 극도로 낮은 성과를 낼 수 있습니다

모델은 훈련하는 데 더 많은 시간이 걸립니다 이들에 대한 비현실적인 자원의 할당 특징들 이 모든 경우에, 특성의 선택은 기계의 프로젝트에서 구현되어야합니다 학습 특성 선택은 가장 중요하고 관련성이 높은 것을 선택하는 과정입니다 성능 향상을 목적으로하는 데이터 세트의 특성 예측 자 예측,보다 빠르고 수익성있는 예측 자 제공 데이터를 생성 한 기본 프로세스에 대해 더 잘 이해할 수 있습니다 다음으로, 우리는 당신을 모델은 더 효율적이고 효과적으로 작동합니다 필터 메소드 다음 이미지는 메소드 필터를 기반으로 특성을 선택하는 방법 : 필터 방법은 일반적으로 데이터 전처리 단계로 사용되며, 기능 선택은 기계 학습 알고리즘과 독립적입니다

특성은 결정하려는 통계적 점수에 따라 분류됩니다 결과 변수와 특성의 상관 관계를 염두에 두십시오 상관 관계는 매우 문맥상의 용어이며 한 가지 직업에 따라 다릅니다 다음 표는에 대한 상관 계수를 정의하는 데 사용할 수 있습니다 이 경우 서로 다른 유형의 데이터가 연속적이며 범주 형입니다

피어슨 상관 관계 : 사이의 선형 의존성을 측정하는 척도로 사용됩니다 두 개의 연속 변수 X와 Y는 값이 -1에서 +1까지 다양합니다 LDA : 선형 판별 분석을 사용하여 선형 조합을 찾습니다 변수의 두 개 이상의 클래스 또는 레벨을 특성화하거나 구분하는 특성 범주 형 ANOVA : 분산 분석을 의미하며 LDA와 유사합니다

단, 사실 하나 이상의 독립적 인 범주 형 기능과 연속적인 종속 형 기능을 통해 작동합니다 여러 그룹의 평균이 같은지 또는 다른 그룹의 평균이 동일한 지 여부에 대한 통계적 테스트를 제공합니다 아니요 Chi-square : 특성 그룹에 적용되는 통계 검정 그들 간의 상관 관계 또는 연관성을 평가하는 범주 형 그것의 빈도 분포를 사용한다 한 가지 명심해야 할 것은 필터 방법이 다중 공선 성을 제거하지 않는다는 것입니다 따라서 데이터 모델을 교육하기 전에 해당 모델을 다루어야합니다

Wrap methods 필터 메소드와 마찬가지로, 나는 당신을 보여줍니다 이 방법이 가장 잘 설명 된 그래프 : 보시다시피 랩 메서드에는 기계 학습 알고리즘이 필요합니다 성능을 평가 기준으로 사용합니다 이 메소드는 특성을 찾습니다 이는 알고리즘에 더 적합하며 성능을 향상시키는 데 목적이 있습니다

따라서 우리는 피처의 서브 세트를 사용하고 모델을 훈련 시키려고 노력합니다 그것들을 사용하여 이전 모델에서 추출한 추론을 기반으로 우리는 하위 집합의 기능을 추가하거나 제거하십시오 문제는 본질적으로 줄어 듭니다 검색 문제 이 방법은 일반적으로 계산 상 매우 비쌉니다 랩 메소드의 일반적인 예는 다음과 같습니다

앞으로 선택 : 그것은 우리가 시작하는 반복적 인 방법이다 모델에 기능이 없어도됩니다 우리는 새로운 변수의 추가가 개선되지 않을 때까지 모델을 가장 잘 향상시키는 함수 모델의 성능 뒤로 선택 : 모든 기능부터 시작합니다 각 반복에서 가장 중요하지 않은 기능을 제거하여 성능을 향상시킵니다

모델의 제거의 개선이 관찰되지 않을 때까지이 작업을 반복합니다 의 특징 재귀 특성 제거 (Recursive Feature Elimination) : 알고리즘입니다 더 나은 성능으로 기능의 하위 집합을 찾는 최적화의 반복적으로 생성 모델을 선택하고 각 반복에서 최상의 성능 또는 최악의 성능 기능을 제쳐 두십시오 모든 것이 다 소모 될 때까지 왼쪽의 특성을 가진 다음 모델을 만든다

특성은 그 제거 순서에 따라 특성을 분류합니다 통합 된 방법 (Integrated Methods) 필터 및 봉투 독자적인 메소드를 가지는 알고리즘에 의해 구현됩니다 내장 기능을 선택할 수 있습니다 이러한 방법의 가장 보편적 인 예는 LASSO 및 RIDGE 회귀 분석, overfitting을 줄이기위한 내장형 패널티 기능이 있습니다

이제 filter와 wrap 메서드의 차이점에 대해 이야기 해 봅시다 필터와 래핑 방법의 주요 차이점은 다음과 같습니다 특징은 다음과 같습니다 필터 방법은 기계 학습 모델을 통합하여 특성은 좋거나 나쁘다 포장 방법은 그것을 사용한다

그들은 그것이 필수적인지 아닌지를 결정하기 위해 그를 훈련시킨다 필터 메소드는 랩핑 메소드에 비해 훨씬 빠르며, 모델 교육을 포함하지 않기 때문입니다 한편, 래핑 방법 그것들은 계산적으로 값 비싸며 대량의 데이터 세트의 경우에는 줄 바꿈은 고려해야 할 가장 효과적인 기능 선택 방법이 아닙니다 필터 메소드는 다음 중 특성의 가장 좋은 하위 집합을 찾지 못할 수 있습니다 통계적 상관 관계를 모델링하기에 충분한 데이터가없는 경우 기능을 제공하지만 래핑 방법은 항상 그것의 철저한 성격 때문에 특징의 제일 하부 조직

기계의 최종 모델에서 포장 방법의 특성 사용 랩핑 메소드를 사용하면 학습이 과도하게 조정될 수 있습니다 기계로 특성을 가진 배우는 모형은 진짜 힘에 영향을 미치고 학습의 그러나 필터 방법의 특성으로 인해 대부분의 경우 과다 조절 이 비디오를 통해 필자는 기능 선택을 수행 할 수있는 좋은 아이디어를 얻었습니다 귀하의 모델을 최대한 활용하십시오

이들은 일반적으로 사용되는 광범위한 범주입니다 기능을 선택합니다 이를 통해 잠재적으로 모델을 향상시킬 수 있습니다 이것으로 우리는 비디오로 끝을 맺습니다 여기서 설명하는 것이 무엇인지 분명히하고 싶습니다

if 질문이 있으시면 의견에 남겨두고 기꺼이 답변 해 드리겠습니다 블로그를 통해이 주제에 관한 더 많은 정보를 얻을 수 있습니다 링크 설명 상자에 남겨 둡니다 만나서 반갑습니다 다음 동영상 차오