Decision Tree Machine Learning | Decision Tree Python | Intellipaat

안녕하세요, Intellipaat에 오신 것을 환영합니다 오늘 세션에서 우리는 배울 것입니다 의사 결정 트리에 대해

우선, 왜 관심을 가져야하는지 알려 드리겠습니다 의사 결정 트리에 대해 학습합니다 의사 결정 트리는 개략적이고 지리적입니다 의사 결정 기반 문제의 가능한 모든 솔루션에 대한 표현 그것 현명한 결정을 내리는 데 사용됩니다 데이터 분야에서 매우 중요 할뿐만 아니라 과학이지만 기계 학습 분야에서도 매우 중요합니다

예측 분석에 사용됩니다 따라서이 중 하나에 관심이 있다면 필드가 끝날 때까지 계속 지켜봐야합니다 비디오 이제 진행하기 전에 Intellipaat의 YouTube를 구독하십시오 다가오는 비디오를 놓치지 않도록 채널을 만드십시오 그래서 먼저 우리는 의사 결정 트리가 무엇인지 배우고 실제 예를 들어 의사 결정 트리를 작성하는 방법을 배우겠습니다

인증 된 데이터 과학에 관심이 있다면 전문가라면 Intellipaat에서 제공하는 데이터 과학 과정을 확인하십시오 당신 설명 상자에서 아래 과정 링크를 찾을 수 있습니다 이제 더 이상 지연, 시작합시다 의사 결정 트리는 기본적으로 기술 또는 데이터입니다 의사 결정에 도움이되는 우리가 구축 한 구조 그래서 여기에 모든 내부 노드는 속성에 대한 테스트 조건을 나타냅니다

리프 노드는 데이터가 분류되는 범주입니다 그럼 보자 이것을 더 잘 이해하기위한 예 그래서 당신이 당신의 관리자라고 가정 해 봅시다 통신 회사와 당신은 어떤 요인이 무엇인지 이해하고 싶어 고객이 이탈하도록합니다 따라서 의사 결정 트리를 구축하기로 결정했습니다 이제이 의사 결정 트리 일련의 테스트 조건을 제공합니다

여기 루트 노드 성별, 즉 첫 번째 조건은 성별 열에 의해 결정됩니다 그래서 고객이 남성입니다 그런 다음 우리는 그의 지속 시간을 더 결정할 것입니다 보유 반면에 고객이 여성 인 경우 다음 테스트 조건 월 청구액을 기준으로합니다

고객이 남성이라고 가정 해 봅시다 그때 우리는 그의 임기를 확인하고 그의 임기가 30 개월 미만이면, 그는 휘젓다가 다시 재직 기간이 30 개월을 넘으면 같은 회사에, 그리고 이것은 최종 예측입니다 의사 결정 트리에서 제공합니다 마찬가지로 여성 고객을 확보하면 월 청구 금액을 확인해야합니다 따라서 월 청구액이 더 큰 경우 80 달러 이상이면 이탈하고 월 청구액이 80 달러 미만이면 그녀는 같은 회사를 고수 할 것입니다 그래서 우리는 다음에 대한 일련의 대안을 탐색하고 있습니다

특정 결정 지점에 도달하십시오 이제 결정이 무엇인지 이해 했으므로 트리에서 의사 결정 트리의 유형을 살펴 보겠습니다 따라서 의사 결정 트리는 분류 트리 또는 회귀 트리 분류 트리는 반응 또는 목표 변수는 본질적으로 범주 형이며 회귀 트리는 반응 변수가 수치 적으로 낮거나 연속적 일 때 사용됩니다 자하자 데이터 세트 A가 있고 그 안에 n 개의 레코드가 있다고 가정하십시오

이제 내가 할 일은 이 데이터 세트에서 샘플을 추출합니다 실제로 이것은 바꿔 놓음 즉, 데이터 세트 A에서 하나의 레코드를 가져 와서 기록하고 데이터 세트 A1에서 동일한 샘플을 찾은 다음 원래 위치로 레코드를 다시 넣습니다 에서 이 프로세스를 n 번 반복하여 데이터 세트에 n 개의 레코드가 있습니다

A1도 따라서 명심해야 할 것은 A1의 레코드 중 일부는 두 번, 세 번 또는 여러 번 올 수 있습니다 A의 일부 레코드는 A1에 전혀 기록하지 않았을 수 있습니다 그래서 나는 이렇게 A1을 만들었습니다 그런 다음 계속해서 여러 데이터 집합을 만듭니다

같은 방식으로 저는 A1, A2, A3까지 Ax까지 있고 각각은 A와 같은 수의 레코드입니다 여기있는 X는 무엇이든 가능합니다 의 말을하자 100, 500 또는 심지어 1000까지도 가능합니다 따라서 하나의 데이터 집합 A만으로 우리의 이점을 위해 여러 데이터 세트

데이터 세트 A를 가정 해 봅시다 1000 개의 행이 있고 x의 값도 1000입니다 따라서 1000에 1000을 곱한 값입니다 백만 행, 즉 1000 행에서 데이터를 통해 백만 개의 행을 얻을 수있었습니다 이제 우리가 할 일은이 X 각각에 대해 데이터 세트, 각각 하나의 의사 결정 트리에 맞을 것이므로 X 의사 결정 트리가옵니다 X 데이터 세트에서

이제 나무 그룹이 생겼습니다 다시 말해 우리가 여기있는 것은 나무의 앙상블입니다 이제 새로운 것을 말합시다 리가 사라졌다 그런 다음이 레코드를 각각에 전달합니다 이 X 나무들과 우리는이 클래스들이 어떤 나무인지 예측할 것입니다 새로운 기록이 나타납니다 우리는 X 나무를 가지고 있기 때문에 X를 얻을 것입니다 예측, 즉 X가 500이라고 가정하면 500 개의 예측을 얻게됩니다

마찬가지로 X가 1000이면 1000 개의 예측값을 얻게됩니다 이제 최종을 얻으려면 예측, 우리가해야 할 일은 대부분을 가질 클래스를 선택하는 것입니다 개별 나무에서 모든 예측에 걸쳐 숲의 그래서 우리가 여기서 실제로하고있는 일은 모든 예측을 집계하는 것입니다 이 나무들 여러분, 이것이 배깅의 개념입니다

간단한 정보들 : 만약 당신이 인증 된 데이터 과학 전문가가되는 데 관심이있는 경우 Intellipaat에서 제공하는 데이터 과학 과정 아래 설명 상자에서 코스 링크를 찾을 수 있습니다 이제 계속합시다 세션과 함께 따라서 우리는 동일한 예제를 사용하여 포장하고 차이가옵니다 다시, 데이터 세트 A가 있고 n 개의 레코드가 있습니다

그것 이제 내가 할 일은이 데이터 세트에서 샘플을 그리는 것입니다 그래서 이건 실제로는 대체품으로 샘플링 할 것입니다 데이터 세트 A의 레코드를 기록하고 데이터 세트 A1에 동일한 샘플을 입력 한 후 레코드를 원래 위치로 되돌려 놓으면이 과정을 반복하겠습니다 데이터 세트 A1에도 n 개의 레코드가 있도록 n 번

그래서 필요한 것 명심해야 할 것은 A1의 n 개 레코드 중 일부는 두 번, 세 번 또는 여러 번 올 수 있지만 A의 일부 레코드는 그렇지 않을 수 있습니다 전혀 A1에 만들었습니다 그래서 저는 이와 같이 A1을 만들었습니다 계속해서 같은 방식으로 여러 데이터 세트를 생성하십시오 A와 같은 수의 레코드와 여기의 x는 무엇이든 될 수 있습니다

100, 500 또는 심지어 1000까지도 가능합니다 따라서 하나의 데이터 집합 A만으로 우리를 위해 여러 개의 datset을 만들 수 있습니다 우리를 위해서만 데이터 세트 A에 1000 개의 행이 있고 x의 값도 1000이라고 가정하겠습니다 따라서 1000에 1000을 곱하면 백만이됩니다 행 즉, 단 1000 행의 데이터에서 1 백만 행을 얻을 수있었습니다

지금까지 프로세스는 배깅과 동일합니다 이것이 차이점입니다 온다 이제 우리가 할 일은 각각의 X 데이터 세트에 대해 하나의 결정에 맞을 것입니다 의사 결정 트리를 작성하는 프로세스가 여기에서 변경됩니다 자, 이 A1 데이터 세트에 10 개의 독립 변수가 있다고 가정하십시오

이제 자루에 넣을 때 이 10 개의 독립 변수를 모두 분할에 대한 선택으로 간주 후보이지만 임의 포리스트에서 발생하는 일은 노드가있을 때마다 의사 결정 트리에서 분할하면 열 10 개가 모두 제공되지는 않습니다 연산 이 사람이 퇴각하는 것이 중요합니다 그래서 매번 노드가 의사 결정 트리에서 분할되고 있으며 10 개의 열이 모두 제공되지는 않습니다 랜덤 포레스트 알고리즘

이제 질문이 생겨서 어떻게 될까요? 알고리즘에 사용할 수 있습니까? 따라서이 10 개의 열 중 임의의 하위 집합 만 알고리즘에 사용할 수 있습니다 이 루트 노드를 분할하고 싶다고 가정하겠습니다 지금 10 개의 열을 모두 제공하는 대신이 열의 하위 집합 만 제공 제공됩니다 3 개의 열을 말하고 10 개 중 하나 일 수 있습니다 이 3을 사용하면 알고리즘이 노드를 분할합니다

마찬가지로 여기 왼쪽 노드에 다시 3의 임의의 세트가 제공됩니다 변수 왼쪽 노드가 동일한 3을 가져야 할 필요는 없습니다 변수 모두 3 개의 열 집합이 될 수 있습니다 우리가있을 때마다 노드를 분할하면 전체에서 임의의 'm'예측 변수가 제공됩니다

예측 자의 공간과 이것이 수행되는 이유는 각각의 X 트리를 만드는 것입니다 매우 다릅니다 이제 bagging과 Random Forest를 비교해 봅시다 따라서 자루에 넣을 때 모든 나무에는 사용 가능한 전체 예측 공간이있었습니다 결국 건물을 짓게 될 나무는 매우 비슷할 것입니다 서로에게, 그리고 랜덤 숲의 경우, 우리는 제공된 열과 관련하여, 즉 임의의 열 집합 만 전체 예측 공간에서 제공되므로 결정이 내려집니다

당신이 얻을 나무는 서로 상당히 다를 것입니다 지금 후 이 단계는 포장과 비교할 때 거의 동일합니다 그래서, 새로운 기록 Ri 나는 떠난다 그런 다음이 레코드를 각각에 전달합니다 이 x 나무와 우리는 그의 클래스에 대한 각 나무의 예측을 얻을 것입니다 새로운 기록이 나타납니다

x 개의 나무가 있으므로 x를 얻게됩니다 예측 최종 예측을 얻으려면 우리가해야 할 일은 선택입니다 대부분의 투표권을 가진 클래스 ——- 개별 나무의 모든 예측 자 여러분, 이것이 랜덤의 개념입니다 숲 오늘은 실제로 세 가지 다른 패키지를 사용하여 결정 트리 우리는 나무를 사용하고 자동차 부품을 사용하며 또한 파티 패키지에서 ______ 수하물 ctree 기능 사용 그래서, 우리는 의사 결정 트리 모델을 구현하는 세 가지 다른 기능을 배웁니다

그래서 먼저이 ISLR 패키지 라이브러리를로드하여 시작하겠습니다 자, 이것 패키지에는 기본적으로이 카시트 데이터가 있습니다 따라서 데이터를 말해야합니다 카시트 이 데이터를로드해야합니다 이제하자 이것에 대해 살펴보십시오

이것은 기본적으로 판매가있는 첫 번째 데이터 세트입니다 다른 차의 이제 도움을 요청하고 이에 대한 설명을 보여 드리겠습니다 이것은 어린 이용 카시트 판매를 포함하는 시뮬레이션 된 데이터 셋입니다 400 개의 서로 다른 상점이 있으며 이들은 서로 다른 열입니다

판매는 단위 판매입니다 각 위치에서 경쟁 업체가 각 위치에서 청구하는 가격을 지역 사회 광고 예산, 인구 및 자동차 좌석에 대한 크기, 가격 회사 요금 및 나머지는 열 우리가 할 일은 먼저 분류부터 시작하겠습니다 어제 세션에서 여러분에게 말했듯이 의사 결정 트리는 두 가지 모두에 사용될 수 있습니다 분류 및 회귀 목적 이 데이터 세트에서 기본적으로 무언가를 분류하려고합니다 첫 번째 작업은이 판매를하는 것입니다 열을 나누고 실제로 이것을 범주 열로 변환하십시오

따라서 판매 가치가 8 이하인 경우에는 다음과 같이 태그를 지정합니다 낮은 마찬가지로 값이 8보다 큰 곳에서는 그 값을 높게 표시합니다 그것은 우리의 첫 번째 작업이 될 것이며, 분류 작업이기 때문에 범주 열이 필요합니다 그렇게하겠습니다

이 ifelse 함수를 사용하겠습니다 우리가하는 일은 카시트에서이 판매 칼럼을 가져 오는 것입니다 데이터 세트이며 값이 8보다 작은 경우에는 아니오라고 말할 것입니다 그래서 기본적으로 자동차 판매량이 많지 않고 8 대 이상인 곳에서는 예 계속해서이 새로운 변수를 만들어 봅시다 그래서 나는 실제로 이것을 작은 C로 먼저 변환하십시오

이 데이터 세트를 가져 와서 새 객체에 저장합니다 대문자 C 이것은 작은 C입니다 여기에서 판매 열을 가져오고 값이 작은 곳 8보다 크면 새 것으로 태그를 지정하고 값이 8보다 큰 경우 예라고 태그를 붙입니다 그 결과를 높은 물체에 넣겠습니다 이제 새 데이터를 만들겠습니다 이 어린 이용 카시트 데이터 세트의 모든 열로 구성된 프레임 이 새 오브젝트를 추가하면 카시트에 다시 저장합니다

그래서보기 여기, 우리는이 새로운 열을 추가 한 것을 볼 수 있습니다 그것은 그렇습니다 그리고 그렇습니다 따라서 '예'는 기본적으로 판매 가치가 8보다 크고 값이 없으면 판매 값이 이제 8과 같거나 작습니다 이제 우리는 데이터 셋을 가지고 있습니다 모델을 빌드하십시오

실제로 트리 기능부터 시작하겠습니다 쓰다 트리 기능을 사용하려면 트리 패키지가 필요합니다 이것을로드하겠습니다 (이미 높은 열 또는 _____) 아니요 새 열을 만들고 있습니다 기둥

실제로 원래 데이터 세트를 보여 드리겠습니다 어린 이용 카시트보기 : So 이것은 높은 열로 구성되지 않은 원래 데이터 프레임입니다 그래서 내가하고있는 일은, 나는이 판매 칼럼을 가져 가고 있으며 어디에서나 값이 8 이하인 경우 아니요로 태그를 지정합니다 8보다 크면 예로 태그를 지정합니다 그 결과 나는 그것을에 저장합니다 새 개체와 해당 개체의 이름을 높게 지정하십시오

이것이 기본적으로 우리의 새로운 것입니다 기둥 새 열을 카시트 데이터 프레임에 추가합니다 원본 데이터 프레임 결과를 카시트에 다시 저장하겠습니다 할 수 있는 이것을 따라? 네

여기에 데이터 세트가 있습니다 이제 시간이야 모델을 빌드합니다 당신이에 관심이 있다면 그냥 빠른 정보 사람 인증 된 데이터 감각 전문가 및 데이터 과학 과정 확인 intellibid에서 제공하는 아래 설명 상자에서 코스 링크를 찾을 수 있습니다 이제 세션을 계속 진행하고 사용할 모델을 빌드하겠습니다 트리 패키지이므로 이제 트리 라이브러리는이 트리 함수를 사용하고 결과가 높은지 아닌지, 다시 말해서 판매 가치가 다른 모든 열을 기준으로 높거나 높지 않으므로 다른 열과 관련하여 알고 싶은 경우 여기에 여기에 점을 대어 종속 변수가 높고 독립적입니다

변수는 나머지 열입니다-판매는이 높은 열이기 때문에 판매 열에서 바로 생성되었으므로 모든 열을 사용하겠습니다 씰을 제거하여 판매 열을 두 번 제외하고는 독립 변수와 다시 데이터 세트를 분할하지 않습니다 이제이 전체 데이터 셋 위에이 모델을 직접 구축하고 있습니다 이제 데이터는 카시트와 동일하게됩니다 이것은 나무 점 자동차 좌석의 요약이며 이것은 다른 것에 대해 알려줍니다

독립 변수와 우리가 가진 터미널 노드의 수와 오 분류 오류율은 이제 실제로 진행해 보도록하겠습니다 이 나무 점 자동차 좌석의 줄거리 이제 우리는 계속해서 텍스트를 추가 할 것입니다 이 텍스트와 우리는 당신이 만든 것과 동일한 모델을 전달할 것입니다 제로와 같습니다 이걸 제로로 제거하면 기본적으로이 범주 열은 Dixon이 알았어 이제 이걸 먼저 빼자 내가 이것을 플롯 할 때 당신은 이제 알파벳 수준의 범주 레벨을 얻습니다

이름과 관련하여 범주 열을 원한다면 케빈은 0과 꽤 같아서 여기서이 부분을 삭제하겠습니다 여기에 실제 범주 형 열이 표시되므로 이제 실제로 이걸보고 무슨 일이 일어나고 있는지 이해해서 첫 번째 스플릿 포인트는 선반 위치 열을 기준으로합니다 이것은 열이며 여기에서 첫 번째 분할을 결정합니다 값이 나쁘거나 중간 인 경우 왼쪽의 왼쪽으로 이동합니다 다른 한편으로 가치가 좋다면 우린 오른쪽으로갑니다 다시 오른쪽으로 갑시다

가격이 작은 지 확인하겠습니다 135 가격이 135보다 작 으면 다시 왼쪽으로갑니다 가격이 백보다 작은 지 확인하고 가격이 백보다 작은 지 확인하십시오 9시 판매 가치가 높을 것입니다 마찬가지로 이것은 여기에서도 같은 일을하므로 이것이 우리가 방금 구축 한 의사 결정 트리 지금은 전체 데이터를 기반으로 구축 한 모델입니다 우리가 할 일은이 데이터를 기차와 자산으로 나누고 열차 세트 위에 모델링하고 테스트 위에 값을 예측 다시 설정하면 동일한 패키지 CA 도구를 사용하게됩니다 샘플 도트 스플릿 기능 이것을로드 할 것이므로 먼저 시드 값을 설정하겠습니다 여러분도 같은 값을 얻도록 시드 값을 101로 설정하겠습니다 여기에서 샘플 도트 스플릿 기능과 스플릿 기준을 열 및 분할 비율은 0

65이며 기본적으로 65 %의 레코드가 훈련 세트 및 35 % 기록이 시험에 들어갑니다 그리고이 n split 태그를 훔쳤습니다 이제 부분 집합 함수를 사용하고 전체 카시트 데이터 세트에서 서브 세트 기능의 도움 split 태그 값이 참이면 어디든지 trainset에 저장합니다 분할 태그 값이 거짓이면이 전체 카시트 데이터 세트에서 테스트 세트에 저장하여 교육 및 테스트 세트를 준비하십시오 계속해서 훈련 세트 위에 모델을 구축하겠습니다 트리 함수를 사용하고 다시 수식은 여기에서 동일합니다 종속 변수이며 영업 항목을 제외한 다른 모든 항목은 독립 변수와 우리는 기차 위에이 모델을 구축하고 있습니다 이 시간을 설정 보니 내가 방금 잃어버린 태그는 2와 같고 여기에서 오는 것이 좋습니다

그래서 샘플 도트가 나옵니다 함수는 먼저 두 개의 매개 변수를 취합니다 기본적으로 열에 있습니다 두 부분으로 나누고 싶고 종속 변수가 높기를 원하기 때문에 우리는 이것을 분할 기준으로 취하고 분할 비율은 기본적으로 분할 비율은 기본적으로 true 또는 false 값을 제공하므로 65 %의 관측치에는 실제 레이블이 있고 나머지 35 % 관측치에는 잘못된 라벨과 분할 태그에 저장했습니다 이제 이것을 인쇄하겠습니다

태그를 분할하여 여기에 여러 개의 참과 거짓 값이 있습니다 그래서 내가 할 수있는 참과 거짓 값의 무리에서 스플릿 태그 값이 참인 모든 카시트 데이터 세트 이 기록들 중 하나를 차 전체와 비슷하게 열차에 보관하십시오 split 태그 값이 false 인 곳마다 좌석 데이터 세트 첫 번째 기록을 위해 여기에 테스트를 설정하고 우리가 할 때 그 부분을 이해합니다 이 분할 비율과 태그를 저장 및 분할하면 true 또는 false로 지정됩니다 65 %의 비율로 예, 기본적으로 부서는 6535입니다 Saqqara 5 % 신은 진실의 35 %가 잘못을 가지고 이것을 사용할 것입니다 여기 모두 사실이므로 모든 사람이 따라갈 수 있습니다

이 오른쪽 그는 분할 태그를 만들었고 이제는 하위 집합 기능을 사용하고 전체 카시트 데이터 세트에서 분할 태그가 사실임 전체 카시트 데이터 세트에서 분할 태그와 유사하게 기차에 저장합니다 거짓으로 테스트에 저장하여 교육 및 테스트 준비를 마쳤습니다 훈련 세트에 모델을 구축 할 시간이므로 기능 존중은 트리 함수를 사용하고 종속 변수가 높고 독립적입니다 변수는 봉인 열을 제외한 모든 것을 취할 것입니다 컬럼은 기본적으로 판매 컬럼에서이 높은 컬럼을 만들었습니다

열차 세트 위에이 모델을 구축하고 있으며이 모델을 저장합니다 나무 점 자동차 좌석에서 나는 지금 내가 입력하자 이 줄거리를 한눈에 볼 수 있도록 이번에는 다시 플롯을 만들겠습니다 분할 기준이 결정된 첫 번째 분할 기준이 결정됨 가격이 90보다 작 으면 가격이 90보다 크면 오른쪽으로 이동하여 기본적으로 여기에있는 전체 결정 트리이므로 이제 모델도 계속 진행하여 값을 예측하고 예측 함수를 사용할 값으로 첫 번째 매개 변수는 모델이므로 두 번째 매개 변수를 만든 것은 테스트 세트입니다 테스트 세트 상단의 값과 세 번째 매개 변수는 예측은 예측 유형이 클래스이므로 기본적으로 직접 여기에 결과가 있으므로 클래스는 기본적으로 예 또는 아니오이며 다시 우리는 이 결과 트리 도트 빵을 바로 저장하여 이제 값들을 혼동 행렬을 만들 것입니다 실제 값은이 테스트 달러 높이에서 가져 오므로 실제 값은 값과 이것들은 3 개의 점이있는 예측 된 값입니다

빵은 우리에게 혼란 매트릭스를 제공 하므로이 값은 기본적으로 그 중에서 알려진 모든 실제 값은 68 그것들은 정확하게 그리고 이것은 우리가 알려진 실제 값 또는 그중 15 개를 예라고 잘못 분류하고이 18 개는 기본적으로 실제로 예인 값은 아니요로 잘못 분류하고 이 39 개는 실제로 그렇습니다 예로 분류 했으므로 기본적으로이 왼쪽 대각선은 올바르게 분류 된 관측치 및이 오른쪽 대각선은 모든 잘못 분류 된 관찰과 정확성을 얻기 위해 이것을 왼쪽으로 나눕니다 모든 관측치에 대해 대각선 인증 된 데이터에 관심이 있다면 간단한 정보를 얻을 수 있습니다 감각적 인 전문가가 제공하는 데이터 과학 과정을 확인하십시오 intellibid 아래 설명 상자에서 코스 링크를 찾을 수 있습니다

세션을 계속 진행하여 68 + 39를 68 + 39 + 15로 나눕니다 플러스 18 그리고 이것은 우리에게 76 %의 정확도를 제공합니다 어제 수업에서 나무가 완전히 자란 것을 알게되었습니다 여기에서 우리가 할 일은 계속해서이 나무를 잘라 내고 가지 치기 후 모델의 정확도에 어떤 차이가 있는지 확인 좋아요, 그 테이블을 위해 우리는 조금해야 할 것입니다 교차 검증의 첫 번째 어제 또한 우리는 보았거나 핵심 폴드 크로스 CV 도트 트리는이를 위해 정확하게 사용되므로 CV의 도움 도트 트리 기능 우리는 교차 검증과 스테이크를 둘로 할 수 있습니다 우리가 만든 모델로 매개 변수를 먼저 지정하고 다음으로 너무 정리하는 함수입니다 닷 미스 클래스는 기본적으로 우리가이 교차 검증을하고 있다고 말합니다 나무를 가지 치기의 목적이며 이것은 기본적으로 내장 함수입니다

백그라운드에서 전체 작업을 수행하고이를 CV 도트 카시트에 저장합니다 이제 CV 도트 카시트를 바로 인쇄하겠습니다 이것이 기본적으로 하나의 루트 노드로 시작하여 트리의 크기를 그래서 하나 둘 셋 증가하고 마지막으로 우리는 나무가 총 24 개의 터미널 노드이며 이는 MIS 분류 비율입니다 여기에 기본적으로 하나의 노드 만 있으면 resub 상황 오류와 같은 최대 값이며이 터미널 노드가 모두있을 때 완전히 자란 나무이므로이 자란 나무는 최소한의 경감 또는 다시 말해, 분류로 최소값을 가지며 이는 비용입니다 서로 다른 레벨의 각 노드와 관련이 있습니다 교차 검증을 통해 CV 도트 카시트 플롯을 그릴 수 있습니다

기본적으로 나무의 크기로 보는 것을 여기에서 확대 해 봅시다 오 분류 율이 증가 할 때까지 오 분류 율을 증가시킵니다 처음에는 2 개 또는 3 개의 노드와 같은 위치에서 다시 증가합니다 매우 높은 미스 분류로 인해 노드 수를 읽을 때 15 세에서 16 세 사이에 우리는 최소 오 분류 율을 보였습니다 우리가 계속 헤어질 때 실제로 미스 증가 이상적인 노드 수로 알 수있는 분류 15 개 정도 쯤 되니까 기본적으로 나무를 가지 치기합니다 그래서 우리가이 포스트 정리 전이나 복잡성을 야기하는 가지 치기 때문에 우리는 이것이 올바른 생각이 아닌 완전히 자란 나무라는 것을 알았습니다 실제로이 값을 인쇄 해 보도록하겠습니다

16시 16 분에이 미스 분류가 다시 증가했습니다 내가 할 일은 여기에 16이 될 노드 수를 가진 모델을 만들 것입니다 이 값을 16으로 설정하겠습니다 이번에는 함수를 작성하겠습니다 프룬 도트 미스 절을 사용하고 있으므로이 프룬 도트 엉망 클래스는 가장 좋은 값으로 트리를 정리하거나 최대 수의 노드 수만큼 Rob 16 살이되고 그 결과를 저장해 두겠습니다 나는 자두 점 자동차 좌석의 홍수를 줄입니다

이제 우리에게 텍스트를 추가 할 것입니다 맞습니다 그래서 이것은 12 34 5678 9 10 11 12 13 14 15 16을 갖습니다 완전히 자란 나무이지만 그 후에 우리는 약간의 교차 검증을 한 다음 완전히 자란 나무는 좋은 생각이 아니라는 것을 알았습니다 완전히 자란 나무는 우리에게주지 않으므로 특정 지점 후에 오 분류 율은 기본적으로 증가하므로 완전히 자란 나무와 우리는 16의 레벨이 있다는 것을 이해했습니다 여기서 노드 분할을 중지해야하므로 이제 우리가 할 것은이 자두로 값을 다시 예측할 것입니다

나무는 계속 진행하겠습니다 다시 한 번 저는 오페라 기능을 다시 사용할 것입니다 테스트 세트 옆에있는이 가지 치기 된 트리로 먼저 매개 변수를 설정 한 다음 우리는 내가 입력 할 클래스 인 유형을 가지고 있습니다 우리가 이번에 얻는 정확도가 무엇인지 봅시다 68 더하기 40을 68 더하기 40 더하기 70 더하기 15 더하기 15 앞에서 보았 듯이 초기 정확도는 76 %였습니다

여기에 초기 값을 인쇄하여 68 + 39로 나옵니다 68 더하기 39 더하기 18 더하기 15 더하기 그러나 그 후에 우리는 계속해서 나무를 잘라 내고 예측했습니다 나무를 가지 치기 후 다시 77의 정확도를 얻습니다 68 + 40을 68 + 40 + 17 + 15로 나눈 비율입니다 77 %의 정확도를 가지므로 모든 사람이 우리가 어떻게했는지 이해할 수 있습니다 가지 치기를하고 가지 치기 후 어떻게 더 나은 정확도를 얻었습니까 여기에 질문이 있으시다면 카레 자리 값은 기본적으로 이제 기본적으로이 모델을 만들 때 모두 다를 수 있습니다 내가 얻는 것과 같은 값을 원한다면 스키를 타십시오

시드 값 또는 동일한 결과 바로 다른 토끼 토끼 실제로 나는에 대해 분명했다 무들은 실제로 씨앗을 볼 때마다 당신이 줄 것입니다 희망과 같은 동일한 데이터가 어떻게 진행되는지 알 수 있습니다 봉인 개념을 이해하면 아무것도 볼 수 없습니다 씨앗을 설정 한 다음 임의의 값을 지정하여 올바르게 할 수 있습니다 이것 후에 무엇이든 보자 샘플을 생성하고 지금 당장 당신은 3 3 3을보고 당신은 얻을 것이다 심지어 샘플 기능을 사용 같은 값을 가지고 있거나 다시 샘플링하면 도트 시드를 사용하고 사용할 것입니다

three three three three three 및 샘플 10 쉼표 2를 설정하십시오 기본적으로 동일한 결과를 원한다면 상기 도트 시드를 사용해야합니다 그것은 지금도 거의 매번 쪼개고 있어요 gingerreadslainey 내가 원한다면 내가 원하는 것처럼 no no no no no no 내가 사용할 때마다 지금이 결과를 다른 사람에게 보여주기 위해 샘플 함수 이것은 매번 다른 결과를 줄 것입니다 이 샘플을 다른 사람에게 보여주기 위해 샘플을 원한다고 말하십시오 쉼표 2로 매번 같은 결과를 얻을 수 있습니다

시드 값을 설정하면 시드 값이 매번 동일한 결과를 제공합니다 그래서 시드를 설정하면 임의의 값 1을 제공하고 샘플 10 쉼표 2 I 3 쉼표 4를 다시 얻습니다 시드 값을 1로 설정하고 샘플 10 쉼표 2를 얻습니다 동일한 결과이므로 10 개의 쉼표 2 I의 한 샘플의 시드가 아님 기본적으로 동일한 결과를 원할 때 동일한 결과를 얻습니다 이 세트 닷 시드 이제 다른 것은 없습니다 그런 다음 교체 램프 교체 샘플을 뿌립니다

샘플링은 값을 대체하므로 반복하지 않아도됩니다 같은 결과를 원한다면 당신은 도트 씨를 말했다 그래, 그래서 우리가 여기에 대체하는 것은 없다 우리가 이런 종류의 분류를 올바르게 할 때와 언제 우리는 정확도를 의미하는 테스트를하고 있습니다 내 테스트 데이터를 기반으로 얻을 수 있습니까? 난 그냥 점수를하고 싶어 지금이 분류와 함께 할 수 있습니다 무엇을 기준으로 점수를 매겼는지 우리가 무엇을했는지 확인하십시오 맞습니다 그리고 당신은 8보다 작습니다 8보다 작습니다

판매 종류 예측에서 점수를 매기고 싶은 것은 없습니다 내 매출을 어떻게 예측할 수 있을까 결정 그 판매 가치를 예 예측할 수 있습니다 그래서 당신이 말하는 것은 기본적으로 회귀 또는이 의사 결정 트리의 도움을 받아 우리가 지금까지 할 수있는 것은 사랑의 모범 이니까 우리가 함께 할 예제는 부품 패키지이므로 실제로 의사 결정의 도움으로 지속적인 가치를 알고 예측 결정 트리에 대한 트리는 분류 목적에 모두 사용됩니다 회귀 목적뿐만 아니라 둘 다 할 수 있습니다 이 데이터 세트에 대한이 예는 분류를 올바르게 수행하므로 약간 가지 치기를하고 우리는이 결과를 여기에 얻었습니다 우리는 이것을 다시 인쇄하고 실제로 다른 것으로 잘라냅니다 이 노드 유효성 검사를 통해 붙여 넣을 수 있도록 노드 수 여기에 바로 여기에 우리는 노드의 수를 가져 16이 아니라 16이 되겠습니다

노드를 9로 설정하면 노드 수가 9 바로이 노드에서 9 개의 노드로이 트리를 가지 치기 때문에 다시 설정하면됩니다 이 최고의 값은 9와 같으므로 다시 정리할 것입니다 다음에 빌드하는 모델은 기본적으로 닷 미스 클래스 기능 당신이 원하는 노드의 수를 정한 후 1 2 3 4 5 6 7 8과 9가 있으며 이번에는 다시 분할이 가격이 90 포인트 5 미만인 경우 기본적으로 안녕하세요 예와 같습니다 이제 모델입니다 계속 진행하여 값을 예측하겠습니다

다시 한 번이 작업을 수행해야합니다 다시 한 번 예측 함수를 사용하여 그냥 당신 위에 지어진 이것은 정리 된 모델이며 우리는 예측하려고합니다 테스트 세트와 타입의 값은 class와 같으며 계속해서 혼동 행렬을 작성하여 이번에 정확도가 무엇인지 살펴 봅시다 68 plus 37 68 더하기 37 더하기 20 더하기 15 그래서 이번에는 정확도 75가 우리가 할 때처럼 세 개를 잘라 내야 할 분할 또는 이상적인 수준 16 개의 노드가 다시 있으므로이 교차 검증이 매우 중요합니다 우리는이 결과를 통해 9와 16이 16이 다시 이상적이라는 것을 알 수 있습니다 우리는이 많은 CV 도트 카시트의 플롯을 만들 때도 같은 것을 보았습니다

여기에서 우리는 이것이 우리의 이상적인 가치라는 것을 알았습니다 그래서 이것은 점프가있는 곳입니다 여기까지 오 분류 율이 감소 할 때까지 16에서 노드 수를 진행 한 후부터 우리는 오 분류 율 증가분을 계속 나누고 있습니다 스위스의 이상적인 가치입니다 기본적으로 우리가 어떻게 건설 할 수 있을까요? 트리 패키지의 도움으로 의사 결정 트리 파티 패키지가 포함 된 의사 결정 트리 의사 결정 트리를 작성하여 계속 진행하고이 패키지를로드하십시오

다들이 패키지를 빨리 확인 해주세요 자 이제 이것을 위해 우리는 홍채 데이터 셋을 사용할 것입니다 바이러스에 대한 홍채 데이터 셋보기이므로 이번에는 3 가지 분류가 있습니다 우리는 종이 setosa virginica인지 또는 versicolor 그래서 아이리스 수준의 달러 종 그래서 우리는 세가 이 강의를 통해 이번에는 의사 결정 트리를 구축 할 것입니다 데이터 세트가 setosa 또는 c 색상에 속하는지 또는 virginica 오른쪽 그래 그래 우리가 가지고 그렇게하자 이번에는 파티 패키지를로드 했으므로 지금까지 CA 도구를 사용했습니다 패키지 및 CA 도구 패키지 K는 샘플 도트 분할 기능으로 샘플 도트 분할 우리는 또한 데이터 파티션 생성 패키지를 가지고 있습니다

기본적으로 도트 분할을 샘플링 할 수 있으므로 데이터 파티션 생성은 일부입니다 당근 패키지 및 샘플 도트 분할은 CA Toles 패키지의 일부이므로 지금이 당근 ​​패키지를로드하겠습니다이 데이터 생성 파티션을 사용하겠습니다 데이터를 생성하는 샘플 도트 분할 대신에 거의 동일합니다 분할 및 분할 열 종 및 분할 비율은 65이므로이 목록은 일반적으로 샘플링되거나 분할되면 false와 같습니다 벡터이지만 이것은 실제로 벡터 대신리스트를 제공하므로리스트라고합니다 false와 같으며 분할 태그에 저장하고 다시 거의 동일합니다

이제 샘플 도트 분할의 사실은 우리에게 참 또는 거짓 값을 주었지만 데이터 파티션 생성은 레코드 번호를 제공하므로 이것을 인쇄하겠습니다 여기에 태그를 분할하면 여기에 레코드 번호가 표시됩니다 여기에있는 분할 태그에서 학습하고 테스트해야합니다 기본적으로 이것을 데이터 세트 내부의 매개 변수로 전달하므로 우리가하는 일 이 홍채 데이터 세트 에서이 행 번호를 모두 선택합니다 이 행 번호는 홍채 데이터 세트의 65 %로 구성됩니다

split 태그가 65를 포함하도록 Train Set에 저장하십시오 행 번호의 %는 65 %와 다릅니다 빼기 기호를 넣었으므로 기본적으로 모든 레코드입니다-65 % 분할 압정에 존재하는 행 번호 중 기본적으로 60은 기본적으로 35 %이므로 35 %의 레코드가 테스트 세트에 들어갑니다 이것이 배수구와 테스트 세트를 만드는 방법입니다 이것을 반복하여 기본적으로 샘플링 또는 분할과 유사합니다

데이터 세트를 올바르게 분할하는 다른 방법으로 이번에는 참조 트리가 있습니다 PA RT y 패키지의 일부로 모델을 빌드 할 함수 기차 세트 위에 우리는 어떤 종류의 종을 이해하고 싶습니다 꽃은이 4 개의 란에 대하여입니다 길이와 꽃잎 너비가 여기에 점을 넣은 이유는 결과와 내 나무를 저장하면 이제 여기에 이것을 그려 보도록하겠습니다 이것이 3과 C 3의 차이입니다 이번에는 처음입니다 분할 기준은 꽃잎 길이 열을 기준으로하므로 꽃잎이 길이가 1

7보다 작거나 같으면 꽃을 세토 사로 분류하여 이것을 보면 거의 1에 가까운 확률이 있습니다 확률이 1에 가까우므로 꽃잎 길이가 17보다 작거나 같은 경우 반면에 꽃잎 길이가 길면 세토 사로 분류합니다 17보다 크면 다음 분할 기준은 꽃잎 너비이며 꽃잎 인 경우 너비가 0001보다 작으므로 꽃잎 너비 인 경우 1

7보다 작거나 같습니다 다시 꽃잎 길이를 확인하겠습니다 이번에는 꽃잎 길이가 짧으면 48보다 크거나 같으면 꽃잎이 낫다면 낫 오류 일 것입니다 길이가 48보다 큽니다 60 %의 확률로 호주 색상이고 40 %의 확률 반면에 꽃잎 길이가 다른 경우 버지니아 일 확률 이 경우 17보다 크고 꽃잎 너비가 1

7보다 큽니다 그리고 버지니 카입니다 여기에서 우리는 멀티 V를하고 있습니다 분류하고 우리는 여기서 하나와 세 가지를 혼동하려고합니다 하나의 상자 1과 상자 아래에 동일한 4 개의 값을 분할합니다

세 쓰기 스크립트는 0보다 작은 점을 가지고 있습니다 1 포인트 7 이상에서 1 포인트 미만으로 분할되는 것을 알고 있습니다 7 번은 상자 3에서도 같은 일이 일어나고 있습니다 이 p- 값에 대해 여기이 값을 가져 와서 꽃잎 길이는 이것이 꽃잎 길이의 값입니다 이것은 꽃잎의 값입니다

제가 오른쪽에있는 다른 질문을하겠습니다 당신은 오른쪽으로 이동합니다 오른쪽을 향해 나갑니다 그래, 그럼 우리는 어떻게 상자를 쫓을 수 있을까 3 분할 다시 맞아 맞아이 P 값을 잊어 버리면 혼란 스러우므로이 P 값을 잊어 버리십시오 먼저 꽃잎 길이를 기준으로 분할하므로 꽃잎 길이가 1 점 7 이하인 경우 거의 100 % 반면에 꽃잎 길이가 1 포인트 7보다 큰 경우 우리는 setosa 꽃잎 너비를 확인하겠습니다 꽃잎 길이가 아니므로 꽃잎 너비입니다

이번에 꽃잎 너비가 1 포인트 7보다 작 으면 꽃잎을 확인하겠습니다 꽃잎 길이가 4 포인트 8보다 작거나 같으면 우리는 거의 100이 될 수 있습니다 손이 48보다 크면 약 60 %의 확률로 C 컬러였으며 처녀성 일 가능성이 약 40 %입니다 반면에 꽃잎 길이가 17보다 크고 꽃잎 너비가 17보다 크면 다시이 꽃을 거의 100 % 확신 할 수 있습니다 또는 Jenica에 속해 있으므로 다중 클래스 분류로 여기에서 수행 한 작업 우리가 꽃이 세토 사에 속하는지 이해하려고 노력하는 곳 Wasi 색상 또는 virginica와이 모델의 도움으로 만든이 모델 여기에 C 트리 기능이 있으므로 부유 한 모델을 갖게되었습니다

이번에는 값을 예측하므로 다시 예측 기능을 사용하지만 이제 이전의 경우 우리는 type이 class와 같다고 말 했으므로 이번에는 c3입니다 유형 값의 예측 값을 함수 응답 속도가 이 함수들 사이의 누드 차이와 같은 것입니다 트리 함수를 사용했고 값을 정확히 예측했습니다 트리 함수를 사용할 때 클래스로 설정 한 예측 유형과 C를 사용할 때 트리 함수를 통해 여기에있는 유형의 값을 예측합니다 응답하지만 다시 매개 변수는 거의 동일합니다 다음에 구축 한 모델은 구축 할 테스트 세트입니다

다음 모델은 예측 유형이므로 여기에서 예측 유형은 명명법이 바뀌 었다고 말하는 클래스와 거의 동일한 응답 C 트리 기능에 관해서는 여기에 내 빵에 저장합니다 값도 예측 했으니 이제 혼란을 만들어 봅시다 행렬이므로 실제 값이 정확하게 설정되어있는 값입니다 세토 사로 분류되었으므로 두 경우입니다 실제로 그것은 세 두사 였지만 그는 색으로 분류되어 있습니다 실제 색상은 장미 빛이며 4c로 올바르게 분류되었습니다 색상 이것은 실제 색상과 같으며 잘못되었습니다 Jenica로 분류 된이 경우는 virginica로 실제였으며 4c 색상으로 잘못 분류 된 경우 virginica 그리고 Jenica에 대해서도 올바르게 분류되었습니다

왼쪽 대각선은 올바르게 분류 된 값이며 따라서 2 1 & 2로 쉬십시오 잘못 분류 된 값이므로 계속해서 정확도를 찾으면 이번에는 15 더하기 16 더하기 15가됩니다 15 더하기 16 더하기 15 더하기 2 더하기 1 더하기 2 더하기 우리가 줄거리에서 본 것이 매우 좋은 90 %의 정확도는 꽃잎 너비와 꽃잎 길이만으로 분할이 결정되었으므로 꽃잎 길이 꽃잎의 폭이 넓기 때문에 분할을 결정하는 유일한 열입니다 이들은 꽃이 속하는지 여부를 결정하는 유일한 열입니다 setosa 4c 색상 또는 virginica 그래서 우리는 무엇을 할 것인가 꽃잎 너비와 꽃잎 길이 만 독립 변수는 다른 변수를 포함하는 요점이 무엇입니까 그들이 당신이 분할 기준의 힘조차 알지 못한다면 앞서 다른 모델을 다시 빌드하십시오 이번에는 공식을 C 3 종속 변수 종과 독립 변수는 꽃잎 너비 꽃잎 길이 만이 둘이므로 우리는 sepal length와 sepal width를 갖지 않습니다 이번에는 기차 세트 위에이 모델을 구축하고 있습니다 이제 계속하겠습니다

먼저 이것을 삭제하겠습니다 이제 이것의 플롯을 만들겠습니다 그렇기 때문에 이것은 꽤 지글 지글합니다 예 그렇습니다 의사 결정 트리에서 두 가지만 얻는다는 것을 알아야합니다

사용하고 다른 열을 사용하지 않았 으므로이 방법이 무엇입니까? 모델에 있어야 할 차원의 수를 줄입니다 변수가 10 개 있고 단서가 생기면 사용해야 할 것 이 특정 모델에서 다른 것을 요구하지 않는다고 말하면서 변수를 모델링에 사용할 필요가 없습니다 올바른 방법입니다-예 supernat 의사 결정 트리에 온다 당신이 할 수있는 일이지만 다시이 시행 착오입니다 그래서 그래도 다시 볼 필요가 있습니다 모델과 관련하여 작동하는 것은 여기에서 우리는 sepal width라는 단서를 얻었습니다

sepal length는 split 프로세스의 일부가 아니기 때문에 이것을 사용하지 않고 모델을 빌드하십시오-기본적으로 가져옵니다 리던던시 (redundancy)는 리던던시 (redundancy)를 원하지 않으므로 모델로 이동해 봅시다 그리고 출력이 무엇인지 확인하십시오 Cruz는 기본적으로 데이터를 제한하거나 우리가 이것을 실제로 사용할 수 있도록 독립 변수의 수 예 예, 그래 맞습니다 두 번째와 우리는 여기에 비슷한 음모가 있음을 알 수 있습니다 실제로 비슷하지는 않지만 거의 같은 속도이므로 꽃잎 길이가 짧습니다

17보다 우리는 다시 setosa를 얻습니다 17보다 크면 버지니 카가됩니다 우리가 다시 예측할 수 있도록 여기에 같은 결과를 얻습니다 방금 구축 한 모델의 값을 사용하여 예측 함수는 작성한 모델이 첫 번째 매개 변수가됩니다

나무-그리고 우리는 테스트 세트와 응답으로 입력하면 빵에 저장하겠습니다 이제 다시 진행하겠습니다 먼저 내 혼란스런 매트릭스를 다음 테스트 세트는 예측 값입니다 이 빵 개체보다 더 많이 저장하고 Enter 키를 누르면 다시 볼 수 있습니다 여기서 비슷한 결과를 다시 얻습니다

정확도 15 + 15를 확인하겠습니다 더하기 16을 15 더하기 15 더하기 15 더하기 16 더하기 2 더하기 1 더하기 2 더하기 이 음모를 통해 동일한 정확도로 분리 길이를 알 수 있습니다 sepal width는 모델에 정보를 제공하지 않았을 때 우리는 그 두 열을 제거하고 모델을 다시 부드럽게 만듭니다 모델을 다시 빌드하면 다음과 같은 정확도를 얻을 수 있습니다 모든 독립 변수를 포함하여 이것이 당신이하는 방식입니다

기본적으로 시행 착오에 이것은 당신이 가장 잘 맞는 것을 찾으려고 노력하는 방법입니다 모델은 나무로 완성되었으므로 이제 C 나무로 완성되었습니다 우리의 최종 결정 트리 기능을 위해 이 Arpad 패키지를 설치하기 전에 그래, 우리가 분류를 할 때 우리가 아닌 것을 정상적으로 알고 있는지 우리는 내가 말한 것처럼 마지막 세션에서 의미 우리가 할 때 동의하는 상황에서 분류가 필요합니다 문제는 특정 왼쪽에만 의존하는 것이 아니라 화살표 위의 곡선 아래이 영역은 예에 해당합니다 다시 실행하려면 필요한 국가 하나를 수행해야합니다 분류 문제 당신은이 모든 것을 처리해야 할 것입니다 분류 문제가 무엇이든간에 요인 분류 특이성 사이에 올바른 균형이 필요합니다

민감한 당신은 민감성을 알고 있습니다 이러한 모든 요소가 이제 우리가 ROC 어떤 특정 포인트 5 포인트 7 우리는 그 값을 사용해야합니다 독자를 두는 것과 같은 결론은 다시 반복 할 수 있습니다 포인트 7 포인트 7 주장 ROC 값이 임계 값이라고 가정 이 점과 같은 결론 매트릭스에서 사용해야하는 05 점 또는 이와 같습니다 표는 인쇄 기준보다 크거나 Zenga보다 크지 않으므로 우리는 그것을 좋아했습니다 GLM을 사용할 때 당신이 이것을 사용할 때 반면에 당신에게 확률을주는 기능 트리 함수와 트리 함수를 참조하십시오

우리가 직접 수업을 주겠다고 예측했을 때 이 함수 자체는 임계 값을 받아 해당 임계 값의 기초로 데이터를 클래스로 나누거나 두 클래스의 데이터를 예측하므로 여기서는 설정할 필요가 없습니다 수동으로 직접 임계 값을 설정하므로 GLM에서 물류를 수행해야했습니다 회귀 함수는 우리에게 예측할 확률을주었습니다 유형은 소품과 같습니다 강 중 하나에 대한 우리의 아이디어를 다시 사용하는 방법을 다시 보여줄 수 있습니까? 이 권한에 ROC를 사용하는 지점이므로 이에 대한 임계 값이 필요하지 않습니다 내가 좋아하는 것은이 두 가지의 예상 결과를 보여줄 것입니다

그래서 우리는 괜찮아이 모델을 다시 약을 먹일 것이다 이것을 복사해서 여기에 붙여 드리겠습니다 잠깐만 기다려라 그러면이 전체를 다시로드해야합니다 이 값들을 인쇄해서 트리 도트를 읽도록하겠습니다 값은 실제로 당신이 예 / 아니오를 얻는 최종 결과입니다 여기에는 확률이 없으므로 0과 같은 확률을 얻지 못합니다 이것이 그렇다는 80 % 확률이 있거나 나머지 20 % 확률이 이것은 아니므 로이 기능 자체는 적절한 평균을 취하거나 임계 값과 최종 분류 결과를 제공하므로 이 최종 분류 결과를 가져 와서 원본과 비교하십시오

결과와 모듈 자체가 얼마나 정확한지 알아보십시오 이 트리 C 트리와 Arpad 함수까지 최적의 임계 값을 제공합니다 자체적으로 최적의 임계 값을 제공하므로 해당 임계 값을 수동으로 설정하십시오 당신은 우리가 당신 사이의 절충을 원한다는 것을 이해해야 각 하위 ROC는 다시 정확한 정확도에 대한 임계 값을 제공합니다 이 임계 값에서 잘라 내면 최대 정확도이지만 다시이 기능 자체가 수행하므로 수동으로해야하는데 임계 값을 수동으로 설정하지 않아도됩니다 임계 값을 수동으로 설정하지 않으면 이 모든 것을 알고있는 AUC 기능을 사용하십시오 참을성없이 옳지 않다

그리고 두 번째 것은 두 번째 질문이다 멀티 클래스이기 때문에 같은 방식으로 사용할 수 있습니다 파티 패키지를 사용할 때의 분류는 리 팩키지 azamati 클래스 예, 당신은이 세 가지 모두로 그렇게 할 수 있습니다 할 수있는 기능이지만 시작하기 위해 LM 모델을 사용할 수 있습니다 아니, 그건 불가능 해 난 그렇게 생각한다 로지스틱 회귀가있는 다중 클래스 분류이므로 확인해야합니다 우리가 다른 GA를 다른 함수로 사용한 것처럼 G가 네가 직접 사용할 수있는 것이므로 세는 부분이며 C 3은 할 수 있습니다

멀티 클래스 분류에 직접 사용하므로 다시 LM 당신이 이것을 이해하기 위해 필요한 것은 이항 모델이며 이 확산 트리 모델은 둘 다에 사용됩니다 그들이 회귀와 분류에 사용되는 목적은 예, 우리는 나무로 끝났습니다 우리는 C 나무로 끝났습니다 우리와 함께 우리의 부분은 회귀를 할 것이므로 이번에는 Boston 데이터 세트를 가지고 있으므로 대량 패키지를 먼저로드해야합니다 화성의 도서관을 열면 Boston 데이터 셋을로드해야합니다

보스톤의 데이터입니다 여기이 데이터 세트가 표시됩니다 이 열이 의미하는 바는이 보스턴 데이터 프레임이 6 개로 정리 된 것입니다 행과 열 14 개와 모두 다릅니다 CR이있는 콜린스는 기본적으로 1 인당 범죄를 나타냅니다 마을 Zeldin에 의해 속도는 음모에 대한 곧 주거 용지의 비율입니다 25,000 평방 피트이며 이것은 비 소매 비즈니스 에코의 비율입니다 이 목록을 통해 갈 수있는 다른 열입니다 초점은이 ma DV 열에있을 것이므로이 ME DV는 천 달러의 소유자가 점유 한 주택으로 기본적으로 우리는 예측하려고합니다

이 집의 가치는이 집의 가치는 $ 24,000입니다 $ 21,000이고 $ 24,000과 같으므로 다른 열을 기준으로 이 중앙값을 예측하는 데 도움이되는 회귀 모델을 작성 Arpad 기능을 사용하여 첫 번째 작업을 다시 수행하겠습니다 Arpad 패키지를 다시로드해야합니다이 데이터 생성 파티션을 사용하고 있습니다 당근 패키지의 일부인 함수이므로 이번에는 분할 열이 이 MATV와 비율은 0

65이므로 65 %는 훈련에, 35 %는 먼지가 적을수록 시퀀스가 ​​떨어 지므로 다시 태그를 나누십시오 이 보스턴 데이터에서 우리가 할 일은 분할 태그 나는 그것들을 훈련 세트와 분할 태그에는 35 %의 나머지 값을 저장하지 않습니다 테스트 세트를 준비하여 교육 및 테스트 세트를 준비했습니다 이번에는 훈련 세트 위에 모델을 만들 것입니다 우리가 사용하는 기능은 우리의 부분이며 다시 동일하므로 공식에서 데이터를 얻었으므로 공식 sme DV 물결표가 나와 TV 종속 변수와 다른 모든 열은 독립적이므로 MeV는 종속적이고 모든 열은 독립 변수이며 우리는 Spree를 플롯하기 위해 지금 설정된 기차 위에이 모델을 빌드하십시오

Part dot plot 패키지에 필요할 것입니다 패키지를 만든 다음 방금 트리를 시각화해야합니다 불완전한 도트 플롯을 만들었고 내 나무 인이 오브젝트를 전달할 것입니다 좋습니다 이것은 이것에서 얻을 수있는 일종의 시각화입니다

여기에서 첫 번째 분할 기준은 L 시작을 기준으로합니다 L 시작이 9 포인트 7 이상이면 왼쪽으로갑니다 ll의 다른쪽에 9 포인트 7 미만으로 시작하면 우리는 계속 오른쪽으로 이동해서 먼저 다른 오른쪽으로 이동하겠습니다 우리가 오른쪽으로 가면 9 포인트 7 미만이라고 가정 해 봅시다 RMS가 7 포인트 5 미만이므로 7 포인트 5에 다시 남아 있으면 왼쪽 7 점 5보다 크면 오른쪽으로옵니다 스플릿이 발생하는 방식이며이 값이 어제 집값의 평균값은 어제 플레이어의 월급을 예측하려고 할 때의 첫 번째 예 의사 결정 트리를 사용할 때 플레이어의 평균 급여를 알려주십시오

연속 값을 예측하는 모델은 평균 값을 제공하므로 분할은 이런 식으로 진행되며 평균 가격은 9입니다 천 달러와 같은 평균 가격이 그 집은 만오 천이고이 과정을 따른다면 평균은 집의 가격은 마흔 오천 달러이므로 이것이 당신의 것입니다 여기 스플릿이 작동하는 방식입니다 이제 모델을 만들었습니다 이번에는 예측을 사용할 것입니다 우리는 세 번째 매개 변수를주지 않을 것이므로 이번에는 연속 값이므로 유형을 설정할 필요가 없으므로 자동으로 연속적인 값이므로 먼저 빌드 할 때 모델 이름을 지정합니다 Maya 트리이고 예측하려는 데이터 세트가 제공됩니다

값을 테스트 세트의 상단에서 예측하려고합니다 결과 예측 트리는 이제 실제 값과 예측 된 값을 찾습니다 C 포도 함수를 사용하여 실제 값이 테스트 세트에 있고 예측 된 값은이 개체에 있으며이 둘과 최종 데이터에 저장합니다 이것은 실제로 행렬이므로 이것을 최종 데이터의 저장 데이터 프레임으로 먼저 DITA 프레임으로 변환 최종 데이터로 다시 저장하므로 최종 데이터를 볼 수 있습니다 가치와 이것들은 우리가 지금 가지고있는 예측 된 가치입니다 계속해서 예측 오류를 찾아서 오류를 예측은 다시 실제 값에서 예측 된 값을 뺍니다

그리고 우리는 예측에서 오류를 얻습니다 그렇게 해봅시다 그것은 매우 간단합니다 당신이해야 할 모든 최종 리더 달러 실제-최종 날짜 예측하고 오류를 저장하고 다시 오류를 바인딩합니다 최종 데이터는 이제 최종 데이터에 대한이 관점을 한눈에 볼 수있게합니다

값은 예측 된 값이며 이것은 예측의 오류이므로 다시 원한다면 우리가해야 할 평균 오차를 찾으려면 약간의 두께가 있습니다 제곱 평균 제곱 오류입니다 계속해서 제곱 평균 제곱 오류를 알아 봅시다 먼저이 오류를 처리하고이 값을 제곱 한 다음 그리고 제곱근을 취하겠습니다 첫 번째 모델의 경우 3 점 9 3의 근 평균 제곱 오류가 발생합니다 이제 이것을 mac1ana에 저장하겠습니다

이 이미지를 가져 오겠습니다 L start NO x CR I am 및 RM 만 사용되었습니다 우리가 가지고있는 독립 변수는 분할에 사용 된 열은 이 독립 변수 만 사용하므로 모든 변수를 사용하지는 않습니다 독립 변수이므로 ML 시작을 여기서 다시 시작하겠습니다 X도 알고 있으므로 P도 끝났습니다 두 번째 모델도 마찬가지입니다

우리는하지만 에밀리와 같은 공식은 종속 변수이고 이번에는 독립 변수가 ML 별 CRI가되고 X와 D는 기차 세트 위에이 모델을 구축하여 모델을 구축합니다 다시이 오른쪽을 한 번 보도록하겠습니다 동일한 결과를 얻었으므로 변경 사항을 눈치 채지 못했습니다 오른쪽을 삭제하겠습니다 다시 Enter 키를 누르면 우리가 가진이 하나, 둘, 넷, 다섯 개의 독립 변수를 포함 시켰습니다 여기에 동일한 분할이 있으므로 기본적으로 다른 열은 분할 목적으로 사용되었습니다 이제 모델을 만들었습니다

계속해서 값을 예측하고 이 모델의 RMS C를 계산해 봅시다 신용 기능을 사용하여 모델을 첫 번째 모델로 사용합니다 매개 변수를 저장 한 다음 사막에서 값을 나누고 저장합니다 다시 나무를 예측하고 실제 값과 테스트 값을 찾아서 저장하고 최종 데이터를 데이터 프레임으로 변환하고 예측 오류 이제이 오류를 최종 데이터에 다시 바인딩해야합니다 다시 C bind 함수를 사용하여 최종 데이터를 나는 이것에 오류를 묶고 있습니다이 시점을 한눈에 볼 수있게하십시오

파이 데이터를 독립적으로 사용했을 때의 최종 데이터 변수는 실제 값이며 예측 된 값입니다 이제 오류 도입이 다시 진행되고 근본 평균을 찾도록하겠습니다 제곱 오차이므로 근 평균 제곱 오차는 3 점 9 3입니다 MSE에 올바른 것을 넣었으므로 첫 번째 모델과 두 번째 모델은 제곱 평균 제곱 오차가 동일하므로 이 다섯 독립 후 다른 변수를 포함 할 필요가 전혀 없습니다 변수는 모델에 아무것도 추가하지 않기 때문에 변수이므로 이상적인 독립 변수를 선택할 수있는 방법은 다음과 같습니다

의사 결정 트리의 도움으로 회귀 분석 우리가 좋을 때 나는 아직도 알고있는 기능들 우리는 우리가 싸움을 잘라 내가 세션 후 내가 당신과 함께 이것을 공유합니다 이것을 운영 팀과 공유하면 그들은 우리 파일을 너희들과 함께 줄 것입니다 그래 정말 고마워 그리고 난 아들 것입니다 그래, 내 성은 내가 상반기를 기록하지 않았다는 말을 들었다 어제의 세션의 그래서 기본적으로 내 잘못이었다 그래서 나는 이전 부분을 다시 기록해야한다고 믿습니다 제가 할 것은 2d 세션 후에 이론 부분을 기록 할 것입니다 다시 내일 밤까지 어제 이론에 의해 업로드됩니다 세션은 계속 진행되므로 아무도 모르는 다른 의심도 있습니다

우리의 냉각 속도와 우리는 또한 여기 그래도 당신은 가지 치기를 할 수 있습니다 참조하십시오 같은 쿨링 방식이 아니므로 정직한 꿈의 통제가 있습니다 컷에 대한 스프링 제어 파라미터를 사용하여 나무는 C 3이 무엇인지 읽었으므로 C 3에는 열차 제어 매개 변수가 있습니다 그 열차 제어 매개 변수 안에 당신은 당신이 이상적인 설정 알고 사랑 분할 할 때 노드 수 또는 이상적인 임계 값 분할하고 그것이 당신이하는 방법입니다 우리는 모든 가지 치기 기술이 될 것입니다 동일한 결과를 가지므로 후 가지 치기에서 한 가지 유형의 비용 복잡성이 있습니다 우리가 이전에 본 것은 비용 복잡성 정리 (plancity pruning)였습니다

그 뒤에 루트 노드로서 가장 높은 미스가 있습니다 오 분류 율을 계속 낮추는 분류 율 또는 대체 오류가 감소하므로 다음과 같은 오류를 찾아야합니다 특히 당신은 그 특정 수준의 분할을 알고 우리가 초안에서 본 것처럼 오 분류 율은 최소이며 16 개의 메모를 읽음으로써 분류 오류가 가장 적었지만 우리가 다시 쪼개기 시작했을 때 열 여섯은 실제로 학위가 아니었지만 오 분류 율이 증가했기 때문에 비용 복잡성 정리 귀하의 아이디어는 오 분류 율의 최소값을 갖도록하는 것입니다 오 분류 율의 최소값이있는 최소값 그것은 이상적인 수의 터미널 노드가 될 것입니다 기본적으로 불순물 기능의 Gini 인덱스 또는 정보 획득 이 세 패키지는 Gini 인덱스의 imperator를 사용합니다

이제는 다시 확실하지 않아서 그렇게 읽어야합니다 기본적으로 이러한 의사 결정 트리 기능은 그들은 Jini를 사용하므로 임의의 숲을 위해 우리는이 CD GT와 함께 작업 할 것입니다 이게 기본적으로 내가 당신에게서 가져간 의료 데이터 세트입니다 기계 학습 저장소라고 말하면이 데이터 세트를 보내 드리겠습니다 세션 후 얘들 아 그래서 당신은이 비디오를 통해 나를 따라 와야 그래서 기본적으로이 모든 열로 구성되어 있으므로 기본적으로 데이터입니다 환자의 태아 심박수를 측정하는 세트와는 다릅니다

매개 변수이며 이는 기본적으로 최종 카테고리 열입니다 예측하기 위해이 NSP는 기본적으로 정상을 나타냅니다 태아의 심박수가 정상이거나 병리학 적이거나 병리학 적 비율로 의심되므로 다시 당신의 멀티 클래스 분류와 우리의 도움으로 그것을 할 것입니다 임의의 숲과 의사 결정 트리 우리는 하나의 트리를 가지고 있습니다 우리가 가진 데이터 세트는 이제 앙상블 학습이라고 불리는 것입니다 이것에 대한 완벽한 예는 영화를보고 싶다고 말하고 한 친구가 모든 행동을 미워하도록 친구의 조언을 받음 영화를 보니까 어벤져 스와 그 친구를보고 싶어 모든 액션 영화를 싫어하고 그는 매우 오 그는에 대한 매우 편견을 가지고 액션 영화와 그가 복수자를 보지 못했지만 그는 당신에게 말할 것입니다 그것은 당신이 기본적으로 우리를 배우고 앙상블에서 일어나는 지금 나쁜 영화입니다 여러 사람에 대한 의견이므로 그냥 대신 앙상블 학습 하나의 의사 결정 트리를 작성하면 여러 의사 결정 트리가 있거나 다른 의사 결정 트리가 있습니다 당신은 열 사람의 의견을 가지고 그 열 사람 중 여덟 사람의 의견을 다른 두 사람이 가지고있는 좋은 영화이기 때문에 어벤저를 보라고 할 것입니다

자신의 편견을 가지고 있기 때문에 그들이 나쁜 영화라고 말하는 이유입니다 전체적으로 당신은 복수자가 기본적으로 훌륭하다는 집단적 견해를 얻을 것입니다 앙상블 학습은 여러 의사 결정 트리에서 결과를 얻으므로 첫 번째 확장은 의사 결정 트리가 포장하고 우리가 가지고있는 포장에서 나옵니다 우리에게 임의의 숲이 있습니다 초기 데이터 세트이므로이 초기 데이터 세트에서 여러 데이터 세트를 만듭니다 교체로 샘플링하여 생성 한 데이터 세트를 n 개의 레코드가있는이 데이터 세트는 내가하는 일을합니다

동일한 수의 레코드를 가지며 다른 레코드가있는 다른 데이터 세트 l1 L에서 가져 왔지만 비슷한 방식으로 교체하여 샘플링하여 수행됩니다 L에서 가져온 n 개의 레코드가있는 l2를 생성하지만이 레코드는 샘플링 중입니다 대체와 마찬가지로 다른 데이터 세트를 생성합니다 L에서 가져온 n 개의 레코드가 있고 다시 샘플링하는 l3입니다 X와 같은 데이터 세트를 생성하고 하나의 결정을 내릴 것입니다 하나의 결과를 얻는 대신 각 데이터 세트의 맨 위에 트리 여러 의사 결정 트리에서 여러 결과를보고 집계를 수행합니다

모든 결정 트리의 결과이므로 당신이 나를 따라갈 수 있니? 우리는 임의의 배깅이 임의의 숲이라는 것을 알고 있습니다 임의 포리스트이 부분은 동일하므로 먼저 여러 데이터 세트를 생성하지만 임의의 숲이 우리에게 분할 기준을 포기하는 것과 다른 부분은 이 분할 기준에 대해 여기에있는 노드는 독립 변수 독립 변수의 하위 섹션 만 가져옵니다 그리고 그것은 임의의 하위 섹션이 될 것입니다 내가 사용할 10 개의 독립 변수에서 내 데이터 세트의 변수 이 분할과 유사하게 분할에 대한 3 개의 임의의 독립 변수 다시 나는 세 개의 무작위를 다시 사용할 것입니다 임의의 변수를 사용할 수 있으므로 10 개의 임의 변수를 모두 사용할 수 없습니다 split에만 em 임의의 변수를 사용할 수 있으며 일반적으로 이 M 값은 P의 근본이고이 P는 독립 변수의 총 수이므로 10 개의 독립 변수가 있다고 가정 해 봅시다 변수 M은 10의 근 아래에 있으며 약 3 ~ 4입니다 이 임의의 네 개의 임의의 숲은 임의의 숲에서 임의의 단어입니다

기본적으로 여기이 부분에서 나옵니다 임의의 독립 변수에 종속되어 있으므로 노드는 앙상블 학습은 임의의 숲으로 알려져 있으므로 이것이 유일한 부분입니다 자루에 넣기와는 다르며 다시 이러한 결정 트리가 있으며 이러한 모든 의사 결정 트리에서 결과를 얻은 다음 의사 결정 트리와 이것이 우리의 최종 결과가 될 것이므로 이것이 기본 아이디어입니다 임의의 숲 뒤에서 당신을 도와줍니다 좋아, 그래 이제 우리가 어떤 랜덤 숲으로 가자 임의의 숲과 함께 그래서의 구조를 보면서 시작하겠습니다 이 데이터를 사용하여 STR 함수를 사용합니다

이 열은 모두 지금이 내 의존 열은 n SP입니다 정수 유형이지만 분류를 수행하고 있으므로 경고했습니다 이것은 범주 형 변수이므로 첫 번째 단계는 이것을 변환하는 것입니다 정수형 변수를 범주 형 변수로 바꾸고 AZ 도트 팩터 함수를 점으로 변환합니다 데이터 달러 NSP의 사실과 나는 이것을 저장합니다 데이터 달러로 돌아 가기 NSP는 이제 두 번째의 구조를 살펴 보겠습니다 데이터 구조와이 정수 유형이 다시 한 번이 NSP의 레벨을 한 눈에 살펴 보겠습니다

이 것은 환자가 정상임을 나타내며 환자가 태아 심장 질환이있는 것으로 의심되고 3 개는 환자는 병리학적인 심장병을 앓고있어 1600 명이 쉰 다섯 정상 환자 이백 아흔 다섯 환자 태아 심장 질환이 의심되는 176 명의 환자가 실제로 병리학적인 심장병을 가지고 있습니다 이제 다시하겠습니다 앞서이 데이터 세트를 훈련 테스트 세트로 나누고 열차의 상단이 설정되었으므로 이제 다시 시드 값을 1로 설정합니다 세 가지 결과가 나올 때마다 반복 할 수 있습니다 나중에 다시 똑같이 닷 시드 103을 말했고 계속 사용하겠습니다 분할 열을 NSP로 설정하여 분할 확률을 0

65로 설정 기록 할 기록의 65 % 훈련 지금 시험 할 기록 35 % 기록 분할 태그의이 값이있는 곳이면 어디든 가져 와서 이 65 % 값을 저장하고이 분할 태그를 제외하고 세트를 학습 35 % 레코드의 나머지는 내가 가져 와서 여기서 테스트 세트를 준비했습니다 이제 훈련 및 테스트 세트를 준비했습니다 앞서 훈련 세트 위에 임의의 숲 모델을 구축하여 임의의 포리스트 패키지를 올바르게로드해야하므로 이것을로드했습니다 패키지 다시 시드 값을 먼저 설정합니다 시드 값 스트립 이제 열차 데이터 위에이 랜덤 포레스트 모델을 빌드하고 다시 공식의 말뚝은 훈련 인 데이터를받습니다 기본적으로 여기 공식은 n SP 델 도트 도트입니다 이것은 n SP가 종속 변수이므로 우리의 종속 변수입니다 변수 및이 점은 다른 모든 열이 독립 변수임을 나타냅니다

훈련 세트 위에이 모델을 구축하고 있습니다 여기에 RF를 인쇄하십시오 이것이 기본적으로 우리가 만든 모델입니다 랜덤 포레스트 알고리즘은 트리의 수를 500으로하는데이 M 값은 우리가 본 M 값은 변수의 개수입니다 이것은 4입니다

기본적으로 나무 수는 500으로, 그 M은 값은 4로 간주되며 이것은 혼란 매트릭스입니다 트리 외부 또는 오류 추정으로 알려진 것이 있으므로 우리가 언제 나아 갔는지 알고 나무를 만들면 데이터 세트에 대해 알 수 없습니다 우리가 이것을 만들 때 모든 행 이이 데이터 세트에 들어와야합니다 데이터 세트 모든 행이이 데이터 세트로 들어 와서는 안됩니다 입력하지 않은 레코드로 우리가하는 일 우리는 기본적으로이 알고리즘을 사용할 것입니다

기본적으로 들어오지 않은 레코드에서이 임의의 포리스트 모델을 빌드합니다 이 X 데이터 세트는 해당 레코드의 정확도를 계산합니다 이 X 데이터 세트의 일부가 아니므로 오류 추정치는 5입니다 일곱 여덟 퍼센트 또는 다른 말로 정확도는 약 94 % 정도 였으므로이 기록의 경우 혼동 행렬로 천만 60 세의 모든 환자들이 정상으로 올바르게 분류 됨 14 잘못 분류 됨 용의자와 두 사람은 모두 병리학 적으로 잘못 분류되었습니다 미안한 50 명의 환자를 제외한 기록 실제로 심장의 절반 인 것으로 의심되는 50 명의 환자 질병이 정상으로 잘못 분류되었습니다 심장병이 의심되는 139 명의 환자가 올바르게 용의자로 분류되었으며 그 중 두 개는 다음과 같이 잘못 분류되었습니다 병리학 적으로 질병은 병리학 적 질병이있는 것으로 올바르게 분류되었습니다 5와 6은 MIS 분류이며 분류 오류입니다 이 세 클래스와 관련하여 이것은 임의의 포리스트 모델입니다

방금 구축했습니다 계속해서 값을 예측하겠습니다 다시 사용하겠습니다 예측 함수의 첫 번째 매개 변수는 다음을 빌드하는 모델입니다 매개 변수는 테스트이므로 여기에는 세 번째 매개 변수가 없습니다

기본적으로 클래스 레이블을 제공하고 이것을 P one에 저장하고 다시 계속해서이 테이블의 도움으로 혼란 매트릭스를 만들 것입니다 이것이 바로 실제 값이고 예측 된 값입니다 여기에있는 값은 정확도를 계산할 수 있도록 앞의 예에서이 왼쪽 대각선은 모든 것을 정확하게 나타냅니다 실제로 질병을 앓 았던 567 명이 분류 된 값으로 질병이있는 것으로 의심되는 질병 81을 갖는 것으로 분류 실제로 병리학적인 사람이있는 것으로 의심되는 51 명으로 올바르게 분류 됨 질병은 병리학 적 질병을 가지고 올바르게 분류되어 이에 대한 정확도는 567 플러스 81 플러스 51을 567 플러스 81 플러스 51로 나눈 값입니다 더하기 8 더하기 4 더하기 2 더하기 5 더하기 5 맞습니다 그것은 20도 그렇습니다 그래서 5 6 1 80 1 쉰 1 8 4 2 스물 다섯 다섯, 그래서 책상은 94 %의 정확도를 사용합니다 이것과 ACC 하나를 해봅시다

이제 우리가 할 것은 M의 최적 개수이므로 M은 기본적으로 사용 가능한 변수의 개수입니다 그 최적의 M 값을 얻기 위해 우리는이 조정 또는 기능 I 시드 값을 다시 설정하고이 튜닝 또는 기능을 사용하여 모든 매개 변수는 이것이므로 먼저 n의 집합을 취합니다 독립 변수 다음에이 마이너스 22 음이므로 기본적으로 모든 마지막 행을 제외한 행이 마지막 열이므로이 22가 마지막입니다 열이므로 마지막 열을 제외한 모든 열을 가져옵니다 첫 번째 예 예 예 예 그래서 우리에게 정확도 왼쪽 대각선 너무 대각선으로 정확히 우리의 실제 Pheebs 대각선 왼쪽 대각선을 모든 값으로 나눈 값은 정확도를 제공합니다 왼쪽 대각선은 정확하게 모든 값으로 구성되어 있기 때문에 오른쪽으로 분류하여 첫 번째 매개 변수로 넘어갑니다

독립적 인 변수의 혼란으로 다음 매개 변수는 종속 변수를 설정 한 다음 깊이 계수를 제공하여 단계 계수가 기본적으로 각 반복에서 M 값이 H를 얼마나 증가 또는 감소시켜야하는지에 따라 그래서 나는 이것을 05라고 말했고 이것이 튜닝 할 때 플롯을 만들어야합니다 3으로 설정합니다 사실이라고 말한 다음이 항목이 있습니다 최적의 M 값 나는 나무의 수가 300 개일 때 원한다

그래서 나는 이 임의의 숲에서 나무의 수를 300으로 삼고 이 나무 수에 대한 최적의 M 값은 기본적으로 응력 이 모델이 구축 될 때 나무를 제공하고 반복 할 때마다 개선해야 할 요소가 많이 있습니다 이를 통해 005로 할당했습니다 기본적으로 그래프를 제공합니다 이것은 이와 같은 것이므로 먼저 살펴 보도록하겠습니다 이제 우리가 300으로 가지고있는 나무의 수와 나무의 수가 300 일 때 처음에는 M 값을 사용하여 시도합니다

처음에는 변수의 수가 사용 가능한 독립 변수는 4이고 독립 변수에 사용할 수있는 독립 변수는 6 포인트 1 5이고 그런 다음 도움으로 시도 했으므로 도움이 필요할 때 루비 오류가 발생했습니다 16 점으로 시도한 후 5 점 7 점 1 % 16 나무가 세 개일 때 우리가 보는 것을 다시 증가시켜 백개의 최적 M 값은 8입니다 그래서 우리는 여기에서 본 것입니다 2 4 8은 2에서 4에서 8까지 오차가 감소하지만 8 회 후에 다시 감소합니다 더 많은 수의 임의의 독립 변수를 제공했습니다

실제로 증가하지 않습니다 감소하지 않습니다 그래서 우리는 발견 우리를위한 최적의 M 값의 최적 수 이제 우리는 계속해서 그 M을 사용할 것입니다 시드를 다시 설정하고 임의의 포리스트 모델을 다시 빌드하고 random forest 함수를 사용하므로 종속 변수는 n SP입니다 나머지 변수는 내가 짓고있는 독립적 인 변수입니다 나무의 수는 300이고 M 값은 속도입니다 이제 F를 출력하겠습니다 이것이 이번에 우리가 얻는 것입니다

바깥 상자 오류 추정치는 5 점 8 6입니다 이제 계속해서 클릭하겠습니다 예측 함수를 다시 사용할 값은 먼저 두 개의 매개 변수를 사용합니다 맞아요이 기차는 기본적으로 괜찮아요

이 튠 RF를하겠습니다 이 기차에서 22를 빼면 예측 변수의 지표 또는 데이터 프레임으로 표시됩니다 이 열차 22 변수 이것은 응답 인자이므로 먼저 우리는 마지막 열을 제외한 나머지 예측 변수 목록 예측 변수이거나 다시 말해 독립 변수입니다 그 후 우리는 반응 계수 또는 종속 요소를 제공해야합니다 반응 계수는이 20 초 열입니다 우리가 사용했던 다른 속성들은 이 플롯은 기본적으로 OB 에러를 M의 기능을 시도한 다음 여기에서 기본적으로 나무 수를 설정하여 나무를 사용합니다 이것은 검색 진행 상황을 인쇄 할 것인지를 알려줍니다

검색에 대한 OB 오류의 상대적 개선이이 정도 여야합니다 Lin에게 우리가 제공하는 모든 매개 변수를 올바르게 계속 이해합니다 이 보수에 대한 교육-21 22 나는 산업계가 그 길을 이해하지 못했다 그냥 인쇄 한 다음에 우리가 나누는 곳을 따라 갔습니까? 전체 데이터 세트는 우리를 기차 세트로 훈련시키고 그들이 할 수있는 바를 테스트 우리는이 원본 데이터 세트를 가지고 있고 기차로 나누었습니다 이제 홍수를 테스트 한 후 모델을 만들었습니다 완벽한 m 값을 찾기 위해 F 함수에 걸리는 완벽한 m 값을 찾으십시오

특정 매개 변수에서 첫 번째 매개 변수는 구성된 데이터 프레임입니다 이제 모든 예측 변수 중 열차 데이터 프레임을 보여 드리겠습니다 이 열로 구성된 열차 데이터 프레임입니다 이 전체 데이터 프레임에서 22를 제외한 모든 열을 선택합니다 열과 나는 이것을 -22로 명명 할 것입니다

그래서 당신이 여기에서 -22를 봅시다 이 열차 데이터 세트를 참조하십시오 여기에는 NSP 열이 있지만이 마이너스 22는 없습니다 NSP 열이 맞습니다 기차 쉼표에서 22를 빼면 마지막 열을 제외한 모든 열이 사용되므로 당신은 당신이 시도했던 초기 수업의 초기에 배웠어야합니다 사용하는 행과 열을 다시 색인하는 방법을 배우는 곳을 알고 있습니다

22 번째 줄은 다시 한 번 같은 명령을 사용합니다 그래서 이것은 현재 마지막 열입니다 더하기 20-더하기 22보기 그래서 이것은 단지 하나의 열을 가지므로 우리는이 전체를 가졌습니다 데이터 프레임은 이제 첫 번째 매개 변수는 예측 변수 열입니다 NSP 열 다음 매개 변수를 제외한 열은 종속 열이므로 종속 열을 원할 때 오른쪽 열 번호 만 입력하십시오 이 열은 의존 열만으로 구성되어 있으므로이 열차 데이터 프레임에서 우리가 당신을 원한다는 것을 알고 내, 특히 나는 다시는 소품이 없다 이것들을 닫고 싶습니다

이것들은 우리가 가지고있는 모든 매개 변수입니다 우리는 M의 최적 개수가 8이라는 것을 알았습니다 최적의 숫자는 8입니다 또한이 RF 값을 인쇄하겠습니다 이제 계속해서 값을 나누겠습니다

최적의 M 값을 알고 그 최적의 M 값과 관련하여 숲을 짓고 테스트 세트의 값을 예측하고 이제 p2 객체에 저장하고 그 후에 빌드하고 혼동 행렬이므로 다시 두 개의 매개 변수를 사용합니다 실제 값은 다음은 p2에 저장된 예측 값이므로 혼란입니다 우리는 너무 괜찮아요 여러분 중 몇 명이 아직도 가지고 있습니까? 이 혼란스러운 매트릭스를 사용하지 않도록 선택하는 방법을 알 수 있습니다 내가이 혼란스러운 행렬로 오류를 계산하고 있습니까? 이 권리에 관한 질문 다른 사람들은 혼란 매트릭스로 분명합니다

이 매끄러운 혼란을 어떻게 해석합니까? 행렬과이 정확도에서 정확도를 어떻게 얻습니까? 앞서 정확도를 계산 한 다음 566 + 83 + 52를 Phi 66 +로 나눕니다 83 더하기 52 더하기 8 더하기 파이 더하기 2 더하기 파이 더하기 4 그래서 우리는 무엇이든 놓쳤다 18도 있습니다 556 5와 4에서 350에서 850까지입니다 우리는 94 % ECC 1의 정확도를 얻습니다 우리가 당신에게 3의 수는 300이고 우리는 기본적으로 다음과 같이 94 %의 정확도를 얻습니다

이것은 처음에 500의 가치가있는 3의 수와 엠 드라이브 가치는 4 였지만 RF 튜닝을 통해 우리는 약간의 조정과 우리는 때의 최적의 값을 얻고 싶었다 나무는 300이었고 우리는 M em이 em의 최적 가치를 시도한다는 것을 알았습니다 나무의 수를 300으로 설정하고 M을 우리는 90 점의 정확도를 얻었습니다 마녀의 경우 3은 이전 모델보다 약간 개선되었습니다 이것은 당신이 매개 변수를 다시 부여 할 수있는 방법입니다 항목과 M try 인 두 가지 변수 속성으로 구성 바로이 두 가지로 놀 수 있습니다-다시 시도해 볼 수 있습니까? 나는 어떻게 든 그것을 그리워한다 그래서 당신은 내가 이것을 커버하기를 원한다-nah riff 다시 그래 그래 훌륭한 M 내가 시도하는 의의가 무엇인지 시도 M 가격은이 M 값이므로 M try는 M 값이 변수의 수 또는 임의의 수입니다

우리가 여러분의 M 소수 또는 M 인 분할에 제공하는 변수 이 실행 예 그래서이 M 은이 시점에서 시도 해요 우리는 모든 변수를 먹이고 하나의 의사 결정 트리에서 당신이 사용할 수있는 최대 값은이 무작위에 대해 분할하지 않는 8 개의 변수입니다 여기 숲이 있습니다 22 또는 23이 아닌 열 수를 확인하겠습니다 예, 우리는 22 개를 가지고 있습니다 그 열은 우리가 여기서하는 일입니다 랜덤 8이 맞습니다 그래서 M이 여기있는 것입니다

각 분할에 대해 독립 변수의 임의 하위 섹션이 있습니다 이 분할에 대해이 분할에 대해 8 개의 독립 변수가 있습니다 이 분할에 대해 8 개의 임의의 독립 변수가 있습니다 8 개의 무작위 독립 변수 우리는 어디에 영향을 미치는 각 변수의 무게 가장자리를 볼 수 있습니까 바로 모델로 알려진 당신은 그 정장에 갈 것입니다 중요도 기능 또는 변수 중요도 기능과 우리가 무작위로 항목을 최적화하는 방법 하나 더 300 맞습니까? 그래서 다시 할 수있는 것은 임의의 값을 설정할 수 있다는 것입니다 다시 당신은 혼자서 플레이를해야하거나 이것을 400으로 설정할 수 있습니다 400에 대한 최적의 값을 얻으십시오

이 값을 천으로 설정하고 수천에 대한 최적의 값이므로 조정해야 할 하이퍼 파라미터입니다 자신이 그래서 다시 재판하고 오류가 4S에 무엇인가 당신이 의미하는 나무의 깊이 음의 깊이와 관련이 있습니다 우리가 가져갈 수있는 깊이를 의미하는 것이 유감이다 과적 응처럼 될 것입니다 그러나 다시 확실하지 않으므로 다시 읽어야 할 것입니다 먼저 나무를 가지 치기하고 그런 다음 임의의 숲에서 자두 나무 만 사용하십시오 그 오른쪽에 올라 서서 우리는 이제이 예 후에 예측을 끝냈습니다

우리가 가진 다른 나무들에 대한 노드 수를 볼 수 있습니다 히스토그램을 작성하면이 트리 크기 함수가 있습니다 랜덤 포레스트 패키지와 우리는 당신이 만든 모델을 전달할 것입니다 이 히스토그램에 나무의 노드 수와 색상을 히스토그램은 녹색이어서 약 80 개의 의사 결정 트리가 있음을 알 수 있습니다 약 80 개의 노드가 있으므로이 주파수가 임의의 포리스트에있는 의사 결정 트리 수의 트리 크기 또는 노드 수 아마 5 개의 임의의 숲을 멈추고 약 100 개의 노드가 있으므로 약 20 개의 의사 결정 트리가 있습니다

약 60 개의 노드에 약 50 개의 의사 결정 트리가 있으며 약 70 개의 노드가 있습니다 노드는 이것이이 히스토그램이 알려주는 것입니다 이 VAR m 플롯에 변수 중요도라는 것을 묻습니다 이 모든 변수의 상대적 중요성을 제공하므로 이 매개 변수는 잘못된 m 플롯과 모델을 전달합니다 내가 정렬을 구축하므로 기본적으로 이것을 정렬합니다

변수의 중요성 때문에 당신의 숫자는 우리는 수중 중소 또는 상위 10 개의 변수를 계속 볼 수 있습니다 나는 멈추는 제목과 변수의 중요성을주었습니다 당신이 보는 것은 어제의 수업에서 보았 듯이 평균 Gini를 다시 줄이는 것입니다 루트 노드에는 Gini 인덱스 값이 있고 집계 리프 노드가 있습니다 Gini 인덱스 값과 최대 감소가있는 트리가 있습니다

Gini 인덱스 값 또는 다시 말해 최대 게인을 갖는 트리 기본적으로 이상적인 분할이라는 것을 알 수있는 정보 그래서 이것은 STV가 당신이 아는 이상적인 스플릿이 될 것입니다 STV와 관련하여 다음으로 가장 이상적인 스플릿을 얻습니다 중요한 것은 MST 주간이고 우리는 Al TV Guide를 가지고 있기 때문에이 네 가지가 그 후 가장 중요한 것은 평균과 DP 사이에 상당한 간격이 있으므로 우리가 결론을 내릴 수있는 것은 이것에서 주요 변수를 알 수 있습니다 es tv ms TV al TV와 이것이 바로 산 제브라는 의미는 변수의 중요성 때문에 화면에 출력하고 싶다면 그냥 사용하십시오 중요 기능 yeah yeah 당신은 이것이 나에게 말할 것이라고 언급했습니다

모델에서 변수의 중요성 또는 실제로 나에게 이 변수가 가변성 또는 내 의존 변수 um의 예측 가능성 때문에 중요하다고 말할 때 그것은 기본적으로 독립 변수가 얼마나 많은 영향을 미치는지를 의미합니다 피고인 충실하므로이 H TV는 부양 가족에게 가장 많은 영향을 미칩니다 변수 뒤에 ms TV가 있고 l TV가 나옵니다 중요한 것은 아마도 모든 변수가 종속 변수에 얼마나 중요한 영향을 미치는지 10 % 내 10 %의 범위는 각각의 중요성 변수는 이것이 나에게 말하는 방법이거나 괜찮습니다 종속 변수 TV에서 일어나는 모든 일이 거의 그것의 90 %는 당신이이 방법으로 그것을 취할 수 있도록 es TV는 최대 효과를 갖습니다 종속 변수에 대해 이것이 바로 여러분에게 알려주는 것입니다 모두 괜찮아요 변수를 사용하여 모델을 만들고 싶다고 가정 해 봅시다

괜찮다면 아는 것만으로도 간단한 모델을 만들려고한다면 하나의 독립 변수 인 경우에는 독립 변수를 원할 것입니다 가장 영향을 미치는 변수이므로 독립 변수는 T입니다 V 그래서 두 개의 독립 변수가있는 모델을 만들고 싶다면 이 경우 종속 변수의 최대 값에 영향을 미치므로이 경우 TV 및 M 내가 세 개를 사용하고 싶다면이 세 개는 독립 변수 일 것입니다 우리가이 일을하고있는이 줄거리는 이 네 가지 독립형 만 사용할 모델을 다시 빌드하십시오 이 네 개의 독립 변수가 종속 변수 최대 권리 그래서 기본적으로 최대를 커버 종속 변수의 분산이 너무 혼란 스럽거나 알고있는 과정을 보여줍니다 가져 오기 기능 또는이를 다시 알 수 있도록 도와줍니다

기본적으로 평균 감소 단위를 제공하므로 여기에있는 것은 다시 여기에있는 ms TV를 알려줍니다 TV는 최대 값이므로 TV가 종속 변수 다음에 ms TV 다음에 Al TV가 있습니다 혼란 스럽거나 비즈니스의 중요성이 사라졌습니다 우리는 독립 변수의 중요성 또는 중요성의 순서를 알고 있습니다 계속해서 사용하는 다른 임의의 포리스트 모델을 빌드하겠습니다 ms TV es TV l TV 및 평균 및 이전 모델에서는 나무의 수가 300 개라고 말 했으므로 우리는 여기서 모델을 구축하고 RF에 저장하고 우리는 값을 바로 예측할 것입니다

RF는 당신이 만드는 모델입니다 그리고 우리는 이제 테스트 세트 위에 값을 운영하고 있습니다 계속해서 혼란 매트릭스를 만들고 Phi 64의 정확성을 찾으십시오 + 73 + 53을 4 + 73 + 53 + 2 + 3 + 7 + 8 + 1 + 29로 나눈 값 말해 봅시다-3이 없습니다-3 아, 죄송합니다 564 73-53 8 7 129 6 + 2 맞습니다 그래서 우리는 92 %의 정확도를 얻습니다

94 acc 인 acc 하나를 확인하십시오-또한 94였습니다 독립적 인 변수 이들은이 4 가지 d 자체의 슈퍼 뉴스입니다 우리에게 92 %의 정확도를 제공하므로 다른 변수는 단지 2 %까지 더합니다 이것들은 제가 의미하는 것이므로이 4 개의 독립 변수를 사용할 때 그것들은 의존성에 크게 영향을 미치는 변수입니다 여기에 변수가 있으므로 jr를 알 수있는 또 다른 방법입니다 모델 권리 맞아요-이거 뭐 좋았어? NSP 열은 범주 값이며 NS 사람들이므로 처음에는 이것이 정수 나는 AZ 도트 팩터 함수를 사용하고 그것을 인자로 변환했습니다 NSP의 클래스가 맞습니다

그래, 이건 임의의 숲에 관한 것입니다 GLM 함수를 사용할 때 LM을 사용할 때 확률에 익숙해졌습니다 함수를 참조하십시오-우리가 primo 일 때의 확률-모든 모델에 우리가 내리고있는 것에 대한 결과는 s 또는 no로 분류됩니다 살인을 막기 위해서라도 우리는 최종 수업 결과는 괜찮습니다 여기에 p3을 출력하겠습니다 수업 중 11 번째 기록에서 보는 것은 하나는 21 번째 레코드 클래스에 대해 3 개는 레코드 번호 1 70에 대해 레코드 번호 4 17 개의 클래스 1 개-최종 결과를 얻습니다

수업이지만 임의의 숲뿐만 아니라 의심이 있으시면 그냥 인쇄하십시오 이 값을 출력하므로 p3에 저장하여 나중에 사용할 수 있습니다 일반적으로 이것을 인쇄하면 목록을 얻을 위험이 있습니다 한 세션에서 본 것과 같은 예측은 임의의 숲 모델에서 볼 수 있지만 여기에 ROC를 의미하는 화살표를 사용하십시오 수업을 할 때 말한 것처럼 사용하기 만하면됩니다

사용하지만 동영상과 같은 하나의 동영상이이 모델에 ROC를 사용하는 경우 랜덤 포레스트 모델 우리는 ROC 패키지 괜찮습니다 타입은 확률이었을 것입니다 그래서 제가 정상적으로하는 것만 확인하겠습니다 그래, 난 그냥 수업을 듣습니다 그래요

이 경우에 그 유형이 확률이라고 말했을 때 확률을 얻습니다 이것은 내가 당신을 사랑하는 곳입니다 어쩌면 특정 임계 값을 알고 있지만 다시 무엇을 알고리즘은 자동으로 임계 값을 취한다고 말합니다 수동으로 임계 값을 설정하려면 다음과 같이하십시오 그렇습니다, 그렇습니다

잊혀진 기름을 가리고 뜨고 뜨개질을하기 만하면 아만다는 확실히 무엇을 사용하는지 질문하십시오 예, 무엇을 사용합니까? 응답 유형을 클래스 또는 동등한 응답 유형의 의미 차이가 움직여서 예, 의사들 사이에 작은 선으로 결론 지을 것입니다 질병 또는 그는 세 그래서 그래서에 대한 명명법의 차이입니다 당신이 가지고있는 다른 기능들 미리 포장 된 당신은 당신이 사용할 때 사용할 명명법을 알고 있습니다 클래스와 같은 유형이 될 예측을하고 싶습니다 다시 C 3 클래스에 관해서는 이번에도 기본적으로 이 클래스를 클래스로 설정하면 작동하지 않습니다 차이점을 여기에 표시하고 이것을 클래스로 설정하면 이것이 바로 당신이 얻는 것이므로 기본적 으로이 기능은 유형을 응답으로 사용하므로 클래스를 인식하지 못합니다

그 사람이 가지고있는 패키지를 작성한 사람의 정상적인 연령 차이 여기 대신 예측 유형을 응답 유형으로 지정했습니다 우리는 부분적으로 회귀 분석을 위해 여기에 유사하게 클래스를 배치하므로 임의의 숲에 대해 다시 그렇게하면 누가 이것을 만들 었는지 알 수 있습니다 당신을 위해 패키지 그가 그가 원하는 경우 표준 인클로저를 말했다 알고 그런 다음 그 명명법은 PR OB라고하며 당신이 도움을 원한다면 당신이해야 할 모든 차이가있는 경우의 규범 당신은 너무 임의의 숲을 검색 알고 당신은 당신에게 모든 도움을 얻을 것이다 당신과 관련하여 여기 에이 패키지가 있다는 것을 알고 있어야합니다 이 모든 것들이 Lord kyun RF를 예측하도록하세요 사용 하거나이 패키지에서 사용하려는 기능을 얻을 수 있습니다

도움말 기능의 마지막 질문과 마지막 질문 Bernie 에서이 물류 사용 무작위 삼림은 분류를 위해 모든 것을한다 분류와 회귀 모두에 투표하십시오 이제 언제 논리에 갈 것인지를 언제 무작위로 갈 것인지를 결정한다고 가정 해 봅시다 임의의 숲은 항상 솔루션 트리보다 낫습니다 앙상블 학습이 당신을 제공하기 때문에 확실한 로지스틱 회귀 의사 결정 트리와 임의의 포리스트를 비교하면 앙상블 학습이 단일 의사 결정 트리를 작성하면 하나의 결과를 얻을 수 있지만 그 의사 결정 트리를 가져 와서 그것의 복제본을 100 개 만들면 그 수백 개의 복제본의 총체적인 결과로 임의의 숲 또는 또는 우리의 모든 종류의 앙상블 학습은 앙상블 학습이 우리가 이런 일을 할 때 사용하는 단일 모델보다 항상 좋습니다 우리가 소개하기로 결정했을 때이 두 가지는 하나처럼 보입니다

그러나 특정 데이터 세트는 특정 책 데이터를 따릅니다 임의의 숲 어떻게 우리가 어떤 아이디어를 당신에게 시작 했습니까? 내가 생각하는 것은 주로 당신이 알고있는 클라우스에게 알고 있다는 것입니다 분류하여 전체 회귀 분석을 사용할 수 있는지 확실하지 않습니다 멀티 비트 분류이므로 다시 읽어야합니다 또한 난 그냥 여기 임의의 숲을 가정하고 더 나아지고 내 이 두 클래스가있을 때 분류 및 자폐 회귀 사용 그러나 다시 한 번 내 말을 받아들이지 않습니다

나는 우리가 할 수있는 것이 확실하지 않습니다 내 멀티 클래스에 사용자 정의를 위해 사용할 것입니다 우리가 다중 규범 함수를 사용하거나 네트워크 패키지에 n을 다운로드해야합니다 그것들은 GLM 모델에 사용될 것이지만 타이핑하는 것이 혼란 스럽다고 생각했습니다 이항으로 갈 때 효율적인 이항 계급은 실제로 더 나은 것을 줄 것입니다

우리는 낮은 데이터를 시험하기 위해 데이터 세트를 사용합니다 모델링을 시작할 때마다이 규칙에 아무런 문제가 없습니다 바로 당신은 예측과 정확성을보아야합니다 로지스틱 모델의 정확도 향상 또는 결정 또는 무작위 및 결정은 일반적으로 사용되지 않습니다 우리는 우리 에게이 방향으로 이동해야 할 경우를 대비하여 항상 무작위로 간다 모델을 만들고 해당 모델을 조정하고 결과를 비교해야합니다

그것은 당신이 그것을하는 방법입니다 그것은 항상 재판이며 엄지 손가락 규칙이 없습니다 이 경우에 더 잘 작동해야한다는 것을 알고 있습니다 이 경우에 더 나은 작업 더 나은 Bernie는 우리가있을 때 의미 한 점을 원 이전에 평가 과제를 수행하면서 몇 가지 주제가있었습니다 그렇습니다 그래서 팀원들과 대화를 나 spoke습니다 그들은 코스 커리큘럼의 일부가 아니기 때문에 대치가 있습니다

대치가 나열되어 있기 때문에 다중 공선 성이 있으므로 부분이 아닙니다 당신은 내가 그 주제를 다룰 수 있음을 알고 이 과정의 핵심은이 과정의 핵심입니다 지금 남은 주제는 이제 우리는 예상치 못한 비지도 학습에서 차일을 우리는 우리가 추천 엔진을 가지고 주제를 클러스터링하여이 두 가지로 이동하여 다음 세션에서 다루므로 해당 측면이 코스를 찾아야합니다 다음 세션에서는 커리큘럼이 완전히 감독되지 않은 학습입니다 그래서 우리를위한 학습이 그 후에 클러스터링 기술이 될 것이라고는 생각하지 않습니다

우리는 어떻게 추천 엔진 장면을 만들 수 있는지 볼 것입니다 다시 한 번 추천하면 사용자 기반 협업이라는 것이 있습니다 필터링 및 항목 기반 공동 작업 필터링을 통해 비지도 학습과 같이 PCA를 다루는 것은 축소 치수 축소 기술을 위해 음 그래도 다음 세션에도 코스를 살펴 봐야 했어요 커리큘럼 두 가지가 확실하므로 k- 평균 군집화가 있습니다 확실히 가르치고 내가 추천 엔진이 있습니다 강의를 찾아보아야 할 다른 주제를 확실히 가르치고 있습니다

커리큘럼은 우리가 모델처럼 열 당 코스에 대해 먼저 예를주었습니다 추천 엔진 및 K에 대한 시계열 및 감정 분석 내가들을 수있는 사람이 있다면 감독하지 않는 것이 좋습니다 추천 엔진과 k- 평균 클러스터링 저는 다음 수업에서 그렇게 할 것입니다 시계열과 정서 주말 이후 주말에있을 분석 오늘 다루는 내용과 관련하여 다른 질문이 있습니다 다른 요일에 침을 뱉을 주제로 읽기 괜찮습니다

그 방해가 채팅 창을 채울 수 있기를 원합니다 괜찮을 곳이면 어디든 내가 다시 보낼 게 환자 팀을 죽이는 목록을 다시 Bernie Bernie하시기 바랍니다 및 데이터 데이터 세트 또는 이것은 사과입니다 예, 오늘 저는이 두 파일을 보낼 것입니다 데이터 세트 그렇습니다 그러면 작동 할 것입니다 당신이 경기 침체에 이행해야 집에서 그것을 떨어져 피드백 양식이 있습니다

예 피드백 양식을 작성해야하는 모든 사람 우리는 피드백 양식을 얻습니다 세션을 마치면 자동으로 피드백 양식 괜찮아 친구 주제는 우리가 당신을 마지막으로 논의했을 때와 같습니다 마법 에너지와 같은 주제이고 두 번째 에너지는 학대와 같습니다 결 측값과 특이 치 그리고 다음 값은 오븐에 대한 것과 같습니다 잠깐만 기다려 루덴의이 주제들을 다시 한 번 기다려 봐 코스 커리큘럼에서 벗어나기 때문에 이러한 주제가 강의 커리큘럼에 대해서는 최소한 당신이 그런 주제를 가르 칠 수 없습니다 오늘 30 분은 마지막으로 적어도 새로운 데이터 세트를 가져 와서 그것을 밖으로 넣어 적어도 그것이 절반 밖에 될 레이어를 어디 밖으로보고 참조 다시 한 번 우리에게 좋은 시간 이니까 같은 것을 반복하지만 다시는 내 손에 있지 않습니다

당신이 우리를 설명 할 수있는 시간은 내가 더 나은 예라고 생각합니다 우리가 모델을 알고 있지만 이것들은 우리가 모델링에 가기 위해 필요한 단계 전에 있습니다 좋은 병에 대한 우리가 어떻게 그런 일을 모르는 경우 Kaling 여기서 발생하는 모델을 구현하기가 어려울 것입니다 다시 할 수있는 유일한 것은 운영 팀에 문의하여 추가 주제와 관련하여 추가 세션을 예약하면 너희들이 자유라면 아침에 한 번, 한 번에 밤에 이렇게 세션이 8시에서 10 시까 지이므로 Blake는 운영팀이 오전 7 시부 터 오전 9 시까 지 그러면 내가 할 수있는 일을 할 수 있습니다 우리가 먼저 모든 모듈을 다 다루고 나면 이런 일이 일어날 수 있습니다

추가 주제 후에 우리가 가진 모든 모듈을 마무리해야합니다 이 목록에 추가 주제를 다룰 필요가 있는데 그것은 모든 샘플을 웃고 있습니다 2d 세션과 오늘부터 시작하겠습니다 놀랍지 않은 알고리즘 인 클러스터링은 k- 평균 알고리즘은 오늘이고 심지어 오늘날의 세션조차도 수학적이므로 우리는 k- 평균 군집 알고리즘의 기본 원리를 이해해야합니다 이 열로 구성된 홍채 데이터 세트로 여기에서 보는 것 이전 세션에서이 데이터 세트로 작업해야했기 때문에 settlin sepal Worth 꽃잎 길이 꽃잎 너비와 최종 종 열 기본적으로 우리는 클러스터링 알고리즘을 구축하려고합니다

이 데이터를 확인하고 해당 클러스터링 알고리즘에서 어떤 일이 발생하는지 이해하거나 기본적으로 우리는 클러스터링의 배후에있는 수학을 이해하려고합니다 알고리즘이 맞습니다 시작하겠습니다 여기이 데이터 셋이 있습니다 이제 첫 번째 작업은 중심 값을 얻는 것입니다

기본적으로 각 개별 값을 빼면 평균값은 이제 아래로 스크롤하여 각 평균값을 볼 수 있습니다 열 길이의 나머지 길이는 5 포인트 8입니다 열은 이것들이 값이므로 내가하고있는 일은 기본적으로 가지고 있습니다 여기 첫 번째 레코드 51에서이 값을 평균과 마찬가지로이 중심 값을 얻습니다

49를 빼고 평균값과 여기서 중심 값을 다시 얻습니다 4 점 X 평균값을 뺀 다음 sepal에 대해이 값을 비슷하게 얻습니다 다시 너비가 여기에 3 점 5이므로 3 점을 빼겠습니다 3 점 이상의 5 점, 5 점, 여기이 중심 값을 얻을 것입니다 이것이 우리가 할 수있는 방법입니다 이것이 우리로 알려진 것을 얻는 방법입니다

중심 값이므로 기본적으로 원래 값을 가지며 원래 값을 평균 값과 결과로 빼기 우리가 여기서 얻는 가치는 중심 가치로 알려져 있습니다 기본적으로이 네 개의 숫자 열 모두에 대한 중심 값을 가져옵니다 현재 모든 기록은 기본적으로 방향에 관심이 없습니다 이 수치는 우리가 원하는 위치에 마이너스가 있기 때문에 기본적으로이 빼기 기호를 원하지 않기 때문에 중심 사각형으로 알려진 것이므로 중심 사각형은 기본적으로 이 값의 제곱을 여기에 제곱하면이 값을 제곱하면 그래서 당신이이 마이너스 영점 7-4 일 때 제로 점 5를 얻습니다 5와 비슷하게이 값을 취하고이 값을 제곱하면이 값을 얻습니다 마찬가지로이 값을 제곱하여 중심을 잡을 것입니다

여기 광장은 저를 따르는 모든 사람들이 당신이하고있는 것을 말해줍니다 이 원래 값을 가지고 우리는 원래 값을 빼고 그리고 중심 값을 얻습니다 이제 중심 값을 가져옵니다 그런 다음 우리는 그것들을 제곱 할 것이고 결과는 정사각형 광장입니다 아니면 아니 나를 따라와 그래 좋아 좋아 우리가 기본적으로 원래의 편차를 얻는 것 값 또는 원래 값의 평균과의 편차가 이제 내려옵니다 그래서 내가 할 일은 sepal length에 총 편차를 더하는 것입니다

열과 마찬가지로 102의 값을 얻습니다 총계를 계산합니다 sepal width 열의 편차 나는이 값을 비슷하게 얻습니다 꽃잎 길이의 총 편차 나는 이것을 얻을 것이다 나는 총을 계산합니다 이 열의 편차와 나는 이것을 얻을 것입니다 그래서 기본적으로 이것은 합계입니다 함수를 보면 기본적으로 이것을 요약합니다 규칙 번호 2에서 규칙 번호 51까지이 전체 열의 합을 총 편차 또는 총 분산을 얻습니다 이 칼럼과 비슷하게 나는 이것을 합할 것이다

이 열에 대한 편차를 얻을 수 있습니다 요약하면 편차가 발생합니다 이 열에 대해 요약하고이 열의 편차를 얻습니다 이제 이들은 각각의 개별 열에 대한 변형입니다 이 개별 편차를 모두 더하면 총합이 구해집니다 데이터 세트에 존재하는 편차 또는 총 분산 여기 681이 있으므로 총 제곱합이라고도합니다

총 제곱합은 기본적으로 존재하는 편차의 총합을 나타냅니다 이제 모든 열과 관련하여 이제 다시 데이터 세트에 각 개인 기록에 대해이 차이를 원한다면 총 150 개의 레코드가 있기 때문에이 값을 150으로 나누면됩니다 450 개의 레코드가 있으므로이 값을 나누면 이것이 최종 값입니다 150의 최종 값은 각 값에 분산을 얻습니다 sepal length column과 마찬가지로 068이 될 것입니다

150으로 나눈 값은 01 88입니다 마찬가지로이 세 번째 열을 150으로 나누면 309가됩니다 음식 열을 150으로 나누면이 열을 다시 여기로 가져옵니다 이 모든 것을 합하면 분산이 하나로 나타납니다

누군가가 당신에게 분산을 계산할 수있는 방법을 묻는다면 전체 기록 하나의 단일 레코드에 존재하면 이것을 계산하는 방법이됩니다 날 따라 오는 사람들 모두 예, 아니오 예 왜 말할까요 값의 제곱에서의 반지름 왜 제곱근을하지 않습니까? 그리고 이것이 다시 분산이라고 말하면 우리가 저의 주요 질문은 나는 당신이 당신의 사각형을 알고 있다는 것을이 부분을 이해합니다 양수 값을 가진 제곱이지만 현재 가지고있는 제곱 값입니다 그리고 여기서 얻을 수있는 차이를 얻지 못하는 것을 여기서 보도록하겠습니다 이 용어에서 제곱의 차이가 있습니다

그래서 산 예프는 조금 기다려야합니다 이 모든 것이 10 분 더 기다려야하고이 모든 것이 합쳐집니다 이 값을 총 제곱합이라고합니다 k-means 알고리즘에서 사용할 것이므로 우리는 총 제곱합으로 알려진 제곱과 당신은 제곱의 합 안에 정직한 것을 가지고 있습니다 k- 평균 알고리즘에 관한 세 가지 중요한 구성 요소 기본적으로 총합을 계산하는 방법을 알려주는 아이디어 그냥 제곱의 바로 제곱의 총합을 이해한다는 것을 의미합니다 이것을 제곱이라고 생각할 수 있듯이 제곱은 정확히 오류가 아닐 수도 있습니다

다시 이것은 당신이 이것을 일종의 항공이라고 생각할 수있는 정확한 차이는 아닙니다 이 데이터 세트에 존재하는 편차의 총합은 지금은 좋아 그래 그래 지금은 그냥 당신이 가지고있는이 680을 고려 이것은이 데이터 세트에서 가지고있는 총 편차입니다 여기에있는이 요약표는 같은 것이므로 이 열을 오른쪽으로 밀면이 네 개의 열이 있고 이것이 전체입니다 데이터 세트 이제 여기 보시는 것은 기본적으로 오스카입니다 제가하고있는 것은이 값들을 더할 때 여기로 넘어가겠습니다 중심의 정사각형 값이 맞으므로이 4 개의 값을 더하면 추가 할 때와 마찬가지로 하나의 레코드에 대한이 제곱합 이 네 개를 반대하여이 네 개를 더하면이 값이됩니다 마찬가지로 두 번째에 대한 총 제곱합을 얻습니다 150 개 레코드 모두에 대해 동일한 내용을 추가하면 기본적으로 681이되므로 이것을 합하면 681이됩니다

의심의 여지 없이이 SS가 무엇인지 알려주세요 이것은 기본적으로 각 레코드와 관련된 오류의 합계입니다 이 모든 것을 추가하면 681 인 총 제곱합을 얻을 수 있습니다 k- 평균을 구현 한 후 얻은 클러스터 ID 알고리즘은 다시이 클러스터 ID를 살펴보고 클러스터 ID는 나중에 오른쪽에 할당되어 k- 평균을 구현했습니다 알고리즘과 k- 평균 알고리즘은 첫 번째 행을 차지하고 클러스터 1의 행은 두 번째 행을 취했으며 클러스터 4의 두 번째 행을 참조하십시오

비슷하게 내려가도록하겠습니다 클러스터 번호 3은 기본적으로 각 개별 레코드를 가져 왔습니다 k- 평균 알고리즘에 관해서는 이러한 개별 레코드는 기본적으로 총 150 개의 데이터 포인트가 있으며 각 데이터를 가져 왔습니다 하나의 클러스터에 각 단일 데이터 포인트를 배치하고 여기에 우리는 네 개의 클러스터가 있습니다 150 개의 데이터 포인트가 있으며이를 클러스터링했습니다

이 작업을 수행 한 후 150 개의 데이터 포인트를 4 개의 클러스터로 이 데이터 세트를 생성 된 클러스터와 관련하여 분할했습니다 클러스터 1에 존재하는 모든 레코드를 분리하고 덮어 썼습니다 여기에 클러스터 2에 배치 된 모든 레코드와 비슷하게 분리되었습니다 이것들은 다시 클러스터 3에 존재하는 모든 레코드입니다 이 개별 클러스터 각각에 대해 클러스터 4에있는 모든 레코드 제곱의 합으로 너비를 계산하여 제곱의 합으로 다시 우리는 같은 일을하고 있으므로 이것은 5 점 1이 중앙에 기록됩니다

5 점 1에서이 평균을 뺀 값을 취하면 우리가 그렇게 할 때 우리는 SS 내에서 이것을 다시 얻을 것입니다 평균과 관련하여 그것을 빼고 베일을 잘 싸운 다음 우리는 정사각형을 취할 것입니다 이것이 우리가 여기서 얻는 것입니다 150 개 레코드 중 첫 번째 클러스터에 대해 얻은 총 SS 내 46 3으로 이제 SS 내에서 이것을 총 편차로 간주 할 수 있습니다

군집 1에 존재하므로 전체 편차 또는 존재하는 제곱의 합 첫 번째 클러스터 또는 첫 번째 클러스터 내에서 4가 다시 4입니다 클러스터 번호 2에 대한 것이므로 클래스 번호 2에서 다시이 값을 가져 왔습니다 이 값에서 평균을 뺀 다음 마찬가지로 제곱합니다 이 모든 것을 추가하면 SS 내에서 이것을 얻을 수 있습니다 150 개 레코드 모두에 대해 SS 내에서 계산할 것입니다 다시 클러스터 2에 존재하는 편차 또는 제곱의 합 내 군집 3과 군집 4의 경우와 동일하므로 SS 내에서 계산했습니다

각 레코드에 대해 별도로 너비를 계산했습니다 150 개의 행을 모두 입력 한 다음 다시 클러스터 번호를 갖습니다 각 레코드에 대해 SS 내에서 계산 한 다음 합산하여 클러스터 번호 4에 대한 SS 내 총계 클러스터 내에서 평균을 취한 다음 빼기를 수행하는 것입니다 이 열의 평균값을 여기에 군집 3 다음에이 평균을 빼고 이 기둥을 제곱 한 다음 3 점 2의 더하기 이 열의 평균과 이의 제곱에 4 점 7의 평균을 뺀 값 이 열의 제곱 더하기이 열의 1 점 4 빼기 평균 우리가 어떻게 그 가치를 얻었는지 클러스터 번호는 무작위로 존재하지 않으므로 우리가 얻은 후 얻은 클러스터 번호 k- 평균 알고리즘을 구현 했으므로 지금은 k- 평균 알고리즘에 의해 숫자가 생성되었으므로 우리는 우리와 함께 데모를 할 때 그 후 데모를하고 있습니다 이론이 어떻게 하나의 알고리즘을 취하는 지 이해합니다 이론적으로 클러스터처럼 작동합니다

반복 할 수 있습니까? 나는 알고리즘이 일부 논리를 기반으로 작동한다는 것을 의미합니다 논리적으로이 클러스터를 기반으로 PD 뒤에 무엇이 있고 어떤 논리가 로사 리타를 수동으로 출력하고 싶다면 다시 10 분 더 기다려야합니다 이 수학이 중요하다고 가정하면 먼저이 수학을 완료 한 다음 이론으로 향하면 실용으로 가자 정화 나는 당신이 그것을 해결할 것인지 모르겠다 나중에 제 몸짓으로이 K가 무엇을 의미하는지 이해조차 못합니다 알고리즘은 내가하는 일을 계산하는 동안 그러나 나는 단지 의의와 관련성을 사지 않았습니다 k는 의미합니다 그래서 당신은 내가 지금 당장 해줄 게 처음부터 핵심은 알고리즘이 클러스터링 알고리즘임을 의미합니다 클러스터링 알고리즘은 감독되지 않은 알고리즘이므로 비 감독자와 피 감독 사이에 라벨이 없는가? 비지도 학습은지도 교수의 기본적인 차이점입니다 비지도 및 비지도에서 당신은의 구조를 이해하려고 노력 레이블이없는 데이터를 다시 가져 오므로이 데이터 세트를 사용하면 감독 학습에서 우리가하는 일을 데이터로 나누면됩니다

훈련 및 테스트 세트는 k- 평균 군집화이므로이 데이터를 k- 평균 군집에 제공합니다 알고리즘과 k- 평균 군집 알고리즘은이 데이터 세트를 이제 두 개의 클러스터가 있습니다이 클러스터는 클러스터링에 대한 아이디어가 있어야합니다 높은 클러스터 내 유사성과 낮은 미안은 매우 높았습니다 클러스터 내 유사성 및 클러스터 간 유사성이 있어야합니다

따라서 이러한 용어는 높은 클러스터 내 유사성과 높은 수준을 이해해야합니다 클러스터 간 비 유사성이므로 클러스터 1에 존재하는 데이터 포인트는 무엇입니까? 서로 매우 비슷하며 거북이의 의미는 이 유사점은 클러스터 1과 클러스터 2는 유사성이 없음을 알고 있어야합니다 군집 1과 군집 2 사이의 유사성, 즉 군집 1과 군집 2 사이의 상당한 유사성 때문에 여전히 데이터에서 클러스터링 알고리즘 피크의 간단한 용어로 혼동됩니다 의 기능에 따라 데이터를 여러 개의 클러스터로 나눕니다 이러한 클러스터 뒤에있는 데이터 포인트와 아이디어는 클러스터 유사성 및 클러스터 간 유사성 감소 클러스터 간 유사성이므로 이러한 모든 데이터 포인트는 클러스터 1에 존재하는 것은 비슷해야하므로 인트라 대신에 따라서이 클러스터 1 내의 모든 데이터 포인트는 비슷해야합니다

이것은 클러스터 유사성 내에 있으며 우리는 말하는 대신에 나는 사이에 말할 것이므로 클러스터 유사성 사이에 있으므로 클러스터 유사성 사이에는 존재하지 않아야하므로 이는 상당히 필요합니다 여기서는 클러스터 1과 클러스터 2가 유사하지 않아도되지만 클러스터 1의 데이터 포인트는 클러스터 2의 데이터 포인트와 유사해야합니다 클러스터 3의 모든 데이터 포인트가 비슷해야하므로 감각 또는 당신이 여전히 의심이있는 경우 다시 우리는 경기가 연결될 것이라고 말하는 모든 것을 다룰 것입니다 모두 의심의 여지없이 클러스터링 알고리즘이 무엇인지 알려주십시오 여기에서 클러스터링 알고리즘의 목표는 무엇입니까 나는 다른 사람들이 빠르다는 것을 발견하고있다

예 또는 아니오까지 우리가 다루는 내용까지 우리가 어떻게 지내고 있는지 알 수 있습니다 제곱의 합계 내에서 이것을 계산하면 모두 빠른 확인하십시오 그래도 우리는 각각의 클러스터는 지금 당장 클러스터 1에 대한 제곱의 합계 내에 있지만 클러스터 2에 대한 제곱의 합입니다 클러스터 3에 대한 것입니다 클러스터 4에 대한 제곱의 범위 내에서 지금 내가 뭘 악화시킬까요? 이전 섹션에서 우리는 바로 음을 가지고 있었으므로 다시 프로세스 흐름을 다루겠습니다 k-me 뒤에는 수학이 이것을 먼저 이해하는 것이 중요하다고 말합니다

여기의 탭은 우리의 총 합을 계산했습니다 제곱과이 총 제곱합은 689가되었으며이 탭에서 각 제곱을 알 수 있도록 제곱의 범위 내에서 계산 클러스터 1 클러스터 2 클러스터 3 및 클러스터 4의 제곱의 합 이 클러스터 각각에 대해 제곱의 합 안에이 모든 것을 더합니다 이 값을 얻을 수 있으므로 이것은 현재 제곱의 합계 내에서 total이라고합니다 이 두 값을 보면 k- 평균을 적용하기 전의 경우입니다 k- 평균 알고리즘을 적용한 후의 경우 알고리즘을 적용하기 전에 총 제곱합의 값을 데이터 세트의 편차는 681이며 카미를 적용한 후 알고리즘은 그 이후 681에서 처음 71 비율로 떨어졌습니다 k- 평균 알고리즘과이 총 제곱합을 적용하여 71로 줄었습니다 이제 내 질문은 나머지 오류가 어디에 있습니까? 그래서 이것이 초기입니다 우리가 k- 평균 알고리즘을 수학에 적용한 후의 제곱합 편차와 총 제곱합이 감소했음을 이해할 수 있습니다 모두가 이것에 동의하므로 너희들에게 내 질문뿐만 아니라 내가 어떻게 우리가 71 45를 얻을 수 있는지를 그릴 때 오류가 발생했습니다

클러스터 1 클러스터 2에 대한 증인입니다 클러스터 3에 대한 증인입니다 이 4 개의 값을 모두 추가하면 군집 4에 대한 증인이 70 145가됩니다 알았어

고마워 그래서 이제 누구라도 이해할 수 있겠 니? 여기 k-means가 어떻게 작동하는지에 대한 단서가 생겼습니다 시나리오 우리는 k- 평균을 적용했고 k- 평균은 우리에게 네 개의 클러스터를 뒤집어 주었다 SS 내에서이 총계를 보면 편차가 줄어드는 것을 볼 수있었습니다 알았어 이미 클러스터 내에서 말했듯이 우리가하고있는 일 유사성과 클러스터 간 비 유사성이므로이 값은 가능한 한 낮으므로 제곱의 합계 내에서 총합입니다 이 값이 가능한 한 낮다면 클러스터는 SS간에 가능한 한 유사합니다

SS 사이의 이것은 클러스터 사이의 제곱의 합이므로 이것은 클래스 내에서 사각형의 일부입니다 클러스터 내에서 제곱의 합으로 모든 점이 옆에 있고 이 모든 클러스터에 대한 제곱의 합을 요약하면 71까지 나오고 609는 4 사이의 제곱의 합입니다 당신이 우리를 이해할 수있는 것은 매우 많은 양이 있습니다 내부 클러스터 2 내부와 클러스터 2 내부의 유사성 클러스터 3 및 클러스터 4 내부이지만 시도 할 때와 볼 수있는 경우 클러스터 간의 유사성 사이에 유사성이 있는지 확인하십시오 클러스터 4 또는 클러스터 3 및 클러스터 1의 클러스터 1 및 클러스터 2 또는 스러 스터 1 바로 그때 SS 사이가 상당히 높고 이것이 k- 평균의 목표입니다 알고리즘 또는 다른 클러스터링 알고리즘이므로 클러스터링 알고리즘 데이터 세트를 가져 와서 데이터 세트를 클러스터로 나눕니다 군집 유사성이 높아야하고 군집 유사점 사이에 있어야합니다

총계 제곱합을 따르는 모든 사람이 제곱 총 증인과 우리 사이에 여기를 통해 떨어지는 모든 사람들이 키의 기본 수학은 빠른 예 또는 아니오 예를 의미합니다 괜찮은 일에 대한 마지막 버그 요약 테이블에 다시 표시하겠습니다 변동성 섹션 우리는 전체에 대한 총 제곱합을 계산했습니다 데이터 세트와 681에 도달했습니다 k- 평균 알고리즘을 적용하여 k- 평균 알고리즘을 적용했습니다 이 데이터 세트를 4 개의 클러스터로 나누었고 우리가 한 것은 각 군집에 대한 제곱의 합 내에서 군집 1 군집 2 + 2 3 및 군집 4의 제곱이므로 증인입니다

클러스터 2에 대한 클러스터 1 감시자 클러스터 3에 대한 감시자 및 감시자 클러스터 4의 경우이 4 개를 합하면 이 681의 제곱은 적용하기 전의 총 제곱합입니다 k- 평균 알고리즘과 k- 평균 알고리즘을 적용한 후 681에서 71로 떨어졌습니다 150 개 데이터 포인트가 모두이 네 개에만 있음을 이해해야합니다 이 네 개의 클러스터에 관해서는 다시 유사성이 있습니다 매우 높기 때문에이 편차가 681에서 감소한 이유입니다

609 더하기 71을 더하면 681이됩니다 나머지 609는 당신이 제곱합 사이라고 부르는 것을 제곱합 사이의 것은 클러스터 간의 비 유사성으로 인해 클러스터링의 기본 개념 알고리즘은이 값을 최소화하고이 값을 증가시켜이 값을 낮추는 것입니다 클러스터 내부의 유사성이 높을수록이 값이 높아집니다 클러스터 간의 유사성이 더 커지므로 k- 평균 알고리즘 뒤의 전체 수학 그게 좋은거야 다른 것들도 마찬가지입니다 이것이 핵심 수단의 주요 부분이므로 이해한다면 이 다음 나머지는 당신이 경우에 단지 빠른 정보 사람 케이크 조각입니다 공인 데이터 센스 전문가가되고 싶다면 intellibid에서 제공하는 데이터 과학 과정은 과정 링크를 찾을 수 있습니다 아래 설명 상자에있는 경우이 세션을 마치면 당신은 질문이있는 경우 아래의 의견 상자에 의견을 넣어 주시기 바랍니다 우리는 즉시 연락을 드릴 것입니다 다가오는 비디오에 대한 업데이트이 비디오를 시청 해 주셔서 감사합니다