Decision Tree Machine Learning | Decision Tree Python | Intellipaat

안녕하세요, Intellipaat에 오신 것을 환영합니다 오늘 세션에서 우리는 배울 것입니다 의사 결정 트리에 대해

우선, 왜 관심을 가져야하는지 알려 드리겠습니다 의사 결정 트리에 대해 학습합니다 의사 결정 트리는 개략적이고 지리적입니다 의사 결정 기반 문제의 가능한 모든 솔루션에 대한 표현 그것 현명한 결정을 내리는 데 사용됩니다 데이터 분야에서 매우 중요 할뿐만 아니라 과학이지만 기계 학습 분야에서도 매우 중요합니다

예측 분석에 사용됩니다 따라서이 중 하나에 관심이 있다면 필드가 끝날 때까지 계속 지켜봐야합니다 비디오 이제 진행하기 전에 Intellipaat의 YouTube를 구독하십시오 다가오는 비디오를 놓치지 않도록 채널을 만드십시오 그래서 먼저 우리는 의사 결정 트리가 무엇인지 배우고 실제 예를 들어 의사 결정 트리를 작성하는 방법을 배우겠습니다

인증 된 데이터 과학에 관심이 있다면 전문가라면 Intellipaat에서 제공하는 데이터 과학 과정을 확인하십시오 당신 설명 상자에서 아래 과정 링크를 찾을 수 있습니다 이제 더 이상 지연, 시작합시다 의사 결정 트리는 기본적으로 기술 또는 데이터입니다 의사 결정에 도움이되는 우리가 구축 한 구조 그래서 여기에 모든 내부 노드는 속성에 대한 테스트 조건을 나타냅니다

리프 노드는 데이터가 분류되는 범주입니다 그럼 보자 이것을 더 잘 이해하기위한 예 그래서 당신이 당신의 관리자라고 가정 해 봅시다 통신 회사와 당신은 어떤 요인이 무엇인지 이해하고 싶어 고객이 이탈하도록합니다 따라서 의사 결정 트리를 구축하기로 결정했습니다 이제이 의사 결정 트리 일련의 테스트 조건을 제공합니다

여기 루트 노드 성별, 즉 첫 번째 조건은 성별 열에 의해 결정됩니다 그래서 고객이 남성입니다 그런 다음 우리는 그의 지속 시간을 더 결정할 것입니다 보유 반면에 고객이 여성 인 경우 다음 테스트 조건 월 청구액을 기준으로합니다

고객이 남성이라고 가정 해 봅시다 그때 우리는 그의 임기를 확인하고 그의 임기가 30 개월 미만이면, 그는 휘젓다가 다시 재직 기간이 30 개월을 넘으면 같은 회사에, 그리고 이것은 최종 예측입니다 의사 결정 트리에서 제공합니다 마찬가지로 여성 고객을 확보하면 월 청구 금액을 확인해야합니다 따라서 월 청구액이 더 큰 경우 80 달러 이상이면 이탈하고 월 청구액이 80 달러 미만이면 그녀는 같은 회사를 고수 할 것입니다 그래서 우리는 다음에 대한 일련의 대안을 탐색하고 있습니다

특정 결정 지점에 도달하십시오 이제 결정이 무엇인지 이해 했으므로 트리에서 의사 결정 트리의 유형을 살펴 보겠습니다 따라서 의사 결정 트리는 분류 트리 또는 회귀 트리 분류 트리는 반응 또는 목표 변수는 본질적으로 범주 형이며 회귀 트리는 반응 변수가 수치 적으로 낮거나 연속적 일 때 사용됩니다 자하자 데이터 세트 A가 있고 그 안에 n 개의 레코드가 있다고 가정하십시오

이제 내가 할 일은 이 데이터 세트에서 샘플을 추출합니다 실제로 이것은 바꿔 놓음 즉, 데이터 세트 A에서 하나의 레코드를 가져 와서 기록하고 데이터 세트 A1에서 동일한 샘플을 찾은 다음 원래 위치로 레코드를 다시 넣습니다 에서 이 프로세스를 n 번 반복하여 데이터 세트에 n 개의 레코드가 있습니다

A1도 따라서 명심해야 할 것은 A1의 레코드 중 일부는 두 번, 세 번 또는 여러 번 올 수 있습니다 A의 일부 레코드는 A1에 전혀 기록하지 않았을 수 있습니다 그래서 나는 이렇게 A1을 만들었습니다 그런 다음 계속해서 여러 데이터 집합을 만듭니다

같은 방식으로 저는 A1, A2, A3까지 Ax까지 있고 각각은 A와 같은 수의 레코드입니다 여기있는 X는 무엇이든 가능합니다 의 말을하자 100, 500 또는 심지어 1000까지도 가능합니다 따라서 하나의 데이터 집합 A만으로 우리의 이점을 위해 여러 데이터 세트

데이터 세트 A를 가정 해 봅시다 1000 개의 행이 있고 x의 값도 1000입니다 따라서 1000에 1000을 곱한 값입니다 백만 행, 즉 1000 행에서 데이터를 통해 백만 개의 행을 얻을 수있었습니다 이제 우리가 할 일은이 X 각각에 대해 데이터 세트, 각각 하나의 의사 결정 트리에 맞을 것이므로 X 의사 결정 트리가옵니다 X 데이터 세트에서

이제 나무 그룹이 생겼습니다 다시 말해 우리가 여기있는 것은 나무의 앙상블입니다 이제 새로운 것을 말합시다 리가 사라졌다 그런 다음이 레코드를 각각에 전달합니다 이 X 나무들과 우리는이 클래스들이 어떤 나무인지 예측할 것입니다 새로운 기록이 나타납니다 우리는 X 나무를 가지고 있기 때문에 X를 얻을 것입니다 예측, 즉 X가 500이라고 가정하면 500 개의 예측을 얻게됩니다

마찬가지로 X가 1000이면 1000 개의 예측값을 얻게됩니다 이제 최종을 얻으려면 예측, 우리가해야 할 일은 대부분을 가질 클래스를 선택하는 것입니다 개별 나무에서 모든 예측에 걸쳐 숲의 그래서 우리가 여기서 실제로하고있는 일은 모든 예측을 집계하는 것입니다 이 나무들 여러분, 이것이 배깅의 개념입니다

간단한 정보들 : 만약 당신이 인증 된 데이터 과학 전문가가되는 데 관심이있는 경우 Intellipaat에서 제공하는 데이터 과학 과정 아래 설명 상자에서 코스 링크를 찾을 수 있습니다 이제 계속합시다 세션과 함께 따라서 우리는 동일한 예제를 사용하여 포장하고 차이가옵니다 다시, 데이터 세트 A가 있고 n 개의 레코드가 있습니다

그것 이제 내가 할 일은이 데이터 세트에서 샘플을 그리는 것입니다 그래서 이건 실제로는 대체품으로 샘플링 할 것입니다 데이터 세트 A의 레코드를 기록하고 데이터 세트 A1에 동일한 샘플을 입력 한 후 레코드를 원래 위치로 되돌려 놓으면이 과정을 반복하겠습니다 데이터 세트 A1에도 n 개의 레코드가 있도록 n 번

그래서 필요한 것 명심해야 할 것은 A1의 n 개 레코드 중 일부는 두 번, 세 번 또는 여러 번 올 수 있지만 A의 일부 레코드는 그렇지 않을 수 있습니다 전혀 A1에 만들었습니다 그래서 저는 이와 같이 A1을 만들었습니다 계속해서 같은 방식으로 여러 데이터 세트를 생성하십시오 A와 같은 수의 레코드와 여기의 x는 무엇이든 될 수 있습니다

100, 500 또는 심지어 1000까지도 가능합니다 따라서 하나의 데이터 집합 A만으로 우리를 위해 여러 개의 datset을 만들 수 있습니다 우리를 위해서만 데이터 세트 A에 1000 개의 행이 있고 x의 값도 1000이라고 가정하겠습니다 따라서 1000에 1000을 곱하면 백만이됩니다 행 즉, 단 1000 행의 데이터에서 1 백만 행을 얻을 수있었습니다

지금까지 프로세스는 배깅과 동일합니다 이것이 차이점입니다 온다 이제 우리가 할 일은 각각의 X 데이터 세트에 대해 하나의 결정에 맞을 것입니다 의사 결정 트리를 작성하는 프로세스가 여기에서 변경됩니다 자, 이 A1 데이터 세트에 10 개의 독립 변수가 있다고 가정하십시오

이제 자루에 넣을 때 이 10 개의 독립 변수를 모두 분할에 대한 선택으로 간주 후보이지만 임의 포리스트에서 발생하는 일은 노드가있을 때마다 의사 결정 트리에서 분할하면 열 10 개가 모두 제공되지는 않습니다 연산 이 사람이 퇴각하는 것이 중요합니다 그래서 매번 노드가 의사 결정 트리에서 분할되고 있으며 10 개의 열이 모두 제공되지는 않습니다 랜덤 포레스트 알고리즘

이제 질문이 생겨서 어떻게 될까요? 알고리즘에 사용할 수 있습니까? 따라서이 10 개의 열 중 임의의 하위 집합 만 알고리즘에 사용할 수 있습니다 이 루트 노드를 분할하고 싶다고 가정하겠습니다 지금 10 개의 열을 모두 제공하는 대신이 열의 하위 집합 만 제공 제공됩니다 3 개의 열을 말하고 10 개 중 하나 일 수 있습니다 이 3을 사용하면 알고리즘이 노드를 분할합니다

마찬가지로 여기 왼쪽 노드에 다시 3의 임의의 세트가 제공됩니다 변수 왼쪽 노드가 동일한 3을 가져야 할 필요는 없습니다 변수 모두 3 개의 열 집합이 될 수 있습니다 우리가있을 때마다 노드를 분할하면 전체에서 임의의 'm'예측 변수가 제공됩니다

예측 자의 공간과 이것이 수행되는 이유는 각각의 X 트리를 만드는 것입니다 매우 다릅니다 이제 bagging과 Random Forest를 비교해 봅시다 따라서 자루에 넣을 때 모든 나무에는 사용 가능한 전체 예측 공간이있었습니다 결국 건물을 짓게 될 나무는 매우 비슷할 것입니다 서로에게, 그리고 랜덤 숲의 경우, 우리는 제공된 열과 관련하여, 즉 임의의 열 집합 만 전체 예측 공간에서 제공되므로 결정이 내려집니다

당신이 얻을 나무는 서로 상당히 다를 것입니다 지금 후 이 단계는 포장과 비교할 때 거의 동일합니다 그래서, 새로운 기록 Ri 나는 떠난다 그런 다음이 레코드를 각각에 전달합니다 이 x 나무와 우리는 그의 클래스에 대한 각 나무의 예측을 얻을 것입니다 새로운 기록이 나타납니다

x 개의 나무가 있으므로 x를 얻게됩니다 예측 최종 예측을 얻으려면 우리가해야 할 일은 선택입니다 대부분의 투표권을 가진 클래스 ——- 개별 나무의 모든 예측 자 여러분, 이것이 랜덤의 개념입니다 숲 오늘은 실제로 세 가지 다른 패키지를 사용하여 결정 트리 우리는 나무를 사용하고 자동차 부품을 사용하며 또한 파티 패키지에서 ______ 수하물 ctree 기능 사용 그래서, 우리는 의사 결정 트리 모델을 구현하는 세 가지 다른 기능을 배웁니다

그래서 먼저이 ISLR 패키지 라이브러리를로드하여 시작하겠습니다 자, 이것 패키지에는 기본적으로이 카시트 데이터가 있습니다 따라서 데이터를 말해야합니다 카시트 이 데이터를로드해야합니다 이제하자 이것에 대해 살펴보십시오

이것은 기본적으로 판매가있는 첫 번째 데이터 세트입니다 다른 차의 이제 도움을 요청하고 이에 대한 설명을 보여 드리겠습니다 이것은 어린 이용 카시트 판매를 포함하는 시뮬레이션 된 데이터 셋입니다 400 개의 서로 다른 상점이 있으며 이들은 서로 다른 열입니다

판매는 단위 판매입니다 각 위치에서 경쟁 업체가 각 위치에서 청구하는 가격을 지역 사회 광고 예산, 인구 및 자동차 좌석에 대한 크기, 가격 회사 요금 및 나머지는 열 우리가 할 일은 먼저 분류부터 시작하겠습니다 어제 세션에서 여러분에게 말했듯이 의사 결정 트리는 두 가지 모두에 사용될 수 있습니다 분류 및 회귀 목적 이 데이터 세트에서 기본적으로 무언가를 분류하려고합니다 첫 번째 작업은이 판매를하는 것입니다 열을 나누고 실제로 이것을 범주 열로 변환하십시오

따라서 판매 가치가 8 이하인 경우에는 다음과 같이 태그를 지정합니다 낮은 마찬가지로 값이 8보다 큰 곳에서는 그 값을 높게 표시합니다 그것은 우리의 첫 번째 작업이 될 것이며, 분류 작업이기 때문에 범주 열이 필요합니다 그렇게하겠습니다

이 ifelse 함수를 사용하겠습니다 우리가하는 일은 카시트에서이 판매 칼럼을 가져 오는 것입니다 데이터 세트이며 값이 8보다 작은 경우에는 아니오라고 말할 것입니다 그래서 기본적으로 자동차 판매량이 많지 않고 8 대 이상인 곳에서는 예 계속해서이 새로운 변수를 만들어 봅시다 그래서 나는 실제로 이것을 작은 C로 먼저 변환하십시오

이 데이터 세트를 가져 와서 새 객체에 저장합니다 대문자 C 이것은 작은 C입니다 여기에서 판매 열을 가져오고 값이 작은 곳 8보다 크면 새 것으로 태그를 지정하고 값이 8보다 큰 경우 예라고 태그를 붙입니다 그 결과를 높은 물체에 넣겠습니다 이제 새 데이터를 만들겠습니다 이 어린 이용 카시트 데이터 세트의 모든 열로 구성된 프레임 이 새 오브젝트를 추가하면 카시트에 다시 저장합니다

그래서보기 여기, 우리는이 새로운 열을 추가 한 것을 볼 수 있습니다 그것은 그렇습니다 그리고 그렇습니다 따라서 '예'는 기본적으로 판매 가치가 8보다 크고 값이 없으면 판매 값이 이제 8과 같거나 작습니다 이제 우리는 데이터 셋을 가지고 있습니다 모델을 빌드하십시오

실제로 트리 기능부터 시작하겠습니다 쓰다 트리 기능을 사용하려면 트리 패키지가 필요합니다 이것을로드하겠습니다 (이미 높은 열 또는 _____) 아니요 새 열을 만들고 있습니다 기둥

실제로 원래 데이터 세트를 보여 드리겠습니다 어린 이용 카시트보기 : So 이것은 높은 열로 구성되지 않은 원래 데이터 프레임입니다 그래서 내가하고있는 일은, 나는이 판매 칼럼을 가져 가고 있으며 어디에서나 값이 8 이하인 경우 아니요로 태그를 지정합니다 8보다 크면 예로 태그를 지정합니다 그 결과 나는 그것을에 저장합니다 새 개체와 해당 개체의 이름을 높게 지정하십시오

이것이 기본적으로 우리의 새로운 것입니다 기둥 새 열을 카시트 데이터 프레임에 추가합니다 원본 데이터 프레임 결과를 카시트에 다시 저장하겠습니다 할 수 있는 이것을 따라? 네

여기에 데이터 세트가 있습니다 이제 시간이야 모델을 빌드합니다 당신이에 관심이 있다면 그냥 빠른 정보 사람 인증 된 데이터 감각 전문가 및 데이터 과학 과정 확인 intellibid에서 제공하는 아래 설명 상자에서 코스 링크를 찾을 수 있습니다 이제 세션을 계속 진행하고 사용할 모델을 빌드하겠습니다 트리 패키지이므로 이제 트리 라이브러리는이 트리 함수를 사용하고 결과가 높은지 아닌지, 다시 말해서 판매 가치가 다른 모든 열을 기준으로 높거나 높지 않으므로 다른 열과 관련하여 알고 싶은 경우 여기에 여기에 점을 대어 종속 변수가 높고 독립적입니다

변수는 나머지 열입니다-판매는이 높은 열이기 때문에 판매 열에서 바로 생성되었으므로 모든 열을 사용하겠습니다 씰을 제거하여 판매 열을 두 번 제외하고는 독립 변수와 다시 데이터 세트를 분할하지 않습니다 이제이 전체 데이터 셋 위에이 모델을 직접 구축하고 있습니다 이제 데이터는 카시트와 동일하게됩니다 이것은 나무 점 자동차 좌석의 요약이며 이것은 다른 것에 대해 알려줍니다

독립 변수와 우리가 가진 터미널 노드의 수와 오 분류 오류율은 이제 실제로 진행해 보도록하겠습니다 이 나무 점 자동차 좌석의 줄거리 이제 우리는 계속해서 텍스트를 추가 할 것입니다 이 텍스트와 우리는 당신이 만든 것과 동일한 모델을 전달할 것입니다 제로와 같습니다 이걸 제로로 제거하면 기본적으로이 범주 열은 Dixon이 알았어 이제 이걸 먼저 빼자 내가 이것을 플롯 할 때 당신은 이제 알파벳 수준의 범주 레벨을 얻습니다

이름과 관련하여 범주 열을 원한다면 케빈은 0과 꽤 같아서 여기서이 부분을 삭제하겠습니다 여기에 실제 범주 형 열이 표시되므로 이제 실제로 이걸보고 무슨 일이 일어나고 있는지 이해해서 첫 번째 스플릿 포인트는 선반 위치 열을 기준으로합니다 이것은 열이며 여기에서 첫 번째 분할을 결정합니다 값이 나쁘거나 중간 인 경우 왼쪽의 왼쪽으로 이동합니다 다른 한편으로 가치가 좋다면 우린 오른쪽으로갑니다 다시 오른쪽으로 갑시다

가격이 작은 지 확인하겠습니다 135 가격이 135보다 작 으면 다시 왼쪽으로갑니다 가격이 백보다 작은 지 확인하고 가격이 백보다 작은 지 확인하십시오 9시 판매 가치가 높을 것입니다 마찬가지로 이것은 여기에서도 같은 일을하므로 이것이 우리가 방금 구축 한 의사 결정 트리 지금은 전체 데이터를 기반으로 구축 한 모델입니다 우리가 할 일은이 데이터를 기차와 자산으로 나누고 열차 세트 위에 모델링하고 테스트 위에 값을 예측 다시 설정하면 동일한 패키지 CA 도구를 사용하게됩니다 샘플 도트 스플릿 기능 이것을로드 할 것이므로 먼저 시드 값을 설정하겠습니다 여러분도 같은 값을 얻도록 시드 값을 101로 설정하겠습니다 여기에서 샘플 도트 스플릿 기능과 스플릿 기준을 열 및 분할 비율은 0

65이며 기본적으로 65 %의 레코드가 훈련 세트 및 35 % 기록이 시험에 들어갑니다 그리고이 n split 태그를 훔쳤습니다 이제 부분 집합 함수를 사용하고 전체 카시트 데이터 세트에서 서브 세트 기능의 도움 split 태그 값이 참이면 어디든지 trainset에 저장합니다 분할 태그 값이 거짓이면이 전체 카시트 데이터 세트에서 테스트 세트에 저장하여 교육 및 테스트 세트를 준비하십시오 계속해서 훈련 세트 위에 모델을 구축하겠습니다 트리 함수를 사용하고 다시 수식은 여기에서 동일합니다 종속 변수이며 영업 항목을 제외한 다른 모든 항목은 독립 변수와 우리는 기차 위에이 모델을 구축하고 있습니다 이 시간을 설정 보니 내가 방금 잃어버린 태그는 2와 같고 여기에서 오는 것이 좋습니다

그래서 샘플 도트가 나옵니다 함수는 먼저 두 개의 매개 변수를 취합니다 기본적으로 열에 있습니다 두 부분으로 나누고 싶고 종속 변수가 높기를 원하기 때문에 우리는 이것을 분할 기준으로 취하고 분할 비율은 기본적으로 분할 비율은 기본적으로 true 또는 false 값을 제공하므로 65 %의 관측치에는 실제 레이블이 있고 나머지 35 % 관측치에는 잘못된 라벨과 분할 태그에 저장했습니다 이제 이것을 인쇄하겠습니다

태그를 분할하여 여기에 여러 개의 참과 거짓 값이 있습니다 그래서 내가 할 수있는 참과 거짓 값의 무리에서 스플릿 태그 값이 참인 모든 카시트 데이터 세트 이 기록들 중 하나를 차 전체와 비슷하게 열차에 보관하십시오 split 태그 값이 false 인 곳마다 좌석 데이터 세트 첫 번째 기록을 위해 여기에 테스트를 설정하고 우리가 할 때 그 부분을 이해합니다 이 분할 비율과 태그를 저장 및 분할하면 true 또는 false로 지정됩니다 65 %의 비율로 예, 기본적으로 부서는 6535입니다 Saqqara 5 % 신은 진실의 35 %가 잘못을 가지고 이것을 사용할 것입니다 여기 모두 사실이므로 모든 사람이 따라갈 수 있습니다

이 오른쪽 그는 분할 태그를 만들었고 이제는 하위 집합 기능을 사용하고 전체 카시트 데이터 세트에서 분할 태그가 사실임 전체 카시트 데이터 세트에서 분할 태그와 유사하게 기차에 저장합니다 거짓으로 테스트에 저장하여 교육 및 테스트 준비를 마쳤습니다 훈련 세트에 모델을 구축 할 시간이므로 기능 존중은 트리 함수를 사용하고 종속 변수가 높고 독립적입니다 변수는 봉인 열을 제외한 모든 것을 취할 것입니다 컬럼은 기본적으로 판매 컬럼에서이 높은 컬럼을 만들었습니다

열차 세트 위에이 모델을 구축하고 있으며이 모델을 저장합니다 나무 점 자동차 좌석에서 나는 지금 내가 입력하자 이 줄거리를 한눈에 볼 수 있도록 이번에는 다시 플롯을 만들겠습니다 분할 기준이 결정된 첫 번째 분할 기준이 결정됨 가격이 90보다 작 으면 가격이 90보다 크면 오른쪽으로 이동하여 기본적으로 여기에있는 전체 결정 트리이므로 이제 모델도 계속 진행하여 값을 예측하고 예측 함수를 사용할 값으로 첫 번째 매개 변수는 모델이므로 두 번째 매개 변수를 만든 것은 테스트 세트입니다 테스트 세트 상단의 값과 세 번째 매개 변수는 예측은 예측 유형이 클래스이므로 기본적으로 직접 여기에 결과가 있으므로 클래스는 기본적으로 예 또는 아니오이며 다시 우리는 이 결과 트리 도트 빵을 바로 저장하여 이제 값들을 혼동 행렬을 만들 것입니다 실제 값은이 테스트 달러 높이에서 가져 오므로 실제 값은 값과 이것들은 3 개의 점이있는 예측 된 값입니다

빵은 우리에게 혼란 매트릭스를 제공 하므로이 값은 기본적으로 그 중에서 알려진 모든 실제 값은 68 그것들은 정확하게 그리고 이것은 우리가 알려진 실제 값 또는 그중 15 개를 예라고 잘못 분류하고이 18 개는 기본적으로 실제로 예인 값은 아니요로 잘못 분류하고 이 39 개는 실제로 그렇습니다 예로 분류 했으므로 기본적으로이 왼쪽 대각선은 올바르게 분류 된 관측치 및이 오른쪽 대각선은 모든 잘못 분류 된 관찰과 정확성을 얻기 위해 이것을 왼쪽으로 나눕니다 모든 관측치에 대해 대각선 인증 된 데이터에 관심이 있다면 간단한 정보를 얻을 수 있습니다 감각적 인 전문가가 제공하는 데이터 과학 과정을 확인하십시오 intellibid 아래 설명 상자에서 코스 링크를 찾을 수 있습니다

세션을 계속 진행하여 68 + 39를 68 + 39 + 15로 나눕니다 플러스 18 그리고 이것은 우리에게 76 %의 정확도를 제공합니다 어제 수업에서 나무가 완전히 자란 것을 알게되었습니다 여기에서 우리가 할 일은 계속해서이 나무를 잘라 내고 가지 치기 후 모델의 정확도에 어떤 차이가 있는지 확인 좋아요, 그 테이블을 위해 우리는 조금해야 할 것입니다 교차 검증의 첫 번째 어제 또한 우리는 보았거나 핵심 폴드 크로스 CV 도트 트리는이를 위해 정확하게 사용되므로 CV의 도움 도트 트리 기능 우리는 교차 검증과 스테이크를 둘로 할 수 있습니다 우리가 만든 모델로 매개 변수를 먼저 지정하고 다음으로 너무 정리하는 함수입니다 닷 미스 클래스는 기본적으로 우리가이 교차 검증을하고 있다고 말합니다 나무를 가지 치기의 목적이며 이것은 기본적으로 내장 함수입니다

백그라운드에서 전체 작업을 수행하고이를 CV 도트 카시트에 저장합니다 이제 CV 도트 카시트를 바로 인쇄하겠습니다 이것이 기본적으로 하나의 루트 노드로 시작하여 트리의 크기를 그래서 하나 둘 셋 증가하고 마지막으로 우리는 나무가 총 24 개의 터미널 노드이며 이는 MIS 분류 비율입니다 여기에 기본적으로 하나의 노드 만 있으면 resub 상황 오류와 같은 최대 값이며이 터미널 노드가 모두있을 때 완전히 자란 나무이므로이 자란 나무는 최소한의 경감 또는 다시 말해, 분류로 최소값을 가지며 이는 비용입니다 서로 다른 레벨의 각 노드와 관련이 있습니다 교차 검증을 통해 CV 도트 카시트 플롯을 그릴 수 있습니다

기본적으로 나무의 크기로 보는 것을 여기에서 확대 해 봅시다 오 분류 율이 증가 할 때까지 오 분류 율을 증가시킵니다 처음에는 2 개 또는 3 개의 노드와 같은 위치에서 다시 증가합니다 매우 높은 미스 분류로 인해 노드 수를 읽을 때 15 세에서 16 세 사이에 우리는 최소 오 분류 율을 보였습니다 우리가 계속 헤어질 때 실제로 미스 증가 이상적인 노드 수로 알 수있는 분류 15 개 정도 쯤 되니까 기본적으로 나무를 가지 치기합니다 그래서 우리가이 포스트 정리 전이나 복잡성을 야기하는 가지 치기 때문에 우리는 이것이 올바른 생각이 아닌 완전히 자란 나무라는 것을 알았습니다 실제로이 값을 인쇄 해 보도록하겠습니다

16시 16 분에이 미스 분류가 다시 증가했습니다 내가 할 일은 여기에 16이 될 노드 수를 가진 모델을 만들 것입니다 이 값을 16으로 설정하겠습니다 이번에는 함수를 작성하겠습니다 프룬 도트 미스 절을 사용하고 있으므로이 프룬 도트 엉망 클래스는 가장 좋은 값으로 트리를 정리하거나 최대 수의 노드 수만큼 Rob 16 살이되고 그 결과를 저장해 두겠습니다 나는 자두 점 자동차 좌석의 홍수를 줄입니다

이제 우리에게 텍스트를 추가 할 것입니다 맞습니다 그래서 이것은 12 34 5678 9 10 11 12 13 14 15 16을 갖습니다 완전히 자란 나무이지만 그 후에 우리는 약간의 교차 검증을 한 다음 완전히 자란 나무는 좋은 생각이 아니라는 것을 알았습니다 완전히 자란 나무는 우리에게주지 않으므로 특정 지점 후에 오 분류 율은 기본적으로 증가하므로 완전히 자란 나무와 우리는 16의 레벨이 있다는 것을 이해했습니다 여기서 노드 분할을 중지해야하므로 이제 우리가 할 것은이 자두로 값을 다시 예측할 것입니다

나무는 계속 진행하겠습니다 다시 한 번 저는 오페라 기능을 다시 사용할 것입니다 테스트 세트 옆에있는이 가지 치기 된 트리로 먼저 매개 변수를 설정 한 다음 우리는 내가 입력 할 클래스 인 유형을 가지고 있습니다 우리가 이번에 얻는 정확도가 무엇인지 봅시다 68 더하기 40을 68 더하기 40 더하기 70 더하기 15 더하기 15 앞에서 보았 듯이 초기 정확도는 76 %였습니다

여기에 초기 값을 인쇄하여 68 + 39로 나옵니다 68 더하기 39 더하기 18 더하기 15 더하기 그러나 그 후에 우리는 계속해서 나무를 잘라 내고 예측했습니다 나무를 가지 치기 후 다시 77의 정확도를 얻습니다 68 + 40을 68 + 40 + 17 + 15로 나눈 비율입니다 77 %의 정확도를 가지므로 모든 사람이 우리가 어떻게했는지 이해할 수 있습니다 가지 치기를하고 가지 치기 후 어떻게 더 나은 정확도를 얻었습니까 여기에 질문이 있으시다면 카레 자리 값은 기본적으로 이제 기본적으로이 모델을 만들 때 모두 다를 수 있습니다 내가 얻는 것과 같은 값을 원한다면 스키를 타십시오

시드 값 또는 동일한 결과 바로 다른 토끼 토끼 실제로 나는에 대해 분명했다 무들은 실제로 씨앗을 볼 때마다 당신이 줄 것입니다 희망과 같은 동일한 데이터가 어떻게 진행되는지 알 수 있습니다 봉인 개념을 이해하면 아무것도 볼 수 없습니다 씨앗을 설정 한 다음 임의의 값을 지정하여 올바르게 할 수 있습니다 이것 후에 무엇이든 보자 샘플을 생성하고 지금 당장 당신은 3 3 3을보고 당신은 얻을 것이다 심지어 샘플 기능을 사용 같은 값을 가지고 있거나 다시 샘플링하면 도트 시드를 사용하고 사용할 것입니다

three three three three three 및 샘플 10 쉼표 2를 설정하십시오 기본적으로 동일한 결과를 원한다면 상기 도트 시드를 사용해야합니다 그것은 지금도 거의 매번 쪼개고 있어요 gingerreadslainey 내가 원한다면 내가 원하는 것처럼 no no no no no no 내가 사용할 때마다 지금이 결과를 다른 사람에게 보여주기 위해 샘플 함수 이것은 매번 다른 결과를 줄 것입니다 이 샘플을 다른 사람에게 보여주기 위해 샘플을 원한다고 말하십시오 쉼표 2로 매번 같은 결과를 얻을 수 있습니다

시드 값을 설정하면 시드 값이 매번 동일한 결과를 제공합니다 그래서 시드를 설정하면 임의의 값 1을 제공하고 샘플 10 쉼표 2 I 3 쉼표 4를 다시 얻습니다 시드 값을 1로 설정하고 샘플 10 쉼표 2를 얻습니다 동일한 결과이므로 10 개의 쉼표 2 I의 한 샘플의 시드가 아님 기본적으로 동일한 결과를 원할 때 동일한 결과를 얻습니다 이 세트 닷 시드 이제 다른 것은 없습니다 그런 다음 교체 램프 교체 샘플을 뿌립니다

샘플링은 값을 대체하므로 반복하지 않아도됩니다 같은 결과를 원한다면 당신은 도트 씨를 말했다 그래, 그래서 우리가 여기에 대체하는 것은 없다 우리가 이런 종류의 분류를 올바르게 할 때와 언제 우리는 정확도를 의미하는 테스트를하고 있습니다 내 테스트 데이터를 기반으로 얻을 수 있습니까? 난 그냥 점수를하고 싶어 지금이 분류와 함께 할 수 있습니다 무엇을 기준으로 점수를 매겼는지 우리가 무엇을했는지 확인하십시오 맞습니다 그리고 당신은 8보다 작습니다 8보다 작습니다

판매 종류 예측에서 점수를 매기고 싶은 것은 없습니다 내 매출을 어떻게 예측할 수 있을까 결정 그 판매 가치를 예 예측할 수 있습니다 그래서 당신이 말하는 것은 기본적으로 회귀 또는이 의사 결정 트리의 도움을 받아 우리가 지금까지 할 수있는 것은 사랑의 모범 이니까 우리가 함께 할 예제는 부품 패키지이므로 실제로 의사 결정의 도움으로 지속적인 가치를 알고 예측 결정 트리에 대한 트리는 분류 목적에 모두 사용됩니다 회귀 목적뿐만 아니라 둘 다 할 수 있습니다 이 데이터 세트에 대한이 예는 분류를 올바르게 수행하므로 약간 가지 치기를하고 우리는이 결과를 여기에 얻었습니다 우리는 이것을 다시 인쇄하고 실제로 다른 것으로 잘라냅니다 이 노드 유효성 검사를 통해 붙여 넣을 수 있도록 노드 수 여기에 바로 여기에 우리는 노드의 수를 가져 16이 아니라 16이 되겠습니다

노드를 9로 설정하면 노드 수가 9 바로이 노드에서 9 개의 노드로이 트리를 가지 치기 때문에 다시 설정하면됩니다 이 최고의 값은 9와 같으므로 다시 정리할 것입니다 다음에 빌드하는 모델은 기본적으로 닷 미스 클래스 기능 당신이 원하는 노드의 수를 정한 후 1 2 3 4 5 6 7 8과 9가 있으며 이번에는 다시 분할이 가격이 90 포인트 5 미만인 경우 기본적으로 안녕하세요 예와 같습니다 이제 모델입니다 계속 진행하여 값을 예측하겠습니다

다시 한 번이 작업을 수행해야합니다 다시 한 번 예측 함수를 사용하여 그냥 당신 위에 지어진 이것은 정리 된 모델이며 우리는 예측하려고합니다 테스트 세트와 타입의 값은 class와 같으며 계속해서 혼동 행렬을 작성하여 이번에 정확도가 무엇인지 살펴 봅시다 68 plus 37 68 더하기 37 더하기 20 더하기 15 그래서 이번에는 정확도 75가 우리가 할 때처럼 세 개를 잘라 내야 할 분할 또는 이상적인 수준 16 개의 노드가 다시 있으므로이 교차 검증이 매우 중요합니다 우리는이 결과를 통해 9와 16이 16이 다시 이상적이라는 것을 알 수 있습니다 우리는이 많은 CV 도트 카시트의 플롯을 만들 때도 같은 것을 보았습니다

여기에서 우리는 이것이 우리의 이상적인 가치라는 것을 알았습니다 그래서 이것은 점프가있는 곳입니다 여기까지 오 분류 율이 감소 할 때까지 16에서 노드 수를 진행 한 후부터 우리는 오 분류 율 증가분을 계속 나누고 있습니다 스위스의 이상적인 가치입니다 기본적으로 우리가 어떻게 건설 할 수 있을까요? 트리 패키지의 도움으로 의사 결정 트리 파티 패키지가 포함 된 의사 결정 트리 의사 결정 트리를 작성하여 계속 진행하고이 패키지를로드하십시오

다들이 패키지를 빨리 확인 해주세요 자 이제 이것을 위해 우리는 홍채 데이터 셋을 사용할 것입니다 바이러스에 대한 홍채 데이터 셋보기이므로 이번에는 3 가지 분류가 있습니다 우리는 종이 setosa virginica인지 또는 versicolor 그래서 아이리스 수준의 달러 종 그래서 우리는 세가 이 강의를 통해 이번에는 의사 결정 트리를 구축 할 것입니다 데이터 세트가 setosa 또는 c 색상에 속하는지 또는 virginica 오른쪽 그래 그래 우리가 가지고 그렇게하자 이번에는 파티 패키지를로드 했으므로 지금까지 CA 도구를 사용했습니다 패키지 및 CA 도구 패키지 K는 샘플 도트 분할 기능으로 샘플 도트 분할 우리는 또한 데이터 파티션 생성 패키지를 가지고 있습니다

기본적으로 도트 분할을 샘플링 할 수 있으므로 데이터 파티션 생성은 일부입니다 당근 패키지 및 샘플 도트 분할은 CA Toles 패키지의 일부이므로 지금이 당근 ​​패키지를로드하겠습니다이 데이터 생성 파티션을 사용하겠습니다 데이터를 생성하는 샘플 도트 분할 대신에 거의 동일합니다 분할 및 분할 열 종 및 분할 비율은 65이므로이 목록은 일반적으로 샘플링되거나 분할되면 false와 같습니다 벡터이지만 이것은 실제로 벡터 대신리스트를 제공하므로리스트라고합니다 false와 같으며 분할 태그에 저장하고 다시 거의 동일합니다

이제 샘플 도트 분할의 사실은 우리에게 참 또는 거짓 값을 주었지만 데이터 파티션 생성은 레코드 번호를 제공하므로 이것을 인쇄하겠습니다 여기에 태그를 분할하면 여기에 레코드 번호가 표시됩니다 여기에있는 분할 태그에서 학습하고 테스트해야합니다 기본적으로 이것을 데이터 세트 내부의 매개 변수로 전달하므로 우리가하는 일 이 홍채 데이터 세트 에서이 행 번호를 모두 선택합니다 이 행 번호는 홍채 데이터 세트의 65 %로 구성됩니다

split 태그가 65를 포함하도록 Train Set에 저장하십시오 행 번호의 %는 65 %와 다릅니다 빼기 기호를 넣었으므로 기본적으로 모든 레코드입니다-65 % 분할 압정에 존재하는 행 번호 중 기본적으로 60은 기본적으로 35 %이므로 35 %의 레코드가 테스트 세트에 들어갑니다 이것이 배수구와 테스트 세트를 만드는 방법입니다 이것을 반복하여 기본적으로 샘플링 또는 분할과 유사합니다

데이터 세트를 올바르게 분할하는 다른 방법으로 이번에는 참조 트리가 있습니다 PA RT y 패키지의 일부로 모델을 빌드 할 함수 기차 세트 위에 우리는 어떤 종류의 종을 이해하고 싶습니다 꽃은이 4 개의 란에 대하여입니다 길이와 꽃잎 너비가 여기에 점을 넣은 이유는 결과와 내 나무를 저장하면 이제 여기에 이것을 그려 보도록하겠습니다 이것이 3과 C 3의 차이입니다 이번에는 처음입니다 분할 기준은 꽃잎 길이 열을 기준으로하므로 꽃잎이 길이가 1

7보다 작거나 같으면 꽃을 세토 사로 분류하여 이것을 보면 거의 1에 가까운 확률이 있습니다 확률이 1에 가까우므로 꽃잎 길이가 17보다 작거나 같은 경우 반면에 꽃잎 길이가 길면 세토 사로 분류합니다 17보다 크면 다음 분할 기준은 꽃잎 너비이며 꽃잎 인 경우 너비가 0001보다 작으므로 꽃잎 너비 인 경우 1

7보다 작거나 같습니다 다시 꽃잎 길이를 확인하겠습니다 이번에는 꽃잎 길이가 짧으면 48보다 크거나 같으면 꽃잎이 낫다면 낫 오류 일 것입니다 길이가 48보다 큽니다 60 %의 확률로 호주 색상이고 40 %의 확률 반면에 꽃잎 길이가 다른 경우 버지니아 일 확률 이 경우 17보다 크고 꽃잎 너비가 1

7보다 큽니다 그리고 버지니 카입니다 여기에서 우리는 멀티 V를하고 있습니다 분류하고 우리는 여기서 하나와 세 가지를 혼동하려고합니다 하나의 상자 1과 상자 아래에 동일한 4 개의 값을 분할합니다

세 쓰기 스크립트는 0보다 작은 점을 가지고 있습니다 1 포인트 7 이상에서 1 포인트 미만으로 분할되는 것을 알고 있습니다 7 번은 상자 3에서도 같은 일이 일어나고 있습니다 이 p- 값에 대해 여기이 값을 가져 와서 꽃잎 길이는 이것이 꽃잎 길이의 값입니다 이것은 꽃잎의 값입니다

제가 오른쪽에있는 다른 질문을하겠습니다 당신은 오른쪽으로 이동합니다 오른쪽을 향해 나갑니다 그래, 그럼 우리는 어떻게 상자를 쫓을 수 있을까 3 분할 다시 맞아 맞아이 P 값을 잊어 버리면 혼란 스러우므로이 P 값을 잊어 버리십시오 먼저 꽃잎 길이를 기준으로 분할하므로 꽃잎 길이가 1 점 7 이하인 경우 거의 100 % 반면에 꽃잎 길이가 1 포인트 7보다 큰 경우 우리는 setosa 꽃잎 너비를 확인하겠습니다 꽃잎 길이가 아니므로 꽃잎 너비입니다

이번에 꽃잎 너비가 1 포인트 7보다 작 으면 꽃잎을 확인하겠습니다 꽃잎 길이가 4 포인트 8보다 작거나 같으면 우리는 거의 100이 될 수 있습니다 손이 48보다 크면 약 60 %의 확률로 C 컬러였으며 처녀성 일 가능성이 약 40 %입니다 반면에 꽃잎 길이가 17보다 크고 꽃잎 너비가 17보다 크면 다시이 꽃을 거의 100 % 확신 할 수 있습니다 또는 Jenica에 속해 있으므로 다중 클래스 분류로 여기에서 수행 한 작업 우리가 꽃이 세토 사에 속하는지 이해하려고 노력하는 곳 Wasi 색상 또는 virginica와이 모델의 도움으로 만든이 모델 여기에 C 트리 기능이 있으므로 부유 한 모델을 갖게되었습니다

이번에는 값을 예측하므로 다시 예측 기능을 사용하지만 이제 이전의 경우 우리는 type이 class와 같다고 말 했으므로 이번에는 c3입니다 유형 값의 예측 값을 함수 응답 속도가 이 함수들 사이의 누드 차이와 같은 것입니다 트리 함수를 사용했고 값을 정확히 예측했습니다 트리 함수를 사용할 때 클래스로 설정 한 예측 유형과 C를 사용할 때 트리 함수를 통해 여기에있는 유형의 값을 예측합니다 응답하지만 다시 매개 변수는 거의 동일합니다 다음에 구축 한 모델은 구축 할 테스트 세트입니다

다음 모델은 예측 유형이므로 여기에서 예측 유형은 명명법이 바뀌 었다고 말하는 클래스와 거의 동일한 응답 C 트리 기능에 관해서는 여기에 내 빵에 저장합니다 값도 예측 했으니 이제 혼란을 만들어 봅시다 행렬이므로 실제 값이 정확하게 설정되어있는 값입니다 세토 사로 분류되었으므로 두 경우입니다 실제로 그것은 세 두사 였지만 그는 색으로 분류되어 있습니다 실제 색상은 장미 빛이며 4c로 올바르게 분류되었습니다 색상 이것은 실제 색상과 같으며 잘못되었습니다 Jenica로 분류 된이 경우는 virginica로 실제였으며 4c 색상으로 잘못 분류 된 경우 virginica 그리고 Jenica에 대해서도 올바르게 분류되었습니다

왼쪽 대각선은 올바르게 분류 된 값이며 따라서 2 1 & 2로 쉬십시오 잘못 분류 된 값이므로 계속해서 정확도를 찾으면 이번에는 15 더하기 16 더하기 15가됩니다 15 더하기 16 더하기 15 더하기 2 더하기 1 더하기 2 더하기 우리가 줄거리에서 본 것이 매우 좋은 90 %의 정확도는 꽃잎 너비와 꽃잎 길이만으로 분할이 결정되었으므로 꽃잎 길이 꽃잎의 폭이 넓기 때문에 분할을 결정하는 유일한 열입니다 이들은 꽃이 속하는지 여부를 결정하는 유일한 열입니다 setosa 4c 색상 또는 virginica 그래서 우리는 무엇을 할 것인가 꽃잎 너비와 꽃잎 길이 만 독립 변수는 다른 변수를 포함하는 요점이 무엇입니까 그들이 당신이 분할 기준의 힘조차 알지 못한다면 앞서 다른 모델을 다시 빌드하십시오 이번에는 공식을 C 3 종속 변수 종과 독립 변수는 꽃잎 너비 꽃잎 길이 만이 둘이므로 우리는 sepal length와 sepal width를 갖지 않습니다 이번에는 기차 세트 위에이 모델을 구축하고 있습니다 이제 계속하겠습니다

먼저 이것을 삭제하겠습니다 이제 이것의 플롯을 만들겠습니다 그렇기 때문에 이것은 꽤 지글 지글합니다 예 그렇습니다 의사 결정 트리에서 두 가지만 얻는다는 것을 알아야합니다

사용하고 다른 열을 사용하지 않았 으므로이 방법이 무엇입니까? 모델에 있어야 할 차원의 수를 줄입니다 변수가 10 개 있고 단서가 생기면 사용해야 할 것 이 특정 모델에서 다른 것을 요구하지 않는다고 말하면서 변수를 모델링에 사용할 필요가 없습니다 올바른 방법입니다-예 supernat 의사 결정 트리에 온다 당신이 할 수있는 일이지만 다시이 시행 착오입니다 그래서 그래도 다시 볼 필요가 있습니다 모델과 관련하여 작동하는 것은 여기에서 우리는 sepal width라는 단서를 얻었습니다

sepal length는 split 프로세스의 일부가 아니기 때문에 이것을 사용하지 않고 모델을 빌드하십시오-기본적으로 가져옵니다 리던던시 (redundancy)는 리던던시 (redundancy)를 원하지 않으므로 모델로 이동해 봅시다 그리고 출력이 무엇인지 확인하십시오 Cruz는 기본적으로 데이터를 제한하거나 우리가 이것을 실제로 사용할 수 있도록 독립 변수의 수 예 예, 그래 맞습니다 두 번째와 우리는 여기에 비슷한 음모가 있음을 알 수 있습니다 실제로 비슷하지는 않지만 거의 같은 속도이므로 꽃잎 길이가 짧습니다

17보다 우리는 다시 setosa를 얻습니다 17보다 크면 버지니 카가됩니다 우리가 다시 예측할 수 있도록 여기에 같은 결과를 얻습니다 방금 구축 한 모델의 값을 사용하여 예측 함수는 작성한 모델이 첫 번째 매개 변수가됩니다

나무-그리고 우리는 테스트 세트와 응답으로 입력하면 빵에 저장하겠습니다 이제 다시 진행하겠습니다 먼저 내 혼란스런 매트릭스를 다음 테스트 세트는 예측 값입니다 이 빵 개체보다 더 많이 저장하고 Enter 키를 누르면 다시 볼 수 있습니다 여기서 비슷한 결과를 다시 얻습니다

정확도 15 + 15를 확인하겠습니다 더하기 16을 15 더하기 15 더하기 15 더하기 16 더하기 2 더하기 1 더하기 2 더하기 이 음모를 통해 동일한 정확도로 분리 길이를 알 수 있습니다 sepal width는 모델에 정보를 제공하지 않았을 때 우리는 그 두 열을 제거하고 모델을 다시 부드럽게 만듭니다 모델을 다시 빌드하면 다음과 같은 정확도를 얻을 수 있습니다 모든 독립 변수를 포함하여 이것이 당신이하는 방식입니다

기본적으로 시행 착오에 이것은 당신이 가장 잘 맞는 것을 찾으려고 노력하는 방법입니다 모델은 나무로 완성되었으므로 이제 C 나무로 완성되었습니다 우리의 최종 결정 트리 기능을 위해 이 Arpad 패키지를 설치하기 전에 그래, 우리가 분류를 할 때 우리가 아닌 것을 정상적으로 알고 있는지 우리는 내가 말한 것처럼 마지막 세션에서 의미 우리가 할 때 동의하는 상황에서 분류가 필요합니다 문제는 특정 왼쪽에만 의존하는 것이 아니라 화살표 위의 곡선 아래이 영역은 예에 해당합니다 다시 실행하려면 필요한 국가 하나를 수행해야합니다 분류 문제 당신은이 모든 것을 처리해야 할 것입니다 분류 문제가 무엇이든간에 요인 분류 특이성 사이에 올바른 균형이 필요합니다

민감한 당신은 민감성을 알고 있습니다 이러한 모든 요소가 이제 우리가 ROC 어떤 특정 포인트 5 포인트 7 우리는 그 값을 사용해야합니다 독자를 두는 것과 같은 결론은 다시 반복 할 수 있습니다 포인트 7 포인트 7 주장 ROC 값이 임계 값이라고 가정 이 점과 같은 결론 매트릭스에서 사용해야하는 05 점 또는 이와 같습니다 표는 인쇄 기준보다 크거나 Zenga보다 크지 않으므로 우리는 그것을 좋아했습니다 GLM을 사용할 때 당신이 이것을 사용할 때 반면에 당신에게 확률을주는 기능 트리 함수와 트리 함수를 참조하십시오

우리가 직접 수업을 주겠다고 예측했을 때 이 함수 자체는 임계 값을 받아 해당 임계 값의 기초로 데이터를 클래스로 나누거나 두 클래스의 데이터를 예측하므로 여기서는 설정할 필요가 없습니다 수동으로 직접 임계 값을 설정하므로 GLM에서 물류를 수행해야했습니다 회귀 함수는 우리에게 예측할 확률을주었습니다 유형은 소품과 같습니다 강 중 하나에 대한 우리의 아이디어를 다시 사용하는 방법을 다시 보여줄 수 있습니까? 이 권한에 ROC를 사용하는 지점이므로 이에 대한 임계 값이 필요하지 않습니다 내가 좋아하는 것은이 두 가지의 예상 결과를 보여줄 것입니다

그래서 우리는 괜찮아이 모델을 다시 약을 먹일 것이다 이것을 복사해서 여기에 붙여 드리겠습니다 잠깐만 기다려라 그러면이 전체를 다시로드해야합니다 이 값들을 인쇄해서 트리 도트를 읽도록하겠습니다 값은 실제로 당신이 예 / 아니오를 얻는 최종 결과입니다 여기에는 확률이 없으므로 0과 같은 확률을 얻지 못합니다 이것이 그렇다는 80 % 확률이 있거나 나머지 20 % 확률이 이것은 아니므 로이 기능 자체는 적절한 평균을 취하거나 임계 값과 최종 분류 결과를 제공하므로 이 최종 분류 결과를 가져 와서 원본과 비교하십시오

결과와 모듈 자체가 얼마나 정확한지 알아보십시오 이 트리 C 트리와 Arpad 함수까지 최적의 임계 값을 제공합니다 자체적으로 최적의 임계 값을 제공하므로 해당 임계 값을 수동으로 설정하십시오 당신은 우리가 당신 사이의 절충을 원한다는 것을 이해해야 각 하위 ROC는 다시 정확한 정확도에 대한 임계 값을 제공합니다 이 임계 값에서 잘라 내면 최대 정확도이지만 다시이 기능 자체가 수행하므로 수동으로해야하는데 임계 값을 수동으로 설정하지 않아도됩니다 임계 값을 수동으로 설정하지 않으면 이 모든 것을 알고있는 AUC 기능을 사용하십시오 참을성없이 옳지 않다

그리고 두 번째 것은 두 번째 질문이다 멀티 클래스이기 때문에 같은 방식으로 사용할 수 있습니다 파티 패키지를 사용할 때의 분류는 리 팩키지 azamati 클래스 예, 당신은이 세 가지 모두로 그렇게 할 수 있습니다 할 수있는 기능이지만 시작하기 위해 LM 모델을 사용할 수 있습니다 아니, 그건 불가능 해 난 그렇게 생각한다 로지스틱 회귀가있는 다중 클래스 분류이므로 확인해야합니다 우리가 다른 GA를 다른 함수로 사용한 것처럼 G가 네가 직접 사용할 수있는 것이므로 세는 부분이며 C 3은 할 수 있습니다

멀티 클래스 분류에 직접 사용하므로 다시 LM 당신이 이것을 이해하기 위해 필요한 것은 이항 모델이며 이 확산 트리 모델은 둘 다에 사용됩니다 그들이 회귀와 분류에 사용되는 목적은 예, 우리는 나무로 끝났습니다 우리는 C 나무로 끝났습니다 우리와 함께 우리의 부분은 회귀를 할 것이므로 이번에는 Boston 데이터 세트를 가지고 있으므로 대량 패키지를 먼저로드해야합니다 화성의 도서관을 열면 Boston 데이터 셋을로드해야합니다

보스톤의 데이터입니다 여기이 데이터 세트가 표시됩니다 이 열이 의미하는 바는이 보스턴 데이터 프레임이 6 개로 정리 된 것입니다 행과 열 14 개와 모두 다릅니다 CR이있는 콜린스는 기본적으로 1 인당 범죄를 나타냅니다 마을 Zeldin에 의해 속도는 음모에 대한 곧 주거 용지의 비율입니다 25,000 평방 피트이며 이것은 비 소매 비즈니스 에코의 비율입니다 이 목록을 통해 갈 수있는 다른 열입니다 초점은이 ma DV 열에있을 것이므로이 ME DV는 천 달러의 소유자가 점유 한 주택으로 기본적으로 우리는 예측하려고합니다

이 집의 가치는이 집의 가치는 $ 24,000입니다 $ 21,000이고 $ 24,000과 같으므로 다른 열을 기준으로 이 중앙값을 예측하는 데 도움이되는 회귀 모델을 작성 Arpad 기능을 사용하여 첫 번째 작업을 다시 수행하겠습니다 Arpad 패키지를 다시로드해야합니다이 데이터 생성 파티션을 사용하고 있습니다 당근 패키지의 일부인 함수이므로 이번에는 분할 열이 이 MATV와 비율은 0

65이므로 65 %는 훈련에, 35 %는 먼지가 적을수록 시퀀스가 ​​떨어 지므로 다시 태그를 나누십시오 이 보스턴 데이터에서 우리가 할 일은 분할 태그 나는 그것들을 훈련 세트와 분할 태그에는 35 %의 나머지 값을 저장하지 않습니다 테스트 세트를 준비하여 교육 및 테스트 세트를 준비했습니다 이번에는 훈련 세트 위에 모델을 만들 것입니다 우리가 사용하는 기능은 우리의 부분이며 다시 동일하므로 공식에서 데이터를 얻었으므로 공식 sme DV 물결표가 나와 TV 종속 변수와 다른 모든 열은 독립적이므로 MeV는 종속적이고 모든 열은 독립 변수이며 우리는 Spree를 플롯하기 위해 지금 설정된 기차 위에이 모델을 빌드하십시오

Part dot plot 패키지에 필요할 것입니다 패키지를 만든 다음 방금 트리를 시각화해야합니다 불완전한 도트 플롯을 만들었고 내 나무 인이 오브젝트를 전달할 것입니다 좋습니다 이것은 이것에서 얻을 수있는 일종의 시각화입니다

여기에서 첫 번째 분할 기준은 L 시작을 기준으로합니다 L 시작이 9 포인트 7 이상이면 왼쪽으로갑니다 ll의 다른쪽에 9 포인트 7 미만으로 시작하면 우리는 계속 오른쪽으로 이동해서 먼저 다른 오른쪽으로 이동하겠습니다 우리가 오른쪽으로 가면 9 포인트 7 미만이라고 가정 해 봅시다 RMS가 7 포인트 5 미만이므로 7 포인트 5에 다시 남아 있으면 왼쪽 7 점 5보다 크면 오른쪽으로옵니다 스플릿이 발생하는 방식이며이 값이 어제 집값의 평균값은 어제 플레이어의 월급을 예측하려고 할 때의 첫 번째 예 의사 결정 트리를 사용할 때 플레이어의 평균 급여를 알려주십시오

연속 값을 예측하는 모델은 평균 값을 제공하므로 분할은 이런 식으로 진행되며 평균 가격은 9입니다 천 달러와 같은 평균 가격이 그 집은 만오 천이고이 과정을 따른다면 평균은 집의 가격은 마흔 오천 달러이므로 이것이 당신의 것입니다 여기 스플릿이 작동하는 방식입니다 이제 모델을 만들었습니다 이번에는 예측을 사용할 것입니다 우리는 세 번째 매개 변수를주지 않을 것이므로 이번에는 연속 값이므로 유형을 설정할 필요가 없으므로 자동으로 연속적인 값이므로 먼저 빌드 할 때 모델 이름을 지정합니다 Maya 트리이고 예측하려는 데이터 세트가 제공됩니다

값을 테스트 세트의 상단에서 예측하려고합니다 결과 예측 트리는 이제 실제 값과 예측 된 값을 찾습니다 C 포도 함수를 사용하여 실제 값이 테스트 세트에 있고 예측 된 값은이 개체에 있으며이 둘과 최종 데이터에 저장합니다 이것은 실제로 행렬이므로 이것을 최종 데이터의 저장 데이터 프레임으로 먼저 DITA 프레임으로 변환 최종 데이터로 다시 저장하므로 최종 데이터를 볼 수 있습니다 가치와 이것들은 우리가 지금 가지고있는 예측 된 가치입니다 계속해서 예측 오류를 찾아서 오류를 예측은 다시 실제 값에서 예측 된 값을 뺍니다

그리고 우리는 예측에서 오류를 얻습니다 그렇게 해봅시다 그것은 매우 간단합니다 당신이해야 할 모든 최종 리더 달러 실제-최종 날짜 예측하고 오류를 저장하고 다시 오류를 바인딩합니다 최종 데이터는 이제 최종 데이터에 대한이 관점을 한눈에 볼 수있게합니다

값은 예측 된 값이며 이것은 예측의 오류이므로 다시 원한다면 우리가해야 할 평균 오차를 찾으려면 약간의 두께가 있습니다 제곱 평균 제곱 오류입니다 계속해서 제곱 평균 제곱 오류를 알아 봅시다 먼저이 오류를 처리하고이 값을 제곱 한 다음 그리고 제곱근을 취하겠습니다 첫 번째 모델의 경우 3 점 9 3의 근 평균 제곱 오류가 발생합니다 이제 이것을 mac1ana에 저장하겠습니다

이 이미지를 가져 오겠습니다 L start NO x CR I am 및 RM 만 사용되었습니다 우리가 가지고있는 독립 변수는 분할에 사용 된 열은 이 독립 변수 만 사용하므로 모든 변수를 사용하지는 않습니다 독립 변수이므로 ML 시작을 여기서 다시 시작하겠습니다 X도 알고 있으므로 P도 끝났습니다 두 번째 모델도 마찬가지입니다

우리는하지만 에밀리와 같은 공식은 종속 변수이고 이번에는 독립 변수가 ML 별 CRI가되고 X와 D는 기차 세트 위에이 모델을 구축하여 모델을 구축합니다 다시이 오른쪽을 한 번 보도록하겠습니다 동일한 결과를 얻었으므로 변경 사항을 눈치 채지 못했습니다 오른쪽을 삭제하겠습니다 다시 Enter 키를 누르면 우리가 가진이 하나, 둘, 넷, 다섯 개의 독립 변수를 포함 시켰습니다 여기에 동일한 분할이 있으므로 기본적으로 다른 열은 분할 목적으로 사용되었습니다 이제 모델을 만들었습니다

계속해서 값을 예측하고 이 모델의 RMS C를 계산해 봅시다 신용 기능을 사용하여 모델을 첫 번째 모델로 사용합니다 매개 변수를 저장 한 다음 사막에서 값을 나누고 저장합니다 다시 나무를 예측하고 실제 값과 테스트 값을 찾아서 저장하고 최종 데이터를 데이터 프레임으로 변환하고 예측 오류 이제이 오류를 최종 데이터에 다시 바인딩해야합니다 다시 C bind 함수를 사용하여 최종 데이터를 나는 이것에 오류를 묶고 있습니다이 시점을 한눈에 볼 수있게하십시오

파이 데이터를 독립적으로 사용했을 때의 최종 데이터 변수는 실제 값이며 예측 된 값입니다 이제 오류 도입이 다시 진행되고 근본 평균을 찾도록하겠습니다 제곱 오차이므로 근 평균 제곱 오차는 3 점 9 3입니다 MSE에 올바른 것을 넣었으므로 첫 번째 모델과 두 번째 모델은 제곱 평균 제곱 오차가 동일하므로 이 다섯 독립 후 다른 변수를 포함 할 필요가 전혀 없습니다 변수는 모델에 아무것도 추가하지 않기 때문에 변수이므로 이상적인 독립 변수를 선택할 수있는 방법은 다음과 같습니다

의사 결정 트리의 도움으로 회귀 분석 우리가 좋을 때 나는 아직도 알고있는 기능들 우리는 우리가 싸움을 잘라 내가 세션 후 내가 당신과 함께 이것을 공유합니다 이것을 운영 팀과 공유하면 그들은 우리 파일을 너희들과 함께 줄 것입니다 그래 정말 고마워 그리고 난 아들 것입니다 그래, 내 성은 내가 상반기를 기록하지 않았다는 말을 들었다 어제의 세션의 그래서 기본적으로 내 잘못이었다 그래서 나는 이전 부분을 다시 기록해야한다고 믿습니다 제가 할 것은 2d 세션 후에 이론 부분을 기록 할 것입니다 다시 내일 밤까지 어제 이론에 의해 업로드됩니다 세션은 계속 진행되므로 아무도 모르는 다른 의심도 있습니다

우리의 냉각 속도와 우리는 또한 여기 그래도 당신은 가지 치기를 할 수 있습니다 참조하십시오 같은 쿨링 방식이 아니므로 정직한 꿈의 통제가 있습니다 컷에 대한 스프링 제어 파라미터를 사용하여 나무는 C 3이 무엇인지 읽었으므로 C 3에는 열차 제어 매개 변수가 있습니다 그 열차 제어 매개 변수 안에 당신은 당신이 이상적인 설정 알고 사랑 분할 할 때 노드 수 또는 이상적인 임계 값 분할하고 그것이 당신이하는 방법입니다 우리는 모든 가지 치기 기술이 될 것입니다 동일한 결과를 가지므로 후 가지 치기에서 한 가지 유형의 비용 복잡성이 있습니다 우리가 이전에 본 것은 비용 복잡성 정리 (plancity pruning)였습니다

그 뒤에 루트 노드로서 가장 높은 미스가 있습니다 오 분류 율을 계속 낮추는 분류 율 또는 대체 오류가 감소하므로 다음과 같은 오류를 찾아야합니다 특히 당신은 그 특정 수준의 분할을 알고 우리가 초안에서 본 것처럼 오 분류 율은 최소이며 16 개의 메모를 읽음으로써 분류 오류가 가장 적었지만 우리가 다시 쪼개기 시작했을 때 열 여섯은 실제로 학위가 아니었지만 오 분류 율이 증가했기 때문에 비용 복잡성 정리 귀하의 아이디어는 오 분류 율의 최소값을 갖도록하는 것입니다 오 분류 율의 최소값이있는 최소값 그것은 이상적인 수의 터미널 노드가 될 것입니다 기본적으로 불순물 기능의 Gini 인덱스 또는 정보 획득 이 세 패키지는 Gini 인덱스의 imperator를 사용합니다

이제는 다시 확실하지 않아서 그렇게 읽어야합니다 기본적으로 이러한 의사 결정 트리 기능은 그들은 Jini를 사용하므로 임의의 숲을 위해 우리는이 CD GT와 함께 작업 할 것입니다 이게 기본적으로 내가 당신에게서 가져간 의료 데이터 세트입니다 기계 학습 저장소라고 말하면이 데이터 세트를 보내 드리겠습니다 세션 후 얘들 아 그래서 당신은이 비디오를 통해 나를 따라 와야 그래서 기본적으로이 모든 열로 구성되어 있으므로 기본적으로 데이터입니다 환자의 태아 심박수를 측정하는 세트와는 다릅니다

매개 변수이며 이는 기본적으로 최종 카테고리 열입니다 예측하기 위해이 NSP는 기본적으로 정상을 나타냅니다 태아의 심박수가 정상이거나 병리학 적이거나 병리학 적 비율로 의심되므로 다시 당신의 멀티 클래스 분류와 우리의 도움으로 그것을 할 것입니다 임의의 숲과 의사 결정 트리 우리는 하나의 트리를 가지고 있습니다 우리가 가진 데이터 세트는 이제 앙상블 학습이라고 불리는 것입니다 이것에 대한 완벽한 예는 영화를보고 싶다고 말하고 한 친구가 모든 행동을 미워하도록 친구의 조언을 받음 영화를 보니까 어벤져 스와 그 친구를보고 싶어 모든 액션 영화를 싫어하고 그는 매우 오 그는에 대한 매우 편견을 가지고 액션 영화와 그가 복수자를 보지 못했지만 그는 당신에게 말할 것입니다 그것은 당신이 기본적으로 우리를 배우고 앙상블에서 일어나는 지금 나쁜 영화입니다 여러 사람에 대한 의견이므로 그냥 대신 앙상블 학습 하나의 의사 결정 트리를 작성하면 여러 의사 결정 트리가 있거나 다른 의사 결정 트리가 있습니다 당신은 열 사람의 의견을 가지고 그 열 사람 중 여덟 사람의 의견을 다른 두 사람이 가지고있는 좋은 영화이기 때문에 어벤저를 보라고 할 것입니다

자신의 편견을 가지고 있기 때문에 그들이 나쁜 영화라고 말하는 이유입니다 전체적으로 당신은 복수자가 기본적으로 훌륭하다는 집단적 견해를 얻을 것입니다 앙상블 학습은 여러 의사 결정 트리에서 결과를 얻으므로 첫 번째 확장은 의사 결정 트리가 포장하고 우리가 가지고있는 포장에서 나옵니다 우리에게 임의의 숲이 있습니다 초기 데이터 세트이므로이 초기 데이터 세트에서 여러 데이터 세트를 만듭니다 교체로 샘플링하여 생성 한 데이터 세트를 n 개의 레코드가있는이 데이터 세트는 내가하는 일을합니다

동일한 수의 레코드를 가지며 다른 레코드가있는 다른 데이터 세트 l1 L에서 가져 왔지만 비슷한 방식으로 교체하여 샘플링하여 수행됩니다 L에서 가져온 n 개의 레코드가있는 l2를 생성하지만이 레코드는 샘플링 중입니다 대체와 마찬가지로 다른 데이터 세트를 생성합니다 L에서 가져온 n 개의 레코드가 있고 다시 샘플링하는 l3입니다 X와 같은 데이터 세트를 생성하고 하나의 결정을 내릴 것입니다 하나의 결과를 얻는 대신 각 데이터 세트의 맨 위에 트리 여러 의사 결정 트리에서 여러 결과를보고 집계를 수행합니다

모든 결정 트리의 결과이므로 당신이 나를 따라갈 수 있니? 우리는 임의의 배깅이 임의의 숲이라는 것을 알고 있습니다 임의 포리스트이 부분은 동일하므로 먼저 여러 데이터 세트를 생성하지만 임의의 숲이 우리에게 분할 기준을 포기하는 것과 다른 부분은 이 분할 기준에 대해 여기에있는 노드는 독립 변수 독립 변수의 하위 섹션 만 가져옵니다 그리고 그것은 임의의 하위 섹션이 될 것입니다 내가 사용할 10 개의 독립 변수에서 내 데이터 세트의 변수 이 분할과 유사하게 분할에 대한 3 개의 임의의 독립 변수 다시 나는 세 개의 무작위를 다시 사용할 것입니다 임의의 변수를 사용할 수 있으므로 10 개의 임의 변수를 모두 사용할 수 없습니다 split에만 em 임의의 변수를 사용할 수 있으며 일반적으로 이 M 값은 P의 근본이고이 P는 독립 변수의 총 수이므로 10 개의 독립 변수가 있다고 가정 해 봅시다 변수 M은 10의 근 아래에 있으며 약 3 ~ 4입니다 이 임의의 네 개의 임의의 숲은 임의의 숲에서 임의의 단어입니다

기본적으로 여기이 부분에서 나옵니다 임의의 독립 변수에 종속되어 있으므로 노드는 앙상블 학습은 임의의 숲으로 알려져 있으므로 이것이 유일한 부분입니다 자루에 넣기와는 다르며 다시 이러한 결정 트리가 있으며 이러한 모든 의사 결정 트리에서 결과를 얻은 다음 의사 결정 트리와 이것이 우리의 최종 결과가 될 것이므로 이것이 기본 아이디어입니다 임의의 숲 뒤에서 당신을 도와줍니다 좋아, 그래 이제 우리가 어떤 랜덤 숲으로 가자 임의의 숲과 함께 그래서의 구조를 보면서 시작하겠습니다 이 데이터를 사용하여 STR 함수를 사용합니다

이 열은 모두 지금이 내 의존 열은 n SP입니다 정수 유형이지만 분류를 수행하고 있으므로 경고했습니다 이것은 범주 형 변수이므로 첫 번째 단계는 이것을 변환하는 것입니다 정수형 변수를 범주 형 변수로 바꾸고 AZ 도트 팩터 함수를 점으로 변환합니다 데이터 달러 NSP의 사실과 나는 이것을 저장합니다 데이터 달러로 돌아 가기 NSP는 이제 두 번째의 구조를 살펴 보겠습니다 데이터 구조와이 정수 유형이 다시 한 번이 NSP의 레벨을 한 눈에 살펴 보겠습니다

이 것은 환자가 정상임을 나타내며 환자가 태아 심장 질환이있는 것으로 의심되고 3 개는 환자는 병리학적인 심장병을 앓고있어 1600 명이 쉰 다섯 정상 환자 이백 아흔 다섯 환자 태아 심장 질환이 의심되는 176 명의 환자가 실제로 병리학적인 심장병을 가지고 있습니다 이제 다시하겠습니다 앞서이 데이터 세트를 훈련 테스트 세트로 나누고 열차의 상단이 설정되었으므로 이제 다시 시드 값을 1로 설정합니다 세 가지 결과가 나올 때마다 반복 할 수 있습니다 나중에 다시 똑같이 닷 시드 103을 말했고 계속 사용하겠습니다 분할 열을 NSP로 설정하여 분할 확률을 0

65로 설정 기록 할 기록의 65 % 훈련 지금 시험 할 기록 35 % 기록 분할 태그의이 값이있는 곳이면 어디든 가져 와서 이 65 % 값을 저장하고이 분할 태그를 제외하고 세트를 학습 35 % 레코드의 나머지는 내가 가져 와서 여기서 테스트 세트를 준비했습니다 이제 훈련 및 테스트 세트를 준비했습니다 앞서 훈련 세트 위에 임의의 숲 모델을 구축하여 임의의 포리스트 패키지를 올바르게로드해야하므로 이것을로드했습니다 패키지 다시 시드 값을 먼저 설정합니다 시드 값 스트립 이제 열차 데이터 위에이 랜덤 포레스트 모델을 빌드하고 다시 공식의 말뚝은 훈련 인 데이터를받습니다 기본적으로 여기 공식은 n SP 델 도트 도트입니다 이것은 n SP가 종속 변수이므로 우리의 종속 변수입니다 변수 및이 점은 다른 모든 열이 독립 변수임을 나타냅니다

훈련 세트 위에이 모델을 구축하고 있습니다 여기에 RF를 인쇄하십시오 이것이 기본적으로 우리가 만든 모델입니다 랜덤 포레스트 알고리즘은 트리의 수를 500으로하는데이 M 값은 우리가 본 M 값은 변수의 개수입니다 이것은 4입니다

기본적으로 나무 수는 500으로, 그 M은 값은 4로 간주되며 이것은 혼란 매트릭스입니다 트리 외부 또는 오류 추정으로 알려진 것이 있으므로 우리가 언제 나아 갔는지 알고 나무를 만들면 데이터 세트에 대해 알 수 없습니다 우리가 이것을 만들 때 모든 행 이이 데이터 세트에 들어와야합니다 데이터 세트 모든 행이이 데이터 세트로 들어 와서는 안됩니다 입력하지 않은 레코드로 우리가하는 일 우리는 기본적으로이 알고리즘을 사용할 것입니다

기본적으로 들어오지 않은 레코드에서이 임의의 포리스트 모델을 빌드합니다 이 X 데이터 세트는 해당 레코드의 정확도를 계산합니다 이 X 데이터 세트의 일부가 아니므로 오류 추정치는 5입니다 일곱 여덟 퍼센트 또는 다른 말로 정확도는 약 94 % 정도 였으므로이 기록의 경우 혼동 행렬로 천만 60 세의 모든 환자들이 정상으로 올바르게 분류 됨 14 잘못 분류 됨 용의자와 두 사람은 모두 병리학 적으로 잘못 분류되었습니다 미안한 50 명의 환자를 제외한 기록 실제로 심장의 절반 인 것으로 의심되는 50 명의 환자 질병이 정상으로 잘못 분류되었습니다 심장병이 의심되는 139 명의 환자가 올바르게 용의자로 분류되었으며 그 중 두 개는 다음과 같이 잘못 분류되었습니다 병리학 적으로 질병은 병리학 적 질병이있는 것으로 올바르게 분류되었습니다 5와 6은 MIS 분류이며 분류 오류입니다 이 세 클래스와 관련하여 이것은 임의의 포리스트 모델입니다

방금 구축했습니다 계속해서 값을 예측하겠습니다 다시 사용하겠습니다 예측 함수의 첫 번째 매개 변수는 다음을 빌드하는 모델입니다 매개 변수는 테스트이므로 여기에는 세 번째 매개 변수가 없습니다

기본적으로 클래스 레이블을 제공하고 이것을 P one에 저장하고 다시 계속해서이 테이블의 도움으로 혼란 매트릭스를 만들 것입니다 이것이 바로 실제 값이고 예측 된 값입니다 여기에있는 값은 정확도를 계산할 수 있도록 앞의 예에서이 왼쪽 대각선은 모든 것을 정확하게 나타냅니다 실제로 질병을 앓 았던 567 명이 분류 된 값으로 질병이있는 것으로 의심되는 질병 81을 갖는 것으로 분류 실제로 병리학적인 사람이있는 것으로 의심되는 51 명으로 올바르게 분류 됨 질병은 병리학 적 질병을 가지고 올바르게 분류되어 이에 대한 정확도는 567 플러스 81 플러스 51을 567 플러스 81 플러스 51로 나눈 값입니다 더하기 8 더하기 4 더하기 2 더하기 5 더하기 5 맞습니다 그것은 20도 그렇습니다 그래서 5 6 1 80 1 쉰 1 8 4 2 스물 다섯 다섯, 그래서 책상은 94 %의 정확도를 사용합니다 이것과 ACC 하나를 해봅시다

이제 우리가 할 것은 M의 최적 개수이므로 M은 기본적으로 사용 가능한 변수의 개수입니다 그 최적의 M 값을 얻기 위해 우리는이 조정 또는 기능 I 시드 값을 다시 설정하고이 튜닝 또는 기능을 사용하여 모든 매개 변수는 이것이므로 먼저 n의 집합을 취합니다 독립 변수 다음에이 마이너스 22 음이므로 기본적으로 모든 마지막 행을 제외한 행이 마지막 열이므로이 22가 마지막입니다 열이므로 마지막 열을 제외한 모든 열을 가져옵니다 첫 번째 예 예 예 예 그래서 우리에게 정확도 왼쪽 대각선 너무 대각선으로 정확히 우리의 실제 Pheebs 대각선 왼쪽 대각선을 모든 값으로 나눈 값은 정확도를 제공합니다 왼쪽 대각선은 정확하게 모든 값으로 구성되어 있기 때문에 오른쪽으로 분류하여 첫 번째 매개 변수로 넘어갑니다

독립적 인 변수의 혼란으로 다음 매개 변수는 종속 변수를 설정 한 다음 깊이 계수를 제공하여 단계 계수가 기본적으로 각 반복에서 M 값이 H를 얼마나 증가 또는 감소시켜야하는지에 따라 그래서 나는 이것을 05라고 말했고 이것이 튜닝 할 때 플롯을 만들어야합니다 3으로 설정합니다 사실이라고 말한 다음이 항목이 있습니다 최적의 M 값 나는 나무의 수가 300 개일 때 원한다

그래서 나는 이 임의의 숲에서 나무의 수를 300으로 삼고 이 나무 수에 대한 최적의 M 값은 기본적으로 응력 이 모델이 구축 될 때 나무를 제공하고 반복 할 때마다 개선해야 할 요소가 많이 있습니다 이를 통해 005로 할당했습니다 기본적으로 그래프를 제공합니다 이것은 이와 같은 것이므로 먼저 살펴 보도록하겠습니다 이제 우리가 300으로 가지고있는 나무의 수와 나무의 수가 300 일 때 처음에는 M 값을 사용하여 시도합니다

처음에는 변수의 수가 사용 가능한 독립 변수는 4이고 독립 변수에 사용할 수있는 독립 변수는 6 포인트 1 5이고 그런 다음 도움으로 시도 했으므로 도움이 필요할 때 루비 오류가 발생했습니다 16 점으로 시도한 후 5 점 7 점 1 % 16 나무가 세 개일 때 우리가 보는 것을 다시 증가시켜 백개의 최적 M 값은 8입니다 그래서 우리는 여기에서 본 것입니다 2 4 8은 2에서 4에서 8까지 오차가 감소하지만 8 회 후에 다시 감소합니다 더 많은 수의 임의의 독립 변수를 제공했습니다

실제로 증가하지 않습니다 감소하지 않습니다 그래서 우리는 발견 우리를위한 최적의 M 값의 최적 수 이제 우리는 계속해서 그 M을 사용할 것입니다 시드를 다시 설정하고 임의의 포리스트 모델을 다시 빌드하고 random forest 함수를 사용하므로 종속 변수는 n SP입니다 나머지 변수는 내가 짓고있는 독립적 인 변수입니다 나무의 수는 300이고 M 값은 속도입니다 이제 F를 출력하겠습니다 이것이 이번에 우리가 얻는 것입니다

바깥 상자 오류 추정치는 5 점 8 6입니다 이제 계속해서 클릭하겠습니다 예측 함수를 다시 사용할 값은 먼저 두 개의 매개 변수를 사용합니다 맞아요이 기차는 기본적으로 괜찮아요

이 튠 RF를하겠습니다 이 기차에서 22를 빼면 예측 변수의 지표 또는 데이터 프레임으로 표시됩니다 이 열차 22 변수 이것은 응답 인자이므로 먼저 우리는 마지막 열을 제외한 나머지 예측 변수 목록 예측 변수이거나 다시 말해 독립 변수입니다 그 후 우리는 반응 계수 또는 종속 요소를 제공해야합니다 반응 계수는이 20 초 열입니다 우리가 사용했던 다른 속성들은 이 플롯은 기본적으로 OB 에러를 M의 기능을 시도한 다음 여기에서 기본적으로 나무 수를 설정하여 나무를 사용합니다 이것은 검색 진행 상황을 인쇄 할 것인지를 알려줍니다

검색에 대한 OB 오류의 상대적 개선이이 정도 여야합니다 Lin에게 우리가 제공하는 모든 매개 변수를 올바르게 계속 이해합니다 이 보수에 대한 교육-21 22 나는 산업계가 그 길을 이해하지 못했다 그냥 인쇄 한 다음에 우리가 나누는 곳을 따라 갔습니까? 전체 데이터 세트는 우리를 기차 세트로 훈련시키고 그들이 할 수있는 바를 테스트 우리는이 원본 데이터 세트를 가지고 있고 기차로 나누었습니다 이제 홍수를 테스트 한 후 모델을 만들었습니다 완벽한 m 값을 찾기 위해 F 함수에 걸리는 완벽한 m 값을 찾으십시오

특정 매개 변수에서 첫 번째 매개 변수는 구성된 데이터 프레임입니다 이제 모든 예측 변수 중 열차 데이터 프레임을 보여 드리겠습니다 이 열로 구성된 열차 데이터 프레임입니다 이 전체 데이터 프레임에서 22를 제외한 모든 열을 선택합니다 열과 나는 이것을 -22로 명명 할 것입니다

그래서 당신이 여기에서 -22를 봅시다 이 열차 데이터 세트를 참조하십시오 여기에는 NSP 열이 있지만이 마이너스 22는 없습니다 NSP 열이 맞습니다 기차 쉼표에서 22를 빼면 마지막 열을 제외한 모든 열이 사용되므로 당신은 당신이 시도했던 초기 수업의 초기에 배웠어야합니다 사용하는 행과 열을 다시 색인하는 방법을 배우는 곳을 알고 있습니다

22 번째 줄은 다시 한 번 같은 명령을 사용합니다 그래서 이것은 현재 마지막 열입니다 더하기 20-더하기 22보기 그래서 이것은 단지 하나의 열을 가지므로 우리는이 전체를 가졌습니다 데이터 프레임은 이제 첫 번째 매개 변수는 예측 변수 열입니다 NSP 열 다음 매개 변수를 제외한 열은 종속 열이므로 종속 열을 원할 때 오른쪽 열 번호 만 입력하십시오 이 열은 의존 열만으로 구성되어 있으므로이 열차 데이터 프레임에서 우리가 당신을 원한다는 것을 알고 내, 특히 나는 다시는 소품이 없다 이것들을 닫고 싶습니다

이것들은 우리가 가지고있는 모든 매개 변수입니다 우리는 M의 최적 개수가 8이라는 것을 알았습니다 최적의 숫자는 8입니다 또한이 RF 값을 인쇄하겠습니다 이제 계속해서 값을 나누겠습니다

최적의 M 값을 알고 그 최적의 M 값과 관련하여 숲을 짓고 테스트 세트의 값을 예측하고 이제 p2 객체에 저장하고 그 후에 빌드하고 혼동 행렬이므로 다시 두 개의 매개 변수를 사용합니다 실제 값은 다음은 p2에 저장된 예측 값이므로 혼란입니다 우리는 너무 괜찮아요 여러분 중 몇 명이 아직도 가지고 있습니까? 이 혼란스러운 매트릭스를 사용하지 않도록 선택하는 방법을 알 수 있습니다 내가이 혼란스러운 행렬로 오류를 계산하고 있습니까? 이 권리에 관한 질문 다른 사람들은 혼란 매트릭스로 분명합니다

이 매끄러운 혼란을 어떻게 해석합니까? 행렬과이 정확도에서 정확도를 어떻게 얻습니까? 앞서 정확도를 계산 한 다음 566 + 83 + 52를 Phi 66 +로 나눕니다 83 더하기 52 더하기 8 더하기 파이 더하기 2 더하기 파이 더하기 4 그래서 우리는 무엇이든 놓쳤다 18도 있습니다 556 5와 4에서 350에서 850까지입니다 우리는 94 % ECC 1의 정확도를 얻습니다 우리가 당신에게 3의 수는 300이고 우리는 기본적으로 다음과 같이 94 %의 정확도를 얻습니다

이것은 처음에 500의 가치가있는 3의 수와 엠 드라이브 가치는 4 였지만 RF 튜닝을 통해 우리는 약간의 조정과 우리는 때의 최적의 값을 얻고 싶었다 나무는 300이었고 우리는 M em이 em의 최적 가치를 시도한다는 것을 알았습니다 나무의 수를 300으로 설정하고 M을 우리는 90 점의 정확도를 얻었습니다 마녀의 경우 3은 이전 모델보다 약간 개선되었습니다 이것은 당신이 매개 변수를 다시 부여 할 수있는 방법입니다 항목과 M try 인 두 가지 변수 속성으로 구성 바로이 두 가지로 놀 수 있습니다-다시 시도해 볼 수 있습니까? 나는 어떻게 든 그것을 그리워한다 그래서 당신은 내가 이것을 커버하기를 원한다-nah riff 다시 그래 그래 훌륭한 M 내가 시도하는 의의가 무엇인지 시도 M 가격은이 M 값이므로 M try는 M 값이 변수의 수 또는 임의의 수입니다

우리가 여러분의 M 소수 또는 M 인 분할에 제공하는 변수 이 실행 예 그래서이 M 은이 시점에서 시도 해요 우리는 모든 변수를 먹이고 하나의 의사 결정 트리에서 당신이 사용할 수있는 최대 값은이 무작위에 대해 분할하지 않는 8 개의 변수입니다 여기 숲이 있습니다 22 또는 23이 아닌 열 수를 확인하겠습니다 예, 우리는 22 개를 가지고 있습니다 그 열은 우리가 여기서하는 일입니다 랜덤 8이 맞습니다 그래서 M이 여기있는 것입니다

각 분할에 대해 독립 변수의 임의 하위 섹션이 있습니다 이 분할에 대해이 분할에 대해 8 개의 독립 변수가 있습니다 이 분할에 대해 8 개의 임의의 독립 변수가 있습니다 8 개의 무작위 독립 변수 우리는 어디에 영향을 미치는 각 변수의 무게 가장자리를 볼 수 있습니까 바로 모델로 알려진 당신은 그 정장에 갈 것입니다 중요도 기능 또는 변수 중요도 기능과 우리가 무작위로 항목을 최적화하는 방법 하나 더 300 맞습니까? 그래서 다시 할 수있는 것은 임의의 값을 설정할 수 있다는 것입니다 다시 당신은 혼자서 플레이를해야하거나 이것을 400으로 설정할 수 있습니다 400에 대한 최적의 값을 얻으십시오

이 값을 천으로 설정하고 수천에 대한 최적의 값이므로 조정해야 할 하이퍼 파라미터입니다 자신이 그래서 다시 재판하고 오류가 4S에 무엇인가 당신이 의미하는 나무의 깊이 음의 깊이와 관련이 있습니다 우리가 가져갈 수있는 깊이를 의미하는 것이 유감이다 과적 응처럼 될 것입니다 그러나 다시 확실하지 않으므로 다시 읽어야 할 것입니다 먼저 나무를 가지 치기하고 그런 다음 임의의 숲에서 자두 나무 만 사용하십시오 그 오른쪽에 올라 서서 우리는 이제이 예 후에 예측을 끝냈습니다

우리가 가진 다른 나무들에 대한 노드 수를 볼 수 있습니다 히스토그램을 작성하면이 트리 크기 함수가 있습니다 랜덤 포레스트 패키지와 우리는 당신이 만든 모델을 전달할 것입니다 이 히스토그램에 나무의 노드 수와 색상을 히스토그램은 녹색이어서 약 80 개의 의사 결정 트리가 있음을 알 수 있습니다 약 80 개의 노드가 있으므로이 주파수가 임의의 포리스트에있는 의사 결정 트리 수의 트리 크기 또는 노드 수 아마 5 개의 임의의 숲을 멈추고 약 100 개의 노드가 있으므로 약 20 개의 의사 결정 트리가 있습니다

약 60 개의 노드에 약 50 개의 의사 결정 트리가 있으며 약 70 개의 노드가 있습니다 노드는 이것이이 히스토그램이 알려주는 것입니다 이 VAR m 플롯에 변수 중요도라는 것을 묻습니다 이 모든 변수의 상대적 중요성을 제공하므로 이 매개 변수는 잘못된 m 플롯과 모델을 전달합니다 내가 정렬을 구축하므로 기본적으로 이것을 정렬합니다

변수의 중요성 때문에 당신의 숫자는 우리는 수중 중소 또는 상위 10 개의 변수를 계속 볼 수 있습니다 나는 멈추는 제목과 변수의 중요성을주었습니다 당신이 보는 것은 어제의 수업에서 보았 듯이 평균 Gini를 다시 줄이는 것입니다 루트 노드에는 Gini 인덱스 값이 있고 집계 리프 노드가 있습니다 Gini 인덱스 값과 최대 감소가있는 트리가 있습니다

Gini 인덱스 값 또는 다시 말해 최대 게인을 갖는 트리 기본적으로 이상적인 분할이라는 것을 알 수있는 정보 그래서 이것은 STV가 당신이 아는 이상적인 스플릿이 될 것입니다 STV와 관련하여 다음으로 가장 이상적인 스플릿을 얻습니다 중요한 것은 MST 주간이고 우리는 Al TV Guide를 가지고 있기 때문에이 네 가지가 그 후 가장 중요한 것은 평균과 DP 사이에 상당한 간격이 있으므로 우리가 결론을 내릴 수있는 것은 이것에서 주요 변수를 알 수 있습니다 es tv ms TV al TV와 이것이 바로 산 제브라는 의미는 변수의 중요성 때문에 화면에 출력하고 싶다면 그냥 사용하십시오 중요 기능 yeah yeah 당신은 이것이 나에게 말할 것이라고 언급했습니다

모델에서 변수의 중요성 또는 실제로 나에게 이 변수가 가변성 또는 내 의존 변수 um의 예측 가능성 때문에 중요하다고 말할 때 그것은 기본적으로 독립 변수가 얼마나 많은 영향을 미치는지를 의미합니다 피고인 충실하므로이 H TV는 부양 가족에게 가장 많은 영향을 미칩니다 변수 뒤에 ms TV가 있고 l TV가 나옵니다 중요한 것은 아마도 모든 변수가 종속 변수에 얼마나 중요한 영향을 미치는지 10 % 내 10 %의 범위는 각각의 중요성 변수는 이것이 나에게 말하는 방법이거나 괜찮습니다 종속 변수 TV에서 일어나는 모든 일이 거의 그것의 90 %는 당신이이 방법으로 그것을 취할 수 있도록 es TV는 최대 효과를 갖습니다 종속 변수에 대해 이것이 바로 여러분에게 알려주는 것입니다 모두 괜찮아요 변수를 사용하여 모델을 만들고 싶다고 가정 해 봅시다

괜찮다면 아는 것만으로도 간단한 모델을 만들려고한다면 하나의 독립 변수 인 경우에는 독립 변수를 원할 것입니다 가장 영향을 미치는 변수이므로 독립 변수는 T입니다 V 그래서 두 개의 독립 변수가있는 모델을 만들고 싶다면 이 경우 종속 변수의 최대 값에 영향을 미치므로이 경우 TV 및 M 내가 세 개를 사용하고 싶다면이 세 개는 독립 변수 일 것입니다 우리가이 일을하고있는이 줄거리는 이 네 가지 독립형 만 사용할 모델을 다시 빌드하십시오 이 네 개의 독립 변수가 종속 변수 최대 권리 그래서 기본적으로 최대를 커버 종속 변수의 분산이 너무 혼란 스럽거나 알고있는 과정을 보여줍니다 가져 오기 기능 또는이를 다시 알 수 있도록 도와줍니다

기본적으로 평균 감소 단위를 제공하므로 여기에있는 것은 다시 여기에있는 ms TV를 알려줍니다 TV는 최대 값이므로 TV가 종속 변수 다음에 ms TV 다음에 Al TV가 있습니다 혼란 스럽거나 비즈니스의 중요성이 사라졌습니다 우리는 독립 변수의 중요성 또는 중요성의 순서를 알고 있습니다 계속해서 사용하는 다른 임의의 포리스트 모델을 빌드하겠습니다 ms TV es TV l TV 및 평균 및 이전 모델에서는 나무의 수가 300 개라고 말 했으므로 우리는 여기서 모델을 구축하고 RF에 저장하고 우리는 값을 바로 예측할 것입니다

RF는 당신이 만드는 모델입니다 그리고 우리는 이제 테스트 세트 위에 값을 운영하고 있습니다 계속해서 혼란 매트릭스를 만들고 Phi 64의 정확성을 찾으십시오 + 73 + 53을 4 + 73 + 53 + 2 + 3 + 7 + 8 + 1 + 29로 나눈 값 말해 봅시다-3이 없습니다-3 아, 죄송합니다 564 73-53 8 7 129 6 + 2 맞습니다 그래서 우리는 92 %의 정확도를 얻습니다

94 acc 인 acc 하나를 확인하십시오-또한 94였습니다 독립적 인 변수 이들은이 4 가지 d 자체의 슈퍼 뉴스입니다 우리에게 92 %의 정확도를 제공하므로 다른 변수는 단지 2 %까지 더합니다 이것들은 제가 의미하는 것이므로이 4 개의 독립 변수를 사용할 때 그것들은 의존성에 크게 영향을 미치는 변수입니다 여기에 변수가 있으므로 jr를 알 수있는 또 다른 방법입니다 모델 권리 맞아요-이거 뭐 좋았어? NSP 열은 범주 값이며 NS 사람들이므로 처음에는 이것이 정수 나는 AZ 도트 팩터 함수를 사용하고 그것을 인자로 변환했습니다 NSP의 클래스가 맞습니다

그래, 이건 임의의 숲에 관한 것입니다 GLM 함수를 사용할 때 LM을 사용할 때 확률에 익숙해졌습니다 함수를 참조하십시오-우리가 primo 일 때의 확률-모든 모델에 우리가 내리고있는 것에 대한 결과는 s 또는 no로 분류됩니다 살인을 막기 위해서라도 우리는 최종 수업 결과는 괜찮습니다 여기에 p3을 출력하겠습니다 수업 중 11 번째 기록에서 보는 것은 하나는 21 번째 레코드 클래스에 대해 3 개는 레코드 번호 1 70에 대해 레코드 번호 4 17 개의 클래스 1 개-최종 결과를 얻습니다

수업이지만 임의의 숲뿐만 아니라 의심이 있으시면 그냥 인쇄하십시오 이 값을 출력하므로 p3에 저장하여 나중에 사용할 수 있습니다 일반적으로 이것을 인쇄하면 목록을 얻을 위험이 있습니다 한 세션에서 본 것과 같은 예측은 임의의 숲 모델에서 볼 수 있지만 여기에 ROC를 의미하는 화살표를 사용하십시오 수업을 할 때 말한 것처럼 사용하기 만하면됩니다

사용하지만 동영상과 같은 하나의 동영상이이 모델에 ROC를 사용하는 경우 랜덤 포레스트 모델 우리는 ROC 패키지 괜찮습니다 타입은 확률이었을 것입니다 그래서 제가 정상적으로하는 것만 확인하겠습니다 그래, 난 그냥 수업을 듣습니다 그래요

이 경우에 그 유형이 확률이라고 말했을 때 확률을 얻습니다 이것은 내가 당신을 사랑하는 곳입니다 어쩌면 특정 임계 값을 알고 있지만 다시 무엇을 알고리즘은 자동으로 임계 값을 취한다고 말합니다 수동으로 임계 값을 설정하려면 다음과 같이하십시오 그렇습니다, 그렇습니다

잊혀진 기름을 가리고 뜨고 뜨개질을하기 만하면 아만다는 확실히 무엇을 사용하는지 질문하십시오 예, 무엇을 사용합니까? 응답 유형을 클래스 또는 동등한 응답 유형의 의미 차이가 움직여서 예, 의사들 사이에 작은 선으로 결론 지을 것입니다 질병 또는 그는 세 그래서 그래서에 대한 명명법의 차이입니다 당신이 가지고있는 다른 기능들 미리 포장 된 당신은 당신이 사용할 때 사용할 명명법을 알고 있습니다 클래스와 같은 유형이 될 예측을하고 싶습니다 다시 C 3 클래스에 관해서는 이번에도 기본적으로 이 클래스를 클래스로 설정하면 작동하지 않습니다 차이점을 여기에 표시하고 이것을 클래스로 설정하면 이것이 바로 당신이 얻는 것이므로 기본적 으로이 기능은 유형을 응답으로 사용하므로 클래스를 인식하지 못합니다

그 사람이 가지고있는 패키지를 작성한 사람의 정상적인 연령 차이 여기 대신 예측 유형을 응답 유형으로 지정했습니다 우리는 부분적으로 회귀 분석을 위해 여기에 유사하게 클래스를 배치하므로 임의의 숲에 대해 다시 그렇게하면 누가 이것을 만들 었는지 알 수 있습니다 당신을 위해 패키지 그가 그가 원하는 경우 표준 인클로저를 말했다 알고 그런 다음 그 명명법은 PR OB라고하며 당신이 도움을 원한다면 당신이해야 할 모든 차이가있는 경우의 규범 당신은 너무 임의의 숲을 검색 알고 당신은 당신에게 모든 도움을 얻을 것이다 당신과 관련하여 여기 에이 패키지가 있다는 것을 알고 있어야합니다 이 모든 것들이 Lord kyun RF를 예측하도록하세요 사용 하거나이 패키지에서 사용하려는 기능을 얻을 수 있습니다

도움말 기능의 마지막 질문과 마지막 질문 Bernie 에서이 물류 사용 무작위 삼림은 분류를 위해 모든 것을한다 분류와 회귀 모두에 투표하십시오 이제 언제 논리에 갈 것인지를 언제 무작위로 갈 것인지를 결정한다고 가정 해 봅시다 임의의 숲은 항상 솔루션 트리보다 낫습니다 앙상블 학습이 당신을 제공하기 때문에 확실한 로지스틱 회귀 의사 결정 트리와 임의의 포리스트를 비교하면 앙상블 학습이 단일 의사 결정 트리를 작성하면 하나의 결과를 얻을 수 있지만 그 의사 결정 트리를 가져 와서 그것의 복제본을 100 개 만들면 그 수백 개의 복제본의 총체적인 결과로 임의의 숲 또는 또는 우리의 모든 종류의 앙상블 학습은 앙상블 학습이 우리가 이런 일을 할 때 사용하는 단일 모델보다 항상 좋습니다 우리가 소개하기로 결정했을 때이 두 가지는 하나처럼 보입니다

그러나 특정 데이터 세트는 특정 책 데이터를 따릅니다 임의의 숲 어떻게 우리가 어떤 아이디어를 당신에게 시작 했습니까? 내가 생각하는 것은 주로 당신이 알고있는 클라우스에게 알고 있다는 것입니다 분류하여 전체 회귀 분석을 사용할 수 있는지 확실하지 않습니다 멀티 비트 분류이므로 다시 읽어야합니다 또한 난 그냥 여기 임의의 숲을 가정하고 더 나아지고 내 이 두 클래스가있을 때 분류 및 자폐 회귀 사용 그러나 다시 한 번 내 말을 받아들이지 않습니다

나는 우리가 할 수있는 것이 확실하지 않습니다 내 멀티 클래스에 사용자 정의를 위해 사용할 것입니다 우리가 다중 규범 함수를 사용하거나 네트워크 패키지에 n을 다운로드해야합니다 그것들은 GLM 모델에 사용될 것이지만 타이핑하는 것이 혼란 스럽다고 생각했습니다 이항으로 갈 때 효율적인 이항 계급은 실제로 더 나은 것을 줄 것입니다

우리는 낮은 데이터를 시험하기 위해 데이터 세트를 사용합니다 모델링을 시작할 때마다이 규칙에 아무런 문제가 없습니다 바로 당신은 예측과 정확성을보아야합니다 로지스틱 모델의 정확도 향상 또는 결정 또는 무작위 및 결정은 일반적으로 사용되지 않습니다 우리는 우리 에게이 방향으로 이동해야 할 경우를 대비하여 항상 무작위로 간다 모델을 만들고 해당 모델을 조정하고 결과를 비교해야합니다

그것은 당신이 그것을하는 방법입니다 그것은 항상 재판이며 엄지 손가락 규칙이 없습니다 이 경우에 더 잘 작동해야한다는 것을 알고 있습니다 이 경우에 더 나은 작업 더 나은 Bernie는 우리가있을 때 의미 한 점을 원 이전에 평가 과제를 수행하면서 몇 가지 주제가있었습니다 그렇습니다 그래서 팀원들과 대화를 나 spoke습니다 그들은 코스 커리큘럼의 일부가 아니기 때문에 대치가 있습니다

대치가 나열되어 있기 때문에 다중 공선 성이 있으므로 부분이 아닙니다 당신은 내가 그 주제를 다룰 수 있음을 알고 이 과정의 핵심은이 과정의 핵심입니다 지금 남은 주제는 이제 우리는 예상치 못한 비지도 학습에서 차일을 우리는 우리가 추천 엔진을 가지고 주제를 클러스터링하여이 두 가지로 이동하여 다음 세션에서 다루므로 해당 측면이 코스를 찾아야합니다 다음 세션에서는 커리큘럼이 완전히 감독되지 않은 학습입니다 그래서 우리를위한 학습이 그 후에 클러스터링 기술이 될 것이라고는 생각하지 않습니다

우리는 어떻게 추천 엔진 장면을 만들 수 있는지 볼 것입니다 다시 한 번 추천하면 사용자 기반 협업이라는 것이 있습니다 필터링 및 항목 기반 공동 작업 필터링을 통해 비지도 학습과 같이 PCA를 다루는 것은 축소 치수 축소 기술을 위해 음 그래도 다음 세션에도 코스를 살펴 봐야 했어요 커리큘럼 두 가지가 확실하므로 k- 평균 군집화가 있습니다 확실히 가르치고 내가 추천 엔진이 있습니다 강의를 찾아보아야 할 다른 주제를 확실히 가르치고 있습니다

커리큘럼은 우리가 모델처럼 열 당 코스에 대해 먼저 예를주었습니다 추천 엔진 및 K에 대한 시계열 및 감정 분석 내가들을 수있는 사람이 있다면 감독하지 않는 것이 좋습니다 추천 엔진과 k- 평균 클러스터링 저는 다음 수업에서 그렇게 할 것입니다 시계열과 정서 주말 이후 주말에있을 분석 오늘 다루는 내용과 관련하여 다른 질문이 있습니다 다른 요일에 침을 뱉을 주제로 읽기 괜찮습니다

그 방해가 채팅 창을 채울 수 있기를 원합니다 괜찮을 곳이면 어디든 내가 다시 보낼 게 환자 팀을 죽이는 목록을 다시 Bernie Bernie하시기 바랍니다 및 데이터 데이터 세트 또는 이것은 사과입니다 예, 오늘 저는이 두 파일을 보낼 것입니다 데이터 세트 그렇습니다 그러면 작동 할 것입니다 당신이 경기 침체에 이행해야 집에서 그것을 떨어져 피드백 양식이 있습니다

예 피드백 양식을 작성해야하는 모든 사람 우리는 피드백 양식을 얻습니다 세션을 마치면 자동으로 피드백 양식 괜찮아 친구 주제는 우리가 당신을 마지막으로 논의했을 때와 같습니다 마법 에너지와 같은 주제이고 두 번째 에너지는 학대와 같습니다 결 측값과 특이 치 그리고 다음 값은 오븐에 대한 것과 같습니다 잠깐만 기다려 루덴의이 주제들을 다시 한 번 기다려 봐 코스 커리큘럼에서 벗어나기 때문에 이러한 주제가 강의 커리큘럼에 대해서는 최소한 당신이 그런 주제를 가르 칠 수 없습니다 오늘 30 분은 마지막으로 적어도 새로운 데이터 세트를 가져 와서 그것을 밖으로 넣어 적어도 그것이 절반 밖에 될 레이어를 어디 밖으로보고 참조 다시 한 번 우리에게 좋은 시간 이니까 같은 것을 반복하지만 다시는 내 손에 있지 않습니다

당신이 우리를 설명 할 수있는 시간은 내가 더 나은 예라고 생각합니다 우리가 모델을 알고 있지만 이것들은 우리가 모델링에 가기 위해 필요한 단계 전에 있습니다 좋은 병에 대한 우리가 어떻게 그런 일을 모르는 경우 Kaling 여기서 발생하는 모델을 구현하기가 어려울 것입니다 다시 할 수있는 유일한 것은 운영 팀에 문의하여 추가 주제와 관련하여 추가 세션을 예약하면 너희들이 자유라면 아침에 한 번, 한 번에 밤에 이렇게 세션이 8시에서 10 시까 지이므로 Blake는 운영팀이 오전 7 시부 터 오전 9 시까 지 그러면 내가 할 수있는 일을 할 수 있습니다 우리가 먼저 모든 모듈을 다 다루고 나면 이런 일이 일어날 수 있습니다

추가 주제 후에 우리가 가진 모든 모듈을 마무리해야합니다 이 목록에 추가 주제를 다룰 필요가 있는데 그것은 모든 샘플을 웃고 있습니다 2d 세션과 오늘부터 시작하겠습니다 놀랍지 않은 알고리즘 인 클러스터링은 k- 평균 알고리즘은 오늘이고 심지어 오늘날의 세션조차도 수학적이므로 우리는 k- 평균 군집 알고리즘의 기본 원리를 이해해야합니다 이 열로 구성된 홍채 데이터 세트로 여기에서 보는 것 이전 세션에서이 데이터 세트로 작업해야했기 때문에 settlin sepal Worth 꽃잎 길이 꽃잎 너비와 최종 종 열 기본적으로 우리는 클러스터링 알고리즘을 구축하려고합니다

이 데이터를 확인하고 해당 클러스터링 알고리즘에서 어떤 일이 발생하는지 이해하거나 기본적으로 우리는 클러스터링의 배후에있는 수학을 이해하려고합니다 알고리즘이 맞습니다 시작하겠습니다 여기이 데이터 셋이 있습니다 이제 첫 번째 작업은 중심 값을 얻는 것입니다

기본적으로 각 개별 값을 빼면 평균값은 이제 아래로 스크롤하여 각 평균값을 볼 수 있습니다 열 길이의 나머지 길이는 5 포인트 8입니다 열은 이것들이 값이므로 내가하고있는 일은 기본적으로 가지고 있습니다 여기 첫 번째 레코드 51에서이 값을 평균과 마찬가지로이 중심 값을 얻습니다

49를 빼고 평균값과 여기서 중심 값을 다시 얻습니다 4 점 X 평균값을 뺀 다음 sepal에 대해이 값을 비슷하게 얻습니다 다시 너비가 여기에 3 점 5이므로 3 점을 빼겠습니다 3 점 이상의 5 점, 5 점, 여기이 중심 값을 얻을 것입니다 이것이 우리가 할 수있는 방법입니다 이것이 우리로 알려진 것을 얻는 방법입니다

중심 값이므로 기본적으로 원래 값을 가지며 원래 값을 평균 값과 결과로 빼기 우리가 여기서 얻는 가치는 중심 가치로 알려져 있습니다 기본적으로이 네 개의 숫자 열 모두에 대한 중심 값을 가져옵니다 현재 모든 기록은 기본적으로 방향에 관심이 없습니다 이 수치는 우리가 원하는 위치에 마이너스가 있기 때문에 기본적으로이 빼기 기호를 원하지 않기 때문에 중심 사각형으로 알려진 것이므로 중심 사각형은 기본적으로 이 값의 제곱을 여기에 제곱하면이 값을 제곱하면 그래서 당신이이 마이너스 영점 7-4 일 때 제로 점 5를 얻습니다 5와 비슷하게이 값을 취하고이 값을 제곱하면이 값을 얻습니다 마찬가지로이 값을 제곱하여 중심을 잡을 것입니다

여기 광장은 저를 따르는 모든 사람들이 당신이하고있는 것을 말해줍니다 이 원래 값을 가지고 우리는 원래 값을 빼고 그리고 중심 값을 얻습니다 이제 중심 값을 가져옵니다 그런 다음 우리는 그것들을 제곱 할 것이고 결과는 정사각형 광장입니다 아니면 아니 나를 따라와 그래 좋아 좋아 우리가 기본적으로 원래의 편차를 얻는 것 값 또는 원래 값의 평균과의 편차가 이제 내려옵니다 그래서 내가 할 일은 sepal length에 총 편차를 더하는 것입니다

열과 마찬가지로 102의 값을 얻습니다 총계를 계산합니다 sepal width 열의 편차 나는이 값을 비슷하게 얻습니다 꽃잎 길이의 총 편차 나는 이것을 얻을 것이다 나는 총을 계산합니다 이 열의 편차와 나는 이것을 얻을 것입니다 그래서 기본적으로 이것은 합계입니다 함수를 보면 기본적으로 이것을 요약합니다 규칙 번호 2에서 규칙 번호 51까지이 전체 열의 합을 총 편차 또는 총 분산을 얻습니다 이 칼럼과 비슷하게 나는 이것을 합할 것이다

이 열에 대한 편차를 얻을 수 있습니다 요약하면 편차가 발생합니다 이 열에 대해 요약하고이 열의 편차를 얻습니다 이제 이들은 각각의 개별 열에 대한 변형입니다 이 개별 편차를 모두 더하면 총합이 구해집니다 데이터 세트에 존재하는 편차 또는 총 분산 여기 681이 있으므로 총 제곱합이라고도합니다

총 제곱합은 기본적으로 존재하는 편차의 총합을 나타냅니다 이제 모든 열과 관련하여 이제 다시 데이터 세트에 각 개인 기록에 대해이 차이를 원한다면 총 150 개의 레코드가 있기 때문에이 값을 150으로 나누면됩니다 450 개의 레코드가 있으므로이 값을 나누면 이것이 최종 값입니다 150의 최종 값은 각 값에 분산을 얻습니다 sepal length column과 마찬가지로 068이 될 것입니다

150으로 나눈 값은 01 88입니다 마찬가지로이 세 번째 열을 150으로 나누면 309가됩니다 음식 열을 150으로 나누면이 열을 다시 여기로 가져옵니다 이 모든 것을 합하면 분산이 하나로 나타납니다

누군가가 당신에게 분산을 계산할 수있는 방법을 묻는다면 전체 기록 하나의 단일 레코드에 존재하면 이것을 계산하는 방법이됩니다 날 따라 오는 사람들 모두 예, 아니오 예 왜 말할까요 값의 제곱에서의 반지름 왜 제곱근을하지 않습니까? 그리고 이것이 다시 분산이라고 말하면 우리가 저의 주요 질문은 나는 당신이 당신의 사각형을 알고 있다는 것을이 부분을 이해합니다 양수 값을 가진 제곱이지만 현재 가지고있는 제곱 값입니다 그리고 여기서 얻을 수있는 차이를 얻지 못하는 것을 여기서 보도록하겠습니다 이 용어에서 제곱의 차이가 있습니다

그래서 산 예프는 조금 기다려야합니다 이 모든 것이 10 분 더 기다려야하고이 모든 것이 합쳐집니다 이 값을 총 제곱합이라고합니다 k-means 알고리즘에서 사용할 것이므로 우리는 총 제곱합으로 알려진 제곱과 당신은 제곱의 합 안에 정직한 것을 가지고 있습니다 k- 평균 알고리즘에 관한 세 가지 중요한 구성 요소 기본적으로 총합을 계산하는 방법을 알려주는 아이디어 그냥 제곱의 바로 제곱의 총합을 이해한다는 것을 의미합니다 이것을 제곱이라고 생각할 수 있듯이 제곱은 정확히 오류가 아닐 수도 있습니다

다시 이것은 당신이 이것을 일종의 항공이라고 생각할 수있는 정확한 차이는 아닙니다 이 데이터 세트에 존재하는 편차의 총합은 지금은 좋아 그래 그래 지금은 그냥 당신이 가지고있는이 680을 고려 이것은이 데이터 세트에서 가지고있는 총 편차입니다 여기에있는이 요약표는 같은 것이므로 이 열을 오른쪽으로 밀면이 네 개의 열이 있고 이것이 전체입니다 데이터 세트 이제 여기 보시는 것은 기본적으로 오스카입니다 제가하고있는 것은이 값들을 더할 때 여기로 넘어가겠습니다 중심의 정사각형 값이 맞으므로이 4 개의 값을 더하면 추가 할 때와 마찬가지로 하나의 레코드에 대한이 제곱합 이 네 개를 반대하여이 네 개를 더하면이 값이됩니다 마찬가지로 두 번째에 대한 총 제곱합을 얻습니다 150 개 레코드 모두에 대해 동일한 내용을 추가하면 기본적으로 681이되므로 이것을 합하면 681이됩니다

의심의 여지 없이이 SS가 무엇인지 알려주세요 이것은 기본적으로 각 레코드와 관련된 오류의 합계입니다 이 모든 것을 추가하면 681 인 총 제곱합을 얻을 수 있습니다 k- 평균을 구현 한 후 얻은 클러스터 ID 알고리즘은 다시이 클러스터 ID를 살펴보고 클러스터 ID는 나중에 오른쪽에 할당되어 k- 평균을 구현했습니다 알고리즘과 k- 평균 알고리즘은 첫 번째 행을 차지하고 클러스터 1의 행은 두 번째 행을 취했으며 클러스터 4의 두 번째 행을 참조하십시오

비슷하게 내려가도록하겠습니다 클러스터 번호 3은 기본적으로 각 개별 레코드를 가져 왔습니다 k- 평균 알고리즘에 관해서는 이러한 개별 레코드는 기본적으로 총 150 개의 데이터 포인트가 있으며 각 데이터를 가져 왔습니다 하나의 클러스터에 각 단일 데이터 포인트를 배치하고 여기에 우리는 네 개의 클러스터가 있습니다 150 개의 데이터 포인트가 있으며이를 클러스터링했습니다

이 작업을 수행 한 후 150 개의 데이터 포인트를 4 개의 클러스터로 이 데이터 세트를 생성 된 클러스터와 관련하여 분할했습니다 클러스터 1에 존재하는 모든 레코드를 분리하고 덮어 썼습니다 여기에 클러스터 2에 배치 된 모든 레코드와 비슷하게 분리되었습니다 이것들은 다시 클러스터 3에 존재하는 모든 레코드입니다 이 개별 클러스터 각각에 대해 클러스터 4에있는 모든 레코드 제곱의 합으로 너비를 계산하여 제곱의 합으로 다시 우리는 같은 일을하고 있으므로 이것은 5 점 1이 중앙에 기록됩니다

5 점 1에서이 평균을 뺀 값을 취하면 우리가 그렇게 할 때 우리는 SS 내에서 이것을 다시 얻을 것입니다 평균과 관련하여 그것을 빼고 베일을 잘 싸운 다음 우리는 정사각형을 취할 것입니다 이것이 우리가 여기서 얻는 것입니다 150 개 레코드 중 첫 번째 클러스터에 대해 얻은 총 SS 내 46 3으로 이제 SS 내에서 이것을 총 편차로 간주 할 수 있습니다

군집 1에 존재하므로 전체 편차 또는 존재하는 제곱의 합 첫 번째 클러스터 또는 첫 번째 클러스터 내에서 4가 다시 4입니다 클러스터 번호 2에 대한 것이므로 클래스 번호 2에서 다시이 값을 가져 왔습니다 이 값에서 평균을 뺀 다음 마찬가지로 제곱합니다 이 모든 것을 추가하면 SS 내에서 이것을 얻을 수 있습니다 150 개 레코드 모두에 대해 SS 내에서 계산할 것입니다 다시 클러스터 2에 존재하는 편차 또는 제곱의 합 내 군집 3과 군집 4의 경우와 동일하므로 SS 내에서 계산했습니다

각 레코드에 대해 별도로 너비를 계산했습니다 150 개의 행을 모두 입력 한 다음 다시 클러스터 번호를 갖습니다 각 레코드에 대해 SS 내에서 계산 한 다음 합산하여 클러스터 번호 4에 대한 SS 내 총계 클러스터 내에서 평균을 취한 다음 빼기를 수행하는 것입니다 이 열의 평균값을 여기에 군집 3 다음에이 평균을 빼고 이 기둥을 제곱 한 다음 3 점 2의 더하기 이 열의 평균과 이의 제곱에 4 점 7의 평균을 뺀 값 이 열의 제곱 더하기이 열의 1 점 4 빼기 평균 우리가 어떻게 그 가치를 얻었는지 클러스터 번호는 무작위로 존재하지 않으므로 우리가 얻은 후 얻은 클러스터 번호 k- 평균 알고리즘을 구현 했으므로 지금은 k- 평균 알고리즘에 의해 숫자가 생성되었으므로 우리는 우리와 함께 데모를 할 때 그 후 데모를하고 있습니다 이론이 어떻게 하나의 알고리즘을 취하는 지 이해합니다 이론적으로 클러스터처럼 작동합니다

반복 할 수 있습니까? 나는 알고리즘이 일부 논리를 기반으로 작동한다는 것을 의미합니다 논리적으로이 클러스터를 기반으로 PD 뒤에 무엇이 있고 어떤 논리가 로사 리타를 수동으로 출력하고 싶다면 다시 10 분 더 기다려야합니다 이 수학이 중요하다고 가정하면 먼저이 수학을 완료 한 다음 이론으로 향하면 실용으로 가자 정화 나는 당신이 그것을 해결할 것인지 모르겠다 나중에 제 몸짓으로이 K가 무엇을 의미하는지 이해조차 못합니다 알고리즘은 내가하는 일을 계산하는 동안 그러나 나는 단지 의의와 관련성을 사지 않았습니다 k는 의미합니다 그래서 당신은 내가 지금 당장 해줄 게 처음부터 핵심은 알고리즘이 클러스터링 알고리즘임을 의미합니다 클러스터링 알고리즘은 감독되지 않은 알고리즘이므로 비 감독자와 피 감독 사이에 라벨이 없는가? 비지도 학습은지도 교수의 기본적인 차이점입니다 비지도 및 비지도에서 당신은의 구조를 이해하려고 노력 레이블이없는 데이터를 다시 가져 오므로이 데이터 세트를 사용하면 감독 학습에서 우리가하는 일을 데이터로 나누면됩니다

훈련 및 테스트 세트는 k- 평균 군집화이므로이 데이터를 k- 평균 군집에 제공합니다 알고리즘과 k- 평균 군집 알고리즘은이 데이터 세트를 이제 두 개의 클러스터가 있습니다이 클러스터는 클러스터링에 대한 아이디어가 있어야합니다 높은 클러스터 내 유사성과 낮은 미안은 매우 높았습니다 클러스터 내 유사성 및 클러스터 간 유사성이 있어야합니다

따라서 이러한 용어는 높은 클러스터 내 유사성과 높은 수준을 이해해야합니다 클러스터 간 비 유사성이므로 클러스터 1에 존재하는 데이터 포인트는 무엇입니까? 서로 매우 비슷하며 거북이의 의미는 이 유사점은 클러스터 1과 클러스터 2는 유사성이 없음을 알고 있어야합니다 군집 1과 군집 2 사이의 유사성, 즉 군집 1과 군집 2 사이의 상당한 유사성 때문에 여전히 데이터에서 클러스터링 알고리즘 피크의 간단한 용어로 혼동됩니다 의 기능에 따라 데이터를 여러 개의 클러스터로 나눕니다 이러한 클러스터 뒤에있는 데이터 포인트와 아이디어는 클러스터 유사성 및 클러스터 간 유사성 감소 클러스터 간 유사성이므로 이러한 모든 데이터 포인트는 클러스터 1에 존재하는 것은 비슷해야하므로 인트라 대신에 따라서이 클러스터 1 내의 모든 데이터 포인트는 비슷해야합니다

이것은 클러스터 유사성 내에 있으며 우리는 말하는 대신에 나는 사이에 말할 것이므로 클러스터 유사성 사이에 있으므로 클러스터 유사성 사이에는 존재하지 않아야하므로 이는 상당히 필요합니다 여기서는 클러스터 1과 클러스터 2가 유사하지 않아도되지만 클러스터 1의 데이터 포인트는 클러스터 2의 데이터 포인트와 유사해야합니다 클러스터 3의 모든 데이터 포인트가 비슷해야하므로 감각 또는 당신이 여전히 의심이있는 경우 다시 우리는 경기가 연결될 것이라고 말하는 모든 것을 다룰 것입니다 모두 의심의 여지없이 클러스터링 알고리즘이 무엇인지 알려주십시오 여기에서 클러스터링 알고리즘의 목표는 무엇입니까 나는 다른 사람들이 빠르다는 것을 발견하고있다

예 또는 아니오까지 우리가 다루는 내용까지 우리가 어떻게 지내고 있는지 알 수 있습니다 제곱의 합계 내에서 이것을 계산하면 모두 빠른 확인하십시오 그래도 우리는 각각의 클러스터는 지금 당장 클러스터 1에 대한 제곱의 합계 내에 있지만 클러스터 2에 대한 제곱의 합입니다 클러스터 3에 대한 것입니다 클러스터 4에 대한 제곱의 범위 내에서 지금 내가 뭘 악화시킬까요? 이전 섹션에서 우리는 바로 음을 가지고 있었으므로 다시 프로세스 흐름을 다루겠습니다 k-me 뒤에는 수학이 이것을 먼저 이해하는 것이 중요하다고 말합니다

여기의 탭은 우리의 총 합을 계산했습니다 제곱과이 총 제곱합은 689가되었으며이 탭에서 각 제곱을 알 수 있도록 제곱의 범위 내에서 계산 클러스터 1 클러스터 2 클러스터 3 및 클러스터 4의 제곱의 합 이 클러스터 각각에 대해 제곱의 합 안에이 모든 것을 더합니다 이 값을 얻을 수 있으므로 이것은 현재 제곱의 합계 내에서 total이라고합니다 이 두 값을 보면 k- 평균을 적용하기 전의 경우입니다 k- 평균 알고리즘을 적용한 후의 경우 알고리즘을 적용하기 전에 총 제곱합의 값을 데이터 세트의 편차는 681이며 카미를 적용한 후 알고리즘은 그 이후 681에서 처음 71 비율로 떨어졌습니다 k- 평균 알고리즘과이 총 제곱합을 적용하여 71로 줄었습니다 이제 내 질문은 나머지 오류가 어디에 있습니까? 그래서 이것이 초기입니다 우리가 k- 평균 알고리즘을 수학에 적용한 후의 제곱합 편차와 총 제곱합이 감소했음을 이해할 수 있습니다 모두가 이것에 동의하므로 너희들에게 내 질문뿐만 아니라 내가 어떻게 우리가 71 45를 얻을 수 있는지를 그릴 때 오류가 발생했습니다

클러스터 1 클러스터 2에 대한 증인입니다 클러스터 3에 대한 증인입니다 이 4 개의 값을 모두 추가하면 군집 4에 대한 증인이 70 145가됩니다 알았어

고마워 그래서 이제 누구라도 이해할 수 있겠 니? 여기 k-means가 어떻게 작동하는지에 대한 단서가 생겼습니다 시나리오 우리는 k- 평균을 적용했고 k- 평균은 우리에게 네 개의 클러스터를 뒤집어 주었다 SS 내에서이 총계를 보면 편차가 줄어드는 것을 볼 수있었습니다 알았어 이미 클러스터 내에서 말했듯이 우리가하고있는 일 유사성과 클러스터 간 비 유사성이므로이 값은 가능한 한 낮으므로 제곱의 합계 내에서 총합입니다 이 값이 가능한 한 낮다면 클러스터는 SS간에 가능한 한 유사합니다

SS 사이의 이것은 클러스터 사이의 제곱의 합이므로 이것은 클래스 내에서 사각형의 일부입니다 클러스터 내에서 제곱의 합으로 모든 점이 옆에 있고 이 모든 클러스터에 대한 제곱의 합을 요약하면 71까지 나오고 609는 4 사이의 제곱의 합입니다 당신이 우리를 이해할 수있는 것은 매우 많은 양이 있습니다 내부 클러스터 2 내부와 클러스터 2 내부의 유사성 클러스터 3 및 클러스터 4 내부이지만 시도 할 때와 볼 수있는 경우 클러스터 간의 유사성 사이에 유사성이 있는지 확인하십시오 클러스터 4 또는 클러스터 3 및 클러스터 1의 클러스터 1 및 클러스터 2 또는 스러 스터 1 바로 그때 SS 사이가 상당히 높고 이것이 k- 평균의 목표입니다 알고리즘 또는 다른 클러스터링 알고리즘이므로 클러스터링 알고리즘 데이터 세트를 가져 와서 데이터 세트를 클러스터로 나눕니다 군집 유사성이 높아야하고 군집 유사점 사이에 있어야합니다

총계 제곱합을 따르는 모든 사람이 제곱 총 증인과 우리 사이에 여기를 통해 떨어지는 모든 사람들이 키의 기본 수학은 빠른 예 또는 아니오 예를 의미합니다 괜찮은 일에 대한 마지막 버그 요약 테이블에 다시 표시하겠습니다 변동성 섹션 우리는 전체에 대한 총 제곱합을 계산했습니다 데이터 세트와 681에 도달했습니다 k- 평균 알고리즘을 적용하여 k- 평균 알고리즘을 적용했습니다 이 데이터 세트를 4 개의 클러스터로 나누었고 우리가 한 것은 각 군집에 대한 제곱의 합 내에서 군집 1 군집 2 + 2 3 및 군집 4의 제곱이므로 증인입니다

클러스터 2에 대한 클러스터 1 감시자 클러스터 3에 대한 감시자 및 감시자 클러스터 4의 경우이 4 개를 합하면 이 681의 제곱은 적용하기 전의 총 제곱합입니다 k- 평균 알고리즘과 k- 평균 알고리즘을 적용한 후 681에서 71로 떨어졌습니다 150 개 데이터 포인트가 모두이 네 개에만 있음을 이해해야합니다 이 네 개의 클러스터에 관해서는 다시 유사성이 있습니다 매우 높기 때문에이 편차가 681에서 감소한 이유입니다

609 더하기 71을 더하면 681이됩니다 나머지 609는 당신이 제곱합 사이라고 부르는 것을 제곱합 사이의 것은 클러스터 간의 비 유사성으로 인해 클러스터링의 기본 개념 알고리즘은이 값을 최소화하고이 값을 증가시켜이 값을 낮추는 것입니다 클러스터 내부의 유사성이 높을수록이 값이 높아집니다 클러스터 간의 유사성이 더 커지므로 k- 평균 알고리즘 뒤의 전체 수학 그게 좋은거야 다른 것들도 마찬가지입니다 이것이 핵심 수단의 주요 부분이므로 이해한다면 이 다음 나머지는 당신이 경우에 단지 빠른 정보 사람 케이크 조각입니다 공인 데이터 센스 전문가가되고 싶다면 intellibid에서 제공하는 데이터 과학 과정은 과정 링크를 찾을 수 있습니다 아래 설명 상자에있는 경우이 세션을 마치면 당신은 질문이있는 경우 아래의 의견 상자에 의견을 넣어 주시기 바랍니다 우리는 즉시 연락을 드릴 것입니다 다가오는 비디오에 대한 업데이트이 비디오를 시청 해 주셔서 감사합니다

Introduction to Machine Learning | What is Machine Learning | Intellipaat

온라인 쇼핑을 한 적이 있습니까? 예를 들어 Amazon에서 휴대 전화를 찾고 있다고 가정 해 보겠습니다 이제 사이트에서 동일한 가격의 휴대 전화를 권장한다는 사실을 알았을 것입니다

범위 또는 동일한 상표에 의해 이제 제품을 구입하지 않고 사이트를 떠난다면 광고를 추천받을 수 있습니다 방문하는 거의 모든 웹 사이트에서 동일한 제품을 구매하게됩니다 그래서, 어떻게 이런 일이 실제로 일어나고 있습니까? 글쎄,이 모든 것은 기계 학습 때문에 가능합니다 이제 매일 매일 사용되는 기계 학습의 실제 응용 프로그램이 수천 가지가 있습니다

고의로 또는 우연히 기초 혼란스러워! 자, 몇 가지 예제를 살펴 보겠습니다 그래서 여러분 모두는 Gmail 계정을 갖게됩니다 이제 Gmail에서 전자 메일을 다음과 같은 여러 폴더로 구분할 수 있다고 생각하십니까? 기본, 프로모션, 소셜, 스팸 등 또는 당신이 소파에 앉아서 넷플 릭스를 행복하게 둘러보고 있다고 가정 해 봅시다

따라서 과거의 시청 기록과 매우 유사한 영화 추천 목록을 얻을 수 있습니다 그럼 궁금하신 적 있나요? 어떻게 가능합니까? 기계가 귀하의 관심과 비슷한 영화를 개인적으로 제안한다는 것을 알고 있습니까? 운전 중에도 Google지도는 어떤 경로의 교통량이 더 많습니까? 어느 경로가 더 빨라질 수 있습니까? 그리고 얼마나 오래 걸릴까요? 목적지에 도달하려면, 그 길에서 계속한다면? 그렇다면 Google지도는 어떻게 생각하십니까? 이 모든 것들이 기계 학습의 응용 프로그램 일뿐입니다 그러나이 모든 후, 여기서 제기되는 문제는 정확히 기계 학습이란 무엇입니까? 로봇 만이 아닙니다 기계 학습은 주로 기계에 중점을 둔 인공 지능의 하위 분야입니다 그들의 경험을 통해 배우십시오 제가 당신에게 비유로 이것을 설명하겠습니다

따라서 처음에 아무것도 모르는 신생아를 생각해보십시오 그래서 그는 배움을 위해 학교에갑니다 이제 선생님은 알파벳으로 시작합니다 선생님은 편지에 A 편지를 보여줍니다 아이가 그에게 A

라고 말합니다 그는 학생이 모든 것을 배울 때까지 반복적으로 과정을 반복합니다 알파벳들 그래서 여기에서, 학생은 훈련 받고 있습니다 일단 훈련이 끝나면

교사는 학생이 얼마나 잘 배웠는지 확인하기 위해 시험을 실시합니다 이제 우리는 기계와 동일한 비유를 할 것입니다 그래서 처음에 우리는 절대적으로 아무것도 모르는 기계를 가지고 있습니다 그래서 우리는 비슷한 방식으로 기계를 훈련하기 시작합니다 그래서 기계는 A가 무엇인지 또는 B가 무엇인지 전혀 알지 못합니다

그래서 우리는 우리 기계에 문자 A의 다양한 그림을 보여주고 그것을 가르치기 시작합니다 A 훈련이 완료되면, 우리는 다른 글꼴과 스타일의 문자 A를 보여줌으로써 기계를 테스트합니다 그리고 기계가 정확하게 문자를 식별 할 수 있다면 기계는 잘 훈련되었다 그렇지 않다면 효율성을 높이기 위해 더 많은 이미지가있는 기계를 훈련해야합니다 A와 다른 글꼴 및 스타일을 다시 테스트하고 그 정확성을 확인하십시오

우리가 더 많은 훈련을할수록 우리 기계가 더 정확해질 것입니다 이것이 기계 학습의 개념입니다 이제 기계 학습을 크게 분류 할 수 있습니다 세 가지 범주로 나뉩니다 따라서 감독 학습, 감독되지 않은 학습 및 강화 학습이 있습니다

그래서 교수 학습에 관해서, 우리는 분류 된 데이터를 사용하여 기계를 가르칩니다 하자 우리는 과일 바구니를 가지고 있고 각 과일에는 라벨이 붙어 있다고합니다 이제 기계는이 라벨 데이터에 대해 교육을 받았습니다 따라서 일단 교육이 완료되면 테스트 데이터가 제공됩니다이 데이터는 훈련이 완료되었습니다

이제 교육 데이터에 연관된 레이블이없는 또 다른 사례를 살펴 보겠습니다 그것 여기서 기계는 유사한 데이터를 식별하기 위해 데이터의 기본 구조를 이해합니다 패턴 그리고 본질적으로 유사한 데이터는 함께 그룹화됩니다

그래서 여기서 기계는 모든 사과가 본질적으로 유사하다는 것을 이해합니다 함께 그룹화 바나나와 망고도 마찬가지입니다 따라서 이러한 유형의 기계 학습은 감독되지 않은 학습이라고합니다 마지막으로 우리는 알고리즘이 시스템을 통해 학습하는 곳에서 학습 학습을 강화합니다

보상과 처벌 Apple의 이미지를 컴퓨터에 입력하면 사과로 표시한다고 가정 해 봅시다 그것은 보상받을 것이다 그러나 사과를 파인애플이라고 표시하면 부정적인 포인트가 부여됩니다 보상 점이 점점 더 커지면서 탐구를 통해 수천 가지의 결정을 내릴 수 있습니다

그리고 이것은 기계가 훈련되는 방법입니다 그래서 이것은 기계 학습에 대한 간략한 소개였습니다 검색어가 있으면 채팅 섹션에 댓글을 달아주세요 도와 드리겠습니다 너나가

또한 인증 과정을 끝내는 데 관심이있는 경우 Intellipaat 포괄적으로 IBM과 연계하여 데이터 과학 석사 점수를 제공합니다 데이터 과학, 기계 학습, 심층 학습 및 빅 데이터에 대해 배웁니다 그래서 우리는 분석적인 R, SAS 및 Python과 같은 도구 tensorflow 및 keras와 같은 심화 학습 프레임 워크 하둡 (Hadoop), 스파크 (Spark), 몽고 (Mongo) DB와 같은 거대한 데이터 도구를 제공합니다

따라서 지금은 데이터 과학 분야에서 시작하는 것이 당연합니다

AI vs Machine Learning vs Deep Learning | AI vs ML vs DL | Intellipaat

안녕 얘들 아 Intellipaat에 의해 세션에 오신 것을 환영합니다 이제 너희들은 인공 지능, 기계 학습 및 심층 학습과 수많은 질문이 귀하의 머리, 정확히 그들이 어떻게 서로 다른지, 무엇이 그들은 목적을 가지고 봉사한다

그래서 오늘의 세션은 당신이 이 세 용어의 차이점은 간단한 질문입니다 그래서 사람이 지능을 갖게 해주는 것이 무엇인지 말해주십시오 인간은 배울 생각을하고 결정을 내릴 수 있습니다 지적이다 이제 기계가 인간과 같은 인텔리전스, 기계 인간과 같은 생각을하고 결정할 수있는 것은 정말로 놀라운 일입니다

그래서 인공 지능은 기본적으로 컴퓨터 과학 분야입니다 지능형 기계의 창조에 중점을두고 있습니다 인간처럼 반응한다 이제 우리는 인공 지능이 무엇인지 알게되었습니다 기계 학습과 깊은 학습이 어느 부분에 들어 맞습니까? 인공 지능은 광범위한 우산 및 기계 학습 그리고 그것의 부분 집합이되는 깊은 학습 또는 당신은 또한 그 기계를 말할 수 있습니다

학습과 깊은 학습은 인공 지능을 달성하기위한 수단입니다 지금 기계 학습이 무엇인지 봅시다 따라서 기계 학습은 기본적으로 하위 집합입니다 우리가 결정을 내리는 방법을 기계에 가르치는 인공 지능 입력 데이터의 도움을 받아 기계 학습을 이해하게 될 것입니다 작은 예제

그럼 여기서 무엇을 보시오, 정확히 무엇입니까? 새야 그리고 이것에 관해서는, 이것은 다시 새와 이것인가? 잘이 또한 새입니다 어떻게 지금 이 모든 것들이 새입니까? 어렸을 때 사진을 보았을 수도 있습니다 당신은 당신의 유치원 선생님이나 당신의 부모님은 이것이 새이며, 당신의 두뇌는 외모가 무엇이든 배웠습니다 그것은 새이며 그것은 우리의 두뇌 기능입니다

그러나 기계는 어떨까요? 이제 내가이 새의 형상을 받아 기계에 먹이면 그것이 가능할 것이다 그것을 새라고 부르는가? 그래서 이것은 기계 학습이 나오는 곳입니다 내가 할 일은이 새들의 모든 이미지를 가져다가 그 새들에게 계속 먹이를 주도록하겠습니다 그것과 관련된 모든 기능을 학습 할 때까지 기계 일단 그것과 관련된 모든 특징들을 배우면 나는 그것이 얼마나 잘 배웠는지 또는 다른 말로 결정하기 위해 새로운 데이터를 줄 것이다 먼저 컴퓨터에 교육 데이터를 제공하여 추출 또는 학습 할 수 있습니다

교육 데이터와 관련된 모든 기능 및 학습이 완료되면 새로운 데이터 또는 테스트 데이터를 제공하여 학습 효과를 판단합니다 이것이 완료되고 이것은 기계 학습의 기본 개념입니다 이제하자 깊은 학습에 나서라 그래서 깊은 학습은 기계의 부분 집합이다

인간의 두뇌를 모방 한 지능형 알고리즘을 개발하는 곳입니다 그래서 이제 여기서 발생하는 질문은 우리가 어떻게 인간의 뇌를 모방 하는가하는 것입니다 잘 ~ 대답은 또 다른 질문을하게하겠습니다 그렇다면 뇌는 무엇으로 구성되어 있습니까? 음 뇌는 주로 뉴런으로 구성됩니다

전기 화학 신호를 받아서 여기에 뉴런이 있고 전기 화학적 신호가 수상 돌기를 통해 수용되고, 이러한 신호는 셀 본체에서 수행되며 이러한 입력 신호의 출력은 다음과 같습니다 축색 돌기에 다른 뉴런으로 보내졌고 우리의 임무가 인간의 뇌를 모방하는 것이라면 할 필요가 인공적인 뉴런을 창조하고이 인공적인 뉴런은 생물학적 뉴런과 같은 방식입니다 따라서 깊은 학습을 구현하는 것 우리는 인공 신경 네트워크와 이러한 인공 신경을 만들어야 할 것입니다 네트워크는 입력 레이어, 숨겨진 레이어 및 출력 레이어로 구성되므로 모두 입력 층을 통해 입력의 일부가 수신되고 처리가 완료된다 숨겨진 레이어에서 최종 출력이 출력 레이어를 통해 수신되고 인공 지능이 더 넓은 우산이고, 기계 학습은 인공 지능과 깊은 학습의 하위 집합은 하위 집합입니다 기계 학습 및 기계 학습 및 심층 학습은 기본적으로 방법입니다 인공 지능을 달성하는 것 그래서 사람들은 우리를 세션 및 더 많은 것을 위해 Intellipaat youtube 채널을 계속 지켜봐주십시오

유익한 동영상

K Means Clustering Algorithm | K Means Clustering Example | Machine Learning Algorithm | Intellipaat

안녕하세요이 데이터 과학 과정의 9 번째 모듈을 다시 환영합니다

그래서 이전 비디오에서는 감독되지 않은 기계 학습에 대해 논의했으며 작동 메커니즘을 사용합니다 그런 다음 k-means 또는 pca와 같은 많은 알고리즘에 대해서도 논의했습니다 무 감독 학습 그러나 우리는 이러한 알고리즘이 무엇인지와 어떻게 작동합니까? 오늘의 모듈에서 우리는 깊이있게 될 것입니다 k-means 클러스터링 알고리즘으로 들어가기

그래서이 모듈에서 우리는 먼저 클러스터링의 개념을 이해하면 다른 유형을 살펴볼 것입니다 우리는 k-means 클러스터링으로 이동할 것입니다 주요 주제 오늘 우리의 토론의 그리고 마지막으로 우리는 k- 평균 알고리즘을 탐색하기 전에 k- 평균 클러스터링을 먼저 해봅시다 클러스터링이 무엇인지 이해하십시오 그래서 간단한 말로 클러스터링은 이제 데이터 세트를 유사한 데이터 포인트 또는 피쳐 그룹으로 나눕니다

클러스터링의 정의를 살펴 보겠습니다 따라서 클러스터링은 데이터 세트를 같은 그룹의 데이터 포인트가 가능한 한 유사하고 다른 그룹의 데이터 포인트는 다음과 같습니다 가능한 한 유사하지 않으므로 왜 클러스터링이 필요한지 또는 실제로 적용 할 수있는 곳은 어디입니까? 우리가 클러스터링을 사용한다고 말할 수 있습니다 예를 들어 슈퍼마켓에 갈 때마다 일상적인 활동 모든 야채가 한 줄에 그룹화되어 있다는 것을 알게 될 것입니다 다른 행에 다른 포장 식품

그래서 그들은 서로 다른 클러스터로 여러 떼 이제 이것이 차례로 고정시키는 데 도움이됩니다 당신의 쇼핑 프로세스가 아마존의 제품 목록이 될 것입니다 또는 플립 카트 따라서 이러한 온라인 쇼핑 응용 프로그램은 과거의 역사에

그래서 과거에 뭘 보았습니까? 유사한 제품 또는 관련 제품 그렇다면 그들이 어떻게 당신에게 추천할까요? 비슷한 제품? 다시이 개념은 클러스터링입니다 그래서 거기에있다 클러스터링을 적용하기위한 기준은 무엇입니까? 그래서 이것들은 주로 두 가지입니다 마음에 두었습니다

두 그룹 사이의 거리는 매우 커야하며 그룹 구성원 간 거리가 매우 작아야합니다 서로 다른 두 그룹을 비교할 때 가능하고 두 데이터 포인트를 비교할 때 단일 그룹은 가능한 한 유사해야합니다 이제 나는 클러스터링의 다른 유형 따라서 세 가지 주요 유형의 클러스터링이 있습니다 즉 독점 클러스터링, 중복 클러스터링 및 계층 적 기술 클러스터링

그래서 독점 클러스터링부터 시작합시다 독점적 인 클러스터링은 하드 클러스터링 기술로서 데이터 포인트 오직 하나의 클러스터에만 속합니다 그래서 여러분은 여기서 모든 오렌지색 삼각형은 하나의 그룹에 속하며 모든 보라색 삼각형은 다른 그룹에 속합니다 그룹과이 두 클러스터는 서로 완전히 다릅니다 다음으로 클러스터링이 중복됩니다 그래서이 경우 일부 데이터 포인트 여러 그룹에 속한다

그래서 여기에서 오렌지와 오렌지의 일부를 볼 수 있습니다 보라색 삼각형은 두 그룹에 속하며 녹색으로 표시됩니다 색깔 그런 다음 계층 적 클러스터링을 사용합니다 따라서이 알고리즘은 모든 데이터 포인트는 자신의 클러스터에 할당 된 다음 두 개의 클러스터에 할당됩니다

가장 가까운 클러스터가 동일한 클러스터에 병합되고 결국이 알고리즘은 하나의 클러스터 만 남았고 이해할 수있을 때 종료됩니다 이것은 A와 B를 볼 수있는 예를 생각해 보겠습니다 그리고 D와 E는 다음과 같습니다 몇 가지 유사점을 바탕으로 결합 된 다음 단계에서 A와 B는 C와 매우 유사하므로 한 클러스터에서 비슷한 그룹으로 분류됩니다 다음 단계에서 D와 E의 조합은 F와 유사하므로 하나에서 그룹화됩니다

마지막으로 네 번째 단계에서 우리는 최종 트리가 모든 것을 포함한다는 것을 알 수 있습니다 클러스터는 하나의 단일 클러스터로 결합됩니다 이제 우리는 무엇이 클러스터링과 다른 유형은 K로 이동하자 오늘 토론의 주요 주제 따라서 k-means 클러스터링은 주요 목표는 유사한 데이터 포인트를 클러스터로 그룹화하고 그룹 또는 클러스터는 K로 표시되므로 k- 평균 클러스터링은 거리에서 실행됩니다

유클리드 거리를 사용하여 거리를 계산하는 계산 유클리드 거리에 대한 공식은 화면에 표시된 것과 같습니다 이제 유추를 이해하고 k-means 클러스터링이 무엇인지 이해해 봅시다 책 한 권을 받고 책을 정리해달라고 요청한 것을 고려해보십시오 도서관에서 이제 어떻게 그들을 분리하기 시작할 것입니까? 그러니까 당신이 강사가되어이 책들이 모두 세 가지 주제에 속한다는 것을 알게됩니다 이제는 무작위로 3 권의 책만 가져 가면 그 책은 이 세 개의 개별 클러스터에 대한 시작점

그래서 다시 너는 가야 해 엄청난 양의 초기 도서 그룹과 아래에서 확인할 각 책을 살펴보십시오 이 책이 속한 클러스터 이제 모든 항목을 확인해야하는 경우 저자, 출판물 및 연도와 같은 도서의 특성 하나의 클러스터 그래서 기술적으로 당신이 선택할 시작 책은 중심

이제 우리는 중심에 더 가까운 책을 고를 것입니다 우리는 원하는 결과를 얻을 때까지이 단계를 반복합니다 이제 k-means 클러스터링의 알고리즘으로 이동하여 k가 주어지면 k-means 알고리즘은 다음 단계에서 실행될 수 있습니다 그래서 1 단계에서 우리는 2 단계에서 개체를 k 개의 비어 있지 않은 하위 집합으로 분할합니다 현재 파티션의 클러스터 중심과 우리가 각각 지정하는 3 단계 특정 클러스터를 가리키고 4 단계에서 우리는 각 지점과 많은 지점을 거리에서 클러스터로 가리 킵니다

centroid가 최소이고 point를 realloting 한 마지막 단계에서 우리는 형성되는 새로운 클러스터의 중심 (centroid)과 너무 혼란 스러울지라도 실제로 그것을 더 나은 방법으로 이해하기위한 모범을 보입니다 그러니 당신은 슈퍼마켓을위한 새로운 택배 서비스를 시작했고 당신은 도시에 3 개의 배달 센터가 있으므로 처음에는 가능한 것을 식별해야합니다 당신이 직면하게 될 도전 과제는 주문이있는 지역을 파악할 필요가 있습니다 빈번하게 배치 된 다음 필요한 수의 수를 식별해야합니다 특정 지역을 커버하는 센터와 마침내 당신은 배달 센터를 유지하기위한 배달 센터 위치 슈퍼마켓과 배달 지점 간 거리가 최소한이므로 지금 대답하십시오

그러나 이러한 질문에는 많은 분석과 수학이 필요합니다 클러스터링은 실제와 같은 문제를 해결함으로써 삶을 편하게 만듭니다 방법을 참조하십시오 이제 이러한 점을 가장 가능성있는 것으로 간주하십시오 주문이 자주 배치되는 위치

이제이 세 가지 요점은 지역을보다 효율적으로 커버하는 배달 센터로 간주됩니다 최소한 배달 센터에서 배달 지점까지의 거리 중심이나 클러스터 중심으로 행동하십시오 이제 우리는 각 배달 위치에서 우리의 클러스터 센터 또는 배달 센터까지의 거리 그래서 최소한의 거리는 색깔에 착색 될 것입니다 배달 센터 오렌지 클러스터 센터에 다음 배달에 가깝습니다

위치는 주황색으로 비슷하게 표시됩니다 그들은 모든 배달 위치를 위해 그것을 할 것이므로 지금 우리는 모든 일부 클러스터 센터에 할당 된 배달 위치 이제 우리는 배달 센터는 3 개의 클러스터로 클러스터링됩니다 그래서 우리는 계속해서 계산할 것입니다 특정 클러스터 내에있는 모든 점의 중심

그래서 centroids가 현재 클러스터 센터로 보일 수도 있고 그렇지 않을 수도 있습니다 그리고 그들이 동일하다면 그것은 이상적인 시나리오입니다 그래서 여기서 도심은 현재의 클러스터와 다른 것으로 나온다 그래서 우리는이 새로운 클러스터 점을 중심으로 간주하고 이전 것들 이제 다시 거리를 계산할 것입니다 각 배달 위치에서부터 클러스터 센터까지 배달 위치가 클러스터 센터에 더 가깝도록 우리가 찾을 수 있도록 그 배달 위치를 새 클러스터 센터에 지정하고 색상을 지정하면됩니다

따라서 다시 한번 우리는 새로운 클러스터 중심을 찾아야 만합니다 포인트가되고 이전 클러스터 센터와 동일하게 나오면 괜찮 았으면 그 때까지 반복해야합니다 클러스터가 수렴하고 클러스터 센터가 수렴하지 않기 때문에 새로운 도심을 찾기 위해 같은 과정을 거치고 클러스터가 멈출 때만 멈 춥니 다 센터가 수렴하므로 우리가 돌볼 필요가있는 또 하나의 것이 있습니다

왜곡이라고 부르기 때문에 왜곡이 낮 으면 클러스터링이 좋기 때문에 일반적으로 몇 번에 걸쳐 실행하게됩니다 다른 무작위 초기화 및 가장 낮은 클러스터링 선택 왜곡 그래서이 주어진이 수식을 사용하여 계산이 왜곡이 우리는 왜곡을 염두에 두는 단계를 반복 할 것이므로이 경우 우리는 왜곡을 사용하여 거리의 이름을 지정하십시오 변수 X 이제 우리는 키의 수를 증가시키고 클러스터가 개선 또는 왜곡 이제 키의 가치를 확인하자 K의 값이 커질수록 왜곡이 줄어들면 왜곡이 감소한다는 것을 알 수 있습니다 키의 가치는 K가 2라고 말하면 클러스터는 다음과 같이 보일 것입니다

왜곡이 증가하므로 K의 값을 선택해야합니다 우리는 K의 값을 증가시킵니다 왜곡은 일정하게 유지됩니다 K에 대해 이상적인 값으로 불리는데 이것은 팔꿈치를 사용하여 식별 할 수 있습니다 방법이 왜곡이 일정하게 유지되는 지점까지 K의 이상적인 가치이며, 이것이 K가 클러스터링 작업을 의미하는 방식입니다 이제 요약 해 드리겠습니다

알고리즘은 처음에는 클러스터 수를 찾아야합니다 주어진 데이터 세트에 대한 중심점을 계산 한 후 중심으로부터의 거리를 확인합니다 최소 거리를 기준으로 그룹화하고 우리는이 단계를 반복 할 때까지 우리는 고정 안드로이드를 얻습니다 그래서 이것은 k- 평균 알고리즘에 관한 것입니다 참석을위한 세션 감사의 끝에 우리를 데리고 와서 만나요 다음 등급

HOW DO THEY DO IT | Top 10 Applications of Machine Learning | Intellipaat

Google지도가 트래픽을 예측하는 방법을 생각 해 봤나? 아마존이 당신에게 제품이나 심지어자가 운전용 자동차가 어떻게 작동 하는지를 정확하게 또는 어떻게 권고하고 있는지 예, 그렇다면 올바른 장소에 상륙했습니다 안녕하세요, 저는 Intellipaat 출신의 Atul입니다

오늘 저는 톱 10리스트에 있습니다 기계 학습의 응용과 그들이 그것을 어떻게합니까? 끝까지 잘 지켜봐주십시오 우리가 이미 기계로 미래의 세계로 들어선 방법을 보여 드리겠습니다 그래서 번호 10에서 시작, Google지도 트래픽 예측이 있습니다 Google지도는 트래픽 예측에 매우 정확합니다

그러나 Google지도가 트래픽을 예측하는 방법 이 정보는 어떻게 얻습니까? Android 휴대 전화 또는 Google지도가 열려있는 iPhone이 있고 서비스가 사용 설정된 경우 휴대 전화 또는 앱 익명으로 실시간 데이터를 Google에 보냅니다 회사는이 정보 또는 데이터를 사용하여 계산합니다 도로에 몇 대나 있습니까? 그들이 얼마나 빨리 움직이는 지 앱을 사용하는 사람들이 트래픽 데이터보다 정확하다는 것을 의미합니다

또한 Google은 waze라는 트래픽 데이터를 통합했습니다 회사는 2013 년에 10 억 달러를 샀습니다 앱은 지역 교통부의 교통 정보를 모니터링합니다 Google은 특정 역할에 대한 트래픽 패턴의 기록을 유지하기 때문에 예측할 수 있습니다 특정 위치에서 특정 시간에 발생한 트래픽은 어떻게됩니까? 트래픽이 많으면 앱이 목적지와 시간에 도달하는 더 빠른 경로를 제안합니다

따라서 앱에 대한 신뢰를 구축 할 수 있습니다 Google이 모든 행동을 모니터링하고 추적하는 것처럼 느껴지면 걱정하지 마세요 언제든지 위치 서비스를 사용 중지하여 언제든지 선택 해제 할 수 있습니다 하지만 모두가 그렇게한다면 어떨까요? 글쎄, 우리는 문제와 데이터 및 결과로 정확하지 않을 수 있습니다 Google지도가 너무 정확하지 않은 이유가 있습니다

그래서 이것은 Google지도에서 기계 학습 알고리즘을 사용하여 데이터의 결과를 분석하고 예측하는 것에 관한 것입니다 앱에 제공하는 데이터가 많을수록 더 정확하게 제공됩니다 좋아, 그럼 앞으로 나아가 라 다음으로 9 번은 Google 번역입니다 Google 번역은 문장을 번역 할 수있는 무료 도구입니다

문서 및 심지어 전체 웹 사이트도 즉시 작동하지만 정확히 작동합니다 Google 번역사가 기계 학습을 사용하여 텍스트를 번역하는 방법 글쎄, 구글이 그들에게 도움이되는 이중 언어 엘프들로 가득 찬 방을 가지고있는 것처럼 보일 것이다 그러나 번역의 모든 요소에 관한 문제는 컴퓨터에서 나온 것입니다 이 컴퓨터는 통계 기계 번역이라는 프로세스를 사용합니다 어느 것이 컴퓨터가 많은 양의 텍스트에서 발견 된 패턴을 기반으로 번역을 생성한다고 말하는 멋진 방법 일뿐입니다 그러나 누군가에게 새로운 언어를 가르치고 싶다면 한 발 뒤로 물러서십시오

어떻게 시작 하시겠습니까? 글쎄, 당신은 어휘 단어를 낭만적 인 규칙을 가르쳐 시작하고 문장을 구성하는 방법을 설명 할 수 있습니다 권리! 마찬가지로 컴퓨터가 외국어를 배우면 같은 방식으로 이해합니다 그것은 어휘와 일련의 규칙을 참조하는 것입니다 하지만 보시면 새로운 언어를 배우는 것은 매우 복잡하며 모든 언어 학습자는 거의 모든 규칙에 예외가 있다는 것을 알려줍니다 이러한 모든 예외 및 예외를 컴퓨터 프로그램의 예외로 캡처하려고하면 번역 품질이 나 빠지기 시작합니다 이제 Google 번역은 약간 다른 접근 방식을 취합니다

따라서 컴퓨터에 언어의 모든 규칙을 가르치 려하지 않고 컴퓨터가 스스로 규칙을 발견 할 수있게합니다 다시 한 번, 기계 학습의 과제 중 하나 글쎄, 그들은 인간 번역가가 번역 한 수백만, 수백만 건의 문서를 분석함으로써이 작업을 수행합니다 이 번역 된 텍스트는 책에서 나옵니다 UN과 같은 기관과 전 세계의 웹 사이트 컴퓨터는 통계적으로 중요한 패턴을 찾기 위해이 덱을 스캔합니다 즉, 우연히 발생하지 않을 원본 텍스트와 번역 사이의 패턴입니다

컴퓨터가 패턴을 찾으면이 패턴을 사용하여 앞으로 유사한 텍스트를 번역 할 수 있습니다 이제이 과정을 반복하면 수십억 개의 패턴으로 끝나고 아주 똑똑한 프로그램이 하나 있습니다 일부 언어의 경우 안녕하세요 Google 번역기가 적은 번역 된 문서를 사용할 수 있고 따라서이 소프트웨어가 탐지 할 특허가 더 적습니다 글쎄, 이것이 바로 우리가 번역 품질은 언어 및 언어에 따라 다릅니다 Google의 번역이 항상 완벽한 것은 아닙니다

그러나 끊임없이 새로운 번역 된 텍스트를 제공함으로써 우리는 컴퓨터를 더 똑똑하게 만들고 번역을 개선 할 수 있습니다 다음 번에 Google 번역을 사용하여 문장이나 웹 페이지를 번역 할 때 수백만 건의 문서와 수십억 가지 패턴에 대해 생각해보십시오 궁극적으로 기계 학습 알고리즘을 사용하여 눈 깜짝 할 사이에 일어나는 모든 일의 번역으로 이어졌습니다 멋지다, 안 그래? 그래서 이것은 Google이 귀하의 연설을 어떻게 번역했는지에 대한 것입니다 그래서 앞으로 움직이십시오

8 위의 다음은 Facebook의 자동 오일 텍스트입니다 페이 스북의 자동 오일 텍스트는 무엇입니까? 어디 보자 오늘 요즘 페이스 북은 시각 장애인들을위한 새로운 기능을 선보였다 인터넷을 추출하고 그 친구가 전에 게시 된 적이없는 사진을 봅니다 이 기능을 자동 대체 텍스트라고합니다

그것은 기업들이 맹인들의 세계를 온라인과 오프라인에서 경험하는 방식을 변화시키는 방식 중 하나 일뿐입니다 음, 세계 보건기구 (World Health Organization)에 따르면, 전 세계에 3 천 9 백만 명의 시각 장애인이 있으며 그들이 볼 수 없기 때문에 그들이 인터넷을 사용할 수 없다는 것을 의미하지는 않습니다 그러나 그들이 그것을 경험하는 방식은 우리가 인용 한 방식과 매우 다릅니다 너에 대해서 이야기 해 정보가 가득 담긴 전체 화면을 볼 수 있으며 그 때문에 필요한 정보를 얻는 방법에 대한 결정을 내릴 수 있습니다 그러나 맹인을 위해 그것은 더 어색한 애완 동물입니다

블라인드는 두 사람이 스크린 리더에게 웹 사이트 나 앱을 서술하거나 점자로 번역 할 것을 요청합니다 한 번에 한 줄의 텍스트 또는 링크입니다 따라서 마우스를 사용하는 대신 일반적으로 키보드 단축키를 사용하여 페이지 주위를 이동합니다 이 스크린 리더는 디스플레이에 보이는 것뿐만 아니라 웹 사이트 코드를보고 작동하기 때문에 글쎄, 때로는 사이트가 거의 이해할 수없는 그들은 기술에 의해 읽을 수 있도록 설계되지 않은 경우 거의 모든 것이 텍스트 였기 때문에 인터넷의 초창기는 시각 장애인에게 실제로 더 쉬웠습니다 또한 디자인이 본질적으로 훨씬 더 시각적으로 변했습니다 소셜 미디어는이 변화의 큰 부분이되었습니다

페이스 북은 사람들이 다양한 제품에 걸쳐 400 일 동안 2 억 개 이상을 공유한다고 말합니다 그러나 그들이 옳은 것을 묘사하는 텍스트가 없다면 그 그림은 장님에게는 쓸모가 없을 것입니다 그래서 페이스 북은 자동 대체 텍스트로이 문제를 해결하려고합니다 사용자가 내장 된 리더를 켜고 그림을 선택하는 것과 같이 작동합니다 그들은 Facebook에서 인공 지능 알고리즘을 사용하여 이미지의 기본 기능을 감지하고 새로운 alt 텍스트를 만듭니다 스크린 리더는 기본적으로 사용자와 공유합니다

사진에있는 내용을 설명 하시겠습니까? 예를 들어 사진에서 선글라스를 착용하고있는 동안 바다가 내려다 보이는 모습을 보여 준다면 새로운 대체 텍스트는 다음과 같을 것입니다 이미지에는 미소 짓는 두 사람이있을 수 있습니다 선글라스 하늘에서 물 밖으로 결국 정확히 시가 아니야 그들은 대체 텍스트를 내러티브처럼 보이기를 희망하지만 시각 장애인에게 상상할 수있는 새로운 방법을 제공합니다 이미지는 무엇입니까? 글쎄 페이스 북 만이 인터넷을 시각 장애인들에게 더 유용하게 만들려고 한 것은 아니다

트위터는 최근에 사용자들이 기름진 이미지 나 기름을 붙일 수있는 기능을 발표했다 업로드 한 이미지의 텍스트 벌금 이것이 Facebook이 시각 장애인을 돕기 위해 기계 학습 및 인공 지능을 사용하는 방법에 관한 것입니다 7 위 다음은 Amazon의 추천 엔진입니다 그럼, 아마존이 다음 제품을 어떻게 추천한다고 생각하니? 글쎄, 대답은 큰 데이터로 기계 학습입니다

그래서 그들은 Amazon의 추천 시스템 엔진에서 어떻게 도움을주고 있습니까? 글쎄, 그것은 3 단계를 포함한다 이벤트 등급 및 균등 한 단계의 필터링 Amazon은 사이트의 모든 고객 행동 및 활동에 대한 데이터를 추적하고 저장합니다 클릭 할 때마다 짝수이고 사용자의 기록이 데이터베이스에 로그인했습니다 항목은 사용자 X 제품을 한 번 클릭하는 것과 같이 저장됩니다 사용자 클릭과 같습니다

엑스트라 덤은 다른 종류의 행동을 위해 한번도 다른 종류의 춤을 포착합니다 사용자가 제품을 장바구니에 추가하거나 제품을 잘 구매하는 것을 좋아하는 사용자 다음은 등급입니다 제품에 대해 사용자가 느끼는 바를 밝히기 때문에 등급이 중요합니다 추천 시스템은 구매를위한 스타와 같이 다양한 종류의 사용자 행동에 암시 적 가치를 할당합니다 3 명의 직원과 2 명의 물건 클릭 등 이제이 추천 시스템 또한 NLP 또는 자국어 처리를 사용하여 사용자가 제공 한 피드백을 분석합니다 피드백과 같은 수 있습니다

제품은 훌륭했습니다 그러나 포장은 전혀 좋지 않았다 자연어 처리를 사용하여 추천 시스템은 정서 점수를 계산하고 피드백을 양성 음성 또는 중성으로 분류합니다 벌금 여기까지 그것은 낭독과 세 번째 단계의 필터링에 관한 내용이었습니다 그럼이 단계 기계 필터 등급 및 기타 사용자 데이터를 기반으로 제품 추천 시스템은 협업 필터링 사용자 기반 필터링 및 하이브리드 필터링과 같은 여러 종류의 필터링을 사용합니다 협업 필터링은 모든 사용자 선택 사항을 비교하고 권장 사항을 얻는 것입니다 예를 들어 사용자 X는 제품 BC와 D를 좋아하고 제품을 좋아하는 바이엘을 사용하여 BCD 및 E 따라서 사용자 X가 제품 e를 좋아하고 기계가 사용자 X에게 제품 e를 추천 할 수있는 기회가 있습니다

벌금 다음은이 사용자의 검색 기록이 좋아 사용자 기반 필터링이 잘됩니다 구매 및 평가가 고려됩니다 추천을 제공하기 전에 마지막으로 다음 SP 하이브리드 방식 음, 공동 작업과 사용자 기반 필터링 유형이 혼합되어 있습니다 그래서 이것이 아마존이 당신의 다음 제품을 추천하는 방법입니다 음,이 추천은 아마존에서만 만들어진 것이 아닙니다

그러나 Alibaba eBay와 Flipkart에서도 동일한 접근 방식을 사용하고있다 벌금 따라서 6 위를 앞두고 Gmail에서 스팸을 감지했습니다 따라서 Gmail이 어떤 이메일이 스팸인지 아닌지 어떻게 이해한다고 생각하십니까? 보자 스팸 감지 기능은 기본적으로 필터 기반에서 작동합니다 새로운 기술을 기반으로 지속적으로 업데이트되는 설정 새로운 스팸 스팸 발송자에 대한 Gmail 사용자의 의견 및 사용자 확인 스팸 필터는 텍스트 필터를 사용하거나 보낸 사람과 그 기록을 기반으로 스레드를 제거합니다

발신자가 신고되었는지 아닌지 여부 먼저 텍스트 필터가 있습니다 따라서 X 필터는 알고리즘을 사용하여 스팸 전자 메일에서 가장 자주 사용되는 단어와 구를 감지합니다 법률 트리와 같은 문구 또는 무료 비트 코인은 필터로 제거하기위한 즉각적인 플래그입니다 Stomata는 요즈음에 소리를 냈다 그래서 그들은 필터를 통과하기 위해 무딘 맞춤법 오류나 심지어 3 달러와 같은 문자를 사용합니다 다행스럽게도 현대 스팸 필터가 이러한 유형의 오자를 허용 할 수 있다면 그리고 문자 치환으로도 단어가 나오면 메시지는 여전히 차단됩니다

괜찮아 다음 유형의 필터는 클라이언트 필터입니다 간단한 텍스트 필터 알고리즘에 추가하여 최고 스팸 필터는 클라이언트 ID 및 기록을 사용하여 차단합니다 악의적이고 성가신 스팸 전자 메일 스팸 필터는 어떻게 작동합니까? 글쎄, 이것은 사용자가 보낸 모든 메시지를보고 이것은 거대한 양의 이메일을 끊임없이 보내거나 이메일 중 일부는 이미 텍스트 필터를 통해 스팸으로 표시되어 이메일이 완전히 차단됩니다 그래서 블랙리스트를 사용하게됩니까? 스팸 필터에는 차단 목록도 포함됩니다 블랙리스트 란 단순히 스패머의 알려진 이메일 주소를 목록에 추가하는 프로세스입니다

이 목록은 스팸으로 표시 한 이메일 주소의 인바운드 메시지를 차단합니다 그것은 바로이 블랙리스트에 갈 것이고 그것은 또한 구글이나 지메일이 특정 키워드를 메모 할 때 도움이 될 것이다 그 스팸 메일 스팸 감지 개요 또는 Gmail이 스팸 메일인지 이해하는 방법 그러나 실시간 프로세스가 훨씬 복잡해지며 많은 양의 데이터를 소비하기 때문에 그럼 앞으로 나아 갑시다 우리가 가진 번호 5는 아마존 알렉사 아마존 알렉사가 귀하의 명령을 어떻게 이해할 수 있습니까? 음, 화면에서보고있는 장치는 아마존 에코이고 두뇌 나 에코의 음성은 다음과 같습니다

아마존 알렉사 음악을 재생하고 표시등을 깜박이는 것과 같은 여러 가지 작업을 수행 할 수있는 내장 스마트 기능이 장치에 있습니까? 장치에는 많은 작업을 수행 할 수있는 내장 스마트가 있습니다 일기 예보를 제공하는 음악을 재생하거나 표시등을 깜박이는 것처럼 단어 엘릭서를 말할 때 그것은 또한 엘릭서 이름을 인식 할 수 있습니다 공허를 인정하다 아마존은 이것을 약한 단어라고 부르며 Alexa라는 단어를 말하면 음성 녹음이 시작됩니다 따라서 말하기가 끝나면 인터넷을 통해이 녹음을 Amazon으로 보냅니다 이 녹음을 처리하는 서비스를 Alexa 음성 서비스 또는 AVS라고합니다

Amazon에서 서비스를 실행하면 녹음 내용을 해석하는 명령으로 변환합니다 간단한 음성 – 텍스트 시간 이상입니다 놀라운 온라인 서비스를 제공 할 수있는 완전히 프로그래밍 가능한 서비스입니다 아마존에 의해 권한이 부여 된 사람은 무료로 서비스를 사용하여 수제 에코를 만들 수 있습니다 음, 아마존은 간단한 $ 30 컴퓨터 인 Raspberry Pi를 사용하여 샘플 코드를 제공합니다 아마존이 무료 서비스를 제공하는 것은 극히 사심스럽게 들릴지도 모르겠지만 언제나처럼 그들은 그들의 이유를 가지고있다

아마존은 다른 사람들이 제품을 판매 할 수 있도록 제품을 판매 할 수 있기를 원합니다 따라서 알렉사가 내장 된 모든 제품은 아마존에서 물건을 구입할 때 사용할 수있는 장치입니다 Alexa가 해석하는 명령은 매우 간단합니다 시간을 요청하면 Avs가 알렉사의 오디오 파일을 보내 시간을 알려줍니다 에코가 재생되는 것은 어느 쪽이 더 복잡 할 수도 있습니다

Alexa에게 Pink Floyd를 재생하라고 말한 것처럼 Avs는 음악 서비스를 검색합니다 Pink Floyd를 설정하고 요청한 음악을 재생하는 명령을 에코로 다시 보냅니다 Alexa는 집안의 다른 기술과 함께 작업 할 수도 있습니다 필립스 색조 스마트 전구를 설치 한 경우 그것은 당신이 알렉사에게 거실 조명을 켜달라고 요청할 수 있습니다 제어 할 수 있습니다 그리고 Alexa는이 전구에 명령을 보내는 에코에 명령을 보냅니다

온라인 서비스에서도 작동 할 수 있습니다 당신은 위버에 엘릭서를 연결할 수 있으며, 단순히 알렉사에게 묻는 것으로 오버 드라이브를 요청할 수 있습니다 도미노와 연결해서 목소리로 피자를 주문할 수 있습니다 그럼이 접근 방식은 에코와 알렉사가 많은 일을 할 수 있고 목록이 점점 길어지고 있음을 의미합니다 아마존은 기술이라는 기능을 Alexa에 추가하고 있습니다

그리고 당신이 충분히 똑똑하다면, 스스로 기술을 개발할 수 있습니다 즉 Alexa를 사용하여 지원 목록에없는 것을 제어 할 수도 있습니다 해커들은 열심히 일을하고 있습니다 미디어 센터 프로그램 Kodi를 제어하고 다음 버스가 로컬 버스 정류장에 도착할 때를 파악하는 지원 추가 이 접근법을 Alexa의 Achilles 발 뒤꿈치라고도합니다 연결이 느리거나 작동하지 않는 경우 인터넷 연결 및 AWS가 필요합니다

nxr을 사용할 수 없으며 너의 에코는 쓸모 없을거야 언젠가 아마존이 당신에게 서비스 요금을 부과하기로 결정했는지 아니면 그냥 닫을 지 결정합니다 쓸데없는 장치가 남을 것입니다 언제 아마존은 시장에서 유일한 회사가 아닌가? 애플과 마이크로 소프트 음성 명령으로 작업을 수행 할 수있는 서비스를 ok, Google Siri 및 Cortana 형식으로 제공 할 수 있습니다 심지어 그들은 클라우드 서비스에서 처리되는 음성 명령과 동일한 접근 방식을 사용하고 있습니다

그러나 그들 중 대부분은 Alexa처럼 융통성이 없거나 서비스와 통합되지 않았습니다 그래서이 서비스 중 어느 것이 든 우리가 모두 잘하면 알렉사만큼 예절 바르게 사용할 것입니다 글쎄, 나는 너에게 예제를 줄 것이다 그녀가 어떻게 일하는지 nxr에게 물어볼 때 그녀는 많은 사람들이 저를 가르치기 위해 열심히 노력했으며 여전히 배우고 있다고 대답했습니다 올라가는 겸손하고 예의 바른 권리로 해답을 얻는 것이 좋지 않겠습니까? 그럼 앞으로 나아 갑시다

그래서 번호 4 위에서 우리는 Tesla의 자기 운전의 차로서 가지고있다 최근의 연구에 따르면 도로 사고의 90 %가 인간의 실수로 인한 것입니다 실수는 인간이다 그러나 휠 실수 뒤에는 종종 재앙으로 사고로 인해 불필요한 사망자가 발생했습니다 그들이 더 안전하게 운전한다면 구할 수 있었던 거짓말 그래서 이것은자가 운전의 차가 그림으로 들어오는 곳입니다 그들은 사람이 운전하는 자동차보다 훨씬 안전한 자치 자동차입니다 그들은 운전자의 피로감이나 질병 같은 요인에 영향을받지 않습니다

이것은 그들을 매우 안전하게 만든다 자가 운전 자동차는 항상 환경을 관찰하고 여러 방향을 스캔하는 데 능동적입니다 자동차가 예상하지 못한 이동을하는 것은 어려울 것입니다 그래서 멋지지 않습니까? 그러나 주된 질문은자가 운전 차는 어떻게 작동 하는가? 그런데이 자기 운전 차는 주로 3 개의 다른 기술 ID 센서 IOT 연결 및 이러한 소프트웨어 알고리즘 따라서 IOT 센서에 대해 말하면 자율 차량을 현실화하는 데 사용할 수있는 다양한 유형의 센서가 있습니다 사각 지대 감시 용 전방 충돌 경고 센서 레이더 카메라 라이더 및 초음파는 모두 함께 작동하여자가 운전 차량의 내비게이션을 가능하게합니다 다음은 IOT 연결성입니다

자가 운전 자동차는 클라우드 컴퓨팅을 사용하여 교통 정보를 처리합니다 표면 상태 이렇게하면 주변 환경을보다 잘 모니터링하고 정보에 입각 한 의사 결정을 내릴 수 있습니다 잘 자기 운전 차량은 항상 인터넷에 연결되어야합니다 에지 컴퓨팅 하드웨어가 로컬에서 소규모 컴퓨팅 작업을 해결할 수 있다고하더라도 그래서 마침내 우리는 그들을 작동하게 만든 소프트웨어 알고리즘을 가지고 있습니다 따라서 자동차가 수집하는 모든 데이터를 분석하여 최상의 행동 방침을 결정해야합니다

이것은 제어 알고리즘과 소프트웨어의 주요 기능이며, 여기에서 기계 학습이 그림으로 나타납니다 이것은 결정을 완벽하고 정확하게해야하기 때문에 자동차 운전 차량의 가장 복잡한 부분입니다 우버 셀 운전 사고 같은 결함은 치명적일 수 있습니다 오늘날 세계에서 가장 유명한자가 운전용 자동차는 Tesla와 Google이 만든 자동차입니다 Tesla 자동차는 자동 조종 장치 (autopilot)로 알려진 소프트웨어 시스템을 사용하여 환경을 분석하여 작동합니다

이 자동 조종 장치는 하이테크 카메라를 사용하여 우리가 할 일을 사용하는 것처럼 전 세계에서 데이터를보고 수집합니다 컴퓨터 비전 또는 정교한 이미지 인식을 사용하여 그런 다음이 정보를 해석하고이를 바탕으로 최상의 결정을 내립니다 더 일찍 시작했다 테슬라의 자체 운전 기술은 이미 오늘 시장에서 판매되고있다 그래서 이것은 자기 주행 차가 기계 학습 기술을 사용하여 걷는 방법에 관한 것이 었습니다

내가 너에게 비디오를 보여 주면 네게 일이 더 분명해질거야 그래서 아침 3시에 Netflix 영화 추천으로 다음 날 따라서 Netflix에서 시청하는 TV 쇼 중 80 % 이상이 플랫폼 추천 시스템을 통해 발견됩니다 그 의미는 당신이 Netflix에서보기로 결정한 것의 대부분은 신비한 블랙 박스 알고리즘에 의한 결정의 결과입니다 Netflix에서 시청하는 TV 쇼의 80 % 이상이 플랫폼 추천 시스템을 통해 검색됩니다 즉, Netflix에서 시청하기로 결정한 항목의 대부분을 의미합니다 알고리즘의 신비한 블랙 박스에 의한 결정 결과 그래서 나는 그것이 어떻게 작동하는지에 관심이있다

Netflix가 당신에게 영화를 추천하는 방법은 무엇입니까? 잘 Netflix는 기계 학습 알고리즘을 사용하여 영화 목록을 추천하고 처음에 선택하지 않은 프로그램을 찾습니다 이 작업을 수행하기 위해서는 보드 저널에 의존하여 예측을하는 대신 콘텐츠 내의 스레드를 살펴보십시오 이것은 어떻게 예를 들어 설명합니다 Netflix Marvel Show를 보는 8 명 중 한 명은 Netflix의 만화책 기반 자료에 완전히 새로운 내용입니다 토드 옐린 넷플릭스 (Netflix)의 제품 혁신 부회장은 넷플릭스 (Netflix)를 3 발 의자 3 개의 다리는 의자가 Netflix 회원 일 것입니다 콘텐츠에 대한 모든 것을 이해하는 두 번째 단검 세 번째로 큰 머신 학습 알고리즘으로 모든 데이터를 가져 와서 함께 정리합니다

Netflix는 전 세계 사용자가 1 억 명이 넘습니다 각 가입자의 여러 사용자 프로필을 계산하면 총 약 2 억 5 천만 개의 활성 프로필이됩니다 Netflix는 프로필에서보고있는 내용을 추적하는 것처럼 이러한 프로필의 다른 종류의 데이터를 사용합니다 현재 비디오를 완성한 후에 무엇을합니까? 그리고 이전에 무엇을 보셨습니까? 또한 1 년 전에 지켜본 내용이나 현재보고있는 내용을 추적합니다 그리고 그날의 어떤 시간에 그렇게 이 데이터에는 은유 적 의자의 첫 번째 다리가 있습니다

이제는이 정보를 더 많은 데이터와 결합하여 시청중인 프로그램의 콘텐츠를 이해합니다 이 데이터는 수십 명의 사내 및 프리랜서 직원이 Netflix 및 대상에서 매 순간 또는 매 시청마다 시청합니다 태그들 그들은 대뇌가 어떻게 조각에서부터 조립식으로 또는 공간에 놓여 있는지, 이러한 모든 태그와 사용자 행동 데이터를 수집하고 매우 정교한 기계 학습 알고리즘에 대한 수수료로 기침을합니다 무엇이 가장 중요하거나 무엇이어야 하는가? 소비자가 어제 뭔가를 지켜 본다면 얼마나 중요할까요? 1 년 전보다 두 배나 많았지 만 10 배나 많았습니까? 약 한달 전에? 어쨌든 그들이 10 분간의 내용을 보았고 그것을 포기했거나 2 박만에 깜박 거리면 어떨까요? Netflix는 어떻게 그 모든 것을 지불합니까? 글쎄, 여기가 기계 학습이 시작되는 곳입니다 그런 세 가지가 창출 한 것은 전세계의 맛 커뮤니티였습니다

그것은 당신이 보는 것과 같은 종류의 것을 보는 사람들입니다 시청자는 수천 개의 여러 맛 그룹에 적합하도록 만들어졌습니다 그리고 이것이 화면 인터페이스의 상단에 어떤 추천 사항이 나타나는 지에 영향을줍니다 jar 행이 표시되고 각 행이 각 개별 뷰어에서 정렬되는 방법 기계 학습에 사용되는 태그 알고리즘은 전 세계에서 동일합니다 태그의 가장 작은 하위 집합이 외향 파에 어떻게 사용되는지 사용자 인터페이스에 직접 입력하고 국가 언어 및 문화적 상황에 따라 연기 탭은 의미있는 방식으로 현지화되어야합니다 예를 들어 거친 단어는 3D에서 드라마는 스페인어 또는 프랑스어로 번역되지 않을 수 있습니다

좋습니다 Netflix가 알고리즘에 제공하는 데이터는 암시 적 및 명시 적의 두 가지 유형으로 나눌 수 있습니다 명백한 데이터는 문자 그대로 우리에게 알려줍니다 예를 들어 친구에게 엄지 손가락을주고 넷플 릭스는 그것을 얻습니다 다음은 함축적 인 데이터입니다

함축적 인 데이터는 실제로 행동 데이터입니다 마치 넷플 릭스에게 당신이 검은 색 거울을 좋아한다고 분명하게 말하지 않은 것 같습니다 하지만 너는 그걸 섞어서 이틀 밤에 지켜 봤어 그래서 여기 넷플 릭스는 사실상 행동과 마찬가지로 잘 이해합니다 유용한 데이터의 대부분은 암시적인 데이터입니다

그래서 이것은 Netflix가 기계 학습을 사용하여 영화를 추천하는 방법에 관한 것입니다 그럼 2 번자리로 넘어 가자 우리는 Keuka 로봇을 가지고 있습니다 미래가 이미 여기 있습니까? Keuka는 공장 자동화를위한 산업용 로봇 및 솔루션의 선두 제조업체입니다 그들의 로봇은 지루한 작업을 수행 할 수있는 고급 로봇 수준으로 제조됩니다

그들은 대기업에서 주로 자동차 산업뿐만 아니라 우주 산업과 같은 다른 산업에서도 사용됩니다 Keuka 대 팀 볼에 대한 짧은 비디오를 보여 드리겠습니다 탁구 선수 세계 1 위 이렇게하면 정확하고 정밀한 SKU 자동차 로봇이 될 수 있습니다 끝 번호 하나에서 좋아 우리는 mollies 몸 부엌이있다 기계에 당신이 먹고 싶은 것을 말하는 것이 어떻게 될지 생각 해본 적이 있습니까? 그리고 기계는 똑같은 조리법과 똑같은 장소를 요리 해줍니다

글쎄요, 이것이 미래라고 생각한다면, 남성이라고 불리는 회사가 이미 그러한 로봇을 만들었습니다 로봇은 n 개의 요리를 배울 수 있습니다 다시 한번 짧은 비디오를 보여 드리겠습니다 이렇게하면 일이 더 명확 해집니다 평생 동안 매일 다섯 가지 요리사가 모든 음식을 조리한다고 상상해보십시오

이것은 몰리브덴 로봇이 성취하고자하는 꿈과 목표입니다 그들은 조리법을 배울 수있는 최초의 완전 자동화되고 지능적인 로봇을 만들었습니다 눈에 띄는 정밀도로 모든 종류의 음식을 쿡쿡 한 다음 스스로 청소하십시오 몰리 로봇은 몰레 부엌의 작동 프로토 타입을 만들었습니다 미래 지향적 인 워크 스테이션은 첨단 로봇 팔을 갖추고 있으며 주방 용품을 잡고 손으로 액체 균열 알을 측정 할 수 있습니다 그들이 할 수있는 이름 MasterChef 수상자 인 Tim Anderson은 Molly의 개발 주방장으로 고용되었으며 로봇 팀이 비디오 게임과 같이 모션 캡처 장갑과 손목 밴드를 사용하여 로봇을 요리하는 방법을 도왔습니다

이것은 잠재적으로 다른 유명한 요리사들의 움직임을 기록 할 수 있고 간접적으로 식사 준비를 할 수 있음을 의미합니다 요리사 고든 램지 몰리 로봇은 최근에 크라우드 펀딩 캠페인을 시작했습니다 프로토 타입 주방의 투자자와 잠재적 인 테스터를 찾고 로봇의 능력을 향상시키는 데 도움을줍니다 Moli는 스마트 폰 장치로 요리를 할 수 있다고 믿습니다 통신 및 제품 비디오에 따라 청소하기 위해 수행 한 진공 청소기는 무엇입니까? cnet

com의 몰리 로보 틱 주방에 대한 자세한 내용을 볼 수 있습니다 그래서 남자 로봇 부엌에 관한 것이 었습니다 모두 감사합니다이 세션에 관한 전부였습니다 Alba가 멈춰서고 대부분의 기술 메스가 마음에 들었던 나의 다음 비디오를 위해 계속 지켜봐주십시오

밤새 가젯을 충전하면 배터리 수명이 단축되거나 비행기에서 전화를 사용하면 문제가 해결됩니다 음,이 비디오를 즐기는 경우 채널을 구독하고 친구들과 비디오를 공유하십시오 고맙습니다