Best Fit line – Machine Learning Tutorial with python

안녕하세요 여러분 테크 엔지니어링 채널에 오신 것을 환영합니다 이 비디오는 머신 러닝 튜토리얼 07입니다 회귀에 가장 적합한 라인에 관한 모든 것 우리는 주어진 회귀, 또는 가장 적합한 선을 계산하기 위해 노력하고 있습니다

파이썬의 데이터 셋 이전에는 경사를 모을 함수를 작성했습니다 이제 y 절편을 계산해야합니다 이 시점까지 우리의 코드 : 다시 말해, 최적 선의 y 절편에 대한 계산은 다음과 같습니다 b는 y 막대 광산과 같습니다

이것은 경사보다 약간 쉬울 것입니다 이것을 다른 라인에 통합하여 몇 줄을 절약 할 수 있습니다 기능 이름을 바꿉니다 best_fit_slope_and _intercept에 다음으로 b = mean (ys)-(m * mean (xs))를 입력하고 m과 b를 반환합니다 이제 우리는 다음과 같이 호출 할 수 있습니다 : m, b = best_fit_slope_and_intercept (xs, ys) 출력은 0

3 43이어야합니다 이제 데이터 라인을 만들어야합니다 y = mx + b라는 것을 상기하십시오 우리는 이것에 대한 기능을 만들 수 있습니다

고리: regression_line = [(xs의 x에 대한 (m * x) + b]] 위의 1-liner for 루프는 다음과 같습니다 x의 x에 대해 regression_line = [] : regression_lineappend ((m * x) + b) 대단한 노동의 결실을 거두자! 다음 가져 오기를 추가하십시오 matplotlib 가져 오기 스타일에서 plt로 matplotlibpyplot 가져 오기 style

use ( 'ggplot') 이것은 우리가 그래프를 만들고 그렇게 추악하지 않게 만들 수 있습니다 이제 끝 : pltscatter (xs, ys, color = '# 003F72') pltplot (xs, 회귀 _ 라인) pltshow () 먼저 기존 데이터의 산점도를 그린 다음 회귀선을 그래프로 표시합니다

마지막으로 보여주세요 따라서이 모델을 기반으로 실제로 예측하는 방법은 무엇입니까? 만든? 충분히 간단 하죠? 모델이 있고 x 만 입력하면됩니다 예를 들어, 몇 가지 점을 예측해 봅시다 predict_x = 7 우리는 입력 데이터, "기능"을 가지고 있습니다 라벨이 뭐야? predict_y = (m * predict_x) + b 인쇄 (predict_y) 출력 : 6

4 우리는 이제 우리 자신의 모델을 만드는 방법을 알고 있습니다 그러나 우리는 여전히 중요한 것을 놓치고 있습니다 : 얼마나 정확한지 우리 모델? 다음 튜토리얼에서 논의 할 주제입니다!

Free Online Python Machine Learning Course – Casting integers and floating point numbers

안녕하세요 친구들, 이것은 TKD입니다 15 년의 컴퓨터 프로그래밍 경험이 있습니다 그리고 오늘은 파이썬 머신 러닝 채널의 일부입니다 한 유형에서 다른 유형으로 여러 유형의 데이터를 캐스트하는 방법에 대해 학습합니다

오늘 토론 주제는 정수와 부동 소수점을 캐스팅하는 것입니다 깨끗한 노트북부터 시작하겠습니다 새로운 Python 3을 클릭하십시오 1 단계 깨끗한 노트로 시작하십시오 우리는 이제 1 단계로 끝났습니다 2 단계는 노트북이 깨끗해지면 2 단계에서 무엇을합니까? 아래 드롭 다운으로 이동합니다 아래에서 레벨 선택 모드를 볼 수 있듯이 변환을 입력합니다 플로팅 첫 번째 세포로 그런 다음 런을 입력합니다 보시다시피 텍스트 아래에 새로운 셀이 나타납니다 텍스트 에서 Jupiter 노트북의 텍스트는 마크 다운 언어라고하는 것으로 HTML과 매우 유사합니다

이제 다음 셀이 나타나면이 코드를 작성하기 위해 아래에 작성하십시오 10과 같음 플로트, 나 실행 버튼을 누르십시오 여기 당신이 한 일이 있습니다 당신은 내가 10이라고 말했고 우리의 예에서 I는 당신이 I 변수에 float 메소드를 사용하는 변수입니다 출력은 100은 부동 숫자입니다 중요 사항 마크 다운을 사용하면 노트북을 문서화하여 함수가 매개 변수를 사용하고 값을 반환 우리의 방법은 특정 유형의 기능 단계 4입니다 따라서 실행 버튼을 누른 후 위의 셀을 실행하면 다른 셀이 나타납니다 이제 만들겠습니다

더 많은 문서를 만들거나 이제 다른 마크 다운을 입력하겠습니다 변환 int로 부동 드롭 다운의 선택 표시에서 스마트 다운을 선택하고 실행 버튼 또는 실행 버튼을 누르십시오 따라서 5 단계는 아래 코드를 다음 셀에 입력하고 실행 버튼을 누르십시오 F는 14 포인트 6 6과 int 에프 이제 Run 버튼을 클릭 해 보겠습니다 그래서 여기 당신이 한 일이 있습니다

F라는 변수를 만들었습니다 F라는 변수를 부동 소수점 숫자로 설정 하시겠습니까? 열네 포인트 여섯 여섯 그런 다음 int라는이 함수를 사용하여 F를 정수로 변환했습니다 주목해야한다 이 함수를 사용할 때 파이썬은 반올림하지 않습니다 소수점보다 먼저 모든 것을 가져 와서 제거했습니다 축하합니다

float로 변환하고 float로 끝났습니다 따라서 내 채널을 구독하여 더 많은 업데이트를 받고 계속 지켜봐야합니다

Free Online Python Machine Learning Course – Installing Python on Windows (Anaconda Distribution)

친구 이것은 TKD입니다 저는 15 년 간의 데이터 과학 및 컴퓨터 프로그래밍 경험을 공유하기 위해 왔습니다 여기 파이썬을 사용한 머신 머신 러닝을위한 무료 코스가 있습니다

내 채널을 구독하는 것을 잊지 마세요 최신 업데이트를 얻기위한 팁을 얻었습니다 오늘, 이것은 머신 러닝 엔지니어를위한 종합적인 파이썬 코스의 첫 번째 비디오입니다 그래서 우선 anaconda dot-com 배포판을 사용하여 Python 설치 그래서 아코디언을 사용하여 Python 37 버전을 사용하여 이미 설치했습니다 Anaconda 배포 및 씨를 설명했다

베이지 색 여러분도 잘 해내 고 있습니다 어서 지금 해 이 비디오에서 우리가 할 것은 우리의 목표는 파이썬을 홈페이지에 연결하고 노트북을 만드십시오 그래서 우선, 나는 이미 파이썬을 설치했고 지금은 내 검색 창으로 이동하십시오 나는 파이썬을 열 수 있고 파운드 할거야 과 그냥 나 이 설치는 우리를 위해 목성 노트북에 열렸으므로 단계 1이 완료되었습니다

2 단계 : 모든 노트를 입력 한 것처럼 수행했습니다 이제 목성을 볼 수 있습니다 노트북이 여기에 나타났습니다 이제 파이썬 노트북을 열 수 있습니다 색상이 시작된 화면 인쇄에서 변수 변수를 볼 수 있습니다 대령이 시작되었고 목성의 목성 화면을 볼 수 있다고 생각하십시오 왼쪽의 드롭 다운에서 잘만되면 나는 사용했다 프로젝트로서의 Python 3 이제 새로운 Jupiter 노트북이 나타 났으므로 IDE 친구입니다

통합 개발 환경 Python 머신 러닝을위한 목성 환경 그래서 축하합니다 Python을 시작하고 Jupiter 노트북을 만들었습니다 감사합니다

SAS Demo | Deep Learning with Python (DLPy) and SAS Viya for Computer Vision

안녕하세요, 저는 Susan Kahler이고 인공 지능과 기계 학습에 대한 책임이 있습니다 SAS에서

이 비디오에서는 SAS Deep Learning Python API 또는 DLPy에 대해 간략하게 설명합니다 이 시리즈는 DLPy가 지원하는 최신 컴퓨터 비전 모델에 중점을 둘 것입니다 DLPy를 통해 Python에 익숙한 데이터 과학자는 딥 러닝을 활용할 수 있습니다 SAS Viya의 컴퓨터 비전 기능 설명의 링크를 사용하여 주제로 직접 이동하십시오

첫 번째 섹션에서는 DLPy와 함께 Functional API를 활용하여 빌드하는 방법을 살펴 봅니다 ResNet 모델을 포함한 기능 추출을위한 복잡한 모델 다음으로 축구를 추적하기 위해 U-Net 모델을 사용하여 이미지 세분화를 수행하는 방법을 살펴 보겠습니다 선수 그런 다음 DLPY가 VGG16을 백본으로 사용하여 Faster R-CNN을 사용하여 객체 감지를 지원하는 방법을 살펴 보겠습니다 회로망

스위칭 기어, DLPy가 어떻게 MobileNet 및 ShuffleNet을 지원하고 성능을 비교하는지 살펴 보겠습니다 ResNet50 모델이있는 모델 중 하나입니다 마지막으로 훈련과 추론 모두에서 멀티 태스킹 학습이 수행되는 방법을 살펴 보겠습니다 제품 권장 사항에 대해서는 소매 도메인에서 추론을 위해 Python 용 이벤트 스트림 처리 패키지 인 SAS ESPPy를 사용합니다 DLPy에는 Python 3 이상 및 SAS Viya 34가 필요합니다

또한 Analytics 전송을위한 SAS 스크립팅 래퍼 또는 SWAT 패키지가 필요합니다 DLPy는 python-dlpy 디렉토리의 SAS 소프트웨어 용 GitHub에서 사용할 수 있습니다 이 비디오에 실린 Jupyter 노트북도 해당 위치에 있습니다 DLPy의 최신 컴퓨터 비전 기능에 대해 배우고 즐기시기 바랍니다 스스로를 위해

안녕하세요, 저는 SAS의 데이터 과학자 인 Wenyu이며 딥 러닝과 컴퓨터에 중점을 둡니다 비전 API 이 비디오에서는 고급 Python API, Python을 사용한 SAS Deep Learning 또는 (DLPy) 이 비디오의 목적은 SAS에서 기능적 API를 활용하는 방법을 보여주는 것입니다 복잡한 모델을 만들기위한 DLPy 보다 유연한 방법을 제공하기 때문에 Functional API에 중점을두고 있습니다

Keras Functional API와 매우 유사한 복잡한 모델을 구현하십시오 Sequential API는 공유 모델을 만들 수 없다는 점에서 제한적입니다 레이어 또는 여러 입력 또는 출력이 있습니다 입력 및 출력이 여러 개인 모델이 Functional API를 사용하는 좋은 예입니다 간단한 6 단계로 SAS DLPy를 사용하여 모델을 생성 해 봅시다

텐서를 반환하는 Input ()에 의해 두 개의 텐서 (회색조 이미지와 RGB 이미지)를 정의합니다 목적 그런 다음 그레이 스케일 이미지가 두 개의 컨볼 루션 브랜치에 공급됩니다 이 모델에는 또 다른 입력 컬러 이미지가 있습니다 그런 다음 이미지의 특징을 추출하기 위해 컨벌루션 연산이 사용됩니다

세 개의 텐서가 연결되고 OutputLayer_1에서 분류를 계산하는 데 사용됩니다 손실 또한 모델은 OutputLayer_2를 통해 감독됩니다 그런 다음 정의 된 입력 텐서 및 출력 텐서를 Model () 함수에 전달합니다 마지막으로 compile ()을 호출하여 네트워크를 컴파일합니다

여기서는 모델의 요약과 네트워크 그래프를 보여줍니다 레이어 연결 이 다음 모델에서는 ResNet 유사 모델을 작성하는 방법을 고려하십시오 이 작업에서는 돌고래 또는 기린을 포함하는지 여부에 따라 이미지를 분류합니다 먼저 각각의 직후에 배치 정규화를 채택하는 회선 블록을 정의합니다

회선 다음으로, 나머지 블록 내에서 바로 가기 연결을 사용하여 입력 기능을 연결합니다 컨볼 루션의 출력에 4 개의 누적 잔차 블록이 있으며 네트워크는 전체 평균 풀링으로 끝납니다 다음은 순차적으로 누적 된 4 개의 잔차 블록과 전역 평균을 보여주는 모델의 그래프입니다 풀링

모델이 빌드되면 ImageTable API에 의해 데이터가로드되고 모델을 학습 할 수 있습니다 순차적 인 모델처럼 SAS DLPy API를 사용하면 사전 훈련 된 여러 출력 모델을보다 쉽게 ​​정의 할 수 있습니다 기능 추출기로서의 백본 다음 경우에는 가중치와 함께 ResNet18 모델을로드합니다 다음으로로드 된 모델을 기능 모델로 변환하고 원래 작업 계층을 삭제합니다 이를 위해 to_functional_model ()을 사용하고 stop_layers를 지정합니다

그래프 이동을 중지하는 레이어 즉, stop_layers와 stop_layers가 뒤에 오는 모든 레이어가 제거됩니다 기능적 모델 그런 다음 OutputLayer와 Keypoints Layer라는 두 가지 새로운 작업 계층을 추가합니다 그래프 하단에서 새로 추가 된 두 개의 레이어를 볼 수 있습니다

이 비디오에서는 DLPy를 사용하여 여러 입력 및 출력을 가진 모델을 만든 다음 ResNet과 유사한 모델이며 마지막으로 순차 모델을 기능 모델로 변환했습니다 시청 해주셔서 감사합니다 안녕하세요, 저는 Maggie Du이고 SAS의 기계 학습 개발자이며 딥 러닝 및 컴퓨터 비전 API 이 비디오에서는 DLPy라고하는 SAS 고급 딥 러닝 Python API를 사용하여 게임에서 축구 선수를 추적하는 이미지 분할 문제를 해결하는 방법을 보여줍니다 각 플레이어에 대한 통계를 제공합니다

코치에 의한 경기 후 분석과 같은 여러 목적으로 통계를 사용할 수 있습니다 팬들에게 증강 게임 시청 경험을 제공합니다 이미지 분할은 이미지를 의미 적으로 의미있는 부분으로 분할하려고 시도합니다 각 부분을 사전 정의 된 레이블 중 하나로 분류합니다 따라서 픽셀 수준에서 이미지를 이해하는 새로운 방법입니다

예를 들어이 이미지에는 개, 고양이 및 배경의 세 가지 클래스가 있습니다 따라서 우리는 각 픽셀에 어떤 클래스가 속하는지를 나타내는 특정 색상을 부여합니다 전반적으로 각 객체의 정확한 경계를 얻을 수 있습니다 시작하자 필요한 모듈을로드 한 후 데이터 세트를로드하려고합니다

우리는 축구 경기의 이미지를 예로 들어 170 이미지가 포함 된 모두 256 * 256으로 조정되었습니다 다음은 원시 이미지와 해당 주석의 시각화입니다 이미지에는 축구 선수, 축구 공 및 배경의 세 가지 다른 객체가 있습니다 따라서 주석 이미지에는 세 가지 색상이 포함됩니다 그런 다음 데이터 세트를 학습 데이터, 유효성 검사 데이터 및 테스트 데이터로 무작위로 나눕니다

다음으로 SAS DLPy를 사용하여 U-Net 모델을 구축하려고합니다 이 대칭 모델은 인코딩과 디코딩의 두 부분으로 볼 수 있습니다 기능 크기가 가장 작은 레이어 인 병목 현상 레이어로 분할됩니다 인코딩 부분에서 풀링 레이어를 사용하여 다운 샘플링을 수행하여 기능을 추출합니다 디코딩에서 입력 컨볼 루션 레이어를 사용하여 입력 이미지에서 업 샘플링 학습 된 정보를 재구성하는 부분

또한 텐서를 직접 결합하는 4 개의 연결 레이어를 모델에 추가했습니다 두 개의 다른 레이어에서 이전의 특정 정보를 쉽게 상속받을 수 있습니다 층 SAS DLPy는 사전 정의 된 U-Net 모델을로드하는 기능을 제공합니다 인코딩을위한 4 개의 풀링 계층 및 디코딩을위한 4 개의 전치 컨볼 루션 계층

축구 경기 데이터 모델에는 3 천 4 백만 개가 넘는 매개 변수가 포함되어 있습니다 SAS DLPy API를 사용하여 계층별로 고유 한 U-Net 모델을 만들 수도 있습니다 병목 현상 레이어의 크기 및 컨볼 루션 수와 같은 기능을 쉽게 결정할 수 있습니다 두 풀링 레이어 사이에 원하는 레이어 아키텍처가 구축되면 교육 데이터를 사용하여 모델을 교육하고 유효성을 검사 할 수 있습니다 검증 데이터 사용

교육이 완료된 후 테스트 데이터를 사용하여 모델의 성능을 테스트 할 수 있습니다 새로운 이미지를 수행합니다 스코어링 메트릭을 확인하거나 예측을 직접 시각화 할 수 있습니다 이 예에서 잘못된 분류 비율은 056 %로 65,536 픽셀 중 약 360 픽셀 만 잘못 레이블이 지정됩니다 두 번째 방법은 간단합니다

여기에 원시 이미지, 주석 및 예측을 나란히 놓고 모델의 성능을 확인하기 위해 모든 것을 쉽게 비교할 수 있습니다 첫 번째 열에는 원시 이미지가 표시되고 가운데 열에는 실제 이미지가 표시됩니다 세 번째 열의 이미지는 예측에서 얻습니다 마지막 두 열 사이에는 약간의 차이 만 있습니다 이는 U-Net 모델을 의미합니다

이 데이터에 매우 효과적이었습니다 이 비디오에서는 SAS DLPy를 사용하여 이미지 세분화 모델을 신속하게 구축하고 이 모델에 대한 교육 및 스코어링 방법 SAS DLPy에는 훨씬 더 많은 기능이 포함되어 있으므로 향후 사용 사례 시청 해주셔서 감사합니다! 안녕하세요, 제 이름은 Xindian Long이고 컴퓨터 비전을위한 딥 러닝 알고리즘을 개발합니다 YOLO, Faster R-CNN, Mask R-CNN 등 SAS Deep Learning for Python (또는 DLPy)은 고급 Python과 함께 제공됩니다 사용자가 이러한 기능을 사용할 수 있도록하는 API

현재 그림 1과 같이 주로 물체 감지 방법에는 두 가지 유형이 있습니다 첫 번째 방법은 단일 단계 방법입니다 이 유형의 방법에서 경계 상자 지역화 및 객체 분류는 하나에서 수행됩니다 단계 YOLO, SSD와 같은 알고리즘이이 범주에 속합니다

두 번째 방법은 다단계 방법입니다 여기에는 두 가지 단계가 있습니다 첫 번째 단계에서 지역 제안 네트워크는 관심있는 직사각형 지역을 찾는 것입니다 객체를 포함 할 가능성이 높은 (또는 ROI) 두 번째 단계에서는 추가 회귀 및 분류를 수행하여 실제로 해당 지역에 개체가 있으며, 그렇다면 범주와 정확한 위치 그리고 모양입니다 Faster R-CNN, R-FCN과 같은 알고리즘이이 범주에 속합니다

첫 번째 범주의 알고리즘은 일반적으로 두 번째 범주의 알고리즘보다 빠릅니다 예를 들어 실시간 성능이 필요한 응용 프로그램이있는 경우 YOLO는 아마도 좋은 선택 Faster R-CNN과 같은 두 번째 범주의 알고리즘은 일반적으로 더 정확합니다 “Faster R-CNN”이라는 이름이 언급 된 다른 알고리즘보다 더 빠르게 실행되는 것은 아닙니다 이리

R-CNN 및 Fast R-CNN 알고리즘보다 이전 버전보다 훨씬 빠릅니다 그림 2는 앵커 박스의 중요한 개념을 보여줍니다 그들은 객체에 사용됩니다 YOLO와 Faster R-CNN의 탐지 알고리즘 이 개념을 이해하는 것이 매우 중요합니다 앵커 상자는 이미지의 여러 위치에있는 추상 상자이며 일반적으로 그리드 패턴

사전 정의 된 모양으로 사전 설정된 개수의 경계 상자를 예측하는 데 사용됩니다 각 위치에서 앵커 상자는 예측 된 위치의 초기 값으로 사용됩니다 모양에 따라 개체 크기 / 모양에 대한 사전 지식이 포함되어 있습니다 그림 2의 이미지에서이 한 위치에 많은 앵커 박스가 있음을 알 수 있습니다 상자마다 모양이 다른 물체를 감지합니다

예를 들어이 이미지에서 빨간색 앵커 상자는 사람을 감지하는 상자입니다 물론 최종적으로 감지 된 물체 모양은 원래 물체와 약간 다를 수 있습니다 알고리즘이 최적화하기 때문에 앵커 박스의 모양 그림 3은 Faster R-CNN 네트워크 아키텍처를 보여줍니다 DLPy를 사용하면 계층별로 구축 할 필요가 없습니다 알고리즘 이해를 돕기 위해 그것에 대해 이야기하고 있습니다

그것의 첫 번째 부분은 백본 네트워크입니다 백본 네트워크에는 일반적으로 많은 회선 레이어와 풀링 레이어가 포함되어 있습니다 입력 이미지에서 기능 맵을 추출합니다 널리 사용되는 백본 네트워크에는 VGG16, ShuffleNet 또는 ResNet 등이 있습니다 응용 프로그램 및 요구 사항에 따라 선택할 수 있습니다

지역 제안 네트워크는 백본 네트워크를 따릅니다 지역 제안 네트워크는 많은 제안 된 관심 지역을 출력합니다 개체를 포함 할 가능성이 높은 창입니다 지역 제안 네트워크는 지역 이전에 두 개의 특수한 컨볼 루션 레이어로 구성됩니다 제안서 계층

지역 제안서 레이어에 대해 사용자가 지정해야하는 중요한 매개 변수는 앵커 박스는 제안 될 수있는 형태의 범위를 대략 결정합니다 그 후에는 ROI 풀링 레이어입니다 관심 영역을 백본 네트워크 출력 인 페더 맵에 매핑합니다 창 내부의 픽셀 값을 추출하고 다른 크기의 하위 이미지를 형성합니다 ROI 풀링 레이어는 모든 하위 이미지의 크기를 같은 크기로 조정합니다

이것은 기능 맵의 모든 채널에 대해 수행됩니다 따라서 각 ROI마다 3D 데이터 배열을 얻습니다이를 텐서라고합니다 ROI 풀링 레이어의 출력에는 제안 된 각 영역마다 하나씩 많은 텐서가 포함됩니다 관심의

네트워크의 마지막 부분은 각 텐서와 ROI에서 독립적으로 작동하며 하나를 만듭니다 각 ROI에 대한 결정 세트 먼저, 두 개의 완전 연결된 레이어가 있으며 분류간에 공유됩니다 그리고 경계 상자 회귀 그런 다음 분류 헤더와 경계 상자 회귀 헤더가 있으며 각 헤더 앞에 하나의 완전히 연결된 레이어로 각각

우리 시스템에서 분류 헤더와 바운딩 박스 회귀 헤더는 모두 FastRCNN 계층에서 구현됩니다 빠른 R-CNN 네트워크 아키텍처에 대한 간략한 소개와 알고리즘의 방법 공장 이제 노트북을 볼 수 있습니다 먼저 CAS 서버에 연결합니다 조치 세트를로드하십시오

그리고 CAS 라이브러리를 빌드하십시오 그런 다음 DLPy 함수를 호출하여 앞에서 설명한 모델 아키텍처를 빌드해야합니다 Faster_RCNN 그런 다음 데이터 세트를로드하고 훈련 세트와 데이터 세트로 분할합니다 여기서 데이터 셋과 라벨을 그래픽으로 시각화하고 이미지와 경계를 볼 수 있습니다 상자 및 레이블

네트워크 교육을 위해 사전 훈련 된 가중치를로드하고 대상 열을 정의한 다음 가중치를 계속 최적화하려면 fit 함수를 호출하십시오 그런 다음 predict 함수를 호출하여 객체 위치와 범주를 예측할 수 있습니다 마지막으로 탐지 결과를 시각화 할 수 있습니다 이미지에서 감지 된 개체 주위에 상자가 그려져 있음을 알 수 있습니다 객체 카테고리 자신감뿐만 아니라 보여줍니다

이미지에서 감지 된 양을보십시오 이것이 데모의 끝입니다 DLPy와이 예제를 사용해보십시오 시청 해주셔서 감사합니다! 안녕하세요, Guixian Lin입니다 저는 SAS의 컴퓨터 비전 딥 러닝 개발자입니다

여기에 DLPy로 알려진 SAS 고급 딥 러닝 Python API를 사용하여 가벼우면서도 강력한 컨볼 루션 뉴럴 네트워크를 쉽게 구축하고 훈련 할 수 있습니다 이미지 분류 문제에 대한 (또는 CNN) 이 예에서는 의류를 분류합니다 VGG16 및 ResNet50과 같은 인기있는 CNN은 이미지 분류에 널리 사용되었습니다 뛰어난 정확성을위한 작업 그러나 자원이 제한된 모바일 및 에지 장치의 경우 이러한 CNN은 종종 너무 유용하게 큰

얼굴 인식 및 자율 주행 차와 같은 실시간 애플리케이션에는 충분히 빠르지 않습니다 다음으로 세 가지 효율적인 CNN 인 MobilenetV1, ShufflenetV1 및 MobileNetV2를 소개합니다 이 인기 CNN보다 훨씬 작지만 정확도는 비슷합니다 CNN의 핵심 구성 요소는 컨볼 루션 레이어라는 것을 알고 있습니다 효율적인 MobileNet 및 ShuffleNet의 기본 아이디어는 표준 컨볼 루션을 대체하는 것입니다

가벼운 컨볼 루션 그림 21은 표준 컨벌루션과 깊이 분리형의 차이점을 보여줍니다 깊이 컨벌루션과 포인트 컨벌루션으로 구성된 컨벌루션 맨 윗줄에서 각 블록은 컨벌루션 필터를 나타내며 총 c2 필터가 있습니다

각 컨볼 루션 필터는 공간 정보를 필터링하고 채널 정보를 결합합니다 한 번의 단계로 입력 기능 이를 위해서는 각 컨볼 루션 필터의 깊이가 입력 피처의 깊이와 일치해야합니다 여기서 깊이는 c1입니다 레이어가 깊어 질수록 피처 맵의 깊이가 더 커지는 경우가 종종 있습니다

이러한 인기있는 CNN이 매우 큰 이유입니다 두 번째 행은 깊이 컨벌루션이 공간 정보를 채널별로 필터링 함을 보여줍니다 즉, 각 깊이 방향 컨볼 루션의 깊이는 레이어의 깊이에 관계없이 항상 1입니다 입니다 깊이 컨볼 루션은 입력 채널 만 필터링하므로 출력을 결합해야합니다

유용한 기능을 생성하는 기능 이것은 커널과의 표준 컨볼 루션 인 포인트 컨벌루션으로 수행 할 수 있습니다 1 회 1 회 표준 컨벌루션을 깊이 컨벌루션으로 교체 한 다음 점별 컨볼 루션에서 유사한 방식으로 피쳐와 패턴을 추출 할 수 있지만 모델 크기는 극적으로 감소했습니다 그림 22는 그룹 컨볼 루션을 설명합니다

채널을 여러 그룹으로 나누고 각각의 표준 컨볼 루션을 적용합니다 그룹 예를 들어 g 개의 그룹이있는 경우 모델 크기를 1 / g의 차수로 줄일 수 있습니다 그림 23은 MobileNetV1, ResNet50, ShuffleNetV1 및 MobileNetV2의 빌딩 블록을 보여줍니다

MobileNetV1의 경우 아키텍처는 VGG와 유사합니다 VGG의 표준 컨벌루션을 경량 깊이 컨볼 루션으로 대체합니다 포인트 컨벌루션이 뒤 따른다 ResNet은 종종 ResNet 블록으로 인해 VGG보다 성능이 우수하기 때문에 ShuffleNetV1 MobileNetV2는이 아이디어를 빌 렸습니다 둘 다 ResNet 블록의 표준 컨벌루션을 깊이 컨벌루션으로 대체하여 모델 크기

ShuffleNetV1은 포인트 컨벌루션을 그룹 컨볼 루션으로 대체하여 모델 크기 이제 경량 컨볼 루션이 더 작은 모델을 빌드하는 데 유용하다는 것을 이해합니다 및 ShuffleNet 다음으로 의류 소매 제품 데이터에 대한 성능을 보여 드리겠습니다 먼저 데이터 세트를로드하고 일부 이미지를 표시합니다

여기에는 6 개의 수업이 있으며 약 2,100 개의 이미지가 있습니다 다음으로, 우리는 훈련과 평가를 위해 무작위로 데이터를 훈련과 테스트로 나누었습니다 다른 CNN SAS DLPy는 다양한 사전 구축 네트워크 아키텍처를 제공합니다 매우 효과적입니다

여기서는 CNN을 구축하는 데 사용할 것입니다 MobileNetV1 아키텍처의 경우 다음과 같은 기본 매개 변수를 지정합니다 클래스 수 입력 이미지를 정규화하기위한 오프셋 및 스케일로 분류 될 수있다 또한 임의 뒤집기와 자르기를 사용하여 입력 이미지를 보강합니다 MobileNetV1 모델에는 축소 매개 변수 인 alpha가있어 출력 채널 수 옵티 마이저를 설정 한 후 모델을 학습 할 준비가되었습니다

훈련 로그는 많은 유용한 정보를 알려줍니다 여기에서 모델 매개 변수의 수가 8 백만임을 알 수 있습니다 대상에는 6 개의 클래스가 있습니다 훈련 손실과 오류로 반복 기록을 그릴 수 있습니다

16 오류 후 훈련 오류가 감소하고 수렴 함을 보여줍니다 최종 교육 오류는 약 54 %입니다 다음으로 테스트 데이터에서 모델 성능을 평가합니다 MobileNetV1 모델의 오류율은 5

3 %입니다 그거 좋네! 올바른 예측과 잘못된 예측을 통해 모델을 확인함으로써, 모델이 패턴을 배우고 합리적인 예측을한다는 것을 알 수 있습니다 다음으로 비슷한 단계를 따라 다른 CNN (ShuffleNetV1, MobileNetV2, 및 ResNet50 자세한 내용은 노트북을 참조하십시오 이 모델의 테스트 오류는 다음과 같이 요약됩니다

탁자 이 3 가지 경량 모델은 일반 모델보다 매개 변수가 훨씬 적습니다 ResNet50은이 소매 데이터의 정확성을 향상시킵니다 이 비디오에서 SAS DLPy를 사용하면 이러한 작은 크기를 빠르게 구축하고 훈련 할 수 있습니다 그러나 효율적인 CNN

앞으로의 작업에 이러한 모델을 적용 해 볼 수 있기를 바랍니다 시청 해주셔서 감사합니다! 안녕하세요 제 이름은 웨인 톰슨입니다 저는 SAS의 데이터 과학자이며 딥 러닝과 함께 일할 수있는 특권이 있습니다 R & D 팀 컴퓨터 용 Python 및 DLPy 및 SAS Viya를 사용한 딥 러닝을위한 비디오 시리즈입니다

전망 이 특정 비디오에서는 패션에 태그를 지정하기 위해 멀티 태스킹 딥 러닝 모델을 훈련하고 싶습니다 품목 이제 기계 학습에서 종종 이미지를 가져 와서 레이블을 지정하고 단일 이미지를 만듭니다 옷의 종류를 분류하는 것과 같이지도 학습을 통해 하나의 작업을 분류합니다 드레스인가요? 티셔츠인가요? 벨트인가요? 그리고 색상과 같은 다른 의미 속성이 있고 입력 데이터에 레이블을 지정하면 색상을 분류하기 위해 회선 신경망과 같은 다른 것을 훈련하십시오

종종 고려해야 할 장점과 장점 중 하나는 단일 모델을 훈련시키는 것입니다 이 두 가지 과제를 동시에 동시에 배우는 것입니다 이를 유용한 정보를 활용하는 패러다임 인 멀티 태스킹 학습이라고합니다 전체적인 일반화를 향상시키기 위해 여러 관련 작업에서 즉, 모델이 더 잘 맞는 경향이 있습니다 한 작업에 대한 정보가 다른 작업을 예측하는 데 신뢰성을 부여 할 수 있기 때문에 좋습니다

단일 모델이 있으므로 두 모델을 사용하는 것보다 배포가 훨씬 쉽습니다 또는 더 많은 모델 따라서보다 쉽게 ​​관리하고 생산할 수 있습니다 시작하기 전에 멀티 태스킹 학습은 매우 강력합니다 자율 주행 차와 같은 많은 응용 분야에 사용됩니다

영어로 된 문서 모음이 있다고 가정 해 봅시다 프랑스어, 독일어 및 이탈리아어로 번역하고 싶습니다 거기에는 동시에 훈련하는 세 가지 작업이 있습니다 이제이 예에서는 이미 CAS 세션을 시작했습니다 DLPy를로드했으며 CAS 서버에 연결했습니다

가장 먼저 보여 드리고 싶은 것은 디스크에서 이미지를로드하고로드하는 방법입니다 이 예제에서는 하위 디렉토리에서 읽은 후 레이블을 재귀 적으로 가져옵니다 따라서 실제로 디스크에서 데이터를로드하여 메모리로 읽어들입니다 서브 디렉토리에서 레이블을 당기십시오 다음으로하는 일은 간단한 빈도 수이며 데이터가 상당히 균형을 이루고 있음을 알 수 있습니다 모든 작업에서 332 개에서 386 개의 관측치가 있습니다

이런 종류의 균형을 가질 필요는 없으며 분명히 콜스 나 메이 시즈, 우리는 더 많은 관측을 할 것이지만 이것은 간단한 데모입니다 이제 멀티 태스킹 딥 러닝을 수행하는 데있어 가장 까다로운 부분 중 하나는 작업 레이블 자체 이제 내가하고있는 첫 번째 일은 Pandas 데이터 프레임을 사용하고 getDummies를 단순히 이진 지표를 만듭니다 딥 러닝 패키지에는 정말 강력한 것이 있습니다 SAS 함수 컴파일러입니다

이를 사용하여 자신의 손실 함수를 찾을 수 있습니다 여기에서는 계산 된 vars를 사용하여 조건부로 추가 작업을 조건부로 정의하고 있습니다 여성, 의복의 조화는 무엇이며, 나는 그것을 다른 사람들과 다시 합류합니다 데이터 여기 간단한 머리를보고 몇 가지 관찰 만 살펴보면 이제 9 개의 총 작업이 동시에 진행되고 있음을 알 수 있습니다

여자를위한 것이 든 아니든 자, 여기에 이미지를 보여 드리는 예가 있습니다 그들이 어떻게 생겼는지 딥 러닝의 많은 머신 러닝 문제와 마찬가지로 데이터 크기도 조정합니다 200×200으로 설정하고 CAS 서버의 모든 작업자 노드에서 데이터를 섞습니다 여기서 20 %의 샘플을 작성하고 있음을 명심하십시오 이것은 홀드 아웃 데이터 세트 테스트이며, 나머지 80 %의 데이터를 사용하여 학습합니다

에 모델 이제이 시점에서 직접 비순환 그래픽 인 기본 아키텍처를 정의하겠습니다 네트워크를 위해 그리고 DL Plot을 사용하여이를 수행하고 있습니다 입력 레이어, 컨볼 루션 레이어, 배치 규범 풀링 및 밀집 레이어가 있습니다

그러나이 네트워크 플롯을 보면 기본적으로 하나의 아키텍처가 있음을 알 수 있습니다 그리고 그 아키텍처는 우리가 시도하는 모든 결과 작업과 공유됩니다 예측하십시오 모든 작업에 대해 동일한 네트워크를 가질 필요는 없습니다 이것은 기본 예이며 여기에서 실제로 잘 작동합니다 예측하려는 각 작업에 대해 서로 다른 네트워크 아키텍처를 가질 수 있습니다

아키텍처를 정의한 후 모델을 학습하려고합니다 이 예에서는 운동량과 같은 매우 기본적인 최적화 방법을 사용하고 있습니다 60 개의 EPICS를하고 있는데 훈련 옵션을 정의하고 싶습니다 이제 partition이 0 인 곳을 사용하고 있습니다 그것은 훈련 데이터의 80 % 만 가져올 것입니다

모델 무게 등 나중에 득점을 할 수 있습니다 GPU에서도 이것을 훈련하고 있습니다 딥 러닝의 곱셈 특성으로 인해 네트워크를 더 빨리 훈련시킬 수 있습니다 모델과 더 빠른 실험

다양한 최적화 방법을 시도해보고 궁극적으로 최상의 모델을 얻을 수 있습니다 더 빨리 여기에 약간의 출력이 있지만, 내가 시도한 것은 이것을 이것에 요약합니다 반복 플롯 우리가 60 번의 EPICS를했다는 것을 기억하십시오 약 13 ~ 14 개의 EPICS 어딘가에서 쇠퇴와 상실과 시대를보고 있습니다

모델이 실제로 안정화 된 것 같습니다 나는 실제로 그것을 자랑스럽게 생각합니다 좋아 보인다 테스트 데이터와 비교하여 먼저 확인하겠습니다 이 모델은 훈련을 위해 개발되었습니다 이제 데이터의 20 %를 부분 집합 화하겠습니다

훈련에서 절약 한 모델 가중치를 사용하여 해당 데이터의 점수를 매길 것입니다 그리고 여기서 볼 수 있듯이 모든 작업에 대해 평균 제곱 오차가 매우 낮습니다 좀 더 세분화되고 실제로 혼동 행렬과 같은 것을보고 모델이 테스트 데이터에 얼마나 잘 맞는지 그런데이 예측값 p_는 테스트 데이터에 대한 예측값을 나타냅니다 내가 훈련 한 모델에 나는 판다에서 약간의 일을한다 파이썬을 DLPy와 똑바로 혼합하는 것이 좋습니다

그리고 9 가지 작업 각각에 대한 분류 행렬 인 혼동 행렬을 얻습니다 행은 실제 값을 나타내고 열은 예상 값을 나타냅니다 벗어난 대각선에서, 우리가 잘못한 곳입니다 여기에 검은 색은 4 개, 파란색은 4 개, 빨간색은 1 개, 우리는 다른 수업을 살펴보고 정말 잘하고 있습니다 마지막으로, SAS에서 딥 러닝의 비밀 소스 조각 중 하나는 ASTORE

여기에서 실제로 모델을 이진 파일에 저장하여 배치 스코어링을 수행 할 수 있습니다 스트리밍 분석을 사용하여 점수를 매기거나 다른 모델과의 작업을 위해 모델을 ONNX로 가져 오기 PyTorch 및 TensorFlow와 같은 패키지 여기에이 작업을 완료하고 모델을 저장했으며 다음 비디오에서는 실제로 스트리밍 분석을 사용하여이 모델의 점수를 매기는 방법을 살펴 보겠습니다 결론적으로, 멀티 태스킹 딥 러닝은 실제로 여러 개를보고 예측할 수있게합니다 동시에 작업

DLPy를 사용하면 간단합니다 다음 비디오에서 to기를 기대합니다 Python 및 SAS Viya Computer Vision Series를 사용한 딥 러닝에 오신 것을 환영합니다 제 이름은 웨인 톰슨입니다 저는 SAS의 데이터 과학자이며 SAS Deep과 함께 일합니다

학습 R & D 팀 이 비디오에서는 DLPy의 자매 인 ESPPy를 사용하여 멀티 태스킹을하고 싶습니다 딥 러닝 모델 이제 이미 멀티 태스킹 딥 러닝 모델을 훈련했습니다 이미지를 모아서 9 가지 작업을 예측하고 동시에 수행 할 수있는 모델을 개발했습니다

이 예제에서하고 싶은 것은 ESPPy를 사용하는 것입니다 또한 SAS 이벤트 스트림 처리 창에 연결할 수 있습니다 프로젝트를 구축하고 창과 상호 작용하며 모델을 배포합니다 SAS Event Stream Processing은 정말 멋집니다 여기에는 클러스터링에서 시계열 분석에 이르는 여러 스트리밍 작업이 포함됩니다

감정 분석 또는 공동 필터링과 같은 작업도 수행 할 수 있습니다 하지만이 데모에서는 이미지 처리 창과 온라인 창을 사용하겠습니다 딥 러닝 멀티 태스킹 모델을 배포 할 수 있습니다 이제 가장 먼저해야 할 일은 실제로 프로젝트를 만드는 것입니다 이 멀티 태스크를 호출하고 실제로이 셀을 실행하겠습니다

그리고 다음으로하고 싶은 것은 프로세스 흐름이나 관로 실제로 이미지를 읽으려면 소스 창이 필요합니다 우리가 일부 교육에서했던 것처럼 모델을 훈련 할 때마다 일반적으로 이미지 따라서 점수를 매길 때 20에서 20으로 크기를 조정하고 이미지 처리를 사용하겠습니다 그렇게하는 창

다음은 모델을 가져와야한다는 것입니다 모델을 학습하고 ASTORE로 저장 했으므로 모델 리더가 있습니다 그것을 읽을 수있는 창 그리고 실시간으로 점수를 생성하는 득점 창이 있습니다 그리고 보면, 프로젝트는 다음과 같습니다

나는 데이터를 읽고 이미지를 표준화하고 점수를 생성합니다 그런 다음 실제로 프로젝트를로드하고 몇 개의 출력 테이블을 설정하겠습니다 여기에 쓸 것입니다 이제 첫 번째 노트북을 사용하여 실제로 노트북을 정의하기 때문에 별도의 노트북이 있습니다 ESP 프로젝트

이 책에서는 간단히 게시하고 점수 매기기 프로세스를 시작하겠습니다 그래서 저는 팔고이 모든 것을 실행합니다 실제로 모델의 점수를 매 깁니다 다시 여기로 돌아가서 이제 이벤트 스트림 처리 엔진을 사용하겠습니다 득점

실제로 예측 확률과 함께 태그가 지정되고 라벨이 지정된 이미지가 표시되는 것을 볼 수 있습니다 작동하는 예제를 제공하는 작은 세트입니다 수면 시간은 03입니다 이벤트 스트림 처리 엔진은 실제로 초당 최대 50 프레임을 수행 할 수 있습니다

시원한 이 데모에서는 이미 멀티 태스킹 학습을 위해 개발 된 모델을 검색을 용이하게하기 위해 스트리밍 분석을 사용하여 배포 할 수있었습니다 콜이나 메이시 같은 사람 교육용 DLPy와 함께 ESPPy를 사용하면 실제로 쉽게 수행 할 수 있습니다

SAS Demo | Deep Learning with Python (DLPy) and SAS Viya for Computer Vision

안녕하세요, 저는 Susan Kahler이고 인공 지능과 기계 학습에 대한 책임이 있습니다 SAS에서

이 비디오에서는 SAS Deep Learning Python API 또는 DLPy에 대해 간략하게 설명합니다 이 시리즈는 DLPy가 지원하는 최신 컴퓨터 비전 모델에 중점을 둘 것입니다 DLPy를 통해 Python에 익숙한 데이터 과학자는 딥 러닝을 활용할 수 있습니다 SAS Viya의 컴퓨터 비전 기능 설명의 링크를 사용하여 주제로 직접 이동하십시오

첫 번째 섹션에서는 DLPy와 함께 Functional API를 활용하여 빌드하는 방법을 살펴 봅니다 ResNet 모델을 포함한 기능 추출을위한 복잡한 모델 다음으로 축구를 추적하기 위해 U-Net 모델을 사용하여 이미지 세분화를 수행하는 방법을 볼 수 있습니다 선수 그런 다음 DLPY가 VGG16을 백본으로 사용하여 Faster R-CNN을 사용하여 객체 감지를 지원하는 방법을 살펴 보겠습니다 회로망

스위칭 기어, DLPy가 어떻게 MobileNet 및 ShuffleNet을 지원하고 성능을 비교하는지 살펴 보겠습니다 ResNet50 모델이있는 모델 중 하나입니다 마지막으로 훈련과 추론 모두에서 멀티 태스킹 학습이 수행되는 방법을 살펴 보겠습니다 제품 권장 사항에 대해서는 소매 도메인에서 추론을 위해 Python 용 이벤트 스트림 처리 패키지 인 SAS ESPPy를 사용합니다 DLPy에는 Python 3 이상 및 SAS Viya 34가 필요합니다

또한 Analytics 전송을위한 SAS 스크립팅 래퍼 또는 SWAT 패키지가 필요합니다 DLPy는 python-dlpy 디렉토리의 SAS 소프트웨어 용 GitHub에서 사용할 수 있습니다 이 비디오에 실린 Jupyter 노트북도 해당 위치에 있습니다 DLPy의 최신 컴퓨터 비전 기능에 대해 배우고 즐기시기 바랍니다 스스로를 위해

안녕하세요, 저는 SAS의 데이터 과학자 인 Wenyu이며 딥 러닝과 컴퓨터에 중점을 둡니다 비전 API 이 비디오에서는 고급 Python API, Python을 사용한 SAS Deep Learning 또는 (DLPy) 이 비디오의 목적은 SAS에서 기능적 API를 활용하는 방법을 보여주는 것입니다 복잡한 모델을 만들기위한 DLPy 보다 유연한 방법을 제공하기 때문에 Functional API에 중점을두고 있습니다

Keras Functional API와 매우 유사한 복잡한 모델을 구현하십시오 Sequential API는 공유 모델을 만들 수 없다는 점에서 제한적입니다 레이어 또는 여러 입력 또는 출력이 있습니다 입력 및 출력이 여러 개인 모델이 Functional API를 사용하는 좋은 예입니다 간단한 6 단계로 SAS DLPy를 사용하여 모델을 생성 해 봅시다

텐서를 반환하는 Input ()에 의해 두 개의 텐서 (회색조 이미지와 RGB 이미지)를 정의합니다 목적 그런 다음 그레이 스케일 이미지가 두 개의 컨볼 루션 브랜치에 공급됩니다 이 모델에는 또 다른 입력 컬러 이미지가 있습니다 그런 다음 이미지의 특징을 추출하기 위해 컨벌루션 연산이 사용됩니다

세 개의 텐서가 연결되고 OutputLayer_1에서 분류를 계산하는 데 사용됩니다 손실 또한 모델은 OutputLayer_2를 통해 감독됩니다 그런 다음 정의 된 입력 텐서 및 출력 텐서를 Model () 함수에 전달합니다 마지막으로 compile ()을 호출하여 네트워크를 컴파일합니다

여기서는 모델의 요약과 네트워크 그래프를 보여줍니다 레이어 연결 이 다음 모델에서는 ResNet 유사 모델을 작성하는 방법을 고려하십시오 이 작업에서는 돌고래 또는 기린을 포함하는지 여부에 따라 이미지를 분류합니다 먼저 각각의 직후에 배치 정규화를 채택하는 회선 블록을 정의합니다

회선 다음으로, 나머지 블록 내에서 바로 가기 연결을 사용하여 입력 기능을 연결합니다 컨볼 루션의 출력에 4 개의 누적 잔차 블록이 있으며 네트워크는 전체 평균 풀링으로 끝납니다 다음은 4 개의 잔차 블록이 순차적으로 누적되고 전체 평균이 표시되는 모델의 그래프입니다 풀링

모델이 빌드되면 ImageTable API에 의해 데이터가로드되고 모델을 학습 할 수 있습니다 순차적 인 모델처럼 SAS DLPy API를 사용하면 사전 훈련 된 여러 출력 모델을보다 쉽게 ​​정의 할 수 있습니다 기능 추출기로서의 백본 다음 경우에는 가중치와 함께 ResNet18 모델을로드합니다 다음으로로드 된 모델을 기능 모델로 변환하고 원래 작업 계층을 삭제합니다 이를 위해 to_functional_model ()을 사용하고 stop_layers를 지정합니다

그래프 이동을 중지하는 레이어 즉, stop_layers와 stop_layers가 뒤에 오는 모든 레이어가 제거됩니다 기능적 모델 그런 다음 OutputLayer와 Keypoints Layer라는 두 가지 새로운 작업 계층을 추가합니다 그래프 하단에서 새로 추가 된 두 개의 레이어를 볼 수 있습니다

이 비디오에서는 DLPy를 사용하여 여러 입력 및 출력을 가진 모델을 만든 다음 ResNet과 유사한 모델이며 마지막으로 순차 모델을 기능 모델로 변환했습니다 시청 해 주셔서 감사합니다 안녕하세요, 저는 Maggie Du이고 SAS의 기계 학습 개발자이며 딥 러닝 및 컴퓨터 비전 API 이 비디오에서는 DLPy라고하는 SAS 고급 딥 러닝 Python API를 사용하여 게임에서 축구 선수를 추적하는 이미지 분할 문제를 해결하는 방법을 보여줍니다 각 플레이어에 대한 통계를 제공합니다

코치에 의한 경기 후 분석과 같은 여러 목적으로 통계를 사용할 수 있습니다 팬들에게 증강 게임 시청 경험을 제공합니다 이미지 분할은 이미지를 의미 적으로 의미있는 부분으로 분할하려고 시도합니다 각 부분을 사전 정의 된 레이블 중 하나로 분류합니다 따라서 픽셀 수준에서 이미지를 이해하는 새로운 방법입니다

예를 들어이 이미지에는 개, 고양이 및 배경의 세 가지 클래스가 있습니다 따라서 우리는 각 픽셀에 어떤 클래스가 속하는지를 나타내는 특정 색상을 부여합니다 전반적으로 각 객체의 정확한 경계를 얻을 수 있습니다 시작하자 필요한 모듈을로드 한 후 데이터 세트를로드하려고합니다

우리는 축구 경기의 이미지를 예로 들어 170 이미지가 포함 된 모두 256 * 256으로 조정되었습니다 다음은 원시 이미지와 해당 주석의 시각화입니다 이미지에는 축구 선수, 축구 공 및 배경의 세 가지 다른 객체가 있습니다 따라서 주석 이미지에는 세 가지 색상이 포함됩니다 그런 다음 데이터 세트를 학습 데이터, 유효성 검사 데이터 및 테스트 데이터로 무작위로 나눕니다

다음으로 SAS DLPy를 사용하여 U-Net 모델을 구축하려고합니다 이 대칭 모델은 인코딩과 디코딩의 두 부분으로 볼 수 있습니다 기능 크기가 가장 작은 레이어 인 병목 현상 레이어로 분할됩니다 인코딩 부분에서 풀링 레이어를 사용하여 다운 샘플링을 수행하여 기능을 추출합니다 디코딩에서 입력 컨볼 루션 레이어를 사용하여 입력 이미지에서 업 샘플링 학습 된 정보를 재구성하는 부분

또한 텐서를 직접 결합하는 4 개의 연결 레이어를 모델에 추가했습니다 두 개의 다른 레이어에서 이전의 특정 정보를 쉽게 상속받을 수 있습니다 층 SAS DLPy는 사전 정의 된 U-Net 모델을로드하는 기능을 제공합니다 인코딩을위한 4 개의 풀링 계층 및 디코딩을위한 4 개의 전치 컨볼 루션 계층

축구 경기 데이터 모델에는 3 천 4 백만 개가 넘는 매개 변수가 포함되어 있습니다 SAS DLPy API를 사용하여 계층별로 고유 한 U-Net 모델을 만들 수도 있습니다 병목 현상 레이어의 크기 및 컨볼 루션 수와 같은 기능을 쉽게 결정할 수 있습니다 두 풀링 레이어 사이에 원하는 레이어 아키텍처가 구축되면 교육 데이터를 사용하여 모델을 교육하고 유효성을 검사 할 수 있습니다 검증 데이터 사용

교육이 완료된 후 테스트 데이터를 사용하여 모델의 성능을 테스트 할 수 있습니다 새로운 이미지를 수행합니다 스코어링 메트릭을 확인하거나 예측을 직접 시각화 할 수 있습니다 이 예에서 잘못된 분류 비율은 056 %로 65,536 픽셀 중 약 360 픽셀 만 잘못 레이블이 지정됩니다 두 번째 방법은 간단합니다

여기에 원시 이미지, 주석 및 예측을 나란히 놓고 모델의 성능을 확인하기 위해 모든 것을 쉽게 비교할 수 있습니다 첫 번째 열에는 원시 이미지가 표시되고 가운데 열에는 실제 이미지가 표시됩니다 세 번째 열의 이미지는 예측에서 얻습니다 마지막 두 열 사이에는 약간의 차이 만 있습니다 이는 U-Net 모델을 의미합니다

이 데이터에 매우 효과적이었습니다 이 비디오에서는 SAS DLPy를 사용하여 이미지 세분화 모델을 신속하게 구축하고 이 모델에 대한 교육 및 스코어링 방법 SAS DLPy에는 훨씬 더 많은 기능이 포함되어 있으므로 향후 사용 사례 시청 해 주셔서 감사합니다! 안녕하세요, 제 이름은 Xindian Long이고 컴퓨터 비전을위한 딥 러닝 알고리즘을 개발합니다 YOLO, Faster R-CNN, Mask R-CNN 등 SAS Deep Learning for Python (또는 DLPy)은 고급 Python과 함께 제공됩니다 사용자가 이러한 기능을 사용할 수 있도록하는 API

현재 그림 1과 같이 주로 물체 감지 방법에는 두 가지 유형이 있습니다 첫 번째 방법은 단일 단계 방법입니다 이 유형의 방법에서 경계 상자 지역화 및 객체 분류는 하나에서 수행됩니다 단계 YOLO, SSD와 같은 알고리즘이이 범주에 속합니다

두 번째 방법은 다단계 방법입니다 여기에는 두 가지 단계가 있습니다 첫 번째 단계에서 지역 제안 네트워크는 관심있는 직사각형 지역을 찾는 것입니다 객체를 포함 할 가능성이 높은 (또는 ROI) 두 번째 단계에서는 추가 회귀 및 분류를 수행하여 실제로 해당 지역에 개체가 있으며, 그렇다면 범주와 정확한 위치 그리고 모양입니다 Faster R-CNN, R-FCN과 같은 알고리즘이이 범주에 속합니다

첫 번째 범주의 알고리즘은 일반적으로 두 번째 범주의 알고리즘보다 빠릅니다 예를 들어 실시간 성능이 필요한 응용 프로그램이있는 경우 YOLO는 아마도 좋은 선택 Faster R-CNN과 같은 두 번째 범주의 알고리즘은 일반적으로 더 정확합니다 “Faster R-CNN”이라는 이름이 언급 된 다른 알고리즘보다 더 빠르게 실행되는 것은 아닙니다 이리

R-CNN 및 Fast R-CNN 알고리즘보다 이전 버전보다 훨씬 빠릅니다 그림 2는 앵커 박스의 중요한 개념을 보여줍니다 그들은 객체에 사용됩니다 YOLO와 Faster R-CNN의 탐지 알고리즘 이 개념을 이해하는 것이 매우 중요합니다 앵커 상자는 이미지의 여러 위치에있는 추상 상자이며 일반적으로 그리드 패턴

사전 정의 된 모양으로 사전 설정된 개수의 경계 상자를 예측하는 데 사용됩니다 각 위치에서 앵커 상자는 예측 된 위치의 초기 값으로 사용됩니다 모양에 따라 개체 크기 / 모양에 대한 사전 지식이 포함되어 있습니다 그림 2의 이미지에서이 한 위치에 많은 앵커 박스가 있음을 알 수 있습니다 상자마다 모양이 다른 물체를 감지합니다

예를 들어이 이미지에서 빨간색 앵커 상자는 사람을 감지하는 상자입니다 물론 최종적으로 감지 된 물체 모양은 원래 물체와 약간 다를 수 있습니다 알고리즘이 최적화하기 때문에 앵커 박스의 모양 그림 3은 Faster R-CNN 네트워크 아키텍처를 보여줍니다 DLPy를 사용하면 계층별로 구축 할 필요가 없습니다 알고리즘 이해를 돕기 위해 그것에 대해 이야기하고 있습니다

그것의 첫 번째 부분은 백본 네트워크입니다 백본 네트워크에는 일반적으로 많은 회선 레이어와 풀링 레이어가 포함되어 있습니다 입력 이미지에서 기능 맵을 추출합니다 널리 사용되는 백본 네트워크에는 VGG16, ShuffleNet 또는 ResNet 등이 있습니다 응용 프로그램 및 요구 사항에 따라 선택할 수 있습니다

지역 제안 네트워크는 백본 네트워크를 따릅니다 지역 제안 네트워크는 많은 제안 된 관심 지역을 출력합니다 개체를 포함 할 가능성이 높은 창입니다 지역 제안 네트워크는 지역 이전에 두 개의 특수한 컨볼 루션 레이어로 구성됩니다 제안서 계층

지역 제안서 레이어에 대해 사용자가 지정해야하는 중요한 매개 변수는 앵커 박스는 제안 될 수있는 형태의 범위를 대략 결정합니다 그 후에는 ROI 풀링 레이어입니다 관심 영역을 백본 네트워크 출력 인 페더 맵에 매핑합니다 창 내부의 픽셀 값을 추출하고 다른 크기의 하위 이미지를 형성합니다 ROI 풀링 레이어는 모든 하위 이미지의 크기를 같은 크기로 조정합니다

이것은 기능 맵의 모든 채널에 대해 수행됩니다 따라서 각 ROI마다 3D 데이터 배열을 얻습니다이를 텐서라고합니다 ROI 풀링 레이어의 출력에는 제안 된 각 영역마다 하나씩 많은 텐서가 포함됩니다 관심의

네트워크의 마지막 부분은 각 텐서와 ROI에서 독립적으로 작동하며 하나를 만듭니다 각 ROI에 대한 결정 세트 먼저, 두 개의 완전 연결된 레이어가 있으며 분류간에 공유됩니다 그리고 경계 상자 회귀 그런 다음 분류 헤더와 경계 상자 회귀 헤더가 있으며 각 헤더 앞에 하나의 완전히 연결된 레이어로 각각

우리 시스템에서 분류 헤더와 바운딩 박스 회귀 헤더는 모두 FastRCNN 계층에서 구현됩니다 빠른 R-CNN 네트워크 아키텍처에 대한 간략한 소개와 알고리즘의 방법 공장 이제 노트북을 볼 수 있습니다 먼저 CAS 서버에 연결합니다 조치 세트를로드하십시오

그리고 CAS 라이브러리를 빌드하십시오 그런 다음 DLPy 함수를 호출하여 앞에서 설명한 모델 아키텍처를 빌드해야합니다 Faster_RCNN 그런 다음 데이터 세트를로드하고 훈련 세트와 데이터 세트로 분할합니다 여기서 데이터 셋과 라벨을 그래픽으로 시각화하고 이미지와 경계를 볼 수 있습니다 상자 및 레이블

네트워크 교육을 위해 사전 훈련 된 가중치를로드하고 대상 열을 정의한 다음 가중치를 계속 최적화하려면 fit 함수를 호출하십시오 그런 다음 predict 함수를 호출하여 객체 위치와 범주를 예측할 수 있습니다 마지막으로 탐지 결과를 시각화 할 수 있습니다 이미지에서 감지 된 개체 주위에 상자가 그려져 있음을 알 수 있습니다 객체 카테고리 자신감뿐만 아니라 보여줍니다

이미지에서 감지 된 양을보십시오 이것이 데모의 끝입니다 DLPy와이 예제를 사용해보십시오 시청 해 주셔서 감사합니다! 안녕하세요, Guixian Lin입니다 저는 SAS의 컴퓨터 비전 딥 러닝 개발자입니다

여기에 DLPy로 알려진 SAS 고급 딥 러닝 Python API를 사용하여 가벼우면서도 강력한 컨볼 루션 뉴럴 네트워크를 쉽게 구축하고 훈련 할 수 있습니다 이미지 분류 문제에 대한 (또는 CNN) 이 예에서는 의류를 분류합니다 VGG16 및 ResNet50과 같은 인기있는 CNN은 이미지 분류에 널리 사용되었습니다 뛰어난 정확성을위한 작업 그러나 자원이 제한된 모바일 및 에지 장치의 경우 이러한 CNN은 종종 너무 유용하게 큰

얼굴 인식 및 자율 주행 차와 같은 실시간 애플리케이션에는 충분히 빠르지 않습니다 다음으로 세 가지 효율적인 CNN 인 MobilenetV1, ShufflenetV1 및 MobileNetV2를 소개합니다 이 인기 CNN보다 훨씬 작지만 정확도는 비슷합니다 CNN의 핵심 구성 요소는 컨볼 루션 레이어라는 것을 알고 있습니다 효율적인 MobileNet 및 ShuffleNet의 기본 아이디어는 표준 컨볼 루션을 대체하는 것입니다

가벼운 컨볼 루션 그림 21은 표준 컨벌루션과 깊이 분리형의 차이점을 보여줍니다 깊이 컨벌루션과 포인트 컨벌루션으로 구성된 컨벌루션 맨 윗줄에서 각 블록은 컨벌루션 필터를 나타내며 총 c2 필터가 있습니다

각 컨볼 루션 필터는 공간 정보를 필터링하고 채널 정보를 결합합니다 한 번의 단계로 입력 기능 이를 위해서는 각 컨볼 루션 필터의 깊이가 입력 피처의 깊이와 일치해야합니다 여기서 깊이는 c1입니다 레이어가 깊어 질수록 피쳐 맵의 깊이가 더 커지는 경우가 종종 있습니다

이러한 인기있는 CNN이 매우 큰 이유입니다 두 번째 행은 깊이 컨벌루션이 공간 정보를 채널별로 필터링 함을 보여줍니다 즉, 각 깊이 방향 컨볼 루션의 깊이는 레이어의 깊이에 관계없이 항상 1입니다 입니다 깊이 컨볼 루션은 입력 채널 만 필터링하므로 출력을 결합해야합니다

유용한 기능을 생성하는 기능 이것은 커널과의 표준 컨볼 루션 인 포인트 컨벌루션으로 수행 할 수 있습니다 1 회 1 회 표준 컨벌루션을 깊이 컨벌루션으로 교체 한 다음 점별 컨볼 루션에서 유사한 방식으로 피쳐와 패턴을 추출 할 수 있지만 모델 크기는 극적으로 감소했습니다 그림 22는 그룹 컨볼 루션을 설명합니다

채널을 여러 그룹으로 나누고 각각의 표준 컨볼 루션을 적용합니다 그룹 예를 들어 g 개의 그룹이있는 경우 모델 크기를 1 / g의 차수로 줄일 수 있습니다 그림 23은 MobileNetV1, ResNet50, ShuffleNetV1 및 MobileNetV2의 빌딩 블록을 보여줍니다

MobileNetV1의 경우 아키텍처는 VGG와 유사합니다 VGG의 표준 컨벌루션을 경량 깊이 컨볼 루션으로 대체합니다 포인트 컨벌루션이 뒤 따른다 ResNet은 종종 ResNet 블록으로 인해 VGG보다 성능이 우수하기 때문에 ShuffleNetV1 MobileNetV2는이 아이디어를 빌 렸습니다 둘 다 ResNet 블록의 표준 컨벌루션을 깊이 컨벌루션으로 대체하여 모델 크기

ShuffleNetV1은 포인트 컨벌루션을 그룹 컨볼 루션으로 대체하여 모델 크기 이제 경량 컨볼 루션이 더 작은 모델을 빌드하는 데 유용하다는 것을 이해합니다 및 ShuffleNet 다음으로 의류 소매 제품 데이터에 대한 성능을 보여 드리겠습니다 먼저 데이터 세트를로드하고 일부 이미지를 표시합니다

여기에는 6 개의 수업이 있으며 약 2,100 개의 이미지가 있습니다 다음으로, 우리는 훈련과 평가를 위해 무작위로 데이터를 훈련과 테스트로 나누었습니다 다른 CNN SAS DLPy는 다양한 사전 구축 네트워크 아키텍처를 제공합니다 매우 효과적입니다

여기서는 CNN을 구축하는 데 사용할 것입니다 MobileNetV1 아키텍처의 경우 다음과 같은 기본 매개 변수를 지정합니다 클래스 수 입력 이미지를 정규화하기위한 오프셋 및 스케일로 분류 될 수있다 또한 임의 뒤집기와 자르기를 사용하여 입력 이미지를 보강합니다 MobileNetV1 모델에는 축소 매개 변수 인 alpha가있어 출력 채널 수 옵티 마이저를 설정 한 후 모델을 학습 할 준비가되었습니다

훈련 로그는 많은 유용한 정보를 알려줍니다 여기에서 모델 매개 변수의 수가 8 백만임을 알 수 있습니다 대상에는 6 개의 클래스가 있습니다 훈련 손실과 오류로 반복 기록을 그릴 수 있습니다

16 오류 후 훈련 오류가 감소하고 수렴 함을 보여줍니다 최종 교육 오류는 약 54 %입니다 다음으로 테스트 데이터에서 모델 성능을 평가합니다 MobileNetV1 모델의 오류율은 5

3 %입니다 좋아요! 올바른 예측과 잘못된 예측을 통해 모델을 확인함으로써, 모델이 패턴을 배우고 합리적인 예측을한다는 것을 알 수 있습니다 다음으로 비슷한 단계를 따라 다른 CNN (ShuffleNetV1, MobileNetV2, 및 ResNet50 자세한 내용은 노트북을 참조하십시오 이 모델의 테스트 오류는 다음과 같이 요약됩니다

탁자 이 3 가지 경량 모델은 일반 모델보다 매개 변수가 훨씬 적습니다 ResNet50은이 소매 데이터의 정확성을 향상시킵니다 이 비디오에서 SAS DLPy를 사용하면 이러한 작은 크기를 빠르게 구축하고 훈련 할 수 있습니다 그러나 효율적인 CNN

앞으로의 작업에 이러한 모델을 적용 해 볼 수 있기를 바랍니다 시청 해 주셔서 감사합니다! 안녕하세요 제 이름은 웨인 톰슨입니다 저는 SAS의 데이터 과학자이며 딥 러닝과 함께 일할 수있는 특권이 있습니다 R & D 팀 컴퓨터 용 Python 및 DLPy 및 SAS Viya를 사용한 딥 러닝을위한 비디오 시리즈입니다

시력 이 특정 비디오에서는 패션에 태그를 지정하기 위해 멀티 태스킹 딥 러닝 모델을 훈련하고 싶습니다 품목 이제 기계 학습에서 종종 이미지를 가져 와서 레이블을 지정하고 단일 이미지를 만듭니다 옷의 종류를 분류하는 것과 같이지도 학습을 통해 하나의 작업을 분류합니다 드레스인가요? 티셔츠인가요? 벨트인가요? 그리고 색상과 같은 다른 의미 속성이 있고 입력 데이터에 레이블을 지정하면 색상을 분류하기 위해 회선 신경망과 같은 다른 것을 훈련하십시오

종종 고려해야 할 장점과 장점 중 하나는 단일 모델을 훈련시키는 것입니다 이 두 가지 과제를 동시에 동시에 배우는 것입니다 이를 유용한 정보를 활용하는 패러다임 인 멀티 태스킹 학습이라고합니다 전체적인 일반화를 향상시키기 위해 여러 관련 작업에서 즉, 모델이 더 잘 맞는 경향이 있습니다 한 작업에 대한 정보가 다른 작업을 예측하는 데 신뢰성을 부여 할 수 있기 때문에 좋습니다

단일 모델이 있으므로 두 모델을 사용하는 것보다 배포가 훨씬 쉽습니다 또는 더 많은 모델 따라서보다 쉽게 ​​관리하고 생산할 수 있습니다 시작하기 전에 멀티 태스킹 학습은 매우 강력합니다 자율 주행 차와 같은 많은 응용 분야에 사용됩니다

영어로 된 문서 모음이 있다고 가정 해 봅시다 프랑스어, 독일어 및 이탈리아어로 번역하고 싶습니다 거기에는 동시에 훈련하는 세 가지 작업이 있습니다 이제이 예에서는 이미 CAS 세션을 시작했습니다 DLPy를로드했으며 CAS 서버에 연결했습니다

가장 먼저 보여 드리고 싶은 것은 디스크에서 이미지를로드하고로드하는 방법입니다 이 예제에서는 하위 디렉토리에서 읽은 후 레이블을 재귀 적으로 가져옵니다 따라서 실제로 디스크에서 데이터를로드하여 메모리로 읽어들입니다 서브 디렉토리에서 레이블을 당기십시오 다음으로하는 일은 간단한 빈도 수이며 데이터가 상당히 균형을 이루고 있음을 알 수 있습니다 모든 작업에서 332 개에서 386 개의 관측치가 있습니다

이런 종류의 균형을 가질 필요는 없으며 분명히 콜스 나 메이 시즈, 우리는 더 많은 관측을 할 것이지만 이것은 간단한 데모입니다 이제 멀티 태스킹 딥 러닝을 수행하는 데있어 가장 까다로운 부분 중 하나는 작업 레이블 자체 이제 내가하고있는 첫 번째 일은 Pandas 데이터 프레임을 사용하고 getDummies를 단순히 이진 지표를 만듭니다 딥 러닝 패키지에는 정말 강력한 것이 있습니다 SAS 함수 컴파일러입니다

이를 사용하여 자신의 손실 함수를 찾을 수 있습니다 여기에서는 계산 된 vars를 사용하여 조건부로 추가 작업을 조건부로 정의하고 있습니다 여성, 의복의 조화는 무엇이며, 나는 그것을 다른 사람들과 다시 합류합니다 데이터 여기 간단한 머리를보고 몇 가지 관찰 만 살펴보면 이제 9 개의 총 작업이 동시에 진행되고 있음을 알 수 있습니다

여자를위한 것이 든 아니든 자, 여기에 이미지를 보여 드리는 예가 있습니다 그들이 어떻게 생겼는지 딥 러닝의 많은 머신 러닝 문제와 마찬가지로 데이터 크기도 조정합니다 200×200으로 설정하고 CAS 서버의 모든 작업자 노드에서 데이터를 섞습니다 여기서 20 %의 샘플을 작성하고 있음을 명심하십시오 이것은 홀드 아웃 데이터 세트 테스트이며, 나머지 80 %의 데이터를 사용하여 학습합니다

에 모델 이제이 시점에서 직접 비순환 그래픽 인 기본 아키텍처를 정의하겠습니다 네트워크를 위해 그리고 DL Plot을 사용하여이를 수행하고 있습니다 입력 레이어, 컨볼 루션 레이어, 배치 규범 풀링 및 밀집 레이어가 있습니다

그러나이 네트워크 플롯을 보면 기본적으로 하나의 아키텍처가 있음을 알 수 있습니다 그리고 그 아키텍처는 우리가 시도하는 모든 결과 작업과 공유됩니다 예측하십시오 모든 작업에 대해 동일한 네트워크를 가질 필요는 없습니다 이것은 기본 예이며 여기에서 실제로 잘 작동합니다 예측하려는 각 작업에 대해 서로 다른 네트워크 아키텍처를 가질 수 있습니다

아키텍처를 정의한 후 모델을 학습하려고합니다 이 예에서는 운동량과 같은 매우 기본적인 최적화 방법을 사용하고 있습니다 60 개의 EPICS를하고 있는데 훈련 옵션을 정의하고 싶습니다 이제 partition이 0 인 곳을 사용하고 있습니다 그것은 훈련 데이터의 80 % 만 가져올 것입니다

모델 무게 등 나중에 득점을 할 수 있습니다 GPU에서도 이것을 훈련하고 있습니다 딥 러닝의 곱셈 특성으로 인해 네트워크를 더 빨리 훈련시킬 수 있습니다 모델과 더 빠른 실험

다양한 최적화 방법을 시도해보고 궁극적으로 최상의 모델을 얻을 수 있습니다 더 빠르게 여기에 약간의 출력이 있지만, 내가 시도한 것은 이것을 이것에 요약합니다 반복 플롯 우리가 60 번의 EPICS를했다는 것을 기억하십시오 약 13 ~ 14 개의 EPICS 어딘가에서 쇠퇴와 상실과 시대를보고 있습니다

모델이 실제로 안정화 된 것 같습니다 나는 실제로 그것을 자랑스럽게 생각합니다 좋아 보인다 테스트 데이터와 비교하여 먼저 확인하겠습니다 이 모델은 훈련을 위해 개발되었습니다 이제 데이터의 20 %를 부분 집합 화하겠습니다

훈련에서 절약 한 모델 가중치를 사용하여 해당 데이터의 점수를 매길 것입니다 그리고 여기서 볼 수 있듯이 모든 작업에 대해 평균 제곱 오차가 매우 낮습니다 좀 더 세분화되고 실제로 혼동 행렬과 같은 것을보고 모델이 테스트 데이터에 얼마나 잘 맞는지 그런데이 예측값 p_는 테스트 데이터에 대한 예측값을 나타냅니다 내가 훈련 한 모델에 나는 판다에서 약간의 일을한다 파이썬을 DLPy와 똑바로 혼합하는 것이 좋습니다

그리고 9 가지 작업 각각에 대한 분류 행렬 인 혼동 행렬을 얻습니다 행은 실제 값을 나타내고 열은 예상 값을 나타냅니다 벗어난 대각선에서, 우리가 잘못한 곳입니다 여기에 검은 색은 4 개, 파란색은 4 개, 빨간색은 1 개, 우리는 다른 수업을 살펴보고 정말 잘하고 있습니다 마지막으로, SAS에서 딥 러닝의 비밀 소스 조각 중 하나는 ASTORE

여기에서 실제로 모델을 이진 파일에 저장하여 배치 스코어링을 수행 할 수 있습니다 스트리밍 분석을 사용하여 점수를 매기거나 다른 모델과의 작업을 위해 모델을 ONNX로 가져 오기 PyTorch 및 TensorFlow와 같은 패키지 여기에이 작업을 완료하고 모델을 저장했으며 다음 비디오에서는 실제로 스트리밍 분석을 사용하여이 모델의 점수를 매기는 방법을 살펴 보겠습니다 결론적으로, 멀티 태스킹 딥 러닝은 실제로 여러 개를보고 예측할 수있게합니다 동시에 작업

DLPy를 사용하면 간단합니다 다음 비디오에서 to기를 기대합니다 Python 및 SAS Viya Computer Vision Series를 사용한 딥 러닝에 오신 것을 환영합니다 제 이름은 웨인 톰슨입니다 저는 SAS의 데이터 과학자이며 SAS Deep과 함께 일합니다

학습 R & D 팀 이 비디오에서는 DLPy의 자매 인 ESPPy를 사용하여 멀티 태스킹을하고 싶습니다 딥 러닝 모델 이제 이미 멀티 태스킹 딥 러닝 모델을 훈련했습니다 이미지를 모아서 9 가지 작업을 예측하고 동시에 수행 할 수있는 모델을 개발했습니다

이 예제에서하고 싶은 것은 ESPPy를 사용하는 것입니다 또한 SAS 이벤트 스트림 처리 창에 연결할 수 있습니다 프로젝트를 구축하고 창과 상호 작용하며 모델을 배포합니다 SAS Event Stream Processing은 정말 멋집니다 여기에는 클러스터링에서 시계열 분석에 이르는 여러 스트리밍 작업이 포함됩니다

감정 분석 또는 공동 필터링과 같은 작업도 수행 할 수 있습니다 하지만이 데모에서는 이미지 처리 창과 온라인 창을 사용하겠습니다 딥 러닝 멀티 태스킹 모델을 배포 할 수 있습니다 이제 가장 먼저해야 할 일은 실제로 프로젝트를 만드는 것입니다 이 멀티 태스크를 호출하고 실제로이 셀을 실행하겠습니다

그리고 다음으로하고 싶은 것은 프로세스 흐름이나 관로 실제로 이미지를 읽으려면 소스 창이 필요합니다 우리가 일부 교육에서했던 것처럼 모델을 훈련 할 때마다 일반적으로 이미지 따라서 점수를 매길 때 20에서 20으로 크기를 조정하고 이미지 처리를 사용하겠습니다 그렇게하는 창

다음은 모델을 가져와야한다는 것입니다 모델을 학습하고 ASTORE로 저장 했으므로 모델 리더가 있습니다 그것을 읽을 수있는 창 그리고 실시간으로 점수를 생성하는 득점 창이 있습니다 그리고 보면, 프로젝트는 다음과 같습니다

나는 데이터를 읽고 이미지를 표준화하고 점수를 생성합니다 그런 다음 실제로 프로젝트를로드하고 몇 개의 출력 테이블을 설정하겠습니다 여기에 쓸 것입니다 이제 첫 번째 노트북을 사용하여 실제로 노트북을 정의하기 때문에 별도의 노트북이 있습니다 ESP 프로젝트

이 책에서는 간단히 게시하고 점수 매기기 프로세스를 시작하겠습니다 그래서 저는 팔고이 모든 것을 실행합니다 실제로 모델의 점수를 매 깁니다 다시 여기로 돌아가서 이제 이벤트 스트림 처리 엔진을 사용하겠습니다 득점

실제로 예측 확률과 함께 태그가 지정되고 라벨이 지정된 이미지가 표시되는 것을 볼 수 있습니다 작동하는 예제를 제공하는 작은 세트입니다 수면 시간은 03입니다 이벤트 스트림 처리 엔진은 실제로 초당 최대 50 프레임을 수행 할 수 있습니다

시원한 이 데모에서는 이미 멀티 태스킹 학습을 위해 개발 된 모델을 검색을 용이하게하기 위해 스트리밍 분석을 사용하여 배포 할 수있었습니다 콜이나 메이시 같은 사람 교육용 DLPy와 함께 ESPPy를 사용하면 실제로 쉽게 수행 할 수 있습니다

Decision Tree Machine Learning | Decision Tree Python | Intellipaat

안녕하세요, Intellipaat에 오신 것을 환영합니다 오늘 세션에서 우리는 배울 것입니다 의사 결정 트리에 대해

우선, 왜 관심을 가져야하는지 알려 드리겠습니다 의사 결정 트리에 대해 학습합니다 의사 결정 트리는 개략적이고 지리적입니다 의사 결정 기반 문제의 가능한 모든 솔루션에 대한 표현 그것 현명한 결정을 내리는 데 사용됩니다 데이터 분야에서 매우 중요 할뿐만 아니라 과학이지만 기계 학습 분야에서도 매우 중요합니다

예측 분석에 사용됩니다 따라서이 중 하나에 관심이 있다면 필드가 끝날 때까지 계속 지켜봐야합니다 비디오 이제 진행하기 전에 Intellipaat의 YouTube를 구독하십시오 다가오는 비디오를 놓치지 않도록 채널을 만드십시오 그래서 먼저 우리는 의사 결정 트리가 무엇인지 배우고 실제 예를 들어 의사 결정 트리를 작성하는 방법을 배우겠습니다

인증 된 데이터 과학에 관심이 있다면 전문가라면 Intellipaat에서 제공하는 데이터 과학 과정을 확인하십시오 당신 설명 상자에서 아래 과정 링크를 찾을 수 있습니다 이제 더 이상 지연, 시작합시다 의사 결정 트리는 기본적으로 기술 또는 데이터입니다 의사 결정에 도움이되는 우리가 구축 한 구조 그래서 여기에 모든 내부 노드는 속성에 대한 테스트 조건을 나타냅니다

리프 노드는 데이터가 분류되는 범주입니다 그럼 보자 이것을 더 잘 이해하기위한 예 그래서 당신이 당신의 관리자라고 가정 해 봅시다 통신 회사와 당신은 어떤 요인이 무엇인지 이해하고 싶어 고객이 이탈하도록합니다 따라서 의사 결정 트리를 구축하기로 결정했습니다 이제이 의사 결정 트리 일련의 테스트 조건을 제공합니다

여기 루트 노드 성별, 즉 첫 번째 조건은 성별 열에 의해 결정됩니다 그래서 고객이 남성입니다 그런 다음 우리는 그의 지속 시간을 더 결정할 것입니다 보유 반면에 고객이 여성 인 경우 다음 테스트 조건 월 청구액을 기준으로합니다

고객이 남성이라고 가정 해 봅시다 그때 우리는 그의 임기를 확인하고 그의 임기가 30 개월 미만이면, 그는 휘젓다가 다시 재직 기간이 30 개월을 넘으면 같은 회사에, 그리고 이것은 최종 예측입니다 의사 결정 트리에서 제공합니다 마찬가지로 여성 고객을 확보하면 월 청구 금액을 확인해야합니다 따라서 월 청구액이 더 큰 경우 80 달러 이상이면 이탈하고 월 청구액이 80 달러 미만이면 그녀는 같은 회사를 고수 할 것입니다 그래서 우리는 다음에 대한 일련의 대안을 탐색하고 있습니다

특정 결정 지점에 도달하십시오 이제 결정이 무엇인지 이해 했으므로 트리에서 의사 결정 트리의 유형을 살펴 보겠습니다 따라서 의사 결정 트리는 분류 트리 또는 회귀 트리 분류 트리는 반응 또는 목표 변수는 본질적으로 범주 형이며 회귀 트리는 반응 변수가 수치 적으로 낮거나 연속적 일 때 사용됩니다 자하자 데이터 세트 A가 있고 그 안에 n 개의 레코드가 있다고 가정하십시오

이제 내가 할 일은 이 데이터 세트에서 샘플을 추출합니다 실제로 이것은 바꿔 놓음 즉, 데이터 세트 A에서 하나의 레코드를 가져 와서 기록하고 데이터 세트 A1에서 동일한 샘플을 찾은 다음 원래 위치로 레코드를 다시 넣습니다 에서 이 프로세스를 n 번 반복하여 데이터 세트에 n 개의 레코드가 있습니다

A1도 따라서 명심해야 할 것은 A1의 레코드 중 일부는 두 번, 세 번 또는 여러 번 올 수 있습니다 A의 일부 레코드는 A1에 전혀 기록하지 않았을 수 있습니다 그래서 나는 이렇게 A1을 만들었습니다 그런 다음 계속해서 여러 데이터 집합을 만듭니다

같은 방식으로 저는 A1, A2, A3까지 Ax까지 있고 각각은 A와 같은 수의 레코드입니다 여기있는 X는 무엇이든 가능합니다 의 말을하자 100, 500 또는 심지어 1000까지도 가능합니다 따라서 하나의 데이터 집합 A만으로 우리의 이점을 위해 여러 데이터 세트

데이터 세트 A를 가정 해 봅시다 1000 개의 행이 있고 x의 값도 1000입니다 따라서 1000에 1000을 곱한 값입니다 백만 행, 즉 1000 행에서 데이터를 통해 백만 개의 행을 얻을 수있었습니다 이제 우리가 할 일은이 X 각각에 대해 데이터 세트, 각각 하나의 의사 결정 트리에 맞을 것이므로 X 의사 결정 트리가옵니다 X 데이터 세트에서

이제 나무 그룹이 생겼습니다 다시 말해 우리가 여기있는 것은 나무의 앙상블입니다 이제 새로운 것을 말합시다 리가 사라졌다 그런 다음이 레코드를 각각에 전달합니다 이 X 나무들과 우리는이 클래스들이 어떤 나무인지 예측할 것입니다 새로운 기록이 나타납니다 우리는 X 나무를 가지고 있기 때문에 X를 얻을 것입니다 예측, 즉 X가 500이라고 가정하면 500 개의 예측을 얻게됩니다

마찬가지로 X가 1000이면 1000 개의 예측값을 얻게됩니다 이제 최종을 얻으려면 예측, 우리가해야 할 일은 대부분을 가질 클래스를 선택하는 것입니다 개별 나무에서 모든 예측에 걸쳐 숲의 그래서 우리가 여기서 실제로하고있는 일은 모든 예측을 집계하는 것입니다 이 나무들 여러분, 이것이 배깅의 개념입니다

간단한 정보들 : 만약 당신이 인증 된 데이터 과학 전문가가되는 데 관심이있는 경우 Intellipaat에서 제공하는 데이터 과학 과정 아래 설명 상자에서 코스 링크를 찾을 수 있습니다 이제 계속합시다 세션과 함께 따라서 우리는 동일한 예제를 사용하여 포장하고 차이가옵니다 다시, 데이터 세트 A가 있고 n 개의 레코드가 있습니다

그것 이제 내가 할 일은이 데이터 세트에서 샘플을 그리는 것입니다 그래서 이건 실제로는 대체품으로 샘플링 할 것입니다 데이터 세트 A의 레코드를 기록하고 데이터 세트 A1에 동일한 샘플을 입력 한 후 레코드를 원래 위치로 되돌려 놓으면이 과정을 반복하겠습니다 데이터 세트 A1에도 n 개의 레코드가 있도록 n 번

그래서 필요한 것 명심해야 할 것은 A1의 n 개 레코드 중 일부는 두 번, 세 번 또는 여러 번 올 수 있지만 A의 일부 레코드는 그렇지 않을 수 있습니다 전혀 A1에 만들었습니다 그래서 저는 이와 같이 A1을 만들었습니다 계속해서 같은 방식으로 여러 데이터 세트를 생성하십시오 A와 같은 수의 레코드와 여기의 x는 무엇이든 될 수 있습니다

100, 500 또는 심지어 1000까지도 가능합니다 따라서 하나의 데이터 집합 A만으로 우리를 위해 여러 개의 datset을 만들 수 있습니다 우리를 위해서만 데이터 세트 A에 1000 개의 행이 있고 x의 값도 1000이라고 가정하겠습니다 따라서 1000에 1000을 곱하면 백만이됩니다 행 즉, 단 1000 행의 데이터에서 1 백만 행을 얻을 수있었습니다

지금까지 프로세스는 배깅과 동일합니다 이것이 차이점입니다 온다 이제 우리가 할 일은 각각의 X 데이터 세트에 대해 하나의 결정에 맞을 것입니다 의사 결정 트리를 작성하는 프로세스가 여기에서 변경됩니다 자, 이 A1 데이터 세트에 10 개의 독립 변수가 있다고 가정하십시오

이제 자루에 넣을 때 이 10 개의 독립 변수를 모두 분할에 대한 선택으로 간주 후보이지만 임의 포리스트에서 발생하는 일은 노드가있을 때마다 의사 결정 트리에서 분할하면 열 10 개가 모두 제공되지는 않습니다 연산 이 사람이 퇴각하는 것이 중요합니다 그래서 매번 노드가 의사 결정 트리에서 분할되고 있으며 10 개의 열이 모두 제공되지는 않습니다 랜덤 포레스트 알고리즘

이제 질문이 생겨서 어떻게 될까요? 알고리즘에 사용할 수 있습니까? 따라서이 10 개의 열 중 임의의 하위 집합 만 알고리즘에 사용할 수 있습니다 이 루트 노드를 분할하고 싶다고 가정하겠습니다 지금 10 개의 열을 모두 제공하는 대신이 열의 하위 집합 만 제공 제공됩니다 3 개의 열을 말하고 10 개 중 하나 일 수 있습니다 이 3을 사용하면 알고리즘이 노드를 분할합니다

마찬가지로 여기 왼쪽 노드에 다시 3의 임의의 세트가 제공됩니다 변수 왼쪽 노드가 동일한 3을 가져야 할 필요는 없습니다 변수 모두 3 개의 열 집합이 될 수 있습니다 우리가있을 때마다 노드를 분할하면 전체에서 임의의 'm'예측 변수가 제공됩니다

예측 자의 공간과 이것이 수행되는 이유는 각각의 X 트리를 만드는 것입니다 매우 다릅니다 이제 bagging과 Random Forest를 비교해 봅시다 따라서 자루에 넣을 때 모든 나무에는 사용 가능한 전체 예측 공간이있었습니다 결국 건물을 짓게 될 나무는 매우 비슷할 것입니다 서로에게, 그리고 랜덤 숲의 경우, 우리는 제공된 열과 관련하여, 즉 임의의 열 집합 만 전체 예측 공간에서 제공되므로 결정이 내려집니다

당신이 얻을 나무는 서로 상당히 다를 것입니다 지금 후 이 단계는 포장과 비교할 때 거의 동일합니다 그래서, 새로운 기록 Ri 나는 떠난다 그런 다음이 레코드를 각각에 전달합니다 이 x 나무와 우리는 그의 클래스에 대한 각 나무의 예측을 얻을 것입니다 새로운 기록이 나타납니다

x 개의 나무가 있으므로 x를 얻게됩니다 예측 최종 예측을 얻으려면 우리가해야 할 일은 선택입니다 대부분의 투표권을 가진 클래스 ——- 개별 나무의 모든 예측 자 여러분, 이것이 랜덤의 개념입니다 숲 오늘은 실제로 세 가지 다른 패키지를 사용하여 결정 트리 우리는 나무를 사용하고 자동차 부품을 사용하며 또한 파티 패키지에서 ______ 수하물 ctree 기능 사용 그래서, 우리는 의사 결정 트리 모델을 구현하는 세 가지 다른 기능을 배웁니다

그래서 먼저이 ISLR 패키지 라이브러리를로드하여 시작하겠습니다 자, 이것 패키지에는 기본적으로이 카시트 데이터가 있습니다 따라서 데이터를 말해야합니다 카시트 이 데이터를로드해야합니다 이제하자 이것에 대해 살펴보십시오

이것은 기본적으로 판매가있는 첫 번째 데이터 세트입니다 다른 차의 이제 도움을 요청하고 이에 대한 설명을 보여 드리겠습니다 이것은 어린 이용 카시트 판매를 포함하는 시뮬레이션 된 데이터 셋입니다 400 개의 서로 다른 상점이 있으며 이들은 서로 다른 열입니다

판매는 단위 판매입니다 각 위치에서 경쟁 업체가 각 위치에서 청구하는 가격을 지역 사회 광고 예산, 인구 및 자동차 좌석에 대한 크기, 가격 회사 요금 및 나머지는 열 우리가 할 일은 먼저 분류부터 시작하겠습니다 어제 세션에서 여러분에게 말했듯이 의사 결정 트리는 두 가지 모두에 사용될 수 있습니다 분류 및 회귀 목적 이 데이터 세트에서 기본적으로 무언가를 분류하려고합니다 첫 번째 작업은이 판매를하는 것입니다 열을 나누고 실제로 이것을 범주 열로 변환하십시오

따라서 판매 가치가 8 이하인 경우에는 다음과 같이 태그를 지정합니다 낮은 마찬가지로 값이 8보다 큰 곳에서는 그 값을 높게 표시합니다 그것은 우리의 첫 번째 작업이 될 것이며, 분류 작업이기 때문에 범주 열이 필요합니다 그렇게하겠습니다

이 ifelse 함수를 사용하겠습니다 우리가하는 일은 카시트에서이 판매 칼럼을 가져 오는 것입니다 데이터 세트이며 값이 8보다 작은 경우에는 아니오라고 말할 것입니다 그래서 기본적으로 자동차 판매량이 많지 않고 8 대 이상인 곳에서는 예 계속해서이 새로운 변수를 만들어 봅시다 그래서 나는 실제로 이것을 작은 C로 먼저 변환하십시오

이 데이터 세트를 가져 와서 새 객체에 저장합니다 대문자 C 이것은 작은 C입니다 여기에서 판매 열을 가져오고 값이 작은 곳 8보다 크면 새 것으로 태그를 지정하고 값이 8보다 큰 경우 예라고 태그를 붙입니다 그 결과를 높은 물체에 넣겠습니다 이제 새 데이터를 만들겠습니다 이 어린 이용 카시트 데이터 세트의 모든 열로 구성된 프레임 이 새 오브젝트를 추가하면 카시트에 다시 저장합니다

그래서보기 여기, 우리는이 새로운 열을 추가 한 것을 볼 수 있습니다 그것은 그렇습니다 그리고 그렇습니다 따라서 '예'는 기본적으로 판매 가치가 8보다 크고 값이 없으면 판매 값이 이제 8과 같거나 작습니다 이제 우리는 데이터 셋을 가지고 있습니다 모델을 빌드하십시오

실제로 트리 기능부터 시작하겠습니다 쓰다 트리 기능을 사용하려면 트리 패키지가 필요합니다 이것을로드하겠습니다 (이미 높은 열 또는 _____) 아니요 새 열을 만들고 있습니다 기둥

실제로 원래 데이터 세트를 보여 드리겠습니다 어린 이용 카시트보기 : So 이것은 높은 열로 구성되지 않은 원래 데이터 프레임입니다 그래서 내가하고있는 일은, 나는이 판매 칼럼을 가져 가고 있으며 어디에서나 값이 8 이하인 경우 아니요로 태그를 지정합니다 8보다 크면 예로 태그를 지정합니다 그 결과 나는 그것을에 저장합니다 새 개체와 해당 개체의 이름을 높게 지정하십시오

이것이 기본적으로 우리의 새로운 것입니다 기둥 새 열을 카시트 데이터 프레임에 추가합니다 원본 데이터 프레임 결과를 카시트에 다시 저장하겠습니다 할 수 있는 이것을 따라? 네

여기에 데이터 세트가 있습니다 이제 시간이야 모델을 빌드합니다 당신이에 관심이 있다면 그냥 빠른 정보 사람 인증 된 데이터 감각 전문가 및 데이터 과학 과정 확인 intellibid에서 제공하는 아래 설명 상자에서 코스 링크를 찾을 수 있습니다 이제 세션을 계속 진행하고 사용할 모델을 빌드하겠습니다 트리 패키지이므로 이제 트리 라이브러리는이 트리 함수를 사용하고 결과가 높은지 아닌지, 다시 말해서 판매 가치가 다른 모든 열을 기준으로 높거나 높지 않으므로 다른 열과 관련하여 알고 싶은 경우 여기에 여기에 점을 대어 종속 변수가 높고 독립적입니다

변수는 나머지 열입니다-판매는이 높은 열이기 때문에 판매 열에서 바로 생성되었으므로 모든 열을 사용하겠습니다 씰을 제거하여 판매 열을 두 번 제외하고는 독립 변수와 다시 데이터 세트를 분할하지 않습니다 이제이 전체 데이터 셋 위에이 모델을 직접 구축하고 있습니다 이제 데이터는 카시트와 동일하게됩니다 이것은 나무 점 자동차 좌석의 요약이며 이것은 다른 것에 대해 알려줍니다

독립 변수와 우리가 가진 터미널 노드의 수와 오 분류 오류율은 이제 실제로 진행해 보도록하겠습니다 이 나무 점 자동차 좌석의 줄거리 이제 우리는 계속해서 텍스트를 추가 할 것입니다 이 텍스트와 우리는 당신이 만든 것과 동일한 모델을 전달할 것입니다 제로와 같습니다 이걸 제로로 제거하면 기본적으로이 범주 열은 Dixon이 알았어 이제 이걸 먼저 빼자 내가 이것을 플롯 할 때 당신은 이제 알파벳 수준의 범주 레벨을 얻습니다

이름과 관련하여 범주 열을 원한다면 케빈은 0과 꽤 같아서 여기서이 부분을 삭제하겠습니다 여기에 실제 범주 형 열이 표시되므로 이제 실제로 이걸보고 무슨 일이 일어나고 있는지 이해해서 첫 번째 스플릿 포인트는 선반 위치 열을 기준으로합니다 이것은 열이며 여기에서 첫 번째 분할을 결정합니다 값이 나쁘거나 중간 인 경우 왼쪽의 왼쪽으로 이동합니다 다른 한편으로 가치가 좋다면 우린 오른쪽으로갑니다 다시 오른쪽으로 갑시다

가격이 작은 지 확인하겠습니다 135 가격이 135보다 작 으면 다시 왼쪽으로갑니다 가격이 백보다 작은 지 확인하고 가격이 백보다 작은 지 확인하십시오 9시 판매 가치가 높을 것입니다 마찬가지로 이것은 여기에서도 같은 일을하므로 이것이 우리가 방금 구축 한 의사 결정 트리 지금은 전체 데이터를 기반으로 구축 한 모델입니다 우리가 할 일은이 데이터를 기차와 자산으로 나누고 열차 세트 위에 모델링하고 테스트 위에 값을 예측 다시 설정하면 동일한 패키지 CA 도구를 사용하게됩니다 샘플 도트 스플릿 기능 이것을로드 할 것이므로 먼저 시드 값을 설정하겠습니다 여러분도 같은 값을 얻도록 시드 값을 101로 설정하겠습니다 여기에서 샘플 도트 스플릿 기능과 스플릿 기준을 열 및 분할 비율은 0

65이며 기본적으로 65 %의 레코드가 훈련 세트 및 35 % 기록이 시험에 들어갑니다 그리고이 n split 태그를 훔쳤습니다 이제 부분 집합 함수를 사용하고 전체 카시트 데이터 세트에서 서브 세트 기능의 도움 split 태그 값이 참이면 어디든지 trainset에 저장합니다 분할 태그 값이 거짓이면이 전체 카시트 데이터 세트에서 테스트 세트에 저장하여 교육 및 테스트 세트를 준비하십시오 계속해서 훈련 세트 위에 모델을 구축하겠습니다 트리 함수를 사용하고 다시 수식은 여기에서 동일합니다 종속 변수이며 영업 항목을 제외한 다른 모든 항목은 독립 변수와 우리는 기차 위에이 모델을 구축하고 있습니다 이 시간을 설정 보니 내가 방금 잃어버린 태그는 2와 같고 여기에서 오는 것이 좋습니다

그래서 샘플 도트가 나옵니다 함수는 먼저 두 개의 매개 변수를 취합니다 기본적으로 열에 있습니다 두 부분으로 나누고 싶고 종속 변수가 높기를 원하기 때문에 우리는 이것을 분할 기준으로 취하고 분할 비율은 기본적으로 분할 비율은 기본적으로 true 또는 false 값을 제공하므로 65 %의 관측치에는 실제 레이블이 있고 나머지 35 % 관측치에는 잘못된 라벨과 분할 태그에 저장했습니다 이제 이것을 인쇄하겠습니다

태그를 분할하여 여기에 여러 개의 참과 거짓 값이 있습니다 그래서 내가 할 수있는 참과 거짓 값의 무리에서 스플릿 태그 값이 참인 모든 카시트 데이터 세트 이 기록들 중 하나를 차 전체와 비슷하게 열차에 보관하십시오 split 태그 값이 false 인 곳마다 좌석 데이터 세트 첫 번째 기록을 위해 여기에 테스트를 설정하고 우리가 할 때 그 부분을 이해합니다 이 분할 비율과 태그를 저장 및 분할하면 true 또는 false로 지정됩니다 65 %의 비율로 예, 기본적으로 부서는 6535입니다 Saqqara 5 % 신은 진실의 35 %가 잘못을 가지고 이것을 사용할 것입니다 여기 모두 사실이므로 모든 사람이 따라갈 수 있습니다

이 오른쪽 그는 분할 태그를 만들었고 이제는 하위 집합 기능을 사용하고 전체 카시트 데이터 세트에서 분할 태그가 사실임 전체 카시트 데이터 세트에서 분할 태그와 유사하게 기차에 저장합니다 거짓으로 테스트에 저장하여 교육 및 테스트 준비를 마쳤습니다 훈련 세트에 모델을 구축 할 시간이므로 기능 존중은 트리 함수를 사용하고 종속 변수가 높고 독립적입니다 변수는 봉인 열을 제외한 모든 것을 취할 것입니다 컬럼은 기본적으로 판매 컬럼에서이 높은 컬럼을 만들었습니다

열차 세트 위에이 모델을 구축하고 있으며이 모델을 저장합니다 나무 점 자동차 좌석에서 나는 지금 내가 입력하자 이 줄거리를 한눈에 볼 수 있도록 이번에는 다시 플롯을 만들겠습니다 분할 기준이 결정된 첫 번째 분할 기준이 결정됨 가격이 90보다 작 으면 가격이 90보다 크면 오른쪽으로 이동하여 기본적으로 여기에있는 전체 결정 트리이므로 이제 모델도 계속 진행하여 값을 예측하고 예측 함수를 사용할 값으로 첫 번째 매개 변수는 모델이므로 두 번째 매개 변수를 만든 것은 테스트 세트입니다 테스트 세트 상단의 값과 세 번째 매개 변수는 예측은 예측 유형이 클래스이므로 기본적으로 직접 여기에 결과가 있으므로 클래스는 기본적으로 예 또는 아니오이며 다시 우리는 이 결과 트리 도트 빵을 바로 저장하여 이제 값들을 혼동 행렬을 만들 것입니다 실제 값은이 테스트 달러 높이에서 가져 오므로 실제 값은 값과 이것들은 3 개의 점이있는 예측 된 값입니다

빵은 우리에게 혼란 매트릭스를 제공 하므로이 값은 기본적으로 그 중에서 알려진 모든 실제 값은 68 그것들은 정확하게 그리고 이것은 우리가 알려진 실제 값 또는 그중 15 개를 예라고 잘못 분류하고이 18 개는 기본적으로 실제로 예인 값은 아니요로 잘못 분류하고 이 39 개는 실제로 그렇습니다 예로 분류 했으므로 기본적으로이 왼쪽 대각선은 올바르게 분류 된 관측치 및이 오른쪽 대각선은 모든 잘못 분류 된 관찰과 정확성을 얻기 위해 이것을 왼쪽으로 나눕니다 모든 관측치에 대해 대각선 인증 된 데이터에 관심이 있다면 간단한 정보를 얻을 수 있습니다 감각적 인 전문가가 제공하는 데이터 과학 과정을 확인하십시오 intellibid 아래 설명 상자에서 코스 링크를 찾을 수 있습니다

세션을 계속 진행하여 68 + 39를 68 + 39 + 15로 나눕니다 플러스 18 그리고 이것은 우리에게 76 %의 정확도를 제공합니다 어제 수업에서 나무가 완전히 자란 것을 알게되었습니다 여기에서 우리가 할 일은 계속해서이 나무를 잘라 내고 가지 치기 후 모델의 정확도에 어떤 차이가 있는지 확인 좋아요, 그 테이블을 위해 우리는 조금해야 할 것입니다 교차 검증의 첫 번째 어제 또한 우리는 보았거나 핵심 폴드 크로스 CV 도트 트리는이를 위해 정확하게 사용되므로 CV의 도움 도트 트리 기능 우리는 교차 검증과 스테이크를 둘로 할 수 있습니다 우리가 만든 모델로 매개 변수를 먼저 지정하고 다음으로 너무 정리하는 함수입니다 닷 미스 클래스는 기본적으로 우리가이 교차 검증을하고 있다고 말합니다 나무를 가지 치기의 목적이며 이것은 기본적으로 내장 함수입니다

백그라운드에서 전체 작업을 수행하고이를 CV 도트 카시트에 저장합니다 이제 CV 도트 카시트를 바로 인쇄하겠습니다 이것이 기본적으로 하나의 루트 노드로 시작하여 트리의 크기를 그래서 하나 둘 셋 증가하고 마지막으로 우리는 나무가 총 24 개의 터미널 노드이며 이는 MIS 분류 비율입니다 여기에 기본적으로 하나의 노드 만 있으면 resub 상황 오류와 같은 최대 값이며이 터미널 노드가 모두있을 때 완전히 자란 나무이므로이 자란 나무는 최소한의 경감 또는 다시 말해, 분류로 최소값을 가지며 이는 비용입니다 서로 다른 레벨의 각 노드와 관련이 있습니다 교차 검증을 통해 CV 도트 카시트 플롯을 그릴 수 있습니다

기본적으로 나무의 크기로 보는 것을 여기에서 확대 해 봅시다 오 분류 율이 증가 할 때까지 오 분류 율을 증가시킵니다 처음에는 2 개 또는 3 개의 노드와 같은 위치에서 다시 증가합니다 매우 높은 미스 분류로 인해 노드 수를 읽을 때 15 세에서 16 세 사이에 우리는 최소 오 분류 율을 보였습니다 우리가 계속 헤어질 때 실제로 미스 증가 이상적인 노드 수로 알 수있는 분류 15 개 정도 쯤 되니까 기본적으로 나무를 가지 치기합니다 그래서 우리가이 포스트 정리 전이나 복잡성을 야기하는 가지 치기 때문에 우리는 이것이 올바른 생각이 아닌 완전히 자란 나무라는 것을 알았습니다 실제로이 값을 인쇄 해 보도록하겠습니다

16시 16 분에이 미스 분류가 다시 증가했습니다 내가 할 일은 여기에 16이 될 노드 수를 가진 모델을 만들 것입니다 이 값을 16으로 설정하겠습니다 이번에는 함수를 작성하겠습니다 프룬 도트 미스 절을 사용하고 있으므로이 프룬 도트 엉망 클래스는 가장 좋은 값으로 트리를 정리하거나 최대 수의 노드 수만큼 Rob 16 살이되고 그 결과를 저장해 두겠습니다 나는 자두 점 자동차 좌석의 홍수를 줄입니다

이제 우리에게 텍스트를 추가 할 것입니다 맞습니다 그래서 이것은 12 34 5678 9 10 11 12 13 14 15 16을 갖습니다 완전히 자란 나무이지만 그 후에 우리는 약간의 교차 검증을 한 다음 완전히 자란 나무는 좋은 생각이 아니라는 것을 알았습니다 완전히 자란 나무는 우리에게주지 않으므로 특정 지점 후에 오 분류 율은 기본적으로 증가하므로 완전히 자란 나무와 우리는 16의 레벨이 있다는 것을 이해했습니다 여기서 노드 분할을 중지해야하므로 이제 우리가 할 것은이 자두로 값을 다시 예측할 것입니다

나무는 계속 진행하겠습니다 다시 한 번 저는 오페라 기능을 다시 사용할 것입니다 테스트 세트 옆에있는이 가지 치기 된 트리로 먼저 매개 변수를 설정 한 다음 우리는 내가 입력 할 클래스 인 유형을 가지고 있습니다 우리가 이번에 얻는 정확도가 무엇인지 봅시다 68 더하기 40을 68 더하기 40 더하기 70 더하기 15 더하기 15 앞에서 보았 듯이 초기 정확도는 76 %였습니다

여기에 초기 값을 인쇄하여 68 + 39로 나옵니다 68 더하기 39 더하기 18 더하기 15 더하기 그러나 그 후에 우리는 계속해서 나무를 잘라 내고 예측했습니다 나무를 가지 치기 후 다시 77의 정확도를 얻습니다 68 + 40을 68 + 40 + 17 + 15로 나눈 비율입니다 77 %의 정확도를 가지므로 모든 사람이 우리가 어떻게했는지 이해할 수 있습니다 가지 치기를하고 가지 치기 후 어떻게 더 나은 정확도를 얻었습니까 여기에 질문이 있으시다면 카레 자리 값은 기본적으로 이제 기본적으로이 모델을 만들 때 모두 다를 수 있습니다 내가 얻는 것과 같은 값을 원한다면 스키를 타십시오

시드 값 또는 동일한 결과 바로 다른 토끼 토끼 실제로 나는에 대해 분명했다 무들은 실제로 씨앗을 볼 때마다 당신이 줄 것입니다 희망과 같은 동일한 데이터가 어떻게 진행되는지 알 수 있습니다 봉인 개념을 이해하면 아무것도 볼 수 없습니다 씨앗을 설정 한 다음 임의의 값을 지정하여 올바르게 할 수 있습니다 이것 후에 무엇이든 보자 샘플을 생성하고 지금 당장 당신은 3 3 3을보고 당신은 얻을 것이다 심지어 샘플 기능을 사용 같은 값을 가지고 있거나 다시 샘플링하면 도트 시드를 사용하고 사용할 것입니다

three three three three three 및 샘플 10 쉼표 2를 설정하십시오 기본적으로 동일한 결과를 원한다면 상기 도트 시드를 사용해야합니다 그것은 지금도 거의 매번 쪼개고 있어요 gingerreadslainey 내가 원한다면 내가 원하는 것처럼 no no no no no no 내가 사용할 때마다 지금이 결과를 다른 사람에게 보여주기 위해 샘플 함수 이것은 매번 다른 결과를 줄 것입니다 이 샘플을 다른 사람에게 보여주기 위해 샘플을 원한다고 말하십시오 쉼표 2로 매번 같은 결과를 얻을 수 있습니다

시드 값을 설정하면 시드 값이 매번 동일한 결과를 제공합니다 그래서 시드를 설정하면 임의의 값 1을 제공하고 샘플 10 쉼표 2 I 3 쉼표 4를 다시 얻습니다 시드 값을 1로 설정하고 샘플 10 쉼표 2를 얻습니다 동일한 결과이므로 10 개의 쉼표 2 I의 한 샘플의 시드가 아님 기본적으로 동일한 결과를 원할 때 동일한 결과를 얻습니다 이 세트 닷 시드 이제 다른 것은 없습니다 그런 다음 교체 램프 교체 샘플을 뿌립니다

샘플링은 값을 대체하므로 반복하지 않아도됩니다 같은 결과를 원한다면 당신은 도트 씨를 말했다 그래, 그래서 우리가 여기에 대체하는 것은 없다 우리가 이런 종류의 분류를 올바르게 할 때와 언제 우리는 정확도를 의미하는 테스트를하고 있습니다 내 테스트 데이터를 기반으로 얻을 수 있습니까? 난 그냥 점수를하고 싶어 지금이 분류와 함께 할 수 있습니다 무엇을 기준으로 점수를 매겼는지 우리가 무엇을했는지 확인하십시오 맞습니다 그리고 당신은 8보다 작습니다 8보다 작습니다

판매 종류 예측에서 점수를 매기고 싶은 것은 없습니다 내 매출을 어떻게 예측할 수 있을까 결정 그 판매 가치를 예 예측할 수 있습니다 그래서 당신이 말하는 것은 기본적으로 회귀 또는이 의사 결정 트리의 도움을 받아 우리가 지금까지 할 수있는 것은 사랑의 모범 이니까 우리가 함께 할 예제는 부품 패키지이므로 실제로 의사 결정의 도움으로 지속적인 가치를 알고 예측 결정 트리에 대한 트리는 분류 목적에 모두 사용됩니다 회귀 목적뿐만 아니라 둘 다 할 수 있습니다 이 데이터 세트에 대한이 예는 분류를 올바르게 수행하므로 약간 가지 치기를하고 우리는이 결과를 여기에 얻었습니다 우리는 이것을 다시 인쇄하고 실제로 다른 것으로 잘라냅니다 이 노드 유효성 검사를 통해 붙여 넣을 수 있도록 노드 수 여기에 바로 여기에 우리는 노드의 수를 가져 16이 아니라 16이 되겠습니다

노드를 9로 설정하면 노드 수가 9 바로이 노드에서 9 개의 노드로이 트리를 가지 치기 때문에 다시 설정하면됩니다 이 최고의 값은 9와 같으므로 다시 정리할 것입니다 다음에 빌드하는 모델은 기본적으로 닷 미스 클래스 기능 당신이 원하는 노드의 수를 정한 후 1 2 3 4 5 6 7 8과 9가 있으며 이번에는 다시 분할이 가격이 90 포인트 5 미만인 경우 기본적으로 안녕하세요 예와 같습니다 이제 모델입니다 계속 진행하여 값을 예측하겠습니다

다시 한 번이 작업을 수행해야합니다 다시 한 번 예측 함수를 사용하여 그냥 당신 위에 지어진 이것은 정리 된 모델이며 우리는 예측하려고합니다 테스트 세트와 타입의 값은 class와 같으며 계속해서 혼동 행렬을 작성하여 이번에 정확도가 무엇인지 살펴 봅시다 68 plus 37 68 더하기 37 더하기 20 더하기 15 그래서 이번에는 정확도 75가 우리가 할 때처럼 세 개를 잘라 내야 할 분할 또는 이상적인 수준 16 개의 노드가 다시 있으므로이 교차 검증이 매우 중요합니다 우리는이 결과를 통해 9와 16이 16이 다시 이상적이라는 것을 알 수 있습니다 우리는이 많은 CV 도트 카시트의 플롯을 만들 때도 같은 것을 보았습니다

여기에서 우리는 이것이 우리의 이상적인 가치라는 것을 알았습니다 그래서 이것은 점프가있는 곳입니다 여기까지 오 분류 율이 감소 할 때까지 16에서 노드 수를 진행 한 후부터 우리는 오 분류 율 증가분을 계속 나누고 있습니다 스위스의 이상적인 가치입니다 기본적으로 우리가 어떻게 건설 할 수 있을까요? 트리 패키지의 도움으로 의사 결정 트리 파티 패키지가 포함 된 의사 결정 트리 의사 결정 트리를 작성하여 계속 진행하고이 패키지를로드하십시오

다들이 패키지를 빨리 확인 해주세요 자 이제 이것을 위해 우리는 홍채 데이터 셋을 사용할 것입니다 바이러스에 대한 홍채 데이터 셋보기이므로 이번에는 3 가지 분류가 있습니다 우리는 종이 setosa virginica인지 또는 versicolor 그래서 아이리스 수준의 달러 종 그래서 우리는 세가 이 강의를 통해 이번에는 의사 결정 트리를 구축 할 것입니다 데이터 세트가 setosa 또는 c 색상에 속하는지 또는 virginica 오른쪽 그래 그래 우리가 가지고 그렇게하자 이번에는 파티 패키지를로드 했으므로 지금까지 CA 도구를 사용했습니다 패키지 및 CA 도구 패키지 K는 샘플 도트 분할 기능으로 샘플 도트 분할 우리는 또한 데이터 파티션 생성 패키지를 가지고 있습니다

기본적으로 도트 분할을 샘플링 할 수 있으므로 데이터 파티션 생성은 일부입니다 당근 패키지 및 샘플 도트 분할은 CA Toles 패키지의 일부이므로 지금이 당근 ​​패키지를로드하겠습니다이 데이터 생성 파티션을 사용하겠습니다 데이터를 생성하는 샘플 도트 분할 대신에 거의 동일합니다 분할 및 분할 열 종 및 분할 비율은 65이므로이 목록은 일반적으로 샘플링되거나 분할되면 false와 같습니다 벡터이지만 이것은 실제로 벡터 대신리스트를 제공하므로리스트라고합니다 false와 같으며 분할 태그에 저장하고 다시 거의 동일합니다

이제 샘플 도트 분할의 사실은 우리에게 참 또는 거짓 값을 주었지만 데이터 파티션 생성은 레코드 번호를 제공하므로 이것을 인쇄하겠습니다 여기에 태그를 분할하면 여기에 레코드 번호가 표시됩니다 여기에있는 분할 태그에서 학습하고 테스트해야합니다 기본적으로 이것을 데이터 세트 내부의 매개 변수로 전달하므로 우리가하는 일 이 홍채 데이터 세트 에서이 행 번호를 모두 선택합니다 이 행 번호는 홍채 데이터 세트의 65 %로 구성됩니다

split 태그가 65를 포함하도록 Train Set에 저장하십시오 행 번호의 %는 65 %와 다릅니다 빼기 기호를 넣었으므로 기본적으로 모든 레코드입니다-65 % 분할 압정에 존재하는 행 번호 중 기본적으로 60은 기본적으로 35 %이므로 35 %의 레코드가 테스트 세트에 들어갑니다 이것이 배수구와 테스트 세트를 만드는 방법입니다 이것을 반복하여 기본적으로 샘플링 또는 분할과 유사합니다

데이터 세트를 올바르게 분할하는 다른 방법으로 이번에는 참조 트리가 있습니다 PA RT y 패키지의 일부로 모델을 빌드 할 함수 기차 세트 위에 우리는 어떤 종류의 종을 이해하고 싶습니다 꽃은이 4 개의 란에 대하여입니다 길이와 꽃잎 너비가 여기에 점을 넣은 이유는 결과와 내 나무를 저장하면 이제 여기에 이것을 그려 보도록하겠습니다 이것이 3과 C 3의 차이입니다 이번에는 처음입니다 분할 기준은 꽃잎 길이 열을 기준으로하므로 꽃잎이 길이가 1

7보다 작거나 같으면 꽃을 세토 사로 분류하여 이것을 보면 거의 1에 가까운 확률이 있습니다 확률이 1에 가까우므로 꽃잎 길이가 17보다 작거나 같은 경우 반면에 꽃잎 길이가 길면 세토 사로 분류합니다 17보다 크면 다음 분할 기준은 꽃잎 너비이며 꽃잎 인 경우 너비가 0001보다 작으므로 꽃잎 너비 인 경우 1

7보다 작거나 같습니다 다시 꽃잎 길이를 확인하겠습니다 이번에는 꽃잎 길이가 짧으면 48보다 크거나 같으면 꽃잎이 낫다면 낫 오류 일 것입니다 길이가 48보다 큽니다 60 %의 확률로 호주 색상이고 40 %의 확률 반면에 꽃잎 길이가 다른 경우 버지니아 일 확률 이 경우 17보다 크고 꽃잎 너비가 1

7보다 큽니다 그리고 버지니 카입니다 여기에서 우리는 멀티 V를하고 있습니다 분류하고 우리는 여기서 하나와 세 가지를 혼동하려고합니다 하나의 상자 1과 상자 아래에 동일한 4 개의 값을 분할합니다

세 쓰기 스크립트는 0보다 작은 점을 가지고 있습니다 1 포인트 7 이상에서 1 포인트 미만으로 분할되는 것을 알고 있습니다 7 번은 상자 3에서도 같은 일이 일어나고 있습니다 이 p- 값에 대해 여기이 값을 가져 와서 꽃잎 길이는 이것이 꽃잎 길이의 값입니다 이것은 꽃잎의 값입니다

제가 오른쪽에있는 다른 질문을하겠습니다 당신은 오른쪽으로 이동합니다 오른쪽을 향해 나갑니다 그래, 그럼 우리는 어떻게 상자를 쫓을 수 있을까 3 분할 다시 맞아 맞아이 P 값을 잊어 버리면 혼란 스러우므로이 P 값을 잊어 버리십시오 먼저 꽃잎 길이를 기준으로 분할하므로 꽃잎 길이가 1 점 7 이하인 경우 거의 100 % 반면에 꽃잎 길이가 1 포인트 7보다 큰 경우 우리는 setosa 꽃잎 너비를 확인하겠습니다 꽃잎 길이가 아니므로 꽃잎 너비입니다

이번에 꽃잎 너비가 1 포인트 7보다 작 으면 꽃잎을 확인하겠습니다 꽃잎 길이가 4 포인트 8보다 작거나 같으면 우리는 거의 100이 될 수 있습니다 손이 48보다 크면 약 60 %의 확률로 C 컬러였으며 처녀성 일 가능성이 약 40 %입니다 반면에 꽃잎 길이가 17보다 크고 꽃잎 너비가 17보다 크면 다시이 꽃을 거의 100 % 확신 할 수 있습니다 또는 Jenica에 속해 있으므로 다중 클래스 분류로 여기에서 수행 한 작업 우리가 꽃이 세토 사에 속하는지 이해하려고 노력하는 곳 Wasi 색상 또는 virginica와이 모델의 도움으로 만든이 모델 여기에 C 트리 기능이 있으므로 부유 한 모델을 갖게되었습니다

이번에는 값을 예측하므로 다시 예측 기능을 사용하지만 이제 이전의 경우 우리는 type이 class와 같다고 말 했으므로 이번에는 c3입니다 유형 값의 예측 값을 함수 응답 속도가 이 함수들 사이의 누드 차이와 같은 것입니다 트리 함수를 사용했고 값을 정확히 예측했습니다 트리 함수를 사용할 때 클래스로 설정 한 예측 유형과 C를 사용할 때 트리 함수를 통해 여기에있는 유형의 값을 예측합니다 응답하지만 다시 매개 변수는 거의 동일합니다 다음에 구축 한 모델은 구축 할 테스트 세트입니다

다음 모델은 예측 유형이므로 여기에서 예측 유형은 명명법이 바뀌 었다고 말하는 클래스와 거의 동일한 응답 C 트리 기능에 관해서는 여기에 내 빵에 저장합니다 값도 예측 했으니 이제 혼란을 만들어 봅시다 행렬이므로 실제 값이 정확하게 설정되어있는 값입니다 세토 사로 분류되었으므로 두 경우입니다 실제로 그것은 세 두사 였지만 그는 색으로 분류되어 있습니다 실제 색상은 장미 빛이며 4c로 올바르게 분류되었습니다 색상 이것은 실제 색상과 같으며 잘못되었습니다 Jenica로 분류 된이 경우는 virginica로 실제였으며 4c 색상으로 잘못 분류 된 경우 virginica 그리고 Jenica에 대해서도 올바르게 분류되었습니다

왼쪽 대각선은 올바르게 분류 된 값이며 따라서 2 1 & 2로 쉬십시오 잘못 분류 된 값이므로 계속해서 정확도를 찾으면 이번에는 15 더하기 16 더하기 15가됩니다 15 더하기 16 더하기 15 더하기 2 더하기 1 더하기 2 더하기 우리가 줄거리에서 본 것이 매우 좋은 90 %의 정확도는 꽃잎 너비와 꽃잎 길이만으로 분할이 결정되었으므로 꽃잎 길이 꽃잎의 폭이 넓기 때문에 분할을 결정하는 유일한 열입니다 이들은 꽃이 속하는지 여부를 결정하는 유일한 열입니다 setosa 4c 색상 또는 virginica 그래서 우리는 무엇을 할 것인가 꽃잎 너비와 꽃잎 길이 만 독립 변수는 다른 변수를 포함하는 요점이 무엇입니까 그들이 당신이 분할 기준의 힘조차 알지 못한다면 앞서 다른 모델을 다시 빌드하십시오 이번에는 공식을 C 3 종속 변수 종과 독립 변수는 꽃잎 너비 꽃잎 길이 만이 둘이므로 우리는 sepal length와 sepal width를 갖지 않습니다 이번에는 기차 세트 위에이 모델을 구축하고 있습니다 이제 계속하겠습니다

먼저 이것을 삭제하겠습니다 이제 이것의 플롯을 만들겠습니다 그렇기 때문에 이것은 꽤 지글 지글합니다 예 그렇습니다 의사 결정 트리에서 두 가지만 얻는다는 것을 알아야합니다

사용하고 다른 열을 사용하지 않았 으므로이 방법이 무엇입니까? 모델에 있어야 할 차원의 수를 줄입니다 변수가 10 개 있고 단서가 생기면 사용해야 할 것 이 특정 모델에서 다른 것을 요구하지 않는다고 말하면서 변수를 모델링에 사용할 필요가 없습니다 올바른 방법입니다-예 supernat 의사 결정 트리에 온다 당신이 할 수있는 일이지만 다시이 시행 착오입니다 그래서 그래도 다시 볼 필요가 있습니다 모델과 관련하여 작동하는 것은 여기에서 우리는 sepal width라는 단서를 얻었습니다

sepal length는 split 프로세스의 일부가 아니기 때문에 이것을 사용하지 않고 모델을 빌드하십시오-기본적으로 가져옵니다 리던던시 (redundancy)는 리던던시 (redundancy)를 원하지 않으므로 모델로 이동해 봅시다 그리고 출력이 무엇인지 확인하십시오 Cruz는 기본적으로 데이터를 제한하거나 우리가 이것을 실제로 사용할 수 있도록 독립 변수의 수 예 예, 그래 맞습니다 두 번째와 우리는 여기에 비슷한 음모가 있음을 알 수 있습니다 실제로 비슷하지는 않지만 거의 같은 속도이므로 꽃잎 길이가 짧습니다

17보다 우리는 다시 setosa를 얻습니다 17보다 크면 버지니 카가됩니다 우리가 다시 예측할 수 있도록 여기에 같은 결과를 얻습니다 방금 구축 한 모델의 값을 사용하여 예측 함수는 작성한 모델이 첫 번째 매개 변수가됩니다

나무-그리고 우리는 테스트 세트와 응답으로 입력하면 빵에 저장하겠습니다 이제 다시 진행하겠습니다 먼저 내 혼란스런 매트릭스를 다음 테스트 세트는 예측 값입니다 이 빵 개체보다 더 많이 저장하고 Enter 키를 누르면 다시 볼 수 있습니다 여기서 비슷한 결과를 다시 얻습니다

정확도 15 + 15를 확인하겠습니다 더하기 16을 15 더하기 15 더하기 15 더하기 16 더하기 2 더하기 1 더하기 2 더하기 이 음모를 통해 동일한 정확도로 분리 길이를 알 수 있습니다 sepal width는 모델에 정보를 제공하지 않았을 때 우리는 그 두 열을 제거하고 모델을 다시 부드럽게 만듭니다 모델을 다시 빌드하면 다음과 같은 정확도를 얻을 수 있습니다 모든 독립 변수를 포함하여 이것이 당신이하는 방식입니다

기본적으로 시행 착오에 이것은 당신이 가장 잘 맞는 것을 찾으려고 노력하는 방법입니다 모델은 나무로 완성되었으므로 이제 C 나무로 완성되었습니다 우리의 최종 결정 트리 기능을 위해 이 Arpad 패키지를 설치하기 전에 그래, 우리가 분류를 할 때 우리가 아닌 것을 정상적으로 알고 있는지 우리는 내가 말한 것처럼 마지막 세션에서 의미 우리가 할 때 동의하는 상황에서 분류가 필요합니다 문제는 특정 왼쪽에만 의존하는 것이 아니라 화살표 위의 곡선 아래이 영역은 예에 해당합니다 다시 실행하려면 필요한 국가 하나를 수행해야합니다 분류 문제 당신은이 모든 것을 처리해야 할 것입니다 분류 문제가 무엇이든간에 요인 분류 특이성 사이에 올바른 균형이 필요합니다

민감한 당신은 민감성을 알고 있습니다 이러한 모든 요소가 이제 우리가 ROC 어떤 특정 포인트 5 포인트 7 우리는 그 값을 사용해야합니다 독자를 두는 것과 같은 결론은 다시 반복 할 수 있습니다 포인트 7 포인트 7 주장 ROC 값이 임계 값이라고 가정 이 점과 같은 결론 매트릭스에서 사용해야하는 05 점 또는 이와 같습니다 표는 인쇄 기준보다 크거나 Zenga보다 크지 않으므로 우리는 그것을 좋아했습니다 GLM을 사용할 때 당신이 이것을 사용할 때 반면에 당신에게 확률을주는 기능 트리 함수와 트리 함수를 참조하십시오

우리가 직접 수업을 주겠다고 예측했을 때 이 함수 자체는 임계 값을 받아 해당 임계 값의 기초로 데이터를 클래스로 나누거나 두 클래스의 데이터를 예측하므로 여기서는 설정할 필요가 없습니다 수동으로 직접 임계 값을 설정하므로 GLM에서 물류를 수행해야했습니다 회귀 함수는 우리에게 예측할 확률을주었습니다 유형은 소품과 같습니다 강 중 하나에 대한 우리의 아이디어를 다시 사용하는 방법을 다시 보여줄 수 있습니까? 이 권한에 ROC를 사용하는 지점이므로 이에 대한 임계 값이 필요하지 않습니다 내가 좋아하는 것은이 두 가지의 예상 결과를 보여줄 것입니다

그래서 우리는 괜찮아이 모델을 다시 약을 먹일 것이다 이것을 복사해서 여기에 붙여 드리겠습니다 잠깐만 기다려라 그러면이 전체를 다시로드해야합니다 이 값들을 인쇄해서 트리 도트를 읽도록하겠습니다 값은 실제로 당신이 예 / 아니오를 얻는 최종 결과입니다 여기에는 확률이 없으므로 0과 같은 확률을 얻지 못합니다 이것이 그렇다는 80 % 확률이 있거나 나머지 20 % 확률이 이것은 아니므 로이 기능 자체는 적절한 평균을 취하거나 임계 값과 최종 분류 결과를 제공하므로 이 최종 분류 결과를 가져 와서 원본과 비교하십시오

결과와 모듈 자체가 얼마나 정확한지 알아보십시오 이 트리 C 트리와 Arpad 함수까지 최적의 임계 값을 제공합니다 자체적으로 최적의 임계 값을 제공하므로 해당 임계 값을 수동으로 설정하십시오 당신은 우리가 당신 사이의 절충을 원한다는 것을 이해해야 각 하위 ROC는 다시 정확한 정확도에 대한 임계 값을 제공합니다 이 임계 값에서 잘라 내면 최대 정확도이지만 다시이 기능 자체가 수행하므로 수동으로해야하는데 임계 값을 수동으로 설정하지 않아도됩니다 임계 값을 수동으로 설정하지 않으면 이 모든 것을 알고있는 AUC 기능을 사용하십시오 참을성없이 옳지 않다

그리고 두 번째 것은 두 번째 질문이다 멀티 클래스이기 때문에 같은 방식으로 사용할 수 있습니다 파티 패키지를 사용할 때의 분류는 리 팩키지 azamati 클래스 예, 당신은이 세 가지 모두로 그렇게 할 수 있습니다 할 수있는 기능이지만 시작하기 위해 LM 모델을 사용할 수 있습니다 아니, 그건 불가능 해 난 그렇게 생각한다 로지스틱 회귀가있는 다중 클래스 분류이므로 확인해야합니다 우리가 다른 GA를 다른 함수로 사용한 것처럼 G가 네가 직접 사용할 수있는 것이므로 세는 부분이며 C 3은 할 수 있습니다

멀티 클래스 분류에 직접 사용하므로 다시 LM 당신이 이것을 이해하기 위해 필요한 것은 이항 모델이며 이 확산 트리 모델은 둘 다에 사용됩니다 그들이 회귀와 분류에 사용되는 목적은 예, 우리는 나무로 끝났습니다 우리는 C 나무로 끝났습니다 우리와 함께 우리의 부분은 회귀를 할 것이므로 이번에는 Boston 데이터 세트를 가지고 있으므로 대량 패키지를 먼저로드해야합니다 화성의 도서관을 열면 Boston 데이터 셋을로드해야합니다

보스톤의 데이터입니다 여기이 데이터 세트가 표시됩니다 이 열이 의미하는 바는이 보스턴 데이터 프레임이 6 개로 정리 된 것입니다 행과 열 14 개와 모두 다릅니다 CR이있는 콜린스는 기본적으로 1 인당 범죄를 나타냅니다 마을 Zeldin에 의해 속도는 음모에 대한 곧 주거 용지의 비율입니다 25,000 평방 피트이며 이것은 비 소매 비즈니스 에코의 비율입니다 이 목록을 통해 갈 수있는 다른 열입니다 초점은이 ma DV 열에있을 것이므로이 ME DV는 천 달러의 소유자가 점유 한 주택으로 기본적으로 우리는 예측하려고합니다

이 집의 가치는이 집의 가치는 $ 24,000입니다 $ 21,000이고 $ 24,000과 같으므로 다른 열을 기준으로 이 중앙값을 예측하는 데 도움이되는 회귀 모델을 작성 Arpad 기능을 사용하여 첫 번째 작업을 다시 수행하겠습니다 Arpad 패키지를 다시로드해야합니다이 데이터 생성 파티션을 사용하고 있습니다 당근 패키지의 일부인 함수이므로 이번에는 분할 열이 이 MATV와 비율은 0

65이므로 65 %는 훈련에, 35 %는 먼지가 적을수록 시퀀스가 ​​떨어 지므로 다시 태그를 나누십시오 이 보스턴 데이터에서 우리가 할 일은 분할 태그 나는 그것들을 훈련 세트와 분할 태그에는 35 %의 나머지 값을 저장하지 않습니다 테스트 세트를 준비하여 교육 및 테스트 세트를 준비했습니다 이번에는 훈련 세트 위에 모델을 만들 것입니다 우리가 사용하는 기능은 우리의 부분이며 다시 동일하므로 공식에서 데이터를 얻었으므로 공식 sme DV 물결표가 나와 TV 종속 변수와 다른 모든 열은 독립적이므로 MeV는 종속적이고 모든 열은 독립 변수이며 우리는 Spree를 플롯하기 위해 지금 설정된 기차 위에이 모델을 빌드하십시오

Part dot plot 패키지에 필요할 것입니다 패키지를 만든 다음 방금 트리를 시각화해야합니다 불완전한 도트 플롯을 만들었고 내 나무 인이 오브젝트를 전달할 것입니다 좋습니다 이것은 이것에서 얻을 수있는 일종의 시각화입니다

여기에서 첫 번째 분할 기준은 L 시작을 기준으로합니다 L 시작이 9 포인트 7 이상이면 왼쪽으로갑니다 ll의 다른쪽에 9 포인트 7 미만으로 시작하면 우리는 계속 오른쪽으로 이동해서 먼저 다른 오른쪽으로 이동하겠습니다 우리가 오른쪽으로 가면 9 포인트 7 미만이라고 가정 해 봅시다 RMS가 7 포인트 5 미만이므로 7 포인트 5에 다시 남아 있으면 왼쪽 7 점 5보다 크면 오른쪽으로옵니다 스플릿이 발생하는 방식이며이 값이 어제 집값의 평균값은 어제 플레이어의 월급을 예측하려고 할 때의 첫 번째 예 의사 결정 트리를 사용할 때 플레이어의 평균 급여를 알려주십시오

연속 값을 예측하는 모델은 평균 값을 제공하므로 분할은 이런 식으로 진행되며 평균 가격은 9입니다 천 달러와 같은 평균 가격이 그 집은 만오 천이고이 과정을 따른다면 평균은 집의 가격은 마흔 오천 달러이므로 이것이 당신의 것입니다 여기 스플릿이 작동하는 방식입니다 이제 모델을 만들었습니다 이번에는 예측을 사용할 것입니다 우리는 세 번째 매개 변수를주지 않을 것이므로 이번에는 연속 값이므로 유형을 설정할 필요가 없으므로 자동으로 연속적인 값이므로 먼저 빌드 할 때 모델 이름을 지정합니다 Maya 트리이고 예측하려는 데이터 세트가 제공됩니다

값을 테스트 세트의 상단에서 예측하려고합니다 결과 예측 트리는 이제 실제 값과 예측 된 값을 찾습니다 C 포도 함수를 사용하여 실제 값이 테스트 세트에 있고 예측 된 값은이 개체에 있으며이 둘과 최종 데이터에 저장합니다 이것은 실제로 행렬이므로 이것을 최종 데이터의 저장 데이터 프레임으로 먼저 DITA 프레임으로 변환 최종 데이터로 다시 저장하므로 최종 데이터를 볼 수 있습니다 가치와 이것들은 우리가 지금 가지고있는 예측 된 가치입니다 계속해서 예측 오류를 찾아서 오류를 예측은 다시 실제 값에서 예측 된 값을 뺍니다

그리고 우리는 예측에서 오류를 얻습니다 그렇게 해봅시다 그것은 매우 간단합니다 당신이해야 할 모든 최종 리더 달러 실제-최종 날짜 예측하고 오류를 저장하고 다시 오류를 바인딩합니다 최종 데이터는 이제 최종 데이터에 대한이 관점을 한눈에 볼 수있게합니다

값은 예측 된 값이며 이것은 예측의 오류이므로 다시 원한다면 우리가해야 할 평균 오차를 찾으려면 약간의 두께가 있습니다 제곱 평균 제곱 오류입니다 계속해서 제곱 평균 제곱 오류를 알아 봅시다 먼저이 오류를 처리하고이 값을 제곱 한 다음 그리고 제곱근을 취하겠습니다 첫 번째 모델의 경우 3 점 9 3의 근 평균 제곱 오류가 발생합니다 이제 이것을 mac1ana에 저장하겠습니다

이 이미지를 가져 오겠습니다 L start NO x CR I am 및 RM 만 사용되었습니다 우리가 가지고있는 독립 변수는 분할에 사용 된 열은 이 독립 변수 만 사용하므로 모든 변수를 사용하지는 않습니다 독립 변수이므로 ML 시작을 여기서 다시 시작하겠습니다 X도 알고 있으므로 P도 끝났습니다 두 번째 모델도 마찬가지입니다

우리는하지만 에밀리와 같은 공식은 종속 변수이고 이번에는 독립 변수가 ML 별 CRI가되고 X와 D는 기차 세트 위에이 모델을 구축하여 모델을 구축합니다 다시이 오른쪽을 한 번 보도록하겠습니다 동일한 결과를 얻었으므로 변경 사항을 눈치 채지 못했습니다 오른쪽을 삭제하겠습니다 다시 Enter 키를 누르면 우리가 가진이 하나, 둘, 넷, 다섯 개의 독립 변수를 포함 시켰습니다 여기에 동일한 분할이 있으므로 기본적으로 다른 열은 분할 목적으로 사용되었습니다 이제 모델을 만들었습니다

계속해서 값을 예측하고 이 모델의 RMS C를 계산해 봅시다 신용 기능을 사용하여 모델을 첫 번째 모델로 사용합니다 매개 변수를 저장 한 다음 사막에서 값을 나누고 저장합니다 다시 나무를 예측하고 실제 값과 테스트 값을 찾아서 저장하고 최종 데이터를 데이터 프레임으로 변환하고 예측 오류 이제이 오류를 최종 데이터에 다시 바인딩해야합니다 다시 C bind 함수를 사용하여 최종 데이터를 나는 이것에 오류를 묶고 있습니다이 시점을 한눈에 볼 수있게하십시오

파이 데이터를 독립적으로 사용했을 때의 최종 데이터 변수는 실제 값이며 예측 된 값입니다 이제 오류 도입이 다시 진행되고 근본 평균을 찾도록하겠습니다 제곱 오차이므로 근 평균 제곱 오차는 3 점 9 3입니다 MSE에 올바른 것을 넣었으므로 첫 번째 모델과 두 번째 모델은 제곱 평균 제곱 오차가 동일하므로 이 다섯 독립 후 다른 변수를 포함 할 필요가 전혀 없습니다 변수는 모델에 아무것도 추가하지 않기 때문에 변수이므로 이상적인 독립 변수를 선택할 수있는 방법은 다음과 같습니다

의사 결정 트리의 도움으로 회귀 분석 우리가 좋을 때 나는 아직도 알고있는 기능들 우리는 우리가 싸움을 잘라 내가 세션 후 내가 당신과 함께 이것을 공유합니다 이것을 운영 팀과 공유하면 그들은 우리 파일을 너희들과 함께 줄 것입니다 그래 정말 고마워 그리고 난 아들 것입니다 그래, 내 성은 내가 상반기를 기록하지 않았다는 말을 들었다 어제의 세션의 그래서 기본적으로 내 잘못이었다 그래서 나는 이전 부분을 다시 기록해야한다고 믿습니다 제가 할 것은 2d 세션 후에 이론 부분을 기록 할 것입니다 다시 내일 밤까지 어제 이론에 의해 업로드됩니다 세션은 계속 진행되므로 아무도 모르는 다른 의심도 있습니다

우리의 냉각 속도와 우리는 또한 여기 그래도 당신은 가지 치기를 할 수 있습니다 참조하십시오 같은 쿨링 방식이 아니므로 정직한 꿈의 통제가 있습니다 컷에 대한 스프링 제어 파라미터를 사용하여 나무는 C 3이 무엇인지 읽었으므로 C 3에는 열차 제어 매개 변수가 있습니다 그 열차 제어 매개 변수 안에 당신은 당신이 이상적인 설정 알고 사랑 분할 할 때 노드 수 또는 이상적인 임계 값 분할하고 그것이 당신이하는 방법입니다 우리는 모든 가지 치기 기술이 될 것입니다 동일한 결과를 가지므로 후 가지 치기에서 한 가지 유형의 비용 복잡성이 있습니다 우리가 이전에 본 것은 비용 복잡성 정리 (plancity pruning)였습니다

그 뒤에 루트 노드로서 가장 높은 미스가 있습니다 오 분류 율을 계속 낮추는 분류 율 또는 대체 오류가 감소하므로 다음과 같은 오류를 찾아야합니다 특히 당신은 그 특정 수준의 분할을 알고 우리가 초안에서 본 것처럼 오 분류 율은 최소이며 16 개의 메모를 읽음으로써 분류 오류가 가장 적었지만 우리가 다시 쪼개기 시작했을 때 열 여섯은 실제로 학위가 아니었지만 오 분류 율이 증가했기 때문에 비용 복잡성 정리 귀하의 아이디어는 오 분류 율의 최소값을 갖도록하는 것입니다 오 분류 율의 최소값이있는 최소값 그것은 이상적인 수의 터미널 노드가 될 것입니다 기본적으로 불순물 기능의 Gini 인덱스 또는 정보 획득 이 세 패키지는 Gini 인덱스의 imperator를 사용합니다

이제는 다시 확실하지 않아서 그렇게 읽어야합니다 기본적으로 이러한 의사 결정 트리 기능은 그들은 Jini를 사용하므로 임의의 숲을 위해 우리는이 CD GT와 함께 작업 할 것입니다 이게 기본적으로 내가 당신에게서 가져간 의료 데이터 세트입니다 기계 학습 저장소라고 말하면이 데이터 세트를 보내 드리겠습니다 세션 후 얘들 아 그래서 당신은이 비디오를 통해 나를 따라 와야 그래서 기본적으로이 모든 열로 구성되어 있으므로 기본적으로 데이터입니다 환자의 태아 심박수를 측정하는 세트와는 다릅니다

매개 변수이며 이는 기본적으로 최종 카테고리 열입니다 예측하기 위해이 NSP는 기본적으로 정상을 나타냅니다 태아의 심박수가 정상이거나 병리학 적이거나 병리학 적 비율로 의심되므로 다시 당신의 멀티 클래스 분류와 우리의 도움으로 그것을 할 것입니다 임의의 숲과 의사 결정 트리 우리는 하나의 트리를 가지고 있습니다 우리가 가진 데이터 세트는 이제 앙상블 학습이라고 불리는 것입니다 이것에 대한 완벽한 예는 영화를보고 싶다고 말하고 한 친구가 모든 행동을 미워하도록 친구의 조언을 받음 영화를 보니까 어벤져 스와 그 친구를보고 싶어 모든 액션 영화를 싫어하고 그는 매우 오 그는에 대한 매우 편견을 가지고 액션 영화와 그가 복수자를 보지 못했지만 그는 당신에게 말할 것입니다 그것은 당신이 기본적으로 우리를 배우고 앙상블에서 일어나는 지금 나쁜 영화입니다 여러 사람에 대한 의견이므로 그냥 대신 앙상블 학습 하나의 의사 결정 트리를 작성하면 여러 의사 결정 트리가 있거나 다른 의사 결정 트리가 있습니다 당신은 열 사람의 의견을 가지고 그 열 사람 중 여덟 사람의 의견을 다른 두 사람이 가지고있는 좋은 영화이기 때문에 어벤저를 보라고 할 것입니다

자신의 편견을 가지고 있기 때문에 그들이 나쁜 영화라고 말하는 이유입니다 전체적으로 당신은 복수자가 기본적으로 훌륭하다는 집단적 견해를 얻을 것입니다 앙상블 학습은 여러 의사 결정 트리에서 결과를 얻으므로 첫 번째 확장은 의사 결정 트리가 포장하고 우리가 가지고있는 포장에서 나옵니다 우리에게 임의의 숲이 있습니다 초기 데이터 세트이므로이 초기 데이터 세트에서 여러 데이터 세트를 만듭니다 교체로 샘플링하여 생성 한 데이터 세트를 n 개의 레코드가있는이 데이터 세트는 내가하는 일을합니다

동일한 수의 레코드를 가지며 다른 레코드가있는 다른 데이터 세트 l1 L에서 가져 왔지만 비슷한 방식으로 교체하여 샘플링하여 수행됩니다 L에서 가져온 n 개의 레코드가있는 l2를 생성하지만이 레코드는 샘플링 중입니다 대체와 마찬가지로 다른 데이터 세트를 생성합니다 L에서 가져온 n 개의 레코드가 있고 다시 샘플링하는 l3입니다 X와 같은 데이터 세트를 생성하고 하나의 결정을 내릴 것입니다 하나의 결과를 얻는 대신 각 데이터 세트의 맨 위에 트리 여러 의사 결정 트리에서 여러 결과를보고 집계를 수행합니다

모든 결정 트리의 결과이므로 당신이 나를 따라갈 수 있니? 우리는 임의의 배깅이 임의의 숲이라는 것을 알고 있습니다 임의 포리스트이 부분은 동일하므로 먼저 여러 데이터 세트를 생성하지만 임의의 숲이 우리에게 분할 기준을 포기하는 것과 다른 부분은 이 분할 기준에 대해 여기에있는 노드는 독립 변수 독립 변수의 하위 섹션 만 가져옵니다 그리고 그것은 임의의 하위 섹션이 될 것입니다 내가 사용할 10 개의 독립 변수에서 내 데이터 세트의 변수 이 분할과 유사하게 분할에 대한 3 개의 임의의 독립 변수 다시 나는 세 개의 무작위를 다시 사용할 것입니다 임의의 변수를 사용할 수 있으므로 10 개의 임의 변수를 모두 사용할 수 없습니다 split에만 em 임의의 변수를 사용할 수 있으며 일반적으로 이 M 값은 P의 근본이고이 P는 독립 변수의 총 수이므로 10 개의 독립 변수가 있다고 가정 해 봅시다 변수 M은 10의 근 아래에 있으며 약 3 ~ 4입니다 이 임의의 네 개의 임의의 숲은 임의의 숲에서 임의의 단어입니다

기본적으로 여기이 부분에서 나옵니다 임의의 독립 변수에 종속되어 있으므로 노드는 앙상블 학습은 임의의 숲으로 알려져 있으므로 이것이 유일한 부분입니다 자루에 넣기와는 다르며 다시 이러한 결정 트리가 있으며 이러한 모든 의사 결정 트리에서 결과를 얻은 다음 의사 결정 트리와 이것이 우리의 최종 결과가 될 것이므로 이것이 기본 아이디어입니다 임의의 숲 뒤에서 당신을 도와줍니다 좋아, 그래 이제 우리가 어떤 랜덤 숲으로 가자 임의의 숲과 함께 그래서의 구조를 보면서 시작하겠습니다 이 데이터를 사용하여 STR 함수를 사용합니다

이 열은 모두 지금이 내 의존 열은 n SP입니다 정수 유형이지만 분류를 수행하고 있으므로 경고했습니다 이것은 범주 형 변수이므로 첫 번째 단계는 이것을 변환하는 것입니다 정수형 변수를 범주 형 변수로 바꾸고 AZ 도트 팩터 함수를 점으로 변환합니다 데이터 달러 NSP의 사실과 나는 이것을 저장합니다 데이터 달러로 돌아 가기 NSP는 이제 두 번째의 구조를 살펴 보겠습니다 데이터 구조와이 정수 유형이 다시 한 번이 NSP의 레벨을 한 눈에 살펴 보겠습니다

이 것은 환자가 정상임을 나타내며 환자가 태아 심장 질환이있는 것으로 의심되고 3 개는 환자는 병리학적인 심장병을 앓고있어 1600 명이 쉰 다섯 정상 환자 이백 아흔 다섯 환자 태아 심장 질환이 의심되는 176 명의 환자가 실제로 병리학적인 심장병을 가지고 있습니다 이제 다시하겠습니다 앞서이 데이터 세트를 훈련 테스트 세트로 나누고 열차의 상단이 설정되었으므로 이제 다시 시드 값을 1로 설정합니다 세 가지 결과가 나올 때마다 반복 할 수 있습니다 나중에 다시 똑같이 닷 시드 103을 말했고 계속 사용하겠습니다 분할 열을 NSP로 설정하여 분할 확률을 0

65로 설정 기록 할 기록의 65 % 훈련 지금 시험 할 기록 35 % 기록 분할 태그의이 값이있는 곳이면 어디든 가져 와서 이 65 % 값을 저장하고이 분할 태그를 제외하고 세트를 학습 35 % 레코드의 나머지는 내가 가져 와서 여기서 테스트 세트를 준비했습니다 이제 훈련 및 테스트 세트를 준비했습니다 앞서 훈련 세트 위에 임의의 숲 모델을 구축하여 임의의 포리스트 패키지를 올바르게로드해야하므로 이것을로드했습니다 패키지 다시 시드 값을 먼저 설정합니다 시드 값 스트립 이제 열차 데이터 위에이 랜덤 포레스트 모델을 빌드하고 다시 공식의 말뚝은 훈련 인 데이터를받습니다 기본적으로 여기 공식은 n SP 델 도트 도트입니다 이것은 n SP가 종속 변수이므로 우리의 종속 변수입니다 변수 및이 점은 다른 모든 열이 독립 변수임을 나타냅니다

훈련 세트 위에이 모델을 구축하고 있습니다 여기에 RF를 인쇄하십시오 이것이 기본적으로 우리가 만든 모델입니다 랜덤 포레스트 알고리즘은 트리의 수를 500으로하는데이 M 값은 우리가 본 M 값은 변수의 개수입니다 이것은 4입니다

기본적으로 나무 수는 500으로, 그 M은 값은 4로 간주되며 이것은 혼란 매트릭스입니다 트리 외부 또는 오류 추정으로 알려진 것이 있으므로 우리가 언제 나아 갔는지 알고 나무를 만들면 데이터 세트에 대해 알 수 없습니다 우리가 이것을 만들 때 모든 행 이이 데이터 세트에 들어와야합니다 데이터 세트 모든 행이이 데이터 세트로 들어 와서는 안됩니다 입력하지 않은 레코드로 우리가하는 일 우리는 기본적으로이 알고리즘을 사용할 것입니다

기본적으로 들어오지 않은 레코드에서이 임의의 포리스트 모델을 빌드합니다 이 X 데이터 세트는 해당 레코드의 정확도를 계산합니다 이 X 데이터 세트의 일부가 아니므로 오류 추정치는 5입니다 일곱 여덟 퍼센트 또는 다른 말로 정확도는 약 94 % 정도 였으므로이 기록의 경우 혼동 행렬로 천만 60 세의 모든 환자들이 정상으로 올바르게 분류 됨 14 잘못 분류 됨 용의자와 두 사람은 모두 병리학 적으로 잘못 분류되었습니다 미안한 50 명의 환자를 제외한 기록 실제로 심장의 절반 인 것으로 의심되는 50 명의 환자 질병이 정상으로 잘못 분류되었습니다 심장병이 의심되는 139 명의 환자가 올바르게 용의자로 분류되었으며 그 중 두 개는 다음과 같이 잘못 분류되었습니다 병리학 적으로 질병은 병리학 적 질병이있는 것으로 올바르게 분류되었습니다 5와 6은 MIS 분류이며 분류 오류입니다 이 세 클래스와 관련하여 이것은 임의의 포리스트 모델입니다

방금 구축했습니다 계속해서 값을 예측하겠습니다 다시 사용하겠습니다 예측 함수의 첫 번째 매개 변수는 다음을 빌드하는 모델입니다 매개 변수는 테스트이므로 여기에는 세 번째 매개 변수가 없습니다

기본적으로 클래스 레이블을 제공하고 이것을 P one에 저장하고 다시 계속해서이 테이블의 도움으로 혼란 매트릭스를 만들 것입니다 이것이 바로 실제 값이고 예측 된 값입니다 여기에있는 값은 정확도를 계산할 수 있도록 앞의 예에서이 왼쪽 대각선은 모든 것을 정확하게 나타냅니다 실제로 질병을 앓 았던 567 명이 분류 된 값으로 질병이있는 것으로 의심되는 질병 81을 갖는 것으로 분류 실제로 병리학적인 사람이있는 것으로 의심되는 51 명으로 올바르게 분류 됨 질병은 병리학 적 질병을 가지고 올바르게 분류되어 이에 대한 정확도는 567 플러스 81 플러스 51을 567 플러스 81 플러스 51로 나눈 값입니다 더하기 8 더하기 4 더하기 2 더하기 5 더하기 5 맞습니다 그것은 20도 그렇습니다 그래서 5 6 1 80 1 쉰 1 8 4 2 스물 다섯 다섯, 그래서 책상은 94 %의 정확도를 사용합니다 이것과 ACC 하나를 해봅시다

이제 우리가 할 것은 M의 최적 개수이므로 M은 기본적으로 사용 가능한 변수의 개수입니다 그 최적의 M 값을 얻기 위해 우리는이 조정 또는 기능 I 시드 값을 다시 설정하고이 튜닝 또는 기능을 사용하여 모든 매개 변수는 이것이므로 먼저 n의 집합을 취합니다 독립 변수 다음에이 마이너스 22 음이므로 기본적으로 모든 마지막 행을 제외한 행이 마지막 열이므로이 22가 마지막입니다 열이므로 마지막 열을 제외한 모든 열을 가져옵니다 첫 번째 예 예 예 예 그래서 우리에게 정확도 왼쪽 대각선 너무 대각선으로 정확히 우리의 실제 Pheebs 대각선 왼쪽 대각선을 모든 값으로 나눈 값은 정확도를 제공합니다 왼쪽 대각선은 정확하게 모든 값으로 구성되어 있기 때문에 오른쪽으로 분류하여 첫 번째 매개 변수로 넘어갑니다

독립적 인 변수의 혼란으로 다음 매개 변수는 종속 변수를 설정 한 다음 깊이 계수를 제공하여 단계 계수가 기본적으로 각 반복에서 M 값이 H를 얼마나 증가 또는 감소시켜야하는지에 따라 그래서 나는 이것을 05라고 말했고 이것이 튜닝 할 때 플롯을 만들어야합니다 3으로 설정합니다 사실이라고 말한 다음이 항목이 있습니다 최적의 M 값 나는 나무의 수가 300 개일 때 원한다

그래서 나는 이 임의의 숲에서 나무의 수를 300으로 삼고 이 나무 수에 대한 최적의 M 값은 기본적으로 응력 이 모델이 구축 될 때 나무를 제공하고 반복 할 때마다 개선해야 할 요소가 많이 있습니다 이를 통해 005로 할당했습니다 기본적으로 그래프를 제공합니다 이것은 이와 같은 것이므로 먼저 살펴 보도록하겠습니다 이제 우리가 300으로 가지고있는 나무의 수와 나무의 수가 300 일 때 처음에는 M 값을 사용하여 시도합니다

처음에는 변수의 수가 사용 가능한 독립 변수는 4이고 독립 변수에 사용할 수있는 독립 변수는 6 포인트 1 5이고 그런 다음 도움으로 시도 했으므로 도움이 필요할 때 루비 오류가 발생했습니다 16 점으로 시도한 후 5 점 7 점 1 % 16 나무가 세 개일 때 우리가 보는 것을 다시 증가시켜 백개의 최적 M 값은 8입니다 그래서 우리는 여기에서 본 것입니다 2 4 8은 2에서 4에서 8까지 오차가 감소하지만 8 회 후에 다시 감소합니다 더 많은 수의 임의의 독립 변수를 제공했습니다

실제로 증가하지 않습니다 감소하지 않습니다 그래서 우리는 발견 우리를위한 최적의 M 값의 최적 수 이제 우리는 계속해서 그 M을 사용할 것입니다 시드를 다시 설정하고 임의의 포리스트 모델을 다시 빌드하고 random forest 함수를 사용하므로 종속 변수는 n SP입니다 나머지 변수는 내가 짓고있는 독립적 인 변수입니다 나무의 수는 300이고 M 값은 속도입니다 이제 F를 출력하겠습니다 이것이 이번에 우리가 얻는 것입니다

바깥 상자 오류 추정치는 5 점 8 6입니다 이제 계속해서 클릭하겠습니다 예측 함수를 다시 사용할 값은 먼저 두 개의 매개 변수를 사용합니다 맞아요이 기차는 기본적으로 괜찮아요

이 튠 RF를하겠습니다 이 기차에서 22를 빼면 예측 변수의 지표 또는 데이터 프레임으로 표시됩니다 이 열차 22 변수 이것은 응답 인자이므로 먼저 우리는 마지막 열을 제외한 나머지 예측 변수 목록 예측 변수이거나 다시 말해 독립 변수입니다 그 후 우리는 반응 계수 또는 종속 요소를 제공해야합니다 반응 계수는이 20 초 열입니다 우리가 사용했던 다른 속성들은 이 플롯은 기본적으로 OB 에러를 M의 기능을 시도한 다음 여기에서 기본적으로 나무 수를 설정하여 나무를 사용합니다 이것은 검색 진행 상황을 인쇄 할 것인지를 알려줍니다

검색에 대한 OB 오류의 상대적 개선이이 정도 여야합니다 Lin에게 우리가 제공하는 모든 매개 변수를 올바르게 계속 이해합니다 이 보수에 대한 교육-21 22 나는 산업계가 그 길을 이해하지 못했다 그냥 인쇄 한 다음에 우리가 나누는 곳을 따라 갔습니까? 전체 데이터 세트는 우리를 기차 세트로 훈련시키고 그들이 할 수있는 바를 테스트 우리는이 원본 데이터 세트를 가지고 있고 기차로 나누었습니다 이제 홍수를 테스트 한 후 모델을 만들었습니다 완벽한 m 값을 찾기 위해 F 함수에 걸리는 완벽한 m 값을 찾으십시오

특정 매개 변수에서 첫 번째 매개 변수는 구성된 데이터 프레임입니다 이제 모든 예측 변수 중 열차 데이터 프레임을 보여 드리겠습니다 이 열로 구성된 열차 데이터 프레임입니다 이 전체 데이터 프레임에서 22를 제외한 모든 열을 선택합니다 열과 나는 이것을 -22로 명명 할 것입니다

그래서 당신이 여기에서 -22를 봅시다 이 열차 데이터 세트를 참조하십시오 여기에는 NSP 열이 있지만이 마이너스 22는 없습니다 NSP 열이 맞습니다 기차 쉼표에서 22를 빼면 마지막 열을 제외한 모든 열이 사용되므로 당신은 당신이 시도했던 초기 수업의 초기에 배웠어야합니다 사용하는 행과 열을 다시 색인하는 방법을 배우는 곳을 알고 있습니다

22 번째 줄은 다시 한 번 같은 명령을 사용합니다 그래서 이것은 현재 마지막 열입니다 더하기 20-더하기 22보기 그래서 이것은 단지 하나의 열을 가지므로 우리는이 전체를 가졌습니다 데이터 프레임은 이제 첫 번째 매개 변수는 예측 변수 열입니다 NSP 열 다음 매개 변수를 제외한 열은 종속 열이므로 종속 열을 원할 때 오른쪽 열 번호 만 입력하십시오 이 열은 의존 열만으로 구성되어 있으므로이 열차 데이터 프레임에서 우리가 당신을 원한다는 것을 알고 내, 특히 나는 다시는 소품이 없다 이것들을 닫고 싶습니다

이것들은 우리가 가지고있는 모든 매개 변수입니다 우리는 M의 최적 개수가 8이라는 것을 알았습니다 최적의 숫자는 8입니다 또한이 RF 값을 인쇄하겠습니다 이제 계속해서 값을 나누겠습니다

최적의 M 값을 알고 그 최적의 M 값과 관련하여 숲을 짓고 테스트 세트의 값을 예측하고 이제 p2 객체에 저장하고 그 후에 빌드하고 혼동 행렬이므로 다시 두 개의 매개 변수를 사용합니다 실제 값은 다음은 p2에 저장된 예측 값이므로 혼란입니다 우리는 너무 괜찮아요 여러분 중 몇 명이 아직도 가지고 있습니까? 이 혼란스러운 매트릭스를 사용하지 않도록 선택하는 방법을 알 수 있습니다 내가이 혼란스러운 행렬로 오류를 계산하고 있습니까? 이 권리에 관한 질문 다른 사람들은 혼란 매트릭스로 분명합니다

이 매끄러운 혼란을 어떻게 해석합니까? 행렬과이 정확도에서 정확도를 어떻게 얻습니까? 앞서 정확도를 계산 한 다음 566 + 83 + 52를 Phi 66 +로 나눕니다 83 더하기 52 더하기 8 더하기 파이 더하기 2 더하기 파이 더하기 4 그래서 우리는 무엇이든 놓쳤다 18도 있습니다 556 5와 4에서 350에서 850까지입니다 우리는 94 % ECC 1의 정확도를 얻습니다 우리가 당신에게 3의 수는 300이고 우리는 기본적으로 다음과 같이 94 %의 정확도를 얻습니다

이것은 처음에 500의 가치가있는 3의 수와 엠 드라이브 가치는 4 였지만 RF 튜닝을 통해 우리는 약간의 조정과 우리는 때의 최적의 값을 얻고 싶었다 나무는 300이었고 우리는 M em이 em의 최적 가치를 시도한다는 것을 알았습니다 나무의 수를 300으로 설정하고 M을 우리는 90 점의 정확도를 얻었습니다 마녀의 경우 3은 이전 모델보다 약간 개선되었습니다 이것은 당신이 매개 변수를 다시 부여 할 수있는 방법입니다 항목과 M try 인 두 가지 변수 속성으로 구성 바로이 두 가지로 놀 수 있습니다-다시 시도해 볼 수 있습니까? 나는 어떻게 든 그것을 그리워한다 그래서 당신은 내가 이것을 커버하기를 원한다-nah riff 다시 그래 그래 훌륭한 M 내가 시도하는 의의가 무엇인지 시도 M 가격은이 M 값이므로 M try는 M 값이 변수의 수 또는 임의의 수입니다

우리가 여러분의 M 소수 또는 M 인 분할에 제공하는 변수 이 실행 예 그래서이 M 은이 시점에서 시도 해요 우리는 모든 변수를 먹이고 하나의 의사 결정 트리에서 당신이 사용할 수있는 최대 값은이 무작위에 대해 분할하지 않는 8 개의 변수입니다 여기 숲이 있습니다 22 또는 23이 아닌 열 수를 확인하겠습니다 예, 우리는 22 개를 가지고 있습니다 그 열은 우리가 여기서하는 일입니다 랜덤 8이 맞습니다 그래서 M이 여기있는 것입니다

각 분할에 대해 독립 변수의 임의 하위 섹션이 있습니다 이 분할에 대해이 분할에 대해 8 개의 독립 변수가 있습니다 이 분할에 대해 8 개의 임의의 독립 변수가 있습니다 8 개의 무작위 독립 변수 우리는 어디에 영향을 미치는 각 변수의 무게 가장자리를 볼 수 있습니까 바로 모델로 알려진 당신은 그 정장에 갈 것입니다 중요도 기능 또는 변수 중요도 기능과 우리가 무작위로 항목을 최적화하는 방법 하나 더 300 맞습니까? 그래서 다시 할 수있는 것은 임의의 값을 설정할 수 있다는 것입니다 다시 당신은 혼자서 플레이를해야하거나 이것을 400으로 설정할 수 있습니다 400에 대한 최적의 값을 얻으십시오

이 값을 천으로 설정하고 수천에 대한 최적의 값이므로 조정해야 할 하이퍼 파라미터입니다 자신이 그래서 다시 재판하고 오류가 4S에 무엇인가 당신이 의미하는 나무의 깊이 음의 깊이와 관련이 있습니다 우리가 가져갈 수있는 깊이를 의미하는 것이 유감이다 과적 응처럼 될 것입니다 그러나 다시 확실하지 않으므로 다시 읽어야 할 것입니다 먼저 나무를 가지 치기하고 그런 다음 임의의 숲에서 자두 나무 만 사용하십시오 그 오른쪽에 올라 서서 우리는 이제이 예 후에 예측을 끝냈습니다

우리가 가진 다른 나무들에 대한 노드 수를 볼 수 있습니다 히스토그램을 작성하면이 트리 크기 함수가 있습니다 랜덤 포레스트 패키지와 우리는 당신이 만든 모델을 전달할 것입니다 이 히스토그램에 나무의 노드 수와 색상을 히스토그램은 녹색이어서 약 80 개의 의사 결정 트리가 있음을 알 수 있습니다 약 80 개의 노드가 있으므로이 주파수가 임의의 포리스트에있는 의사 결정 트리 수의 트리 크기 또는 노드 수 아마 5 개의 임의의 숲을 멈추고 약 100 개의 노드가 있으므로 약 20 개의 의사 결정 트리가 있습니다

약 60 개의 노드에 약 50 개의 의사 결정 트리가 있으며 약 70 개의 노드가 있습니다 노드는 이것이이 히스토그램이 알려주는 것입니다 이 VAR m 플롯에 변수 중요도라는 것을 묻습니다 이 모든 변수의 상대적 중요성을 제공하므로 이 매개 변수는 잘못된 m 플롯과 모델을 전달합니다 내가 정렬을 구축하므로 기본적으로 이것을 정렬합니다

변수의 중요성 때문에 당신의 숫자는 우리는 수중 중소 또는 상위 10 개의 변수를 계속 볼 수 있습니다 나는 멈추는 제목과 변수의 중요성을주었습니다 당신이 보는 것은 어제의 수업에서 보았 듯이 평균 Gini를 다시 줄이는 것입니다 루트 노드에는 Gini 인덱스 값이 있고 집계 리프 노드가 있습니다 Gini 인덱스 값과 최대 감소가있는 트리가 있습니다

Gini 인덱스 값 또는 다시 말해 최대 게인을 갖는 트리 기본적으로 이상적인 분할이라는 것을 알 수있는 정보 그래서 이것은 STV가 당신이 아는 이상적인 스플릿이 될 것입니다 STV와 관련하여 다음으로 가장 이상적인 스플릿을 얻습니다 중요한 것은 MST 주간이고 우리는 Al TV Guide를 가지고 있기 때문에이 네 가지가 그 후 가장 중요한 것은 평균과 DP 사이에 상당한 간격이 있으므로 우리가 결론을 내릴 수있는 것은 이것에서 주요 변수를 알 수 있습니다 es tv ms TV al TV와 이것이 바로 산 제브라는 의미는 변수의 중요성 때문에 화면에 출력하고 싶다면 그냥 사용하십시오 중요 기능 yeah yeah 당신은 이것이 나에게 말할 것이라고 언급했습니다

모델에서 변수의 중요성 또는 실제로 나에게 이 변수가 가변성 또는 내 의존 변수 um의 예측 가능성 때문에 중요하다고 말할 때 그것은 기본적으로 독립 변수가 얼마나 많은 영향을 미치는지를 의미합니다 피고인 충실하므로이 H TV는 부양 가족에게 가장 많은 영향을 미칩니다 변수 뒤에 ms TV가 있고 l TV가 나옵니다 중요한 것은 아마도 모든 변수가 종속 변수에 얼마나 중요한 영향을 미치는지 10 % 내 10 %의 범위는 각각의 중요성 변수는 이것이 나에게 말하는 방법이거나 괜찮습니다 종속 변수 TV에서 일어나는 모든 일이 거의 그것의 90 %는 당신이이 방법으로 그것을 취할 수 있도록 es TV는 최대 효과를 갖습니다 종속 변수에 대해 이것이 바로 여러분에게 알려주는 것입니다 모두 괜찮아요 변수를 사용하여 모델을 만들고 싶다고 가정 해 봅시다

괜찮다면 아는 것만으로도 간단한 모델을 만들려고한다면 하나의 독립 변수 인 경우에는 독립 변수를 원할 것입니다 가장 영향을 미치는 변수이므로 독립 변수는 T입니다 V 그래서 두 개의 독립 변수가있는 모델을 만들고 싶다면 이 경우 종속 변수의 최대 값에 영향을 미치므로이 경우 TV 및 M 내가 세 개를 사용하고 싶다면이 세 개는 독립 변수 일 것입니다 우리가이 일을하고있는이 줄거리는 이 네 가지 독립형 만 사용할 모델을 다시 빌드하십시오 이 네 개의 독립 변수가 종속 변수 최대 권리 그래서 기본적으로 최대를 커버 종속 변수의 분산이 너무 혼란 스럽거나 알고있는 과정을 보여줍니다 가져 오기 기능 또는이를 다시 알 수 있도록 도와줍니다

기본적으로 평균 감소 단위를 제공하므로 여기에있는 것은 다시 여기에있는 ms TV를 알려줍니다 TV는 최대 값이므로 TV가 종속 변수 다음에 ms TV 다음에 Al TV가 있습니다 혼란 스럽거나 비즈니스의 중요성이 사라졌습니다 우리는 독립 변수의 중요성 또는 중요성의 순서를 알고 있습니다 계속해서 사용하는 다른 임의의 포리스트 모델을 빌드하겠습니다 ms TV es TV l TV 및 평균 및 이전 모델에서는 나무의 수가 300 개라고 말 했으므로 우리는 여기서 모델을 구축하고 RF에 저장하고 우리는 값을 바로 예측할 것입니다

RF는 당신이 만드는 모델입니다 그리고 우리는 이제 테스트 세트 위에 값을 운영하고 있습니다 계속해서 혼란 매트릭스를 만들고 Phi 64의 정확성을 찾으십시오 + 73 + 53을 4 + 73 + 53 + 2 + 3 + 7 + 8 + 1 + 29로 나눈 값 말해 봅시다-3이 없습니다-3 아, 죄송합니다 564 73-53 8 7 129 6 + 2 맞습니다 그래서 우리는 92 %의 정확도를 얻습니다

94 acc 인 acc 하나를 확인하십시오-또한 94였습니다 독립적 인 변수 이들은이 4 가지 d 자체의 슈퍼 뉴스입니다 우리에게 92 %의 정확도를 제공하므로 다른 변수는 단지 2 %까지 더합니다 이것들은 제가 의미하는 것이므로이 4 개의 독립 변수를 사용할 때 그것들은 의존성에 크게 영향을 미치는 변수입니다 여기에 변수가 있으므로 jr를 알 수있는 또 다른 방법입니다 모델 권리 맞아요-이거 뭐 좋았어? NSP 열은 범주 값이며 NS 사람들이므로 처음에는 이것이 정수 나는 AZ 도트 팩터 함수를 사용하고 그것을 인자로 변환했습니다 NSP의 클래스가 맞습니다

그래, 이건 임의의 숲에 관한 것입니다 GLM 함수를 사용할 때 LM을 사용할 때 확률에 익숙해졌습니다 함수를 참조하십시오-우리가 primo 일 때의 확률-모든 모델에 우리가 내리고있는 것에 대한 결과는 s 또는 no로 분류됩니다 살인을 막기 위해서라도 우리는 최종 수업 결과는 괜찮습니다 여기에 p3을 출력하겠습니다 수업 중 11 번째 기록에서 보는 것은 하나는 21 번째 레코드 클래스에 대해 3 개는 레코드 번호 1 70에 대해 레코드 번호 4 17 개의 클래스 1 개-최종 결과를 얻습니다

수업이지만 임의의 숲뿐만 아니라 의심이 있으시면 그냥 인쇄하십시오 이 값을 출력하므로 p3에 저장하여 나중에 사용할 수 있습니다 일반적으로 이것을 인쇄하면 목록을 얻을 위험이 있습니다 한 세션에서 본 것과 같은 예측은 임의의 숲 모델에서 볼 수 있지만 여기에 ROC를 의미하는 화살표를 사용하십시오 수업을 할 때 말한 것처럼 사용하기 만하면됩니다

사용하지만 동영상과 같은 하나의 동영상이이 모델에 ROC를 사용하는 경우 랜덤 포레스트 모델 우리는 ROC 패키지 괜찮습니다 타입은 확률이었을 것입니다 그래서 제가 정상적으로하는 것만 확인하겠습니다 그래, 난 그냥 수업을 듣습니다 그래요

이 경우에 그 유형이 확률이라고 말했을 때 확률을 얻습니다 이것은 내가 당신을 사랑하는 곳입니다 어쩌면 특정 임계 값을 알고 있지만 다시 무엇을 알고리즘은 자동으로 임계 값을 취한다고 말합니다 수동으로 임계 값을 설정하려면 다음과 같이하십시오 그렇습니다, 그렇습니다

잊혀진 기름을 가리고 뜨고 뜨개질을하기 만하면 아만다는 확실히 무엇을 사용하는지 질문하십시오 예, 무엇을 사용합니까? 응답 유형을 클래스 또는 동등한 응답 유형의 의미 차이가 움직여서 예, 의사들 사이에 작은 선으로 결론 지을 것입니다 질병 또는 그는 세 그래서 그래서에 대한 명명법의 차이입니다 당신이 가지고있는 다른 기능들 미리 포장 된 당신은 당신이 사용할 때 사용할 명명법을 알고 있습니다 클래스와 같은 유형이 될 예측을하고 싶습니다 다시 C 3 클래스에 관해서는 이번에도 기본적으로 이 클래스를 클래스로 설정하면 작동하지 않습니다 차이점을 여기에 표시하고 이것을 클래스로 설정하면 이것이 바로 당신이 얻는 것이므로 기본적 으로이 기능은 유형을 응답으로 사용하므로 클래스를 인식하지 못합니다

그 사람이 가지고있는 패키지를 작성한 사람의 정상적인 연령 차이 여기 대신 예측 유형을 응답 유형으로 지정했습니다 우리는 부분적으로 회귀 분석을 위해 여기에 유사하게 클래스를 배치하므로 임의의 숲에 대해 다시 그렇게하면 누가 이것을 만들 었는지 알 수 있습니다 당신을 위해 패키지 그가 그가 원하는 경우 표준 인클로저를 말했다 알고 그런 다음 그 명명법은 PR OB라고하며 당신이 도움을 원한다면 당신이해야 할 모든 차이가있는 경우의 규범 당신은 너무 임의의 숲을 검색 알고 당신은 당신에게 모든 도움을 얻을 것이다 당신과 관련하여 여기 에이 패키지가 있다는 것을 알고 있어야합니다 이 모든 것들이 Lord kyun RF를 예측하도록하세요 사용 하거나이 패키지에서 사용하려는 기능을 얻을 수 있습니다

도움말 기능의 마지막 질문과 마지막 질문 Bernie 에서이 물류 사용 무작위 삼림은 분류를 위해 모든 것을한다 분류와 회귀 모두에 투표하십시오 이제 언제 논리에 갈 것인지를 언제 무작위로 갈 것인지를 결정한다고 가정 해 봅시다 임의의 숲은 항상 솔루션 트리보다 낫습니다 앙상블 학습이 당신을 제공하기 때문에 확실한 로지스틱 회귀 의사 결정 트리와 임의의 포리스트를 비교하면 앙상블 학습이 단일 의사 결정 트리를 작성하면 하나의 결과를 얻을 수 있지만 그 의사 결정 트리를 가져 와서 그것의 복제본을 100 개 만들면 그 수백 개의 복제본의 총체적인 결과로 임의의 숲 또는 또는 우리의 모든 종류의 앙상블 학습은 앙상블 학습이 우리가 이런 일을 할 때 사용하는 단일 모델보다 항상 좋습니다 우리가 소개하기로 결정했을 때이 두 가지는 하나처럼 보입니다

그러나 특정 데이터 세트는 특정 책 데이터를 따릅니다 임의의 숲 어떻게 우리가 어떤 아이디어를 당신에게 시작 했습니까? 내가 생각하는 것은 주로 당신이 알고있는 클라우스에게 알고 있다는 것입니다 분류하여 전체 회귀 분석을 사용할 수 있는지 확실하지 않습니다 멀티 비트 분류이므로 다시 읽어야합니다 또한 난 그냥 여기 임의의 숲을 가정하고 더 나아지고 내 이 두 클래스가있을 때 분류 및 자폐 회귀 사용 그러나 다시 한 번 내 말을 받아들이지 않습니다

나는 우리가 할 수있는 것이 확실하지 않습니다 내 멀티 클래스에 사용자 정의를 위해 사용할 것입니다 우리가 다중 규범 함수를 사용하거나 네트워크 패키지에 n을 다운로드해야합니다 그것들은 GLM 모델에 사용될 것이지만 타이핑하는 것이 혼란 스럽다고 생각했습니다 이항으로 갈 때 효율적인 이항 계급은 실제로 더 나은 것을 줄 것입니다

우리는 낮은 데이터를 시험하기 위해 데이터 세트를 사용합니다 모델링을 시작할 때마다이 규칙에 아무런 문제가 없습니다 바로 당신은 예측과 정확성을보아야합니다 로지스틱 모델의 정확도 향상 또는 결정 또는 무작위 및 결정은 일반적으로 사용되지 않습니다 우리는 우리 에게이 방향으로 이동해야 할 경우를 대비하여 항상 무작위로 간다 모델을 만들고 해당 모델을 조정하고 결과를 비교해야합니다

그것은 당신이 그것을하는 방법입니다 그것은 항상 재판이며 엄지 손가락 규칙이 없습니다 이 경우에 더 잘 작동해야한다는 것을 알고 있습니다 이 경우에 더 나은 작업 더 나은 Bernie는 우리가있을 때 의미 한 점을 원 이전에 평가 과제를 수행하면서 몇 가지 주제가있었습니다 그렇습니다 그래서 팀원들과 대화를 나 spoke습니다 그들은 코스 커리큘럼의 일부가 아니기 때문에 대치가 있습니다

대치가 나열되어 있기 때문에 다중 공선 성이 있으므로 부분이 아닙니다 당신은 내가 그 주제를 다룰 수 있음을 알고 이 과정의 핵심은이 과정의 핵심입니다 지금 남은 주제는 이제 우리는 예상치 못한 비지도 학습에서 차일을 우리는 우리가 추천 엔진을 가지고 주제를 클러스터링하여이 두 가지로 이동하여 다음 세션에서 다루므로 해당 측면이 코스를 찾아야합니다 다음 세션에서는 커리큘럼이 완전히 감독되지 않은 학습입니다 그래서 우리를위한 학습이 그 후에 클러스터링 기술이 될 것이라고는 생각하지 않습니다

우리는 어떻게 추천 엔진 장면을 만들 수 있는지 볼 것입니다 다시 한 번 추천하면 사용자 기반 협업이라는 것이 있습니다 필터링 및 항목 기반 공동 작업 필터링을 통해 비지도 학습과 같이 PCA를 다루는 것은 축소 치수 축소 기술을 위해 음 그래도 다음 세션에도 코스를 살펴 봐야 했어요 커리큘럼 두 가지가 확실하므로 k- 평균 군집화가 있습니다 확실히 가르치고 내가 추천 엔진이 있습니다 강의를 찾아보아야 할 다른 주제를 확실히 가르치고 있습니다

커리큘럼은 우리가 모델처럼 열 당 코스에 대해 먼저 예를주었습니다 추천 엔진 및 K에 대한 시계열 및 감정 분석 내가들을 수있는 사람이 있다면 감독하지 않는 것이 좋습니다 추천 엔진과 k- 평균 클러스터링 저는 다음 수업에서 그렇게 할 것입니다 시계열과 정서 주말 이후 주말에있을 분석 오늘 다루는 내용과 관련하여 다른 질문이 있습니다 다른 요일에 침을 뱉을 주제로 읽기 괜찮습니다

그 방해가 채팅 창을 채울 수 있기를 원합니다 괜찮을 곳이면 어디든 내가 다시 보낼 게 환자 팀을 죽이는 목록을 다시 Bernie Bernie하시기 바랍니다 및 데이터 데이터 세트 또는 이것은 사과입니다 예, 오늘 저는이 두 파일을 보낼 것입니다 데이터 세트 그렇습니다 그러면 작동 할 것입니다 당신이 경기 침체에 이행해야 집에서 그것을 떨어져 피드백 양식이 있습니다

예 피드백 양식을 작성해야하는 모든 사람 우리는 피드백 양식을 얻습니다 세션을 마치면 자동으로 피드백 양식 괜찮아 친구 주제는 우리가 당신을 마지막으로 논의했을 때와 같습니다 마법 에너지와 같은 주제이고 두 번째 에너지는 학대와 같습니다 결 측값과 특이 치 그리고 다음 값은 오븐에 대한 것과 같습니다 잠깐만 기다려 루덴의이 주제들을 다시 한 번 기다려 봐 코스 커리큘럼에서 벗어나기 때문에 이러한 주제가 강의 커리큘럼에 대해서는 최소한 당신이 그런 주제를 가르 칠 수 없습니다 오늘 30 분은 마지막으로 적어도 새로운 데이터 세트를 가져 와서 그것을 밖으로 넣어 적어도 그것이 절반 밖에 될 레이어를 어디 밖으로보고 참조 다시 한 번 우리에게 좋은 시간 이니까 같은 것을 반복하지만 다시는 내 손에 있지 않습니다

당신이 우리를 설명 할 수있는 시간은 내가 더 나은 예라고 생각합니다 우리가 모델을 알고 있지만 이것들은 우리가 모델링에 가기 위해 필요한 단계 전에 있습니다 좋은 병에 대한 우리가 어떻게 그런 일을 모르는 경우 Kaling 여기서 발생하는 모델을 구현하기가 어려울 것입니다 다시 할 수있는 유일한 것은 운영 팀에 문의하여 추가 주제와 관련하여 추가 세션을 예약하면 너희들이 자유라면 아침에 한 번, 한 번에 밤에 이렇게 세션이 8시에서 10 시까 지이므로 Blake는 운영팀이 오전 7 시부 터 오전 9 시까 지 그러면 내가 할 수있는 일을 할 수 있습니다 우리가 먼저 모든 모듈을 다 다루고 나면 이런 일이 일어날 수 있습니다

추가 주제 후에 우리가 가진 모든 모듈을 마무리해야합니다 이 목록에 추가 주제를 다룰 필요가 있는데 그것은 모든 샘플을 웃고 있습니다 2d 세션과 오늘부터 시작하겠습니다 놀랍지 않은 알고리즘 인 클러스터링은 k- 평균 알고리즘은 오늘이고 심지어 오늘날의 세션조차도 수학적이므로 우리는 k- 평균 군집 알고리즘의 기본 원리를 이해해야합니다 이 열로 구성된 홍채 데이터 세트로 여기에서 보는 것 이전 세션에서이 데이터 세트로 작업해야했기 때문에 settlin sepal Worth 꽃잎 길이 꽃잎 너비와 최종 종 열 기본적으로 우리는 클러스터링 알고리즘을 구축하려고합니다

이 데이터를 확인하고 해당 클러스터링 알고리즘에서 어떤 일이 발생하는지 이해하거나 기본적으로 우리는 클러스터링의 배후에있는 수학을 이해하려고합니다 알고리즘이 맞습니다 시작하겠습니다 여기이 데이터 셋이 있습니다 이제 첫 번째 작업은 중심 값을 얻는 것입니다

기본적으로 각 개별 값을 빼면 평균값은 이제 아래로 스크롤하여 각 평균값을 볼 수 있습니다 열 길이의 나머지 길이는 5 포인트 8입니다 열은 이것들이 값이므로 내가하고있는 일은 기본적으로 가지고 있습니다 여기 첫 번째 레코드 51에서이 값을 평균과 마찬가지로이 중심 값을 얻습니다

49를 빼고 평균값과 여기서 중심 값을 다시 얻습니다 4 점 X 평균값을 뺀 다음 sepal에 대해이 값을 비슷하게 얻습니다 다시 너비가 여기에 3 점 5이므로 3 점을 빼겠습니다 3 점 이상의 5 점, 5 점, 여기이 중심 값을 얻을 것입니다 이것이 우리가 할 수있는 방법입니다 이것이 우리로 알려진 것을 얻는 방법입니다

중심 값이므로 기본적으로 원래 값을 가지며 원래 값을 평균 값과 결과로 빼기 우리가 여기서 얻는 가치는 중심 가치로 알려져 있습니다 기본적으로이 네 개의 숫자 열 모두에 대한 중심 값을 가져옵니다 현재 모든 기록은 기본적으로 방향에 관심이 없습니다 이 수치는 우리가 원하는 위치에 마이너스가 있기 때문에 기본적으로이 빼기 기호를 원하지 않기 때문에 중심 사각형으로 알려진 것이므로 중심 사각형은 기본적으로 이 값의 제곱을 여기에 제곱하면이 값을 제곱하면 그래서 당신이이 마이너스 영점 7-4 일 때 제로 점 5를 얻습니다 5와 비슷하게이 값을 취하고이 값을 제곱하면이 값을 얻습니다 마찬가지로이 값을 제곱하여 중심을 잡을 것입니다

여기 광장은 저를 따르는 모든 사람들이 당신이하고있는 것을 말해줍니다 이 원래 값을 가지고 우리는 원래 값을 빼고 그리고 중심 값을 얻습니다 이제 중심 값을 가져옵니다 그런 다음 우리는 그것들을 제곱 할 것이고 결과는 정사각형 광장입니다 아니면 아니 나를 따라와 그래 좋아 좋아 우리가 기본적으로 원래의 편차를 얻는 것 값 또는 원래 값의 평균과의 편차가 이제 내려옵니다 그래서 내가 할 일은 sepal length에 총 편차를 더하는 것입니다

열과 마찬가지로 102의 값을 얻습니다 총계를 계산합니다 sepal width 열의 편차 나는이 값을 비슷하게 얻습니다 꽃잎 길이의 총 편차 나는 이것을 얻을 것이다 나는 총을 계산합니다 이 열의 편차와 나는 이것을 얻을 것입니다 그래서 기본적으로 이것은 합계입니다 함수를 보면 기본적으로 이것을 요약합니다 규칙 번호 2에서 규칙 번호 51까지이 전체 열의 합을 총 편차 또는 총 분산을 얻습니다 이 칼럼과 비슷하게 나는 이것을 합할 것이다

이 열에 대한 편차를 얻을 수 있습니다 요약하면 편차가 발생합니다 이 열에 대해 요약하고이 열의 편차를 얻습니다 이제 이들은 각각의 개별 열에 대한 변형입니다 이 개별 편차를 모두 더하면 총합이 구해집니다 데이터 세트에 존재하는 편차 또는 총 분산 여기 681이 있으므로 총 제곱합이라고도합니다

총 제곱합은 기본적으로 존재하는 편차의 총합을 나타냅니다 이제 모든 열과 관련하여 이제 다시 데이터 세트에 각 개인 기록에 대해이 차이를 원한다면 총 150 개의 레코드가 있기 때문에이 값을 150으로 나누면됩니다 450 개의 레코드가 있으므로이 값을 나누면 이것이 최종 값입니다 150의 최종 값은 각 값에 분산을 얻습니다 sepal length column과 마찬가지로 068이 될 것입니다

150으로 나눈 값은 01 88입니다 마찬가지로이 세 번째 열을 150으로 나누면 309가됩니다 음식 열을 150으로 나누면이 열을 다시 여기로 가져옵니다 이 모든 것을 합하면 분산이 하나로 나타납니다

누군가가 당신에게 분산을 계산할 수있는 방법을 묻는다면 전체 기록 하나의 단일 레코드에 존재하면 이것을 계산하는 방법이됩니다 날 따라 오는 사람들 모두 예, 아니오 예 왜 말할까요 값의 제곱에서의 반지름 왜 제곱근을하지 않습니까? 그리고 이것이 다시 분산이라고 말하면 우리가 저의 주요 질문은 나는 당신이 당신의 사각형을 알고 있다는 것을이 부분을 이해합니다 양수 값을 가진 제곱이지만 현재 가지고있는 제곱 값입니다 그리고 여기서 얻을 수있는 차이를 얻지 못하는 것을 여기서 보도록하겠습니다 이 용어에서 제곱의 차이가 있습니다

그래서 산 예프는 조금 기다려야합니다 이 모든 것이 10 분 더 기다려야하고이 모든 것이 합쳐집니다 이 값을 총 제곱합이라고합니다 k-means 알고리즘에서 사용할 것이므로 우리는 총 제곱합으로 알려진 제곱과 당신은 제곱의 합 안에 정직한 것을 가지고 있습니다 k- 평균 알고리즘에 관한 세 가지 중요한 구성 요소 기본적으로 총합을 계산하는 방법을 알려주는 아이디어 그냥 제곱의 바로 제곱의 총합을 이해한다는 것을 의미합니다 이것을 제곱이라고 생각할 수 있듯이 제곱은 정확히 오류가 아닐 수도 있습니다

다시 이것은 당신이 이것을 일종의 항공이라고 생각할 수있는 정확한 차이는 아닙니다 이 데이터 세트에 존재하는 편차의 총합은 지금은 좋아 그래 그래 지금은 그냥 당신이 가지고있는이 680을 고려 이것은이 데이터 세트에서 가지고있는 총 편차입니다 여기에있는이 요약표는 같은 것이므로 이 열을 오른쪽으로 밀면이 네 개의 열이 있고 이것이 전체입니다 데이터 세트 이제 여기 보시는 것은 기본적으로 오스카입니다 제가하고있는 것은이 값들을 더할 때 여기로 넘어가겠습니다 중심의 정사각형 값이 맞으므로이 4 개의 값을 더하면 추가 할 때와 마찬가지로 하나의 레코드에 대한이 제곱합 이 네 개를 반대하여이 네 개를 더하면이 값이됩니다 마찬가지로 두 번째에 대한 총 제곱합을 얻습니다 150 개 레코드 모두에 대해 동일한 내용을 추가하면 기본적으로 681이되므로 이것을 합하면 681이됩니다

의심의 여지 없이이 SS가 무엇인지 알려주세요 이것은 기본적으로 각 레코드와 관련된 오류의 합계입니다 이 모든 것을 추가하면 681 인 총 제곱합을 얻을 수 있습니다 k- 평균을 구현 한 후 얻은 클러스터 ID 알고리즘은 다시이 클러스터 ID를 살펴보고 클러스터 ID는 나중에 오른쪽에 할당되어 k- 평균을 구현했습니다 알고리즘과 k- 평균 알고리즘은 첫 번째 행을 차지하고 클러스터 1의 행은 두 번째 행을 취했으며 클러스터 4의 두 번째 행을 참조하십시오

비슷하게 내려가도록하겠습니다 클러스터 번호 3은 기본적으로 각 개별 레코드를 가져 왔습니다 k- 평균 알고리즘에 관해서는 이러한 개별 레코드는 기본적으로 총 150 개의 데이터 포인트가 있으며 각 데이터를 가져 왔습니다 하나의 클러스터에 각 단일 데이터 포인트를 배치하고 여기에 우리는 네 개의 클러스터가 있습니다 150 개의 데이터 포인트가 있으며이를 클러스터링했습니다

이 작업을 수행 한 후 150 개의 데이터 포인트를 4 개의 클러스터로 이 데이터 세트를 생성 된 클러스터와 관련하여 분할했습니다 클러스터 1에 존재하는 모든 레코드를 분리하고 덮어 썼습니다 여기에 클러스터 2에 배치 된 모든 레코드와 비슷하게 분리되었습니다 이것들은 다시 클러스터 3에 존재하는 모든 레코드입니다 이 개별 클러스터 각각에 대해 클러스터 4에있는 모든 레코드 제곱의 합으로 너비를 계산하여 제곱의 합으로 다시 우리는 같은 일을하고 있으므로 이것은 5 점 1이 중앙에 기록됩니다

5 점 1에서이 평균을 뺀 값을 취하면 우리가 그렇게 할 때 우리는 SS 내에서 이것을 다시 얻을 것입니다 평균과 관련하여 그것을 빼고 베일을 잘 싸운 다음 우리는 정사각형을 취할 것입니다 이것이 우리가 여기서 얻는 것입니다 150 개 레코드 중 첫 번째 클러스터에 대해 얻은 총 SS 내 46 3으로 이제 SS 내에서 이것을 총 편차로 간주 할 수 있습니다

군집 1에 존재하므로 전체 편차 또는 존재하는 제곱의 합 첫 번째 클러스터 또는 첫 번째 클러스터 내에서 4가 다시 4입니다 클러스터 번호 2에 대한 것이므로 클래스 번호 2에서 다시이 값을 가져 왔습니다 이 값에서 평균을 뺀 다음 마찬가지로 제곱합니다 이 모든 것을 추가하면 SS 내에서 이것을 얻을 수 있습니다 150 개 레코드 모두에 대해 SS 내에서 계산할 것입니다 다시 클러스터 2에 존재하는 편차 또는 제곱의 합 내 군집 3과 군집 4의 경우와 동일하므로 SS 내에서 계산했습니다

각 레코드에 대해 별도로 너비를 계산했습니다 150 개의 행을 모두 입력 한 다음 다시 클러스터 번호를 갖습니다 각 레코드에 대해 SS 내에서 계산 한 다음 합산하여 클러스터 번호 4에 대한 SS 내 총계 클러스터 내에서 평균을 취한 다음 빼기를 수행하는 것입니다 이 열의 평균값을 여기에 군집 3 다음에이 평균을 빼고 이 기둥을 제곱 한 다음 3 점 2의 더하기 이 열의 평균과 이의 제곱에 4 점 7의 평균을 뺀 값 이 열의 제곱 더하기이 열의 1 점 4 빼기 평균 우리가 어떻게 그 가치를 얻었는지 클러스터 번호는 무작위로 존재하지 않으므로 우리가 얻은 후 얻은 클러스터 번호 k- 평균 알고리즘을 구현 했으므로 지금은 k- 평균 알고리즘에 의해 숫자가 생성되었으므로 우리는 우리와 함께 데모를 할 때 그 후 데모를하고 있습니다 이론이 어떻게 하나의 알고리즘을 취하는 지 이해합니다 이론적으로 클러스터처럼 작동합니다

반복 할 수 있습니까? 나는 알고리즘이 일부 논리를 기반으로 작동한다는 것을 의미합니다 논리적으로이 클러스터를 기반으로 PD 뒤에 무엇이 있고 어떤 논리가 로사 리타를 수동으로 출력하고 싶다면 다시 10 분 더 기다려야합니다 이 수학이 중요하다고 가정하면 먼저이 수학을 완료 한 다음 이론으로 향하면 실용으로 가자 정화 나는 당신이 그것을 해결할 것인지 모르겠다 나중에 제 몸짓으로이 K가 무엇을 의미하는지 이해조차 못합니다 알고리즘은 내가하는 일을 계산하는 동안 그러나 나는 단지 의의와 관련성을 사지 않았습니다 k는 의미합니다 그래서 당신은 내가 지금 당장 해줄 게 처음부터 핵심은 알고리즘이 클러스터링 알고리즘임을 의미합니다 클러스터링 알고리즘은 감독되지 않은 알고리즘이므로 비 감독자와 피 감독 사이에 라벨이 없는가? 비지도 학습은지도 교수의 기본적인 차이점입니다 비지도 및 비지도에서 당신은의 구조를 이해하려고 노력 레이블이없는 데이터를 다시 가져 오므로이 데이터 세트를 사용하면 감독 학습에서 우리가하는 일을 데이터로 나누면됩니다

훈련 및 테스트 세트는 k- 평균 군집화이므로이 데이터를 k- 평균 군집에 제공합니다 알고리즘과 k- 평균 군집 알고리즘은이 데이터 세트를 이제 두 개의 클러스터가 있습니다이 클러스터는 클러스터링에 대한 아이디어가 있어야합니다 높은 클러스터 내 유사성과 낮은 미안은 매우 높았습니다 클러스터 내 유사성 및 클러스터 간 유사성이 있어야합니다

따라서 이러한 용어는 높은 클러스터 내 유사성과 높은 수준을 이해해야합니다 클러스터 간 비 유사성이므로 클러스터 1에 존재하는 데이터 포인트는 무엇입니까? 서로 매우 비슷하며 거북이의 의미는 이 유사점은 클러스터 1과 클러스터 2는 유사성이 없음을 알고 있어야합니다 군집 1과 군집 2 사이의 유사성, 즉 군집 1과 군집 2 사이의 상당한 유사성 때문에 여전히 데이터에서 클러스터링 알고리즘 피크의 간단한 용어로 혼동됩니다 의 기능에 따라 데이터를 여러 개의 클러스터로 나눕니다 이러한 클러스터 뒤에있는 데이터 포인트와 아이디어는 클러스터 유사성 및 클러스터 간 유사성 감소 클러스터 간 유사성이므로 이러한 모든 데이터 포인트는 클러스터 1에 존재하는 것은 비슷해야하므로 인트라 대신에 따라서이 클러스터 1 내의 모든 데이터 포인트는 비슷해야합니다

이것은 클러스터 유사성 내에 있으며 우리는 말하는 대신에 나는 사이에 말할 것이므로 클러스터 유사성 사이에 있으므로 클러스터 유사성 사이에는 존재하지 않아야하므로 이는 상당히 필요합니다 여기서는 클러스터 1과 클러스터 2가 유사하지 않아도되지만 클러스터 1의 데이터 포인트는 클러스터 2의 데이터 포인트와 유사해야합니다 클러스터 3의 모든 데이터 포인트가 비슷해야하므로 감각 또는 당신이 여전히 의심이있는 경우 다시 우리는 경기가 연결될 것이라고 말하는 모든 것을 다룰 것입니다 모두 의심의 여지없이 클러스터링 알고리즘이 무엇인지 알려주십시오 여기에서 클러스터링 알고리즘의 목표는 무엇입니까 나는 다른 사람들이 빠르다는 것을 발견하고있다

예 또는 아니오까지 우리가 다루는 내용까지 우리가 어떻게 지내고 있는지 알 수 있습니다 제곱의 합계 내에서 이것을 계산하면 모두 빠른 확인하십시오 그래도 우리는 각각의 클러스터는 지금 당장 클러스터 1에 대한 제곱의 합계 내에 있지만 클러스터 2에 대한 제곱의 합입니다 클러스터 3에 대한 것입니다 클러스터 4에 대한 제곱의 범위 내에서 지금 내가 뭘 악화시킬까요? 이전 섹션에서 우리는 바로 음을 가지고 있었으므로 다시 프로세스 흐름을 다루겠습니다 k-me 뒤에는 수학이 이것을 먼저 이해하는 것이 중요하다고 말합니다

여기의 탭은 우리의 총 합을 계산했습니다 제곱과이 총 제곱합은 689가되었으며이 탭에서 각 제곱을 알 수 있도록 제곱의 범위 내에서 계산 클러스터 1 클러스터 2 클러스터 3 및 클러스터 4의 제곱의 합 이 클러스터 각각에 대해 제곱의 합 안에이 모든 것을 더합니다 이 값을 얻을 수 있으므로 이것은 현재 제곱의 합계 내에서 total이라고합니다 이 두 값을 보면 k- 평균을 적용하기 전의 경우입니다 k- 평균 알고리즘을 적용한 후의 경우 알고리즘을 적용하기 전에 총 제곱합의 값을 데이터 세트의 편차는 681이며 카미를 적용한 후 알고리즘은 그 이후 681에서 처음 71 비율로 떨어졌습니다 k- 평균 알고리즘과이 총 제곱합을 적용하여 71로 줄었습니다 이제 내 질문은 나머지 오류가 어디에 있습니까? 그래서 이것이 초기입니다 우리가 k- 평균 알고리즘을 수학에 적용한 후의 제곱합 편차와 총 제곱합이 감소했음을 이해할 수 있습니다 모두가 이것에 동의하므로 너희들에게 내 질문뿐만 아니라 내가 어떻게 우리가 71 45를 얻을 수 있는지를 그릴 때 오류가 발생했습니다

클러스터 1 클러스터 2에 대한 증인입니다 클러스터 3에 대한 증인입니다 이 4 개의 값을 모두 추가하면 군집 4에 대한 증인이 70 145가됩니다 알았어

고마워 그래서 이제 누구라도 이해할 수 있겠 니? 여기 k-means가 어떻게 작동하는지에 대한 단서가 생겼습니다 시나리오 우리는 k- 평균을 적용했고 k- 평균은 우리에게 네 개의 클러스터를 뒤집어 주었다 SS 내에서이 총계를 보면 편차가 줄어드는 것을 볼 수있었습니다 알았어 이미 클러스터 내에서 말했듯이 우리가하고있는 일 유사성과 클러스터 간 비 유사성이므로이 값은 가능한 한 낮으므로 제곱의 합계 내에서 총합입니다 이 값이 가능한 한 낮다면 클러스터는 SS간에 가능한 한 유사합니다

SS 사이의 이것은 클러스터 사이의 제곱의 합이므로 이것은 클래스 내에서 사각형의 일부입니다 클러스터 내에서 제곱의 합으로 모든 점이 옆에 있고 이 모든 클러스터에 대한 제곱의 합을 요약하면 71까지 나오고 609는 4 사이의 제곱의 합입니다 당신이 우리를 이해할 수있는 것은 매우 많은 양이 있습니다 내부 클러스터 2 내부와 클러스터 2 내부의 유사성 클러스터 3 및 클러스터 4 내부이지만 시도 할 때와 볼 수있는 경우 클러스터 간의 유사성 사이에 유사성이 있는지 확인하십시오 클러스터 4 또는 클러스터 3 및 클러스터 1의 클러스터 1 및 클러스터 2 또는 스러 스터 1 바로 그때 SS 사이가 상당히 높고 이것이 k- 평균의 목표입니다 알고리즘 또는 다른 클러스터링 알고리즘이므로 클러스터링 알고리즘 데이터 세트를 가져 와서 데이터 세트를 클러스터로 나눕니다 군집 유사성이 높아야하고 군집 유사점 사이에 있어야합니다

총계 제곱합을 따르는 모든 사람이 제곱 총 증인과 우리 사이에 여기를 통해 떨어지는 모든 사람들이 키의 기본 수학은 빠른 예 또는 아니오 예를 의미합니다 괜찮은 일에 대한 마지막 버그 요약 테이블에 다시 표시하겠습니다 변동성 섹션 우리는 전체에 대한 총 제곱합을 계산했습니다 데이터 세트와 681에 도달했습니다 k- 평균 알고리즘을 적용하여 k- 평균 알고리즘을 적용했습니다 이 데이터 세트를 4 개의 클러스터로 나누었고 우리가 한 것은 각 군집에 대한 제곱의 합 내에서 군집 1 군집 2 + 2 3 및 군집 4의 제곱이므로 증인입니다

클러스터 2에 대한 클러스터 1 감시자 클러스터 3에 대한 감시자 및 감시자 클러스터 4의 경우이 4 개를 합하면 이 681의 제곱은 적용하기 전의 총 제곱합입니다 k- 평균 알고리즘과 k- 평균 알고리즘을 적용한 후 681에서 71로 떨어졌습니다 150 개 데이터 포인트가 모두이 네 개에만 있음을 이해해야합니다 이 네 개의 클러스터에 관해서는 다시 유사성이 있습니다 매우 높기 때문에이 편차가 681에서 감소한 이유입니다

609 더하기 71을 더하면 681이됩니다 나머지 609는 당신이 제곱합 사이라고 부르는 것을 제곱합 사이의 것은 클러스터 간의 비 유사성으로 인해 클러스터링의 기본 개념 알고리즘은이 값을 최소화하고이 값을 증가시켜이 값을 낮추는 것입니다 클러스터 내부의 유사성이 높을수록이 값이 높아집니다 클러스터 간의 유사성이 더 커지므로 k- 평균 알고리즘 뒤의 전체 수학 그게 좋은거야 다른 것들도 마찬가지입니다 이것이 핵심 수단의 주요 부분이므로 이해한다면 이 다음 나머지는 당신이 경우에 단지 빠른 정보 사람 케이크 조각입니다 공인 데이터 센스 전문가가되고 싶다면 intellibid에서 제공하는 데이터 과학 과정은 과정 링크를 찾을 수 있습니다 아래 설명 상자에있는 경우이 세션을 마치면 당신은 질문이있는 경우 아래의 의견 상자에 의견을 넣어 주시기 바랍니다 우리는 즉시 연락을 드릴 것입니다 다가오는 비디오에 대한 업데이트이 비디오를 시청 해 주셔서 감사합니다

JUPYTER NOTEBOOK PYTHON MACHINE LEARNING CURSO MULTILINEAR REGRESSION 2019

좋은 아침, 함께 일합시다, 목성 공책, 함께 일합시다 다중 선형 회귀, 첫 번째는 여기에 데이터 로딩을로드한다는 것입니다 훈련 테스트 분할 훈련, 우리는 모델을로드 여기에 데이터를로드합니다

여기에 데이터로 구성된 키가 보입니다 목적 함수 란 무엇입니까? 함수 이름은 기능입니다 설명하고 샘플 파일은이 데이터와 같습니다 여기에서 우리가 제공하는 모양을 봅니다 여기 치수는 506과 13입니다 여기에 506 개의 행과 13 개의 열이 있습니다

이것이 CRIM이 ZN이라는 의미입니다 우리는 무엇을 공부할 것입니까? RM 이것은 각 집의 평균 방입니다 AGE는 소유자가 점유 한 유닛의 비율입니다 1940 년 이전에는 DIS의 거리였습니다 보스턴에 5 곳의 고용 센터가 있으며, 우리는 매우 잘 협력 할 것입니다 그 세 우리는 자이언트 팬더를로드 한 numpy에서로드하고 여기에서 볼 수있는 데이터 프레임으로 변환합니다 데이터 프레임을 살펴 보겠습니다 여기를 두 번 클릭하여 확장합니다

하지만 여기에 열이 있고 여기에 줄이 있습니다 더블 클릭 그것을 압축, 나는이 열을 참조 그런 다음 CRIM의 함수 이름에 대해 이미 이야기했습니다 ZN은 이 RM, AGE 및 DIS에 관심이 있습니다 이것부터 이름까지 파티의 데이터 프레임이 이미 여기 있다면 열을 사용하면 이제 기능의 대상입니다 목표는 가격 하우스가 될 것입니다 그리고이 각각의 가치 집의 가격이 이러한 특징을 고려한다는 의미 모든 좋은 이제 기능에 대한 비용을 지불 할 수 있도록 이름을 변경하겠습니다 마지막 열의 대상 열 마지막 열에는 이미 가격이 있습니다

여기 우리는 가격 이름을 바꾸었고 여기에 기능입니다 그런 다음이 기능을 사용하여 예측하십시오 집의 가치 예를 들어 첫 번째 열한 줄을보고 싶다면 여기에 head 명령을 입력하고 숫자 11을 입력합니다 여기에서 첫 번째 열 한 개를 알려줍니다 시작된 것을 기억하십시오 제로 이제 훈련과 테스트의 두 부분으로 나눈 다음 훈련하고 여기서 테스트는 여기에 데이터와 목표는 데이터가 이러한 기능을 가지고 실제 목표는 가격과 관련이 있습니다

아주 좋아요, 모양을보고 분리를 부분으로 만듭니다 훈련 및 시험의 다른 부분은 375 훈련과 127이 있습니다 테스트를 위해 총 데이터가 제공되었습니다 훈련은 약 75 %, 나머지 25 %는 이 경우 선형 함수의 선형 회귀를 정의합니다 지금 우리는 좋은 일을하고 있습니다 모델의 경우 이제 매우 잘 계산됩니다 성공의 73 %는 능선에서 작업하는 것과 같습니다

73 % 이 데이터에 대한 선형 함수이기 때문에 근사값은 아닙니다 대단하다 여기에 첫 번째 열의 좋은 예가 있고 0을 넣습니다 첫 번째 열을 보여줬습니다 이것은 첫 번째 줄이 아니며 첫 번째 열은 나입니다 첫 번째 열을 보여주는 것은 매우 좋습니다 이제이 경우에는 처음 두 열이 있고 처음 두 열이 있습니다 우리가 보자 처음 두 열을 보여주고 모든 행을 알려줍니다

이제 여기에 첫 번째 5 줄과 5 줄인 5 열이 있습니다 처음 다섯 줄과 다섯 번째, 여섯 번째 및 일곱 번째 열은 그가 항상 하나에 간다는 것을 주목합니다 여기를보기 전에 RM, AGE, DIS 열에 관심이 있습니다 우리는 각각의 라인을 설명했습니다 처음 5 줄부터 0-4까지 매우 훌륭합니다

이제 5, 6, 7 열과 모든 ROWS를 선택했습니다 여기에 우리가 모델을하는 대상을 배치합니다 그리고 데이터 세트, 좋은 훈련 및 훈련 여기서 우리는 선형 회귀를 수행합니다 여기서는 세 개의 열 RM, AGE, DIS 만 사용합니다 이전 기사에서는 모든 열의 모든 열에 대해 작업했습니다 가격 이외에 목표는, 여기 계수와 교차 통지 계수는 85 값입니다 -0

097,-043과 교차점은 무엇입니까 축 -23 우리는 정확하게 여기를보고 예측에주의를 기울입니다 이것은이 암호의 54 %이며, 내가 어디에 있는지 아는 명령입니다 리눅스에서 여기에 매우 중요한 다중 회귀 방정식이 있습니다 그런 다음 찾은 값을 살펴보십시오 a, b1, b2 및 b3 여기에 방정식이 있습니다

여기에 a의 값이 있습니다 b1 값, b2 값, b3 값, 그리고 예측 라인 0에서, 이것을 말하자, 그들이 라인의 의미에주의를 기울이십시오 0은 3 개의 값을가집니다 그런 다음 세 개의 값을 사용하여 값을 나타냅니다 제로 라인은 rm = 6,575 665입니다 나이 = 65

2 및 dis 409, 우리가 대체 할 세 가지 값 다변량 선형 방정식,이 세 가지 값을 대체하여 나의 예측 인 Express는이 3 가지를 대체합니다 값-처음 2308, 859 값 x1은 6575 감소 0 포인트, 우리는 모든 소수점을 넣습니다 두 번째 연령 값은 652이며 그런 다음 DIS의 값, 즉 x3에 대한 모든 값은 -0

43입니다 409는 값 25를 제공합니다 이제 값은 실제로 테스트 값입니다 30

1 이것이이 방법이이 다중 선형 방정식에 적합하지 않은 이유입니다 대단히 감사합니다

K Vecinos más Cercanos – Práctica | #41 Curso Machine Learning con Python

여러분 안녕하세요, 채널의 새로운 비디오에 오신 것을 환영합니다 오늘 우리는 실용적인 부분을 보게 될 것입니다 가장 가까운 K 이웃 알고리즘 중 주어진 데이터에 따른 유방암

그러나 프로그램을 시작하기 전에 빨간 버튼으로 채널을 구독하도록 초대합니다 아래에있는 동영상을 놓치지 마세요 또한 이론에 관한 이전 비디오를 보지 못한 경우 권장합니다 Scikit Learn 라이브러리를 사용하여이 알고리즘을 구현하는 방법을 잠시 멈추십시오 이 비디오와 당신은 그들이 설명 할 내용을 이해하기위한 기초이기 때문에 그들을 보러갑니다 이것에서 이 비디오의 링크는 설명 상자에 있습니다

이제이 비디오부터 시작하겠습니다 이 프로젝트에서는 유방암 데이터 세트를 계속 사용하거나 scikit 학습 라이브러리에서 사용 가능한 BreastCancer 이것은 회귀 알고리즘의 실제 부분에 사용하는 것과 동일한 데이터 집합입니다 여기에서 물류는 데이터를 가져 와서 해당 데이터의 전처리를 수행합니다 이러한 이유로 우리는 K 이웃 알고리즘을 구현하는 방법에만 초점을 맞출 것입니다 더 가까이

이 경우 해당 컨텐츠에 게시 된 정보를 볼 것을 권장합니다 이 프로젝트의 첫 번째 부분을 수행하는 방법에 대해 더 알고 싶습니다 이 시점에서 이미 데이터와 데이터에 해당하는“X”데이터를 분리했습니다 목표에 해당하는 "and"의 결과로, 훈련에서 데이터를 분리해야합니다 이것을 테스트하기 위해 우리는 sklearn에서 모듈 train_test_split을 가져 와서 적용합니다 각 분리를 수행합니다 이것으로 모델 개발을 시작할 준비가되었습니다 이런 이유로 우리는 수입 “skelarn

neighbors”에있는 알고리즘은 KNeighborsClassifier를 가져옵니다 이 작업이 완료되면 알고리즘을 정의하고 여기에서 구성하면 "k" 이웃의 수가 5와 같으면 메트릭은 "minkowski"이고 "p"는 이 두 요소의 조합은 알고리즘을 나타냅니다 유클리드 거리를 사용하여 이웃 사이의 거리를 확인합니다 이것은 위에서 설명했다 이것들을 보면 알고리즘이 구성된 기본 데이터입니다 원하는 경우이 구성을 삭제하고 괄호를 비워 둘 수는 있지만 나중에 모델을 개선하기 위해 변경하고 조정할 수 있습니다

알고리즘이 정의되면 이제 훈련 데이터를 사용하여 모델을 훈련시킵니다 그리고 테스트 데이터를 사용하여 예측합니다 계산 된 데이터와 실제 데이터를 비교하면 대부분은 일치하지만 일부는 일치하지 않지만 대부분 일치하면 언뜻보기에 모델이 잘 개발되었다고 판단 할 수 있습니다 그러나 이것이 사실인지 확인하고 혼동 행렬을 계산합시다 sklearn 메트릭의 confusion_matrix 메소드를 예측 데이터와 함께 구현합니다

실제 데이터 보시다시피, 정확하게 예측 된 데이터는 거의 없었습니다 주 대각선에있는 데이터는 정확하게 예측 된 데이터임을 기억하십시오 보조 대각선에는 오류가 있습니다 이 요소들을 추가하면 109 개의 정확한 데이터와 5 개의 잘못된 데이터 만 얻었습니다 이제 모델의 정밀도를 보도록하겠습니다

이를 위해 메트릭에서 "precision_score"를 가져옵니다 예측 및 실제 데이터와 함께 구현합니다 이 계산의 결과는 097이며 이는 상당히 수용 가능한 값입니다 이것으로 우리는이 알고리즘으로 다음과 같은 결과를 얻을 수있다

이 데이터 세트 당신이 그것을 개선하고 얻을 수 있는지 확인하려면 그것은 당신에게 달려 있습니다 더 정확한 것을 위해, 알고리즘 구성 데이터를 수정할 수 있습니다 이것으로 우리는이 분석으로 결론을 맺습니다 의견이나 의견을 남겨 주시면 기꺼이 답변 해 드리겠습니다 전체 프로그램은 웹 사이트에서 찾을 수 있습니다

같은 방식으로 블로그를 둘러 보도록 권유합니다 머신 러닝에 대한 더 많은 정보를 찾을 수 있습니다 시청 해 주셔서 감사합니다 다음 비디오에서 see겠습니다 안녕

Linear Regression – Introduction to Machine Learning using Python and Scikit Learn Chapter 6 1

안녕하세요 모두 컴퓨터 소개 동영상 시리즈에 오신 것을 환영합니다

scikit을 사용하여 학습 – 이것이 6 장, 특히이 장을 배우십시오 우리는 첫 번째 기계 학습 알고리즘에 대해 이야기 할 것입니다 이 장에서 선형 회귀는 선형이 무엇인지를 이해할뿐만 아니라 회귀뿐만 아니라 기계 학습을 어떻게 호출 할 수 있는지도 이해합니다 scikit-learn에서 제공하는 기능 선형 회귀뿐만 아니라 다른 알고리즘을 사용해도 괜찮습니다 앞서서 선형 회귀는 감독 된 학습 방법이다

학습 사전 데이터에 기초하여 회귀 값을 예측하는 단계와, 선형 관계이므로 우리가 이해할 수있는이 정의에 대해 걱정하지 마십시오 이제 우리는 어떤 기계 학습 알고리즘으로 작업하기 위해 데이터가 필요합니다 밖에서 사용할 수있는 많은 데이터가 있지만이 경우에는 나는 단지 5 ~ 6 점으로 우리 자신의 데이터를 생성하기로 결정했다 선형 관계가 실제로 어떻게 나타나는지 실제로 이해하고 볼 수 있습니다 이러한 데이터 포인트와 내 기계 학습 모델이 이러한 데이터를 어떻게 처리하는지 그래서 나는이 데이터 세트를 학습을 위해 적어도 초기 학습은 데이터 세트가이 데이터 세트처럼 보이는 방식입니다

농산물에 대한 가격과 다른 위치에서의 가격 이 데이터 세트는 농부가 생산하는 농산물에 관한 것입니다 그것이 판매되는 곳과 그것이있는 곳의 거리 예를 들어 지역 농원 시장 인 농가에서 판매되는 4 대 농부들의 마일리지는 마을에서 10 달러에 살 수있는 것과 같은 것을 놓습니다 농장에서 12 마일 떨어진 곳에 있습니다 당신은 똑같은 물건을 28 달러에 살 수 있습니다 당신이 50을 위해 같은 것을 살 수있는 25 마일 인 소유주 마을 4 달러 농장에서 50 마일 떨어진 도시에서 살 수 있습니다

84 달러를위한 것 및 가동 불능 시간에서 60 마일 인 가동 불능 시간 너는 90 달러에 같은 물건을 살 수있다 우리는이 데이터를 가지고있다 우리의 x 축과 y 축 값을 만들어 보자 그 X는 마일 단위로 거리가 될 것이고 Y는 가격이 될 것입니다 내가 왜 numpy를 가져오고 있는지 묻고 있을지도 모릅니다

numpy는 어떤 것의 중추입니다 만약 당신이 있다면 기계 학습과 데이터 과학 파이썬 프로그래밍 언어 번호가 마음에 들지 않습니다 앞으로 나아가보고 싶을 것입니다 내 비디오 chapter 41 위의 숫자는 ok입니다

이제는 numpy 배열로 처리하고 있습니다 x 거리 및 Y 가격 확인 및 여기에 어떻게 지금처럼 보이는 나는 우리가 만든 배열은 수평 배열이지만, 내가 말한 것을 기억한다 이전 장에서는 기계 학습에서 특히 scikit-learn 또는 기계 학습을하는 데 중요합니다 알고리즘은 데이터의 수평 세트가 아닌 1 차원 데이터를 나타냅니다 열 벡터 인 세로 형 데이터 집합이므로이 값을 변경해야합니다

행 벡터를 열 벡터로 변환 이제 내 번호를 기억하고있을 것입니다 너는 우리가 재 형성 함수를 호출 할 수 있도록 내가 너에게 5와 1을 열이 데이터를 얻지 만 알려주지 한 가지는 원래 데이터를 변경하거나 변경 데이터를 작성한 것입니다 수평 거리를 다시 인쇄하면 다시 볼 수 있습니다 그래도 가로 데이터는 괜찮아요

그래서 우리는 numpy의 실제 치수를 바꿉니다 배열을 사용하여 파일 1로 직접 모양을 변경할 수 있으며이 경우 데이터는 열 벡터로 변경 이것은 numpy 배열 0의 속임수 중 하나입니다 새로운 번호를 만들지 않고 치수가 여기에있는 y와 똑같은 것에 존재한다 이제는 가격입니다이 x와 y를 사용하여 어떻게 보이는지 볼 수 있습니다

matplotlib 다시 수학 장에 익숙하지 않은 경우 42 장으로 돌아갑니다 도약하지 마라 나는 여기에 그렇게하지 않을 것이다 나는 이것이 단지 당신이 볼 수있는 방법 일 뿐이다

농부 자리에서 마일 떨어진 거리이며 이것은 지금 위치에서 가격입니다 먼저 scikit-learn에서 선형 회귀 메커니즘을 사용합니다 그런 다음 선형 회귀를 사용하는 방법을 디코드합니다 우리는 선형 모델로부터 선형 회귀 (linear regression)를 가져와야합니다 선형 회귀 알고리즘이 어떻게 수행되는지 이해하려면 매트릭스에서 미니 제곱 오류라는 것을 가져 오십시오 걱정하지 마십시오

나는이 두 가지에 대해 너희에게 각각과 모든 것을 말할 것이다 이제는 매우 중요한 한 가지 통합 된 기계 학습 인터페이스 scikit-scikit-learn에 관해 가장 좋은 것을 배웁니다 거의 모든 기계 학습을위한 통일 ​​된 인터페이스를 제공한다는 것입니다 알고리즘은 선형 회귀뿐만 아니라 내 기계로 당신을 배우기도합니다 3 줄의 코드를 호출하여 코드 세 줄을 작성해야합니다

통가의 인스턴스는 당신이 해제 된 함수를 반환합니다 이것은 함수입니다 어디에서 훈련이 일어 났는지 예측하고 싶을 때 예측을 부릅니다 선형 회귀를위한 함수입니다 같은 것을 부릅니다 KN을 위해 n 나중에 비디오에서 볼 수있는 것과 동일한 것을 호출 할 것입니다

우리 모두는 scikit-learn으로 할 것이므로 선형을 어떻게 사용할 수 있는지 보도록하겠습니다 회귀 나는 물론 선형 회귀의 인스턴스를 만듭니다 다양한 매개 변수를 제공 할 수 있지만이 특별한 경우에는 기본값은 선형 회귀의 인스턴스를 만들 정도로 좋아요 선형 회귀 함수를 호출하는 방법은 다음과 같습니다 교육이 실제로 완료되었습니다

이제 기계 학습 모델을 사용하여 가치를 예측하기 위해 똑같은 일을해야합니다 45 마일은 이제 내 목록에 45가 없다는 것을 기억한다 나는 52 살이지만 그렇지 않다 45 그러나 나는 같은 가격이면 첫 번째 가격은 무엇인지 알고 싶다 이제 우리는 이것을 41 마일에서 다시 팔고 있습니다

열 벡터가 동일한 통합 함수를 전달하고 그것이 말하는 예측을 봅니다 그 $ 73 $ 026는 지금 45 마일에 가격 일 것이다 원래 지점에 대해 플로팅하여 예측을 보도록하겠습니다 앞서와 음모 당신이 볼 수있는 45 마일에서 나는 그것을 위해 73 달러와 이 특정 그래프의 모양이 괜찮아 보입니다 좋아,이게 옳은 가격 인 것 같아

그 특정 지점은 이제 여러 값을 예측할 수도 있습니다 값을 학습 값보다 훨씬 더 많이 사용하며 열 벡터를 만듭니다 그것에서 나가고 신용 함수에있는이 란 벡터를 통과하고 나는 얻을 것이다 10 번째 마일에서의 모든 것의 예측 제 80 회 24 번째 입술 122 회 100 회 입술 149 등등을 볼 수 있습니다 나는 훈련 데이터가 여전히 60 마일이나 무엇인지 보자 마지막 훈련 데이터는 현재 60 마일이지만 100 마일을 요구하고 있습니다

마치 단순한 선형 관계를 제공하는 것처럼 보입니다 선형 회귀 분석이 선형 회귀 분석을 통해 무엇을 찾는 지 이해합니다 가장 잘 맞는 선은 일반적으로 직선을 설정하는 훈련 데이터를위한 직선 특히 2 점 만 있으면 괜찮아요 지금 가장 적합한 것이 무엇입니까? 최상의 적합은 최소 평균 제곱 오차를 갖는 라인으로 정의된다 우리는 미니 평방 오차를 가져 왔고 이것이 우리가 가지고있는 이유입니다 우리는 성능이 무엇인지 확인하기 위해 평균 제곱 오차를 가져 왔습니다

우리의 선형 회귀 분석에 대해 더 자세히 설명하기 전에 지금 시간을 대입 할 것입니다 선형 회귀가 그러한 것을 표시하지 않는다는 것을 말해 줄 게요 하지만 당신은 훈련 데이터에서 배웁니다 즉, 제가 훈련을하면 10 분의 1 마일 가격이 12 달러라고 말하는 데이터와 10 마일에 가격을 예측하면 그렇지 않을 수도 있기 때문에 $ 12 일 수도 있고 그렇지 않을 수도 있습니다 훈련 자료를 기억하지 못한다

훈련 자료는 10 분의 1이다 최악의 날짜 나는이 대답을 계속 지었다 원래의 교육 포인트를 제공하든 새로운 포인트를 사용하든 모델이 예측치에 직면하여 훈련 데이터 값을 기억하지 못합니다 왜 네가 사각형이 필요하기 때문에 내가 이것을 말하고 있는지 이해하는 것이 매우 중요하다 오류가 무엇인지 알 때만 오류를 계산할 수 있습니다

우리는 우리가 알고있는 평균 제곱 오차에 대한 예측과 비교할 수 있습니다 이미 훈련 데이터를 가지고 있으며 우리는 예측 데이터를 가지고 있거나 예측할 수 있습니다 교육용 수에서 얻은 데이터는 동일하게 처리하고 차이점을 비교합니다 이제이 둘 사이에서 원래의 데이터 요소를 예측해 봅시다 내 예측이 어떻게 생겼는지, 내가 원래대로 당신이 볼 수있는 데이터 포인트는 각각의 원래 데이터가이 두 포인트를 가리킨다는 것을 나타냅니다

상대적으로 가깝습니다 조금 멀었습니다 이것은 조금 더 의미가 있습니다 원래 값과 해당 값에 의해 예측 된 값 간의 오차 연령 차이 모델과 제곱의 제곱은 네거티브가 있으면 긍정적 인 가치 그래서 미니 평방 오류를 계산하자 미니 평방 오류 수 있습니다 원래 값과 예측 값을 전달하여 계산하면 26에서의 평균 제곱 오차는 지금이 26에 대한 최상의 평균 제곱 오차이다 선형 회귀를 사용하여 설정 한 특정 값이므로 선형 일 경우 자신 만의 회귀 분석을 통해 얻을 수있는 최상의 미니 스퀘어 오차 이제 26 일입니다

다음 비디오에서 나는이 특정 비디오에서 여기서 멈추게 될 것입니다 선형 회귀 분석의 수학과 그 원리에 대해 다룰 것입니다 그 비디오를 확인하는 것을 잊지 마십시오 이러한 데이터 세트는 내 github 페이지에서 이러한 것들을 업로드 할 것입니다 이 데이터는 일부 순열과 조합을 통해 어떻게 작동하는지 이해합니다

일단 그것이 어떻게 작동하는지 이해하면 우리 자신의 선형 세트를 쉽게 수행 할 수 있습니다 회귀는 실제로 심령술사에 의해 수행되고있는 것을 발견하게합니다 현장 괜찮아요 그래서이 비디오에 대한 모든 것이 제발 제발 다음 비디오에서 몇 가지 것을 시도해보십시오 선형 회귀 알고리즘 뒤에 수학 괜찮아 그리고 우리는 우리의 그때까지 다음 비디오에서 회귀가되는 자신의 구현 시청 해 주셔서 감사합니다

잠시 시간을내어 공유하고 구독하고 싶습니다 고마워요, 고마워