George Hotz: Winning – A Reinforcement Learning Approach | AI Podcast Clips

-당신은 인생의 의미가이기는 것이라고 말했습니다 앞으로 5 년을 보더라도 우승은 어떤 모습입니까? -그래서

많이 있습니다 기술적 인 깊이처럼 들어갈 수 있습니다 내가 의미하는 바에이기려면 의미하지 않을 수도 있습니다 나는 그 의견에 대해 비판을 받았다 이 남자는 펭귄을 구하고 싶지 않아 남극 대륙에서? 이봐, 내가 무슨 말을하는지 들어 봐 나는 요트 또는 무언가가 있다고 말하는 것이 아닙니다

나는 요원입니다 나는이 세상에 넣어 나는 내 목적이 무엇인지 정말로 모른다 하지만 당신이 지능형 요원이라면 그리고 당신은 세상에 놓여 있습니다 가장 이상적인 방법은 무엇입니까? 수학적으로 이상적인 것은 이것에 대한 슈미트 후버 이론으로 돌아갈 수 있습니다 세계의 압축 모델을 구축하는 것입니다 최대 압축을 구축하기 위해 세상을 탐험하다 탐사 기능이 과거 압축의 미분을 최대화합니다

슈미트 후버는 이것에 관한 논문을 가지고 있습니다 내가 그런 종류의 개인적인 목표 함수처럼 내가이기려고하면 내 말은 어쩌면 이것은 종교적 일 것입니다 하지만 앞으로는 나는 진짜 목적이 주어질지도 모른다 또는 나는이 목적을 스스로 결정할 수있다 그 시점에서 이제 나는 게임이 무엇인지 안다 승리하는 방법을 알고 있습니다 지금 생각합니다 나는 아직도 게임이 무엇인지 알아 내려고 노력하고있다 하지만 일단 알고 불완전한 정보가 있습니다 보상 기능에 대해 많은 불확실성이 있습니다 그리고 당신은 그것을 발견 그러나 목적은

-[조지] 그것을 넣는 것이 더 좋은 방법입니다 -목적은 그것을 극대화하는 것입니다 주변에 많은 불확실성이 있습니다 그리고 당신은 둘 다 확실성을 줄입니다 동시에 최대화하는 것입니다

그것은 기술적 인 수준에 있습니다 -보편적 인 사전을 믿는다면 보편적 보상 기능은 무엇입니까? 그것을 넣는 것이 더 좋은 방법입니다 -그 승리는 흥미 롭습니다 나는 모든 사람들에게 그 보상 기능이 당신을 위해 무엇인지 궁금합니다 그리고 나는 그것을 볼 기대합니다 5 년 만에 10 년 만에 내 자신을 포함한 많은 사람들이 남자를 응원하고 있습니다 당신이 존재해서 기뻐요 행운이 있기를 바랍니다

동료 감독 성폭행한 영화감독이 실명으로 입장을 내놨다 스포츠조선의 보도를 보면 이 감독은 6일 자신의 입장을 담은 보도자료를 통해 사건 당시의 정황과 자신의 심경을 밝혔다

Kameleon007 via Images 동료인 여성 감독을 성폭행한 혐의로 유죄 판결을 받은 여성 감독이 실명을 밝힌 뒤 억울함을 호소하고 나섰다 영화 '연애담' 을 만든 이현주 감독이다

스포츠조선의 보도를 보면, 이 감독은 6일 자신의 입장을 담은 보도자료를 통해 사건 당시의 정황과 자신의 심경을 밝혔다 이 감독은 자신의 입장을 늦게 밝힌 이유에 대해 '이 사건으로 인해 수사와 재판을 거치는 동안 상상하기 힘든 고통 속에서 살아왔고 그러한 저의 속사정을 말로 꺼내기가 너무나도 힘들었기 때문이었다'라고 밝혔다 이 감독은 사건 당시 서로의 동의 아래 성관계가 있었다고 주장했다 이 감독은 '술에 취해 잠이 든 줄 알았던 피해자는 어느새 울기 시작하더니 무슨 일이 있는 것처럼 오열했다'며 '그 과정에서 피해자는 자신의 고민을 저에게 이야기했고 그런 피해자를 달래던 중 자연스럽게 성관계를 가지게 되었다'고 설명했다 또 그는 '당시 저로서는 피해자가 저와의 성관계를 원한다고 여길만한 여러 가지 사정들이 있었기 때문에 당연히 성관계에 대한 피해자의 동의가 있었다고 생각할 수밖에 없었다'고 주장했다 이 사건은 한 여성 영화감독이 '미투' 캠페인에 동참하는 취지로 자신의 성폭행 피해 사실을 폭로하면서 알려졌다 지난 2월 1일 여성 영화감독 A씨는 개인 SNS를 통해 '2015년 봄 같은 동료이자 여자 감독으로부터 성폭행을 당했다' 고 밝혔다 또 이를 문제제기하는 과정에서 한국영화아카데미 측 교수로부터 고소 취하 등의 요구를 받았다고 폭로했다 앞서 대법원은 2017년 12월 22일 이 감독의 준유사강간 혐의에 대해 징역 2년, 집행유예 3년, 성폭력 예방교육 40시간 이수 명령을 내린 원심 판결을 확정했다 이 사실이 알려지자 한국영화감독조합은 이 감독을 조합에서 제명 시켰다

재판 과정에 대해 이 감독은 '이 사건에 대해서 정말 그 어떤 편견도 없이 그리고 정확하게 판단해 달라고 간곡히 부탁드렸지만 결국 유죄의 판결을 받았다'며 '재판부의 판단을 겸허히 받아들이지만 저는 너무나도 억울하다'고 밝혔다 또 이 감독은 이날 공식 입장을 통해 동성애자라는 사실을 밝히면서 '수사와 재판 과정에서 동성애에 대한 편견과 왜곡된 시선을 감당해야 했지만 제 주장은 전혀 받아주지 않았다'는 점을 강조했다 그러나 피해자의 남자친구 B씨는 이 감독의 입장 발표에 대해 '교묘한 변명'이라며 반박에 나섰다 B씨는 뉴스1과의 통화 에서 '간단하게 말씀드리면 전형적인 변명이다 말이 안 되는 내용이 너무 많다 1심 재판 때 했던 허위 진술들 일부를 교묘하게 해서 입장을 표명한 것이라서 피해자가 다시 관련된 내용에 대해서 반박하는 글을 쓰려고 하고 있다'고 말했다 재판 결과가 억울하다는 주장에 대해서는 '결론부터 말씀 드리면 신빙성 없는 내용이고 전형적인 물타기다 반성의 여지나 이런 부분에 대한 일말의 기대가 있었는데 씁쓸하다'고 밝혔다 아래는 이 감독이 밝힌 공식 입장 전문이다 1 저는 여성 영화감독 이현주입니다 우선 제 영화를 함께 만들어 주신 분들, 저의 작품을 아껴주셨던 많은 분들에게 이 사건으로 인해 심려를 끼쳐드려 죄송한 마음을 금할 길이 없습니다 이 사건에 대해 피해자나 그의 남자친구가 인터뷰를 하며 사회적 파장이 커지고 있는데도 불구하고 저의 입장을 밝히는 데에 다소 시간이 걸린 이유는, 저 역시도 이 사건으로 인해 수사와 재판을 거치는 동안 상상하기 힘든 고통 속에서 살아왔고 그러한 저의 속사정을 말로 꺼내기가 너무나도 힘들었기 때문입니다 2 저는 동성애자입니다

지금까지 동성애자라는 저의 성 정체성에 대해 피해자 등 몇몇 지인들 외에는 그 누구에게도 떳떳하게 밝히지 못했습니다 공인들 중 용기있게 자신의 성 정체성에 대해 밝히고 성 소수자들의 목소리를 대변하시는 분들이 계시지만, 저는 그렇게 행동하지 못했습니다 제가 동성애자임을 밝혔을 때 부모님께서 받으실 충격, 영화시장에서 저를 바라볼 곱지않은 시선, 우리 사회에서 성 소수자들이 처한 상황 등을 생각하면 당당히 커밍아웃할 용기가 없었고, 다만 저의 세계관을 조심스럽게 영화에 담아볼 수밖에 없었습니다 그러나 이 사건으로 인해 제가 원하지 않는 시점에 제가 의도하지 않은 방식으로 저의 성 정체성이 드러나게 되었고, 가족에게까지 알려지게 되었습니다 수많은 기자님들로부터 이 사건에 대해 입장을 표명해 달라는 요청을 받았지만 바로 대응할 수 없었던 이유는, 공개적으로 저의 입장을 밝히는 것보다 부모님께서 받으셨을 충격과 아픔을 먼저 위로해 드리는 것이 자식된 도리라고 생각했기 때문입니다 이 사건에 대해 공개적으로 말씀드리는 것이 이 일과 관계된 분들에게 또 다른 상처가 될 수도 있겠지만, 이제는 당시의 상황에 대해 직접 말씀드리고자 합니다 3 여전히 무죄를 주장하고 싶습니다 저는 한국영화아카데미에서 피해자를 만나게 되어 함께 영화를 고민하며 속깊은 이야기를 나누게 되었고 이후 매우 친밀한 관계로 지냈습니다 피해자는 제가 동성애자임을 알고 있는 몇 안되는 사람들 중 한 명일 정도로 저와 친분이 깊었고, 많은 감정들을 공유하고 있었습니다 그러던 중 2015 4

초순경 남성 3명 그리고 피해자와 함께 술자리를 가지게 되었는데, 저 역시 취한 상태였지만 먼 지역에서 온 피해자를 돌봐주어야할 상황이었습니다 사실 그 당시 영화 '연애담'의 촬영을 마치고 편집을 하던 단계였으므로 해야 할 일이 많았기 때문에 저는 학교로 돌아가 잠시 쉬었다가 일을 시작하였으면 하는 바람이 있었습니다 그러나 피해자가 만취한 상태였기 때문에 일행들은 피해자를 가까운 모텔에 데리고 가 침대에 눕혀주었고, 저는 일행들의 부탁을 받아 피해자와 함께 있게 된 것입니다 술에 취해 잠이 든 줄 알았던 피해자는 어느새 울기 시작하더니 무슨 일이 있는 것처럼 오열했습니다 그 과정에서 피해자는 자신의 고민을 저에게 이야기했고 그런 피해자를 달래던 중 자연스럽게 성관계를 가지게

이현주 감독이 네티즌들의 관심을 모으고 있다.

이현주 감독이 네티즌들의 관심을 모으고 있다 이런 가운데 피해자 A씨의 발언이 새삼 화제다

피해자 A씨는 앞서 자신의 SNS에 “가해자 이현주의 ‘심경고백’ 글을 읽고 쓰는 글”이라고 시작하는 장문의 입장을 게재했다 글에서 A씨는 “가해자 이현주 감독은 심경 고백글에서 사건 이후 ‘밥 먹고 차먹고 대화하고 잘 헤어졌는데 한 달 뒤에 갑자기 신고를 했다’고 하지만 이는 명백한 거짓말”이라고 주장했다 이어 A씨는 “통화 이후 두 차례 통화가 더 있었고 그 통화는 모두 녹취되어 재판부에 증거로 넘겨졌다 그 두 번의 통화 내내 가해자 이현주는 나에게 화를 내고 다그쳤으며 심지어 마지막 통화 후엔 동기를 통해 문자를 보내 ‘모텔비를 갚아라’고 까지 했다”고 밝혔다 또 “한 달 후에 갑자기 신고를 한 것이 아니라 사건 이후 신고하기 까지 약 한달 동안

사과를 받기 위해 두 차례 더 내가 먼저 전화를 했고 사과는 커녕 내 잘못이라고 탓하는 얘기만 들었다”고 전했다 이와 함께 “그 한 달 이란 시간은 내가 당시 동석했던 동기오빠들에게 이 사실을 알린 시간이기도 했다 뒤늦게 이 사실을 알게 된 동석자 오빠들은 ‘너는 그때 만취해서 무슨 말을 할 수 있는 상황이 아니었다 ‘잠든 너를 침대에 눕혀 놓고 나왔다 ’ 등의 말을 해주었고 조금씩 그제서야 나는 이게 범죄라는 걸 깨달아간 시간이기도 했다”고 덧붙였다

한편 이현주 감독은 지난 2015년 4월경 만취한 동료 감독 A씨에게 유사 성행위를 가한 혐의로 기소돼 1심에서 징역 2년, 집행유예 3년과 40시간의 성폭력 치료강의 수강을 선고받았다 이현주 감독의 성폭행 사건과 관련, 한국영화아카데미 내에서 조직적인 은폐 시도가 있었다는 주장이 제기되면서 화제가 되고 있다 앞서 이현주 감독은 동료 여성감독 A씨가 자신의 사회관계망서비스 계정에 “3년 전 이 감독으로부터 성폭행을 당한 사실이 있다”며 “가해자가 그 후에도 상을 받고 활동하는 모습을 보니 견디기 어려웠다”고 폭로하면서 논란의 중심에 섰다 이현주 감독은 지난 2015년 A씨와 둘만 남은 자리에서 A씨의 신체부위를 이용해 유사성행위를 한 혐의(준강간)으로 대법원에서 징역 2년에 집행유예 3년형을 받았다

재판 과정에서 이현주 감독의 변호인이 “평소 A감독이 성에 개방적이고 발칙하다”며 상호 합의한 성행위라는 취지로 변호하고 이현주 감독의 지도교수가 이에 동의하는 증언을 했다가 물의를 빚기도 했다 사건이 알려지자 여성영화인모임은 이현주 감독의 연출작 ‘연애담’에 수여한 올해의 여성영화인상을 박탈했고 한국영화인감독조합은 이 감독을 영구제명한 바 있다

Bringing DevOps to Machine Learning | HPE ML Ops

우리는 일반적인 가용성을 발표하고 있습니다 HPE Machine Learning Ops HPE ML Ops, 기능 확장 BlueData EPIC 플랫폼 전체 기계 학습 수명주기

속도와 민첩성을 제공합니다 머신 러닝 라이프 사이클 DevOps가 수행 한 작업과 유사 소프트웨어 개발 샌드 박스 개발에서 분산 교육까지 배포 및 모니터링까지 생산에서 훈련 된 모델의 AI는 핵심 전략 이니셔티브 모든 기업에 관계없이 그들이 속한 업계의 진정으로 비즈니스를 변화시킬 수 있습니다 비즈니스 성과를 크게 향상시킵니다 이것은 AI 채택이라는 사실에서 분명합니다 거의 세 번 증가했습니다 지난 몇 년 동안 그러나 몇몇 주요 기술 회사를 제외하고 대부분의 기업은 우리가 부르는 것에 부딪칩니다 마지막 마일 문제로 모델을 생산에 도입

이것은 머신 러닝 때문입니다 기업 분야가 비교적 새로운 분야이기 때문에 Pre-DevOps 소프트웨어 개발과 매우 유사합니다 기계 학습 워크 플로우 부족 개발을위한 표준화 된 프로세스 테스트 및 배포 문제는 일반적으로 세 가지입니다 다양한 도구가 있습니다 언어와 프레임 워크 IT는 일반적으로 이러한 개발 환경을 설정합니다 각 사용 사례를위한 도구와 프레임 워크 그러나 이것은 의도하지 않게 장벽을 만듭니다 교육 환경에는 복잡한 분산 컴퓨팅 클러스터 때로는 특수 하드웨어가 필요합니다 GPU 등이 어렵습니다 설정하고 복잡합니다 관리하기 어렵다

둘째, 일관성이 부족합니다 배포 방법론 데이터 과학자들은 많은 시간을 보낸다 데이터 과학 라이프 사이클의 프론트 엔드 그들은 정말 정확한 모델을 만드는 데 집중합니다 일단 훈련 된 모델을 전달하면 생산에는 실제로 거의 없습니다 모델 성능 및 정확도에 대한 가시성이 없습니다 마지막으로 표준화 된 프로세스가 없습니다 어떻게 다른 협업 팀원들이이 프로젝트를한데 모았습니다 접근 방식과 같은 DevOps가 필요합니다 머신 러닝 수명주기

컨테이너화의 힘을 제공하는 HPE ML Ops ML 수명주기 데이터 과학자는 컨테이너화 된 환경을 가동시킬 수 있습니다 확장 가능한 컴퓨팅 클러스터 머신 러닝 툴을 선택하여 현대적인 개발과 훈련을 위해 모델을 배포 할 준비가되면 컨테이너화 된 엔드 포인트를 제공합니다 보안, 자동 확장,로드 밸런싱 다른 엔터프라이즈 급 기능 워크로드 변동성을 처리하는 데 필요합니다 HPE ML Ops는 극소수 중 하나입니다 제공하는 엔터프라이즈 급 솔루션 완벽한 엔드 투 엔드 ML 수명주기 관리

즉, 사용자가 구현할 수 있음을 의미합니다 지속적인 CICD 개발 워크 플로우 A / B 테스트뿐만 아니라 표준화 할 카나리아 테스트 프레임 워크 머신 러닝 개발 및 테스트 관련 프로세스 완벽한 모델 ​​및 데이터 거버넌스 모델 레지스트리를 사용하여 구현할 수 있습니다 계보 추적과 함께 감사 가능성, 설명 가능성 또는 모델의 해석 가능성 ML Ops로 가속화 할 수 있습니다 데이터 과학 프로젝트의 가치 실현 시간 데이터 과학 팀의 생산성을 향상시키고 ML 프로젝트에 대한 위험을 줄입니다 워크로드를 실행할 수있는 유연성 확장 가능한 다중 테넌트 환경에서 사내, 클라우드 또는 하이브리드 모델 중 하나입니다 (경쾌한 음악)

Kubeflow: Machine Learning on Kubernetes (AI Adventures)

Kubernetes는 사용자의 Container 관리를 위한 플랫폼이에요 머신러닝의 작업 흐름은 종종 매우 어수선해지곤 하는데 제작할 때는 더욱 그렇죠 시간의 문제라고 할 수 있어요 두 가지를 하나로 합치기 전에 말이죠 어떻게 해야 Kubernetes 상에서 추가적인 작업을 하지 않고서 머신러닝을 실행할 수 있을까요? 함께 알아보도록 하죠 예술, 과학 그리고 머신러닝을 탐험하다 AI Adventures에 오신 걸 환영하며 예술과 과학 그리고 머신러닝 도구를 탐험해보는 시간입니다 저는 위펑 구오이며 이번 에피소드에서는 Kubeflow에 대해 알아볼게요 오픈 소스 프로젝트로써 Kubernetes 클러스터에서 머신러닝 훈련과 예측을 보다 쉽게 실행할 수 있도록 도와주죠 Kubeflow 프로젝트는 Kubernetes에서 머신러닝의 작업 흐름의 배치를 간단하게 해주며 원활한 이동과 확장을 가능케 해주죠 더 자세히 말씀드리면 모든 유형의 환경에서 사용이 가능한데요 노트북에서부터 두 개의 GPU가 내장된 컴퓨터까지 코드를 쉽게 사용할 수 있도록 해주며 생산 클러스터나 Kubernetes 훈련 클러스터에서도 가능하죠 물론 요청에 따라 모든 부분을 변경하는 역할만 한다면 Kubernetes라고 할 수 없겠죠 Kubeflow는 TFX라고도 하는 Google의 TensorFlow가 내부적으로 운영되는 방식이었던 TensorFlow Extended의 오픈 소스로써 시작됐죠 초기에는 Kubernetes 상에서 TensorFlow의 작업을 구동하는 보다 간단한 방식이었지만 확장 단계를 거쳐서 모든 생태계를 아우르는 다수의 제공자와 더불어 전체 머신러닝 파이프라인을 구동하는 다중 아키텍처와 멀티 Cloud 프레임워크가 되었죠 한 가지 고백을 해야겠는데요 사실 저는 Kubernetes에 대해 그리 많이 알고 있지 않아요 지난 몇 년 간을 TensorFlow와 데이터 과학 및 머신러닝에 대해 중점을 두어왔으니까 말이죠 따라서, Kubernetes에 대한 지식은 그리 높은 수준이 아니에요 그렇기 때문에 Kubeflow가 Kubernetes 상에서 성공적으로 TensorFlow와 다른 기계적 작업을 수행할 수 있도록 해주면 좋겠군요 저 역시 Kubernetes가 정말 좋다고 들었으니까요! Kubeflow란 무엇인지에 대해 먼저 알아볼까요? Kubeflow는 Kubernetes가 할 수 있는 모든 곳에서의 구동을 목표로 하는데요 여러분의 컴퓨터에서부터 베어 메탈 서버를 포함한 모든 공개 Cloud를 의미하죠 Google Kubernetes Engine, GKE에서 어떻게 이를 구동하는지 알아볼게요 Kubeflow를 GKE에 설치하는 건 정말 간단해요 클릭만으로 사용이 가능한 사용자 인터페이스이기 때문이죠 Cloud 프로젝트의 아이디만 있으면 접속이 가능해요 배포 작업에 이름을 정하고 이를 포함시킬 공간을 정해줍니다 그러면 필요한 모든 정보가 자동적으로 구비된 거예요 이게 바로 제가 원하는 거죠 Kubeflow도 설치했고 UI도 접속이 가능하니 Kubeflow의 세계를 탐험할 모든 준비가 된 거예요 모델을 훈련시키고 TensorBoard로 시각화도 가능하며 모델의 실행과 파이프라인 제작도 가능하며 이런 작업을 관리하기 위해 JupyterHub에 접속도 할 수 있어요 대부분은 국부적으로 이용할 수 있는 똑같은 훈련 코드를 사용하고 Kubeflow의 특정 부분을 위한 구성 항목 파일을 추가하면 코드의 변경 없이 Kubeflow에서 이를 실행할 수 있어요 Kubeflow를 사용하여 Kubernetes 클러스터에서 훈련을 수행하고 내보낸 모델을 Kubernetes 클러스터의 디스크에 머물게 하거나 Google Cloud Storage 버킷에 보내면 돼요 그러면 클러스터 밖의 시스템으로 훈련된 모델을 간단히 공유하거나 실행할 수 있도록 해주죠 좋아요, 오늘은 여기까지입니다 Kubernetes의 머신러닝 파이프라인 구동에 관심이 있으시다면 Kubeflow에서 시작하는 걸 권해드려요 시작에 도움을 드리기 위해 아래의 설명 부분에 다양한 codelab과 정보가 있는 링크를 남겨두었어요 Cloud AI Adventures의 이번 에피소드를 시청해주셔서 감사드리며 재밌게 보셨다면, 좋아요 버튼을 눌러주시고 업데이트 내용에 대한 공지 알림을 받을 수 있도록 구독도 해주시길 바랍니다 우선, 아래의 설명 부분으로 가셔서 Kubernetes 클러스터 상에서 Kubeflow의 사용 방법에 대한 더 많은 정보를 얻어보세요

Supervised vs Unsupervised vs Reinforcement Learning | Machine Learning Basics

무슨 일이야? 머신 러닝 알고리즘이 데이터에서 학습하는 방법에 대해 이야기하겠습니다 작업 T가 있다고 가정 해 봅시다

프로그램이 필요한 회귀 문제를 생각해 봅시다 숫자 값을 예측합니다 입력 변수를 제공하며 숫자를 예측해야합니다 입력 변수가 무엇인지 모르는 경우 이전 비디오에서 해당 변수에 대해 이야기합니다 설명에 아래 링크를 넣었습니다

우리는이 과제 T를 가지고 있습니다 그리고 우리는 성과 측정치 P를 가지고 있습니다 성능 측정은 평균 절대 오차입니다이를 예로 들어 봅시다 이제 이것은 알고리즘의 성능을 측정하는 방법입니다

그래서, 여러분이 그것이 무엇인지 잘 알고 있다면, 지금은 중요하지 않습니다 다른 동영상의 실적 통계 그래서 우리에게는 과제가 있고 성과 측정이 있습니다 알고리즘은 성능이 다음과 같은 경우 경험을 통해 학습하고 있다고합니다 P로 측정 한 성능 측정치 인 T 과제를 해결하려고합니다 이 경험으로 향상됩니다

그리고 그것은 위대하다! 그러나이 경험은 무엇입니까? 글쎄, 그것은 학습 과정에서 그들이 가질 수있는 경험 일뿐입니다 이 중 네 가지 유형이 있습니다 : 감독, 감독되지 않음 이것들은 주요한 두 가지입니다 그리고 반 감독과 강화 학습

따라서 4 가지 학습 유형이 있습니다 우리가 이것에 들어가기 전에, 당신이 구독 버튼을 눌렀는지 확인하고 싶습니다 최신 비디오로 최신 상태를 유지할 수 있습니다 매주 새로운 비디오를 게시하여 기본 및 고급 기계 학습 주제를 다룰 것입니다 학습 유형으로 돌아가서 저는지도 학습부터 시작하겠습니다

지도 학습은 가장 일반적인 경우이므로 먼저 다루겠습니다 이러한 유형의 학습을 통해 알고리즘은 기능, 입력, 이는 레이블과 연관되며 출력입니다 예를 들어, 꽃 유형이있는 데이터 집합이있는 경우 입력은 꽃잎 길이 일 수 있습니다 그리고 꽃잎 너비는 그리고 출력은 꽃의 종류가 될 것입니다 난초인지, 데이지인지 또는 다른 것 따라서이 경우 원하는 출력이 이미 알려져 있고 레이블이 알려져 있으며 예측 이 라벨 중 하나로 구성됩니다 반면에 비지도 학습을 통해 레이블이없는 데이터를 처리하므로 적절한 구조가 없습니다

여기서 우리는 많은 기능을 가질 것이고 알고리즘은 주어진 것을 탐색 할 것입니다 거의 안내없이 출력 레이블없이 의미있는 정보를 추출하려고 시도합니다 이러한 유형의 알고리즘의 예는 클러스터링입니다 비슷한 예의 클러스터로 데이터 세트 제가 언급 한 세 번째 유형 인 semi-supervised learning은 기본적으로 감독의 사례입니다

이론적으로이 목록의 일부가되어서는 안됩니다 그러나 그것은 실제로 자신의 범주에있을만큼 충분히 다릅니다 반지도 학습은 생성 된 일부 레이블이있을 수있는지도 학습입니다

특정 기능을 명확하게하지는 않습니다 semi-supervised learning 알고리즘의 예는 생성 된 autoencoders입니다 레이블은 실제로 수정되지 않은 입력입니다 이제이 모든 유형에는 공통점이 있습니다 이는 레이블이 있고 일부는 고정 된 데이터 세트를 경험한다는 사실입니다

그러나 그들은 하나에 액세스 할 수 있습니다 그러나 네 번째이자 마지막 단계 인 강화 학습에는 고정 된 데이터 세트가 없습니다 이러한 유형의 학습은 잘 알려져 있지 않으며 여전히 연구 분야입니다 그러나 기본 알고리즘은 이러한 알고리즘이 환경과 상호 작용한다는 것입니다 시스템과 경험 사이에 피드백 루프가 있습니다

예를 들어 알고리즘은 실행되는 환경에 대한 정보를 수신 한 다음 학습합니다 출력을 최대화 할 동작을 선택합니다 게임에서와 같이 컴퓨터가 화면을보고 게임에서 점수를 최대화하거나 게임이 가지고있는 다른 측정 항목을 극대화 할 수 있습니다 자, 이것들은 머신 러닝 알고리즘의 종류입니다… 그리고 한 가지만 더 언급하겠습니다

감독 또는 비지도 또는 강화 학습에 대한 공식적인 정의는 없습니다 그리고 하나 또는 다른 하나에 의해 사용되는 구조는 다음과 같이 결합되고 설계 될 수 있습니다 모든 유형의 응용 분야에 적합합니다 이제 모든 과제는 우리가 만들고 싶은 것을 아는 것입니다

그래 이 비디오를 즐기 셨으면 좋겠습니다 다음 비디오에서 see겠습니다

봉준호 감독 영화 [기생충]의 소름돋는 디테일과 해석

그래서 이것은 <Parasite> 영화의 리뷰입니다 우선, 비밀을 숨긴 이전에 보여 드린 비디오와 달리 이것은 내 생각을 반영합니다 이것은 내 의견 일뿐입니다 나는 이것이 정답이라고 제안하지는 않는다

이 비디오에는 <Parasite>의 결말을 포함하여 스포일러가 있습니다 각 캐릭터의 중요성을 고려하여 키택 가족과 박씨 가족으로 그룹화하겠습니다 4 토트넘 5 아스날

죄송합니다! 그것은 단지 쇄빙선이었습니다 시작하자 1

데칼코마니 이 영화의 원래 제목은 <데칼코마니>였습니다 4 명의 가족이 대칭 적으로 문제를 겪기 때문입니다 그러나 우리가 이미 알고 있듯이 영화의 최종 제목은 <Parasite>입니다 영화는 빈곤 가족을 주목 받았다 두 가족을 객관적으로보고 비교하기보다는 그 증거는 기우가 정원에서 낮잠을 쳐다 보는 장면이다 또는 기정이 박씨 부부에게 도청하는 장면

이 영화는 대부분 Ki-Taek의 가족이 박씨의 가족을 관찰하는 장면으로 구성되어 있습니다 물론, 다송과 다혜가 살짝 몰래 들어가는 장면이나 연교가 기정의 교훈을 멀리서 바라 보는 장면이있다 그러나 영화의 상반기 후에 캐릭터의 중요성은 완전히 바뀌 었습니다 어쨌든 관객은 영화를 키택 가족의 관점에서 본다 내가 궁금해했던 이 영화가 왜 김 가족의 관점에서 쓰여 졌는가? 대중에게 호소력이 있습니까? 장르 영화의 특징은? 감독의 정치적 견해? 나는 이것을 고려하여 이것이 이유가 될 수 있다고 생각했다

그리고 나는 부자 가족의 관점에서 이야기를 짜는 것이 훨씬 더 어려울 수 있다고 생각했습니다 이제 빈곤에 시달리는 가족 출신이라면 빈곤에서 벗어나는 것이 자연스럽게 목표가됩니다 그러나 부유 한 사람이 불행한 사람들에게 물러 설 이유를 찾기는 다소 어렵습니다 봉준호는 그의 이전 작품에서 입증 한 것처럼 현실과 실제 사건, 일상을 주제로 삼아 영화에 반영한다 부자는 다른 방법이 아니라 부자가되기를 원합니다

부자가 아니더라도 마찬가지입니다 이것은 생각으로 이어 지므로 이것이 Ki-Taek 가족의 전반적인 동기입니다 또한 이것이 영화가 Ki-Taek의 가족의 관점을 취하여 시청자를 계단의 맨 아래에 놓고 항상 맨 아래에서 바라본다는 결론을 내 렸습니다 그 후, 영화를 수직 및 수평으로 분석하기 시작했습니다 2

수직 및 수평 이 필름에는 선명한 세로 이미지가 있습니다 반 지하실 대 큰 저택 지하실 내의 최고점과 최저점 그들의 경제와 사회 계층을 나타냅니다 그러나 무엇보다도 계단이 가장 두드러집니다 Ki-Woo가 처음에 친구와 병에 부딪쳤을 때, 계단은 그가 계단의 맨 아래에 속해 있음을 상기시킵니다

계단을 오르는 것이 오르는 것보다 쉽습니다 영화에서 대비가 더 생생합니다 폭풍 동안 기택의 가족은 수많은 계단을 내려가 집으로 돌아갑니다 그러나 이러한 장면은 편집을 통해 간단히 표시됩니다 맨션으로가는 길은 매우 뻣뻣 해 보입니다

저택에 들어가더라도 박 대통령이 말했듯이,이 세상에는 많은 사람들이 그들과 같아서 쉽게 교체 할 수 있습니다 지하실에 갇힌 문광의 남편이나 기택처럼 계단을 오르는 것은 생존에 타협의 문제입니다 그들에게 계단은 뻗어있는 심연입니다 문광은 팔을 묶고 계단을 오르고 그러나 정숙의 발 차기에서 그녀는 망설임없이 계단을 쓰러 뜨렸다가 죽었다 이 영화에서 가장 이상한 점은 넘어지기가 쉽지만 캐릭터는 내려다보기를 거부한다는 것입니다

마치 비콘이베이스에 비추 지 않습니다 이것은 문광이 선반을 밀고있는 장면에서 암시된다 문광이 선반을 밀는 방식은 기괴하다 그녀는 그것을 여는 데 어려움을 겪고 나서 몸 전체를 사용하여 그것을 열었습니다 그러나 선반이 붙어있는 이유는 선반 아래에 강판이 있기 때문입니다

문광과 정숙이가 함께 열려고해도 선반이 1 인치 움직이지 않았다 그러나 일단 강판이 제거되면 즉시 열렸습니다 이 수평 운동을 수직 운동의 반대라고 해석했습니다 궁극적으로 나는 이것을 기생 관계의 반대 인 공생의 이미지로 보았다 그러나 기택의 가족은 지하실에 사는 부부와 공생 관계를 공유하지 않았다

그들 때문에 해고당한 윤 드라이버에 대해 이야기 할 때, 그는 "좋아요 건강하고 건강합니다"라고 말합니다 기정은 심지어 가족이 다른 사람들보다는 자신에 집중하도록 상기시켜 준다 호우 동안 그들은 자전거에 대한 도움을 요청한 사람을 무시합니다

사람이 아래를 내려다 보는 것보다 계속 찾고 계단을 오르는 것이 더 쉽습니다 물론 경제 위기와 같은 행동에 대한 논리적 이유는 항상있을 것입니다 그러나 결국 가난한 사람들은 서로 공존하지 못한다 이것은 가난한 사람들과 부자 사이에 훨씬 더 분명합니다 박의 가족은 지하실에 숨어있는 존재에 대해 몰랐다

그들은 심지어 가족 사진 옆에있는 지하실에서 남자의 초상을 걸고 그것이 다성의 자화상이라고 생각합니다 그들은 또한 지하실을 정신 분열증 구역으로 간주합니다 반면, 지하실에있는 사람은 박 씨의 사진을 수집하고 그 앞에서 '존중'을 반복합니다 이 두 장면 사이에는 뚜렷한 대조가 있습니다 그들은 커피 테이블 아래에 시간을 숨기는 사람들이있을 때조차도 눈치 채지 못할 것입니다

기택이 바닥에 누워 탈출하려고해도 체포되는 것에서 한 걸음 떨어져 있었음에도 불구하고 실제로 무슨 일이 일어나고 있는지 알기에는 공원이 너무 장님이었다 그들이 볼 수없는 것보다는 볼 수 없다고 말하는 것이 더 정확할 것입니다 3 라인 박 대통령은 문광은 선을 넘지 않는 것이 뛰어나며 기택은 국경을 딛고 있다고 말했다

운전 기사를 해고했을 때 그는 이렇게 말합니다 "청년이 성관계를 갖는 것은 당연합니다 그러나 그는 뒷좌석이 아니라 앞 좌석에 보관해야했다 " 보시다시피, 선은 영화 전체에서 직접 언급됩니다 또한 각 장면이 선의 이미지를 어떻게 묘사하는지 보는 것은 매우 흥미 롭습니다

두 개의 수직 클래스를 나누는 선이 있습니다 문광이 연교를 깨우는 장면에서 라인을 볼 수도 있습니다 (이것은 인터넷에서 바이러스로 변했습니다 ) 그러나 가장 눈에 띄는 것은 운전면에서 기택과 박씨 사이의 경계였다 이전 운전자에 대해 앞에서 언급했듯이 앞 좌석과 뒷좌석을 구분하는 선이 있습니다 시네마틱 라인 허 수선을 먼저 설명하겠습니다 상상의 선은 사람 A와 B의 핀 포인트를 꿀벌과 연결하는 곳입니다

영화에서 대화하는 동안 두 사람이 이야기 할 때 A와 B를 차례로 촬영합니다 여기서 중요한 것은 카메라가 상상의 선을 넘지 않아야한다는 것입니다 촬영할 때의 편리함이나 연속성이 아닙니다 그것은 누가 누구에 대한 청중의 혼란을 막는 것에 관한 것입니다 기본적으로 영화를 '감시'하는 것입니다

그들이 상상의 선을 가로 지르는 경우에는 예외가 있지만 미적 도전에 한합니다 박근혜는 커피로 가득 찬 컵을 들고 기택의 운전을 암시 적으로 테스트했다 그가 Ki-Taek과 대화하는 장면에서 카메라는 때때로 가상의 선을 넘어갑니다 카메라가 Ki-Taek을 보여 주면 여기 있고, Mr Park를 보여줄 때 여기 있습니다

마치 같은 공간에 있지 않은 것처럼 보입니다 마치 서로 다른 두 세계에 존재하는 것처럼 그러나 카메라가 뒤에서 Ki-Taek을 촬영하고 박씨를 향해 한 번 움직 인 장면이 있습니다 기택이 박 대통령에게 아내를 사랑하는지 물었을 때였 다 그 장면에서, 나는 Ki-Taek이 두 아버지이기 때문에 박 씨와 친밀한 느낌을 느꼈다고 믿는다

그러나 박 대통령의 표정에서 알 수 있듯이 이것은 불편하다 국경이 침범 된 느낌이 들기 때문입니다 박근혜는 마지 못해 미소를 지으며 대화를 나눈다 그러나이 장면을 끝내는 마지막 줄은 "Eyes front"였습니다 이 짧은 문장에서 그들은 남은 가능성을 제거합니다

앞 좌석과 뒷 좌석 사이의 선을 넘어 우리는 또한 두 수업 사이, 또는 Ki-Taek과 Mr Park 사이의 노선을 말할 수 있습니다 그리고 깊이 아래로 둘 사이의 상상의 선을 부정합니다 한편, Ki-Taek이 연교를 데리러가는 장면에서 카메라는 앞 좌석에서 둘을 함께 촬영합니다

글쎄요, 연교는 처음부터 절대 경계를 그리는 사람이 아닙니다 문광은 잠깐 줄을 서서 깨우거나 연교가 직접 줄을 서서 사우나 실로 들어간다 김 가족을 집으로 데려 간 사람도 연교였습니다 그러나 연교조차도 결국 차의 창을 연다 그녀가 박씨의 냄새에 대해 들었다 4

냄새 감독은 부자와 빈자의 길은 거의 오지 않는다고 말했다 그러나 값 비싼 과외라고 불리는 매우 한국 매체에서는 두 경로를 연결합니다 이 두 계급이 만나고 감히 선을 넘어가는 가까운 거리에서 '냄새'는 중요한 요소가됩니다 박 대통령이 선을 강조 할 때, 결국 기택은 눈을 앞으로 내밀어달라고한다 그리고 그는 냄새에 대한 그의 근본적인 생각을 언급하며, 모든 문제는 뒤엉킨 다

Ki-Taek이 취했을 때마다 그는 공원이 어떻게 부자가되었는지를 칭찬합니다 그러나 그의 '냄새'에 대한 이야기를들은 후 그의 감정은 빠르게 변한다 박 씨는 냄새에 대해 중얼 거리는 동안 소파에서 그 냄새 나는 속옷을 찾아서 이중성을 보여준다 공원 가족조차도 어디에서나 깨진 영어를 사용합니다 값싼 허리 국수에 비싼 허리 끝을 넣습니다

그들은 김의 가족과 다소 비슷하지만, 선을 그리며 냄새에 대해 이야기합니다 박택은 사람들 사이의 최소한의 예의를 깨뜨리는 것을 보자 황폐 해졌다 Ki-Taek은 공존 대신 기생충이 된 것에 대해 회의론을 느꼈습니다 기택이 눈을 가리고 가장 좋은 계획은 전혀 계획이 없다고 말하는 방식 호우 덕분에 미세 먼지가 없다고 말하는 부유 한 사람들에 비해 모호합니다 결국, Ki-Taek은 미국 원주민 모자를 쓰고 '부인에 대한 사랑'을 언급하면서 박 대통령과 동정을 시도합니다

그러나 박 대통령은 단지 수직적 관계를 공감합니다 그는 이것이 단지 작업의 연장 일 뿐이라고 말한다 기택의 딸이 죽어가는 동안 차 열쇠를 요구하면서 박 씨는 코를 가리고 냄새를 시각화하고 모두 기택의 과격한 행동으로 이어진다 연교는 처음에는 기택의 냄새를 신경 쓰지 않는다 그러나 박 씨의 냄새에 대해 '청각'을 한 후 그녀는 그것에 대해 의식하게된다

기정은 폭우를 겪고 몸으로 하수를 막았지만 냄새 나는 것에 대해 불평 한 유일한 사람은 박 씨의 키-티크였습니다 말하자면, 연교는 '들려서 뭔가 냄새를 맡는'사람입니다 보시다시피, 영화 전체에서 냄새가 반복적으로 언급되고 간접적으로 보입니다 마치 마치 그는 악취를 듣고 보는 다른 사람들에게 메시지를 보내고 있습니다 관중

이를 나타 내기 위해 모든 캐릭터가 포스터에서 눈을 가리고 있습니다 '나눔에 따라 행복이 커집니다' 그러나 Ki-Woo가 깨어 난 후 그는 말합니다 '의사처럼 보이지 않는 의사, 형사처럼 보이지 않는 형사' 5 기생충 영화가 시작되면 양말이 빨래 대에 걸려 있고 창문을 통해 땅을 볼 수 있습니다

그런 다음 카메라가 아래로 이동하여 Ki-Woo가 표시됩니다 지하에도 불구하고 지상에 있다고 믿고 싶은 곳입니다 그 후 그는 다른 사람의 Wi-Fi에서 '기생충'을 가진 사람으로 묘사됩니다 그는이 집의 가장 높은 곳인 화장실이있는 계단을 올라갑니다 하지만 그는 몸을 웅크 리고 요약하자면, 그는 기생충이되기 위해 계단을 올라가지 만 그렇게하기 위해 몸을 웅크 리고 있습니다

이 이미지는 영화 전체에서 확대됩니다 한편, 마지막 장면에서, Ki-Woo는 조경석을 떨어 뜨리고 재산을 얻으려고합니다 기우는 상상조차도 아버지가 계단을 오르는 것이 아니라 계단을 오르는 것을 꿈꾼다 창문 너머로 떨어지는 눈이 다가오는 봄을 상징합니까? 아니면 또 오는 겨울? 6 마무리 봉준호 감독은이 작품에서 이전 작품과는 다른 비관적 인 관점을 보여 주었다

그는 인터뷰에서 언급 한 것처럼 세상이 더 나아지지 않을까 두려워하고 있습니다 그는 먼저 영화에서 먹거나 먹거나 심지어 먹거나 숟가락으로 먹이를 먹는 인본주의를 묘사했다 (<호스트>) 나는 그에게 13 년 후 그 영화를 발표함으로써 세상이 더 나아질 것이라고 믿지 않는 이유를 물어보고 싶다 기우의 피가 비싼 와인과 절대 섞이지 않는 장면처럼 기택은 지하실로 돌아 가면서 박근혜의 사진 앞에서 사과하면서 bs 다

이 영화는 박 대통령이 의도적으로 의미있는 것이 아니라고 말하려는 것 같습니다 그러나 연결이 끊긴 사회가 문제를 일으켰습니다 나는 감독에게 그가 어떻게 생각하는지 물어보고 싶었다 물론 그는 영화를 통해 계속 연설 할 것입니다 이 기생충 분쟁을 확장 한 결과 영화에서 직접 말하는 아메리카 원주민의 역사입니다

그리고 공생 할 수없는 우리 사회는 여전히 진행 중입니다 나는 시원하고 적절한 것을 말 함으로써이 비디오를 마무리 할 수 ​​있습니다 '우리가 공존 할 수 있도록 아래를 내려다 보도록하자 그러나 제 생각에 현실은 그렇게 예쁘지 않습니다 평생 동안 노동자들을 해방시키기 위해 싸운 조지 오웰도 그는 노동자들의 '냄새'를 견디는 데 어려움을 겪었다 고 고백했다

그는 교육과 이데올로기 문제를 해결하기 위해 엄청난 노력만으로도이 문제를 극복 할 수있을 것이라고 주장했다 그것은 우리 아래를 내려다 보는 것만으로는 충분하지 않다는 것을 의미합니다 제 생각에는이 영화가 우리에게 준 메시지에 대한 결정적인 답을 찾을 수 없다는 것입니다 교육과 경험이 부족한 것 같습니다 다른 사람의 말이 내게 호소되지 않는다면 이것을 이해하려면 더 많은 시간이 필요합니다 물론 나는 비판적 사고의 한계를 언급했다

하지만 영화 팬들에게 큰 기쁨이라고 생각합니다 존중해야 할 것 영화 감독이 장르의 장점을 극대화 할 수 있도록 그의 의견을 선포하고 해석의 여지를 남겨둔다 마지막으로 Bong 감독이 언급 한 Claude Chabrol의 <La Cérémonie>를 추천하고 싶습니다 <창화> 이창동 감독 (유사 주제) 조지 오웰 (George Orwell)의 <위건 부두로가는 길>은 앞서 이야기 한 바 있습니다 이것들은이 영화와 비교하기에 좋은 영화입니다 그게 오늘 내가 가진 전부입니다

Young-Min에 의해 편집 및 내레이션 추가 질문에 대한 설명과 강조 표시된 설명을 확인하십시오 다음 비디오에서 ll겠습니다

Peace Parks Foundation tackles rhino poaching with Azure Machine Learning

[음악] >> Hluhluwe iMfolozi Park는 특별한 공원입니다 >> 코뿔소의 발상지로 알려져 있습니다 여기에서 대부분의 흰 코뿔소 개체군이 실제로 생겨납니다

최근 몇 년 동안 조직 범죄 보전과 밀렵 코뿔소에 침투했습니다 작년에 769 명이 사망했습니다 하루에 두 마리가 넘습니다 피스 파크 재단은 공동의 목표를 향해 함께 노력합니다 남아프리카 내 야생 동물 범죄와 인신 매매 퇴치 >> 우리를 지원할 수있는 기술이 없다면 코뿔소가 쇠퇴 할 것이라고 약속합니다

공원에는 96,000 헥타르가 있습니다 정확하게 식별 할 수 없습니다 그들이 사용할 사람들에게 어제라도 우리는 코뿔소 두 개를 잃어 버렸습니다 그것은 문제입니다 내 마음에서 코뿔소 밀렵과 싸우고 있는지 확인해야합니다 코뿔소를 만지면 날 만져 [음악] >> 레인저는 코뿔소를 구하고 싶어 그들은 기술자가되고 싶지 않습니다 그리고 여기서 Azure와 클라우드를 살펴보기 시작했습니다

>> 우리가 찾고있는 것 의심스러운 인간 활동을 감지하는 것입니다 모션 활성화 카메라 트랩으로 촬영 한 이미지 >> 그들은 단지 카메라입니다 무언가가 지나가 자마자 사진을 찍습니다 알다시피 동물이 지나서 움직여 바람이 불고 있습니다 정말 원하지 않는 사진을 많이 찍고 있지만 당신이 정말로 누군가를 붙잡고 싶다면 각각을 봐야합니다 그 문제는 분명히 당신이 매일 너무 많은 사진을 처리 할 수 ​​있습니다 우리가 할 수있는 것 이 시스템은이 사진이 기계 학습 모델로만 전송 사람과 차량 관련 사진

>> Nerve Center에는 반응 장치 팀이 있습니다 반응 단위 팀은 그 코뿔소를 구할 수 있도록 >> Azure 이전에는 실제로 확장 할 수 없었습니다 Microsoft는 오픈 소스에 대한 엄청난 기여자입니다 Azure를 사용하면 Linux 운영 체제를 쉽게 사용할 수 있습니다 모든 것은 Azure Functions 및 Postgres 데이터베이스에서 실행됩니다

>> 우리는 Keras 기반 프레임 워크를 사용하고 있습니다 TensorFlow, SSD 신경망, 아키텍처, FasterRCNN, YOLO v3 및 RetinaNet 우리는 GPU와 함께 Azure Machine Learning Compute를 사용했습니다 확장 성이 뛰어납니다 이 시나리오에서는 모델이 우리에게 준 대기 시간은 완벽했습니다 >> 데이터가 어디에 있는지 아는 것이 중요합니다

이제 남아프리카의 데이터 센터에 넣을 수 있습니다 마이크로 소프트, 그들은 정말 기여하고 있습니다 원인에 정말 큰 차이를 만드는 남아프리카 우리의 유산,이 동물들입니다 그들은 수백 년 동안 여기에 있었고 수백 년 우리는 그렇게 유지하고 싶습니다

[음악]

SAS Demo | Deep Learning with Python (DLPy) and SAS Viya for Computer Vision

안녕하세요, 저는 Susan Kahler이고 인공 지능과 기계 학습에 대한 책임이 있습니다 SAS에서

이 비디오에서는 SAS Deep Learning Python API 또는 DLPy에 대해 간략하게 설명합니다 이 시리즈는 DLPy가 지원하는 최신 컴퓨터 비전 모델에 중점을 둘 것입니다 DLPy를 통해 Python에 익숙한 데이터 과학자는 딥 러닝을 활용할 수 있습니다 SAS Viya의 컴퓨터 비전 기능 설명의 링크를 사용하여 주제로 직접 이동하십시오

첫 번째 섹션에서는 DLPy와 함께 Functional API를 활용하여 빌드하는 방법을 살펴 봅니다 ResNet 모델을 포함한 기능 추출을위한 복잡한 모델 다음으로 축구를 추적하기 위해 U-Net 모델을 사용하여 이미지 세분화를 수행하는 방법을 볼 수 있습니다 선수 그런 다음 DLPY가 VGG16을 백본으로 사용하여 Faster R-CNN을 사용하여 객체 감지를 지원하는 방법을 살펴 보겠습니다 회로망

스위칭 기어, DLPy가 어떻게 MobileNet 및 ShuffleNet을 지원하고 성능을 비교하는지 살펴 보겠습니다 ResNet50 모델이있는 모델 중 하나입니다 마지막으로 훈련과 추론 모두에서 멀티 태스킹 학습이 수행되는 방법을 살펴 보겠습니다 제품 권장 사항에 대해서는 소매 도메인에서 추론을 위해 Python 용 이벤트 스트림 처리 패키지 인 SAS ESPPy를 사용합니다 DLPy에는 Python 3 이상 및 SAS Viya 34가 필요합니다

또한 Analytics 전송을위한 SAS 스크립팅 래퍼 또는 SWAT 패키지가 필요합니다 DLPy는 python-dlpy 디렉토리의 SAS 소프트웨어 용 GitHub에서 사용할 수 있습니다 이 비디오에 실린 Jupyter 노트북도 해당 위치에 있습니다 DLPy의 최신 컴퓨터 비전 기능에 대해 배우고 즐기시기 바랍니다 스스로를 위해

안녕하세요, 저는 SAS의 데이터 과학자 인 Wenyu이며 딥 러닝과 컴퓨터에 중점을 둡니다 비전 API 이 비디오에서는 고급 Python API, Python을 사용한 SAS Deep Learning 또는 (DLPy) 이 비디오의 목적은 SAS에서 기능적 API를 활용하는 방법을 보여주는 것입니다 복잡한 모델을 만들기위한 DLPy 보다 유연한 방법을 제공하기 때문에 Functional API에 중점을두고 있습니다

Keras Functional API와 매우 유사한 복잡한 모델을 구현하십시오 Sequential API는 공유 모델을 만들 수 없다는 점에서 제한적입니다 레이어 또는 여러 입력 또는 출력이 있습니다 입력 및 출력이 여러 개인 모델이 Functional API를 사용하는 좋은 예입니다 간단한 6 단계로 SAS DLPy를 사용하여 모델을 생성 해 봅시다

텐서를 반환하는 Input ()에 의해 두 개의 텐서 (회색조 이미지와 RGB 이미지)를 정의합니다 목적 그런 다음 그레이 스케일 이미지가 두 개의 컨볼 루션 브랜치에 공급됩니다 이 모델에는 또 다른 입력 컬러 이미지가 있습니다 그런 다음 이미지의 특징을 추출하기 위해 컨벌루션 연산이 사용됩니다

세 개의 텐서가 연결되고 OutputLayer_1에서 분류를 계산하는 데 사용됩니다 손실 또한 모델은 OutputLayer_2를 통해 감독됩니다 그런 다음 정의 된 입력 텐서 및 출력 텐서를 Model () 함수에 전달합니다 마지막으로 compile ()을 호출하여 네트워크를 컴파일합니다

여기서는 모델의 요약과 네트워크 그래프를 보여줍니다 레이어 연결 이 다음 모델에서는 ResNet 유사 모델을 작성하는 방법을 고려하십시오 이 작업에서는 돌고래 또는 기린을 포함하는지 여부에 따라 이미지를 분류합니다 먼저 각각의 직후에 배치 정규화를 채택하는 회선 블록을 정의합니다

회선 다음으로, 나머지 블록 내에서 바로 가기 연결을 사용하여 입력 기능을 연결합니다 컨볼 루션의 출력에 4 개의 누적 잔차 블록이 있으며 네트워크는 전체 평균 풀링으로 끝납니다 다음은 4 개의 잔차 블록이 순차적으로 누적되고 전체 평균이 표시되는 모델의 그래프입니다 풀링

모델이 빌드되면 ImageTable API에 의해 데이터가로드되고 모델을 학습 할 수 있습니다 순차적 인 모델처럼 SAS DLPy API를 사용하면 사전 훈련 된 여러 출력 모델을보다 쉽게 ​​정의 할 수 있습니다 기능 추출기로서의 백본 다음 경우에는 가중치와 함께 ResNet18 모델을로드합니다 다음으로로드 된 모델을 기능 모델로 변환하고 원래 작업 계층을 삭제합니다 이를 위해 to_functional_model ()을 사용하고 stop_layers를 지정합니다

그래프 이동을 중지하는 레이어 즉, stop_layers와 stop_layers가 뒤에 오는 모든 레이어가 제거됩니다 기능적 모델 그런 다음 OutputLayer와 Keypoints Layer라는 두 가지 새로운 작업 계층을 추가합니다 그래프 하단에서 새로 추가 된 두 개의 레이어를 볼 수 있습니다

이 비디오에서는 DLPy를 사용하여 여러 입력 및 출력을 가진 모델을 만든 다음 ResNet과 유사한 모델이며 마지막으로 순차 모델을 기능 모델로 변환했습니다 시청 해 주셔서 감사합니다 안녕하세요, 저는 Maggie Du이고 SAS의 기계 학습 개발자이며 딥 러닝 및 컴퓨터 비전 API 이 비디오에서는 DLPy라고하는 SAS 고급 딥 러닝 Python API를 사용하여 게임에서 축구 선수를 추적하는 이미지 분할 문제를 해결하는 방법을 보여줍니다 각 플레이어에 대한 통계를 제공합니다

코치에 의한 경기 후 분석과 같은 여러 목적으로 통계를 사용할 수 있습니다 팬들에게 증강 게임 시청 경험을 제공합니다 이미지 분할은 이미지를 의미 적으로 의미있는 부분으로 분할하려고 시도합니다 각 부분을 사전 정의 된 레이블 중 하나로 분류합니다 따라서 픽셀 수준에서 이미지를 이해하는 새로운 방법입니다

예를 들어이 이미지에는 개, 고양이 및 배경의 세 가지 클래스가 있습니다 따라서 우리는 각 픽셀에 어떤 클래스가 속하는지를 나타내는 특정 색상을 부여합니다 전반적으로 각 객체의 정확한 경계를 얻을 수 있습니다 시작하자 필요한 모듈을로드 한 후 데이터 세트를로드하려고합니다

우리는 축구 경기의 이미지를 예로 들어 170 이미지가 포함 된 모두 256 * 256으로 조정되었습니다 다음은 원시 이미지와 해당 주석의 시각화입니다 이미지에는 축구 선수, 축구 공 및 배경의 세 가지 다른 객체가 있습니다 따라서 주석 이미지에는 세 가지 색상이 포함됩니다 그런 다음 데이터 세트를 학습 데이터, 유효성 검사 데이터 및 테스트 데이터로 무작위로 나눕니다

다음으로 SAS DLPy를 사용하여 U-Net 모델을 구축하려고합니다 이 대칭 모델은 인코딩과 디코딩의 두 부분으로 볼 수 있습니다 기능 크기가 가장 작은 레이어 인 병목 현상 레이어로 분할됩니다 인코딩 부분에서 풀링 레이어를 사용하여 다운 샘플링을 수행하여 기능을 추출합니다 디코딩에서 입력 컨볼 루션 레이어를 사용하여 입력 이미지에서 업 샘플링 학습 된 정보를 재구성하는 부분

또한 텐서를 직접 결합하는 4 개의 연결 레이어를 모델에 추가했습니다 두 개의 다른 레이어에서 이전의 특정 정보를 쉽게 상속받을 수 있습니다 층 SAS DLPy는 사전 정의 된 U-Net 모델을로드하는 기능을 제공합니다 인코딩을위한 4 개의 풀링 계층 및 디코딩을위한 4 개의 전치 컨볼 루션 계층

축구 경기 데이터 모델에는 3 천 4 백만 개가 넘는 매개 변수가 포함되어 있습니다 SAS DLPy API를 사용하여 계층별로 고유 한 U-Net 모델을 만들 수도 있습니다 병목 현상 레이어의 크기 및 컨볼 루션 수와 같은 기능을 쉽게 결정할 수 있습니다 두 풀링 레이어 사이에 원하는 레이어 아키텍처가 구축되면 교육 데이터를 사용하여 모델을 교육하고 유효성을 검사 할 수 있습니다 검증 데이터 사용

교육이 완료된 후 테스트 데이터를 사용하여 모델의 성능을 테스트 할 수 있습니다 새로운 이미지를 수행합니다 스코어링 메트릭을 확인하거나 예측을 직접 시각화 할 수 있습니다 이 예에서 잘못된 분류 비율은 056 %로 65,536 픽셀 중 약 360 픽셀 만 잘못 레이블이 지정됩니다 두 번째 방법은 간단합니다

여기에 원시 이미지, 주석 및 예측을 나란히 놓고 모델의 성능을 확인하기 위해 모든 것을 쉽게 비교할 수 있습니다 첫 번째 열에는 원시 이미지가 표시되고 가운데 열에는 실제 이미지가 표시됩니다 세 번째 열의 이미지는 예측에서 얻습니다 마지막 두 열 사이에는 약간의 차이 만 있습니다 이는 U-Net 모델을 의미합니다

이 데이터에 매우 효과적이었습니다 이 비디오에서는 SAS DLPy를 사용하여 이미지 세분화 모델을 신속하게 구축하고 이 모델에 대한 교육 및 스코어링 방법 SAS DLPy에는 훨씬 더 많은 기능이 포함되어 있으므로 향후 사용 사례 시청 해 주셔서 감사합니다! 안녕하세요, 제 이름은 Xindian Long이고 컴퓨터 비전을위한 딥 러닝 알고리즘을 개발합니다 YOLO, Faster R-CNN, Mask R-CNN 등 SAS Deep Learning for Python (또는 DLPy)은 고급 Python과 함께 제공됩니다 사용자가 이러한 기능을 사용할 수 있도록하는 API

현재 그림 1과 같이 주로 물체 감지 방법에는 두 가지 유형이 있습니다 첫 번째 방법은 단일 단계 방법입니다 이 유형의 방법에서 경계 상자 지역화 및 객체 분류는 하나에서 수행됩니다 단계 YOLO, SSD와 같은 알고리즘이이 범주에 속합니다

두 번째 방법은 다단계 방법입니다 여기에는 두 가지 단계가 있습니다 첫 번째 단계에서 지역 제안 네트워크는 관심있는 직사각형 지역을 찾는 것입니다 객체를 포함 할 가능성이 높은 (또는 ROI) 두 번째 단계에서는 추가 회귀 및 분류를 수행하여 실제로 해당 지역에 개체가 있으며, 그렇다면 범주와 정확한 위치 그리고 모양입니다 Faster R-CNN, R-FCN과 같은 알고리즘이이 범주에 속합니다

첫 번째 범주의 알고리즘은 일반적으로 두 번째 범주의 알고리즘보다 빠릅니다 예를 들어 실시간 성능이 필요한 응용 프로그램이있는 경우 YOLO는 아마도 좋은 선택 Faster R-CNN과 같은 두 번째 범주의 알고리즘은 일반적으로 더 정확합니다 “Faster R-CNN”이라는 이름이 언급 된 다른 알고리즘보다 더 빠르게 실행되는 것은 아닙니다 이리

R-CNN 및 Fast R-CNN 알고리즘보다 이전 버전보다 훨씬 빠릅니다 그림 2는 앵커 박스의 중요한 개념을 보여줍니다 그들은 객체에 사용됩니다 YOLO와 Faster R-CNN의 탐지 알고리즘 이 개념을 이해하는 것이 매우 중요합니다 앵커 상자는 이미지의 여러 위치에있는 추상 상자이며 일반적으로 그리드 패턴

사전 정의 된 모양으로 사전 설정된 개수의 경계 상자를 예측하는 데 사용됩니다 각 위치에서 앵커 상자는 예측 된 위치의 초기 값으로 사용됩니다 모양에 따라 개체 크기 / 모양에 대한 사전 지식이 포함되어 있습니다 그림 2의 이미지에서이 한 위치에 많은 앵커 박스가 있음을 알 수 있습니다 상자마다 모양이 다른 물체를 감지합니다

예를 들어이 이미지에서 빨간색 앵커 상자는 사람을 감지하는 상자입니다 물론 최종적으로 감지 된 물체 모양은 원래 물체와 약간 다를 수 있습니다 알고리즘이 최적화하기 때문에 앵커 박스의 모양 그림 3은 Faster R-CNN 네트워크 아키텍처를 보여줍니다 DLPy를 사용하면 계층별로 구축 할 필요가 없습니다 알고리즘 이해를 돕기 위해 그것에 대해 이야기하고 있습니다

그것의 첫 번째 부분은 백본 네트워크입니다 백본 네트워크에는 일반적으로 많은 회선 레이어와 풀링 레이어가 포함되어 있습니다 입력 이미지에서 기능 맵을 추출합니다 널리 사용되는 백본 네트워크에는 VGG16, ShuffleNet 또는 ResNet 등이 있습니다 응용 프로그램 및 요구 사항에 따라 선택할 수 있습니다

지역 제안 네트워크는 백본 네트워크를 따릅니다 지역 제안 네트워크는 많은 제안 된 관심 지역을 출력합니다 개체를 포함 할 가능성이 높은 창입니다 지역 제안 네트워크는 지역 이전에 두 개의 특수한 컨볼 루션 레이어로 구성됩니다 제안서 계층

지역 제안서 레이어에 대해 사용자가 지정해야하는 중요한 매개 변수는 앵커 박스는 제안 될 수있는 형태의 범위를 대략 결정합니다 그 후에는 ROI 풀링 레이어입니다 관심 영역을 백본 네트워크 출력 인 페더 맵에 매핑합니다 창 내부의 픽셀 값을 추출하고 다른 크기의 하위 이미지를 형성합니다 ROI 풀링 레이어는 모든 하위 이미지의 크기를 같은 크기로 조정합니다

이것은 기능 맵의 모든 채널에 대해 수행됩니다 따라서 각 ROI마다 3D 데이터 배열을 얻습니다이를 텐서라고합니다 ROI 풀링 레이어의 출력에는 제안 된 각 영역마다 하나씩 많은 텐서가 포함됩니다 관심의

네트워크의 마지막 부분은 각 텐서와 ROI에서 독립적으로 작동하며 하나를 만듭니다 각 ROI에 대한 결정 세트 먼저, 두 개의 완전 연결된 레이어가 있으며 분류간에 공유됩니다 그리고 경계 상자 회귀 그런 다음 분류 헤더와 경계 상자 회귀 헤더가 있으며 각 헤더 앞에 하나의 완전히 연결된 레이어로 각각

우리 시스템에서 분류 헤더와 바운딩 박스 회귀 헤더는 모두 FastRCNN 계층에서 구현됩니다 빠른 R-CNN 네트워크 아키텍처에 대한 간략한 소개와 알고리즘의 방법 공장 이제 노트북을 볼 수 있습니다 먼저 CAS 서버에 연결합니다 조치 세트를로드하십시오

그리고 CAS 라이브러리를 빌드하십시오 그런 다음 DLPy 함수를 호출하여 앞에서 설명한 모델 아키텍처를 빌드해야합니다 Faster_RCNN 그런 다음 데이터 세트를로드하고 훈련 세트와 데이터 세트로 분할합니다 여기서 데이터 셋과 라벨을 그래픽으로 시각화하고 이미지와 경계를 볼 수 있습니다 상자 및 레이블

네트워크 교육을 위해 사전 훈련 된 가중치를로드하고 대상 열을 정의한 다음 가중치를 계속 최적화하려면 fit 함수를 호출하십시오 그런 다음 predict 함수를 호출하여 객체 위치와 범주를 예측할 수 있습니다 마지막으로 탐지 결과를 시각화 할 수 있습니다 이미지에서 감지 된 개체 주위에 상자가 그려져 있음을 알 수 있습니다 객체 카테고리 자신감뿐만 아니라 보여줍니다

이미지에서 감지 된 양을보십시오 이것이 데모의 끝입니다 DLPy와이 예제를 사용해보십시오 시청 해 주셔서 감사합니다! 안녕하세요, Guixian Lin입니다 저는 SAS의 컴퓨터 비전 딥 러닝 개발자입니다

여기에 DLPy로 알려진 SAS 고급 딥 러닝 Python API를 사용하여 가벼우면서도 강력한 컨볼 루션 뉴럴 네트워크를 쉽게 구축하고 훈련 할 수 있습니다 이미지 분류 문제에 대한 (또는 CNN) 이 예에서는 의류를 분류합니다 VGG16 및 ResNet50과 같은 인기있는 CNN은 이미지 분류에 널리 사용되었습니다 뛰어난 정확성을위한 작업 그러나 자원이 제한된 모바일 및 에지 장치의 경우 이러한 CNN은 종종 너무 유용하게 큰

얼굴 인식 및 자율 주행 차와 같은 실시간 애플리케이션에는 충분히 빠르지 않습니다 다음으로 세 가지 효율적인 CNN 인 MobilenetV1, ShufflenetV1 및 MobileNetV2를 소개합니다 이 인기 CNN보다 훨씬 작지만 정확도는 비슷합니다 CNN의 핵심 구성 요소는 컨볼 루션 레이어라는 것을 알고 있습니다 효율적인 MobileNet 및 ShuffleNet의 기본 아이디어는 표준 컨볼 루션을 대체하는 것입니다

가벼운 컨볼 루션 그림 21은 표준 컨벌루션과 깊이 분리형의 차이점을 보여줍니다 깊이 컨벌루션과 포인트 컨벌루션으로 구성된 컨벌루션 맨 윗줄에서 각 블록은 컨벌루션 필터를 나타내며 총 c2 필터가 있습니다

각 컨볼 루션 필터는 공간 정보를 필터링하고 채널 정보를 결합합니다 한 번의 단계로 입력 기능 이를 위해서는 각 컨볼 루션 필터의 깊이가 입력 피처의 깊이와 일치해야합니다 여기서 깊이는 c1입니다 레이어가 깊어 질수록 피쳐 맵의 깊이가 더 커지는 경우가 종종 있습니다

이러한 인기있는 CNN이 매우 큰 이유입니다 두 번째 행은 깊이 컨벌루션이 공간 정보를 채널별로 필터링 함을 보여줍니다 즉, 각 깊이 방향 컨볼 루션의 깊이는 레이어의 깊이에 관계없이 항상 1입니다 입니다 깊이 컨볼 루션은 입력 채널 만 필터링하므로 출력을 결합해야합니다

유용한 기능을 생성하는 기능 이것은 커널과의 표준 컨볼 루션 인 포인트 컨벌루션으로 수행 할 수 있습니다 1 회 1 회 표준 컨벌루션을 깊이 컨벌루션으로 교체 한 다음 점별 컨볼 루션에서 유사한 방식으로 피쳐와 패턴을 추출 할 수 있지만 모델 크기는 극적으로 감소했습니다 그림 22는 그룹 컨볼 루션을 설명합니다

채널을 여러 그룹으로 나누고 각각의 표준 컨볼 루션을 적용합니다 그룹 예를 들어 g 개의 그룹이있는 경우 모델 크기를 1 / g의 차수로 줄일 수 있습니다 그림 23은 MobileNetV1, ResNet50, ShuffleNetV1 및 MobileNetV2의 빌딩 블록을 보여줍니다

MobileNetV1의 경우 아키텍처는 VGG와 유사합니다 VGG의 표준 컨벌루션을 경량 깊이 컨볼 루션으로 대체합니다 포인트 컨벌루션이 뒤 따른다 ResNet은 종종 ResNet 블록으로 인해 VGG보다 성능이 우수하기 때문에 ShuffleNetV1 MobileNetV2는이 아이디어를 빌 렸습니다 둘 다 ResNet 블록의 표준 컨벌루션을 깊이 컨벌루션으로 대체하여 모델 크기

ShuffleNetV1은 포인트 컨벌루션을 그룹 컨볼 루션으로 대체하여 모델 크기 이제 경량 컨볼 루션이 더 작은 모델을 빌드하는 데 유용하다는 것을 이해합니다 및 ShuffleNet 다음으로 의류 소매 제품 데이터에 대한 성능을 보여 드리겠습니다 먼저 데이터 세트를로드하고 일부 이미지를 표시합니다

여기에는 6 개의 수업이 있으며 약 2,100 개의 이미지가 있습니다 다음으로, 우리는 훈련과 평가를 위해 무작위로 데이터를 훈련과 테스트로 나누었습니다 다른 CNN SAS DLPy는 다양한 사전 구축 네트워크 아키텍처를 제공합니다 매우 효과적입니다

여기서는 CNN을 구축하는 데 사용할 것입니다 MobileNetV1 아키텍처의 경우 다음과 같은 기본 매개 변수를 지정합니다 클래스 수 입력 이미지를 정규화하기위한 오프셋 및 스케일로 분류 될 수있다 또한 임의 뒤집기와 자르기를 사용하여 입력 이미지를 보강합니다 MobileNetV1 모델에는 축소 매개 변수 인 alpha가있어 출력 채널 수 옵티 마이저를 설정 한 후 모델을 학습 할 준비가되었습니다

훈련 로그는 많은 유용한 정보를 알려줍니다 여기에서 모델 매개 변수의 수가 8 백만임을 알 수 있습니다 대상에는 6 개의 클래스가 있습니다 훈련 손실과 오류로 반복 기록을 그릴 수 있습니다

16 오류 후 훈련 오류가 감소하고 수렴 함을 보여줍니다 최종 교육 오류는 약 54 %입니다 다음으로 테스트 데이터에서 모델 성능을 평가합니다 MobileNetV1 모델의 오류율은 5

3 %입니다 좋아요! 올바른 예측과 잘못된 예측을 통해 모델을 확인함으로써, 모델이 패턴을 배우고 합리적인 예측을한다는 것을 알 수 있습니다 다음으로 비슷한 단계를 따라 다른 CNN (ShuffleNetV1, MobileNetV2, 및 ResNet50 자세한 내용은 노트북을 참조하십시오 이 모델의 테스트 오류는 다음과 같이 요약됩니다

탁자 이 3 가지 경량 모델은 일반 모델보다 매개 변수가 훨씬 적습니다 ResNet50은이 소매 데이터의 정확성을 향상시킵니다 이 비디오에서 SAS DLPy를 사용하면 이러한 작은 크기를 빠르게 구축하고 훈련 할 수 있습니다 그러나 효율적인 CNN

앞으로의 작업에 이러한 모델을 적용 해 볼 수 있기를 바랍니다 시청 해 주셔서 감사합니다! 안녕하세요 제 이름은 웨인 톰슨입니다 저는 SAS의 데이터 과학자이며 딥 러닝과 함께 일할 수있는 특권이 있습니다 R & D 팀 컴퓨터 용 Python 및 DLPy 및 SAS Viya를 사용한 딥 러닝을위한 비디오 시리즈입니다

시력 이 특정 비디오에서는 패션에 태그를 지정하기 위해 멀티 태스킹 딥 러닝 모델을 훈련하고 싶습니다 품목 이제 기계 학습에서 종종 이미지를 가져 와서 레이블을 지정하고 단일 이미지를 만듭니다 옷의 종류를 분류하는 것과 같이지도 학습을 통해 하나의 작업을 분류합니다 드레스인가요? 티셔츠인가요? 벨트인가요? 그리고 색상과 같은 다른 의미 속성이 있고 입력 데이터에 레이블을 지정하면 색상을 분류하기 위해 회선 신경망과 같은 다른 것을 훈련하십시오

종종 고려해야 할 장점과 장점 중 하나는 단일 모델을 훈련시키는 것입니다 이 두 가지 과제를 동시에 동시에 배우는 것입니다 이를 유용한 정보를 활용하는 패러다임 인 멀티 태스킹 학습이라고합니다 전체적인 일반화를 향상시키기 위해 여러 관련 작업에서 즉, 모델이 더 잘 맞는 경향이 있습니다 한 작업에 대한 정보가 다른 작업을 예측하는 데 신뢰성을 부여 할 수 있기 때문에 좋습니다

단일 모델이 있으므로 두 모델을 사용하는 것보다 배포가 훨씬 쉽습니다 또는 더 많은 모델 따라서보다 쉽게 ​​관리하고 생산할 수 있습니다 시작하기 전에 멀티 태스킹 학습은 매우 강력합니다 자율 주행 차와 같은 많은 응용 분야에 사용됩니다

영어로 된 문서 모음이 있다고 가정 해 봅시다 프랑스어, 독일어 및 이탈리아어로 번역하고 싶습니다 거기에는 동시에 훈련하는 세 가지 작업이 있습니다 이제이 예에서는 이미 CAS 세션을 시작했습니다 DLPy를로드했으며 CAS 서버에 연결했습니다

가장 먼저 보여 드리고 싶은 것은 디스크에서 이미지를로드하고로드하는 방법입니다 이 예제에서는 하위 디렉토리에서 읽은 후 레이블을 재귀 적으로 가져옵니다 따라서 실제로 디스크에서 데이터를로드하여 메모리로 읽어들입니다 서브 디렉토리에서 레이블을 당기십시오 다음으로하는 일은 간단한 빈도 수이며 데이터가 상당히 균형을 이루고 있음을 알 수 있습니다 모든 작업에서 332 개에서 386 개의 관측치가 있습니다

이런 종류의 균형을 가질 필요는 없으며 분명히 콜스 나 메이 시즈, 우리는 더 많은 관측을 할 것이지만 이것은 간단한 데모입니다 이제 멀티 태스킹 딥 러닝을 수행하는 데있어 가장 까다로운 부분 중 하나는 작업 레이블 자체 이제 내가하고있는 첫 번째 일은 Pandas 데이터 프레임을 사용하고 getDummies를 단순히 이진 지표를 만듭니다 딥 러닝 패키지에는 정말 강력한 것이 있습니다 SAS 함수 컴파일러입니다

이를 사용하여 자신의 손실 함수를 찾을 수 있습니다 여기에서는 계산 된 vars를 사용하여 조건부로 추가 작업을 조건부로 정의하고 있습니다 여성, 의복의 조화는 무엇이며, 나는 그것을 다른 사람들과 다시 합류합니다 데이터 여기 간단한 머리를보고 몇 가지 관찰 만 살펴보면 이제 9 개의 총 작업이 동시에 진행되고 있음을 알 수 있습니다

여자를위한 것이 든 아니든 자, 여기에 이미지를 보여 드리는 예가 있습니다 그들이 어떻게 생겼는지 딥 러닝의 많은 머신 러닝 문제와 마찬가지로 데이터 크기도 조정합니다 200×200으로 설정하고 CAS 서버의 모든 작업자 노드에서 데이터를 섞습니다 여기서 20 %의 샘플을 작성하고 있음을 명심하십시오 이것은 홀드 아웃 데이터 세트 테스트이며, 나머지 80 %의 데이터를 사용하여 학습합니다

에 모델 이제이 시점에서 직접 비순환 그래픽 인 기본 아키텍처를 정의하겠습니다 네트워크를 위해 그리고 DL Plot을 사용하여이를 수행하고 있습니다 입력 레이어, 컨볼 루션 레이어, 배치 규범 풀링 및 밀집 레이어가 있습니다

그러나이 네트워크 플롯을 보면 기본적으로 하나의 아키텍처가 있음을 알 수 있습니다 그리고 그 아키텍처는 우리가 시도하는 모든 결과 작업과 공유됩니다 예측하십시오 모든 작업에 대해 동일한 네트워크를 가질 필요는 없습니다 이것은 기본 예이며 여기에서 실제로 잘 작동합니다 예측하려는 각 작업에 대해 서로 다른 네트워크 아키텍처를 가질 수 있습니다

아키텍처를 정의한 후 모델을 학습하려고합니다 이 예에서는 운동량과 같은 매우 기본적인 최적화 방법을 사용하고 있습니다 60 개의 EPICS를하고 있는데 훈련 옵션을 정의하고 싶습니다 이제 partition이 0 인 곳을 사용하고 있습니다 그것은 훈련 데이터의 80 % 만 가져올 것입니다

모델 무게 등 나중에 득점을 할 수 있습니다 GPU에서도 이것을 훈련하고 있습니다 딥 러닝의 곱셈 특성으로 인해 네트워크를 더 빨리 훈련시킬 수 있습니다 모델과 더 빠른 실험

다양한 최적화 방법을 시도해보고 궁극적으로 최상의 모델을 얻을 수 있습니다 더 빠르게 여기에 약간의 출력이 있지만, 내가 시도한 것은 이것을 이것에 요약합니다 반복 플롯 우리가 60 번의 EPICS를했다는 것을 기억하십시오 약 13 ~ 14 개의 EPICS 어딘가에서 쇠퇴와 상실과 시대를보고 있습니다

모델이 실제로 안정화 된 것 같습니다 나는 실제로 그것을 자랑스럽게 생각합니다 좋아 보인다 테스트 데이터와 비교하여 먼저 확인하겠습니다 이 모델은 훈련을 위해 개발되었습니다 이제 데이터의 20 %를 부분 집합 화하겠습니다

훈련에서 절약 한 모델 가중치를 사용하여 해당 데이터의 점수를 매길 것입니다 그리고 여기서 볼 수 있듯이 모든 작업에 대해 평균 제곱 오차가 매우 낮습니다 좀 더 세분화되고 실제로 혼동 행렬과 같은 것을보고 모델이 테스트 데이터에 얼마나 잘 맞는지 그런데이 예측값 p_는 테스트 데이터에 대한 예측값을 나타냅니다 내가 훈련 한 모델에 나는 판다에서 약간의 일을한다 파이썬을 DLPy와 똑바로 혼합하는 것이 좋습니다

그리고 9 가지 작업 각각에 대한 분류 행렬 인 혼동 행렬을 얻습니다 행은 실제 값을 나타내고 열은 예상 값을 나타냅니다 벗어난 대각선에서, 우리가 잘못한 곳입니다 여기에 검은 색은 4 개, 파란색은 4 개, 빨간색은 1 개, 우리는 다른 수업을 살펴보고 정말 잘하고 있습니다 마지막으로, SAS에서 딥 러닝의 비밀 소스 조각 중 하나는 ASTORE

여기에서 실제로 모델을 이진 파일에 저장하여 배치 스코어링을 수행 할 수 있습니다 스트리밍 분석을 사용하여 점수를 매기거나 다른 모델과의 작업을 위해 모델을 ONNX로 가져 오기 PyTorch 및 TensorFlow와 같은 패키지 여기에이 작업을 완료하고 모델을 저장했으며 다음 비디오에서는 실제로 스트리밍 분석을 사용하여이 모델의 점수를 매기는 방법을 살펴 보겠습니다 결론적으로, 멀티 태스킹 딥 러닝은 실제로 여러 개를보고 예측할 수있게합니다 동시에 작업

DLPy를 사용하면 간단합니다 다음 비디오에서 to기를 기대합니다 Python 및 SAS Viya Computer Vision Series를 사용한 딥 러닝에 오신 것을 환영합니다 제 이름은 웨인 톰슨입니다 저는 SAS의 데이터 과학자이며 SAS Deep과 함께 일합니다

학습 R & D 팀 이 비디오에서는 DLPy의 자매 인 ESPPy를 사용하여 멀티 태스킹을하고 싶습니다 딥 러닝 모델 이제 이미 멀티 태스킹 딥 러닝 모델을 훈련했습니다 이미지를 모아서 9 가지 작업을 예측하고 동시에 수행 할 수있는 모델을 개발했습니다

이 예제에서하고 싶은 것은 ESPPy를 사용하는 것입니다 또한 SAS 이벤트 스트림 처리 창에 연결할 수 있습니다 프로젝트를 구축하고 창과 상호 작용하며 모델을 배포합니다 SAS Event Stream Processing은 정말 멋집니다 여기에는 클러스터링에서 시계열 분석에 이르는 여러 스트리밍 작업이 포함됩니다

감정 분석 또는 공동 필터링과 같은 작업도 수행 할 수 있습니다 하지만이 데모에서는 이미지 처리 창과 온라인 창을 사용하겠습니다 딥 러닝 멀티 태스킹 모델을 배포 할 수 있습니다 이제 가장 먼저해야 할 일은 실제로 프로젝트를 만드는 것입니다 이 멀티 태스크를 호출하고 실제로이 셀을 실행하겠습니다

그리고 다음으로하고 싶은 것은 프로세스 흐름이나 관로 실제로 이미지를 읽으려면 소스 창이 필요합니다 우리가 일부 교육에서했던 것처럼 모델을 훈련 할 때마다 일반적으로 이미지 따라서 점수를 매길 때 20에서 20으로 크기를 조정하고 이미지 처리를 사용하겠습니다 그렇게하는 창

다음은 모델을 가져와야한다는 것입니다 모델을 학습하고 ASTORE로 저장 했으므로 모델 리더가 있습니다 그것을 읽을 수있는 창 그리고 실시간으로 점수를 생성하는 득점 창이 있습니다 그리고 보면, 프로젝트는 다음과 같습니다

나는 데이터를 읽고 이미지를 표준화하고 점수를 생성합니다 그런 다음 실제로 프로젝트를로드하고 몇 개의 출력 테이블을 설정하겠습니다 여기에 쓸 것입니다 이제 첫 번째 노트북을 사용하여 실제로 노트북을 정의하기 때문에 별도의 노트북이 있습니다 ESP 프로젝트

이 책에서는 간단히 게시하고 점수 매기기 프로세스를 시작하겠습니다 그래서 저는 팔고이 모든 것을 실행합니다 실제로 모델의 점수를 매 깁니다 다시 여기로 돌아가서 이제 이벤트 스트림 처리 엔진을 사용하겠습니다 득점

실제로 예측 확률과 함께 태그가 지정되고 라벨이 지정된 이미지가 표시되는 것을 볼 수 있습니다 작동하는 예제를 제공하는 작은 세트입니다 수면 시간은 03입니다 이벤트 스트림 처리 엔진은 실제로 초당 최대 50 프레임을 수행 할 수 있습니다

시원한 이 데모에서는 이미 멀티 태스킹 학습을 위해 개발 된 모델을 검색을 용이하게하기 위해 스트리밍 분석을 사용하여 배포 할 수있었습니다 콜이나 메이시 같은 사람 교육용 DLPy와 함께 ESPPy를 사용하면 실제로 쉽게 수행 할 수 있습니다

Decision Tree Machine Learning | Decision Tree Python | Intellipaat

안녕하세요, Intellipaat에 오신 것을 환영합니다 오늘 세션에서 우리는 배울 것입니다 의사 결정 트리에 대해

우선, 왜 관심을 가져야하는지 알려 드리겠습니다 의사 결정 트리에 대해 학습합니다 의사 결정 트리는 개략적이고 지리적입니다 의사 결정 기반 문제의 가능한 모든 솔루션에 대한 표현 그것 현명한 결정을 내리는 데 사용됩니다 데이터 분야에서 매우 중요 할뿐만 아니라 과학이지만 기계 학습 분야에서도 매우 중요합니다

예측 분석에 사용됩니다 따라서이 중 하나에 관심이 있다면 필드가 끝날 때까지 계속 지켜봐야합니다 비디오 이제 진행하기 전에 Intellipaat의 YouTube를 구독하십시오 다가오는 비디오를 놓치지 않도록 채널을 만드십시오 그래서 먼저 우리는 의사 결정 트리가 무엇인지 배우고 실제 예를 들어 의사 결정 트리를 작성하는 방법을 배우겠습니다

인증 된 데이터 과학에 관심이 있다면 전문가라면 Intellipaat에서 제공하는 데이터 과학 과정을 확인하십시오 당신 설명 상자에서 아래 과정 링크를 찾을 수 있습니다 이제 더 이상 지연, 시작합시다 의사 결정 트리는 기본적으로 기술 또는 데이터입니다 의사 결정에 도움이되는 우리가 구축 한 구조 그래서 여기에 모든 내부 노드는 속성에 대한 테스트 조건을 나타냅니다

리프 노드는 데이터가 분류되는 범주입니다 그럼 보자 이것을 더 잘 이해하기위한 예 그래서 당신이 당신의 관리자라고 가정 해 봅시다 통신 회사와 당신은 어떤 요인이 무엇인지 이해하고 싶어 고객이 이탈하도록합니다 따라서 의사 결정 트리를 구축하기로 결정했습니다 이제이 의사 결정 트리 일련의 테스트 조건을 제공합니다

여기 루트 노드 성별, 즉 첫 번째 조건은 성별 열에 의해 결정됩니다 그래서 고객이 남성입니다 그런 다음 우리는 그의 지속 시간을 더 결정할 것입니다 보유 반면에 고객이 여성 인 경우 다음 테스트 조건 월 청구액을 기준으로합니다

고객이 남성이라고 가정 해 봅시다 그때 우리는 그의 임기를 확인하고 그의 임기가 30 개월 미만이면, 그는 휘젓다가 다시 재직 기간이 30 개월을 넘으면 같은 회사에, 그리고 이것은 최종 예측입니다 의사 결정 트리에서 제공합니다 마찬가지로 여성 고객을 확보하면 월 청구 금액을 확인해야합니다 따라서 월 청구액이 더 큰 경우 80 달러 이상이면 이탈하고 월 청구액이 80 달러 미만이면 그녀는 같은 회사를 고수 할 것입니다 그래서 우리는 다음에 대한 일련의 대안을 탐색하고 있습니다

특정 결정 지점에 도달하십시오 이제 결정이 무엇인지 이해 했으므로 트리에서 의사 결정 트리의 유형을 살펴 보겠습니다 따라서 의사 결정 트리는 분류 트리 또는 회귀 트리 분류 트리는 반응 또는 목표 변수는 본질적으로 범주 형이며 회귀 트리는 반응 변수가 수치 적으로 낮거나 연속적 일 때 사용됩니다 자하자 데이터 세트 A가 있고 그 안에 n 개의 레코드가 있다고 가정하십시오

이제 내가 할 일은 이 데이터 세트에서 샘플을 추출합니다 실제로 이것은 바꿔 놓음 즉, 데이터 세트 A에서 하나의 레코드를 가져 와서 기록하고 데이터 세트 A1에서 동일한 샘플을 찾은 다음 원래 위치로 레코드를 다시 넣습니다 에서 이 프로세스를 n 번 반복하여 데이터 세트에 n 개의 레코드가 있습니다

A1도 따라서 명심해야 할 것은 A1의 레코드 중 일부는 두 번, 세 번 또는 여러 번 올 수 있습니다 A의 일부 레코드는 A1에 전혀 기록하지 않았을 수 있습니다 그래서 나는 이렇게 A1을 만들었습니다 그런 다음 계속해서 여러 데이터 집합을 만듭니다

같은 방식으로 저는 A1, A2, A3까지 Ax까지 있고 각각은 A와 같은 수의 레코드입니다 여기있는 X는 무엇이든 가능합니다 의 말을하자 100, 500 또는 심지어 1000까지도 가능합니다 따라서 하나의 데이터 집합 A만으로 우리의 이점을 위해 여러 데이터 세트

데이터 세트 A를 가정 해 봅시다 1000 개의 행이 있고 x의 값도 1000입니다 따라서 1000에 1000을 곱한 값입니다 백만 행, 즉 1000 행에서 데이터를 통해 백만 개의 행을 얻을 수있었습니다 이제 우리가 할 일은이 X 각각에 대해 데이터 세트, 각각 하나의 의사 결정 트리에 맞을 것이므로 X 의사 결정 트리가옵니다 X 데이터 세트에서

이제 나무 그룹이 생겼습니다 다시 말해 우리가 여기있는 것은 나무의 앙상블입니다 이제 새로운 것을 말합시다 리가 사라졌다 그런 다음이 레코드를 각각에 전달합니다 이 X 나무들과 우리는이 클래스들이 어떤 나무인지 예측할 것입니다 새로운 기록이 나타납니다 우리는 X 나무를 가지고 있기 때문에 X를 얻을 것입니다 예측, 즉 X가 500이라고 가정하면 500 개의 예측을 얻게됩니다

마찬가지로 X가 1000이면 1000 개의 예측값을 얻게됩니다 이제 최종을 얻으려면 예측, 우리가해야 할 일은 대부분을 가질 클래스를 선택하는 것입니다 개별 나무에서 모든 예측에 걸쳐 숲의 그래서 우리가 여기서 실제로하고있는 일은 모든 예측을 집계하는 것입니다 이 나무들 여러분, 이것이 배깅의 개념입니다

간단한 정보들 : 만약 당신이 인증 된 데이터 과학 전문가가되는 데 관심이있는 경우 Intellipaat에서 제공하는 데이터 과학 과정 아래 설명 상자에서 코스 링크를 찾을 수 있습니다 이제 계속합시다 세션과 함께 따라서 우리는 동일한 예제를 사용하여 포장하고 차이가옵니다 다시, 데이터 세트 A가 있고 n 개의 레코드가 있습니다

그것 이제 내가 할 일은이 데이터 세트에서 샘플을 그리는 것입니다 그래서 이건 실제로는 대체품으로 샘플링 할 것입니다 데이터 세트 A의 레코드를 기록하고 데이터 세트 A1에 동일한 샘플을 입력 한 후 레코드를 원래 위치로 되돌려 놓으면이 과정을 반복하겠습니다 데이터 세트 A1에도 n 개의 레코드가 있도록 n 번

그래서 필요한 것 명심해야 할 것은 A1의 n 개 레코드 중 일부는 두 번, 세 번 또는 여러 번 올 수 있지만 A의 일부 레코드는 그렇지 않을 수 있습니다 전혀 A1에 만들었습니다 그래서 저는 이와 같이 A1을 만들었습니다 계속해서 같은 방식으로 여러 데이터 세트를 생성하십시오 A와 같은 수의 레코드와 여기의 x는 무엇이든 될 수 있습니다

100, 500 또는 심지어 1000까지도 가능합니다 따라서 하나의 데이터 집합 A만으로 우리를 위해 여러 개의 datset을 만들 수 있습니다 우리를 위해서만 데이터 세트 A에 1000 개의 행이 있고 x의 값도 1000이라고 가정하겠습니다 따라서 1000에 1000을 곱하면 백만이됩니다 행 즉, 단 1000 행의 데이터에서 1 백만 행을 얻을 수있었습니다

지금까지 프로세스는 배깅과 동일합니다 이것이 차이점입니다 온다 이제 우리가 할 일은 각각의 X 데이터 세트에 대해 하나의 결정에 맞을 것입니다 의사 결정 트리를 작성하는 프로세스가 여기에서 변경됩니다 자, 이 A1 데이터 세트에 10 개의 독립 변수가 있다고 가정하십시오

이제 자루에 넣을 때 이 10 개의 독립 변수를 모두 분할에 대한 선택으로 간주 후보이지만 임의 포리스트에서 발생하는 일은 노드가있을 때마다 의사 결정 트리에서 분할하면 열 10 개가 모두 제공되지는 않습니다 연산 이 사람이 퇴각하는 것이 중요합니다 그래서 매번 노드가 의사 결정 트리에서 분할되고 있으며 10 개의 열이 모두 제공되지는 않습니다 랜덤 포레스트 알고리즘

이제 질문이 생겨서 어떻게 될까요? 알고리즘에 사용할 수 있습니까? 따라서이 10 개의 열 중 임의의 하위 집합 만 알고리즘에 사용할 수 있습니다 이 루트 노드를 분할하고 싶다고 가정하겠습니다 지금 10 개의 열을 모두 제공하는 대신이 열의 하위 집합 만 제공 제공됩니다 3 개의 열을 말하고 10 개 중 하나 일 수 있습니다 이 3을 사용하면 알고리즘이 노드를 분할합니다

마찬가지로 여기 왼쪽 노드에 다시 3의 임의의 세트가 제공됩니다 변수 왼쪽 노드가 동일한 3을 가져야 할 필요는 없습니다 변수 모두 3 개의 열 집합이 될 수 있습니다 우리가있을 때마다 노드를 분할하면 전체에서 임의의 'm'예측 변수가 제공됩니다

예측 자의 공간과 이것이 수행되는 이유는 각각의 X 트리를 만드는 것입니다 매우 다릅니다 이제 bagging과 Random Forest를 비교해 봅시다 따라서 자루에 넣을 때 모든 나무에는 사용 가능한 전체 예측 공간이있었습니다 결국 건물을 짓게 될 나무는 매우 비슷할 것입니다 서로에게, 그리고 랜덤 숲의 경우, 우리는 제공된 열과 관련하여, 즉 임의의 열 집합 만 전체 예측 공간에서 제공되므로 결정이 내려집니다

당신이 얻을 나무는 서로 상당히 다를 것입니다 지금 후 이 단계는 포장과 비교할 때 거의 동일합니다 그래서, 새로운 기록 Ri 나는 떠난다 그런 다음이 레코드를 각각에 전달합니다 이 x 나무와 우리는 그의 클래스에 대한 각 나무의 예측을 얻을 것입니다 새로운 기록이 나타납니다

x 개의 나무가 있으므로 x를 얻게됩니다 예측 최종 예측을 얻으려면 우리가해야 할 일은 선택입니다 대부분의 투표권을 가진 클래스 ——- 개별 나무의 모든 예측 자 여러분, 이것이 랜덤의 개념입니다 숲 오늘은 실제로 세 가지 다른 패키지를 사용하여 결정 트리 우리는 나무를 사용하고 자동차 부품을 사용하며 또한 파티 패키지에서 ______ 수하물 ctree 기능 사용 그래서, 우리는 의사 결정 트리 모델을 구현하는 세 가지 다른 기능을 배웁니다

그래서 먼저이 ISLR 패키지 라이브러리를로드하여 시작하겠습니다 자, 이것 패키지에는 기본적으로이 카시트 데이터가 있습니다 따라서 데이터를 말해야합니다 카시트 이 데이터를로드해야합니다 이제하자 이것에 대해 살펴보십시오

이것은 기본적으로 판매가있는 첫 번째 데이터 세트입니다 다른 차의 이제 도움을 요청하고 이에 대한 설명을 보여 드리겠습니다 이것은 어린 이용 카시트 판매를 포함하는 시뮬레이션 된 데이터 셋입니다 400 개의 서로 다른 상점이 있으며 이들은 서로 다른 열입니다

판매는 단위 판매입니다 각 위치에서 경쟁 업체가 각 위치에서 청구하는 가격을 지역 사회 광고 예산, 인구 및 자동차 좌석에 대한 크기, 가격 회사 요금 및 나머지는 열 우리가 할 일은 먼저 분류부터 시작하겠습니다 어제 세션에서 여러분에게 말했듯이 의사 결정 트리는 두 가지 모두에 사용될 수 있습니다 분류 및 회귀 목적 이 데이터 세트에서 기본적으로 무언가를 분류하려고합니다 첫 번째 작업은이 판매를하는 것입니다 열을 나누고 실제로 이것을 범주 열로 변환하십시오

따라서 판매 가치가 8 이하인 경우에는 다음과 같이 태그를 지정합니다 낮은 마찬가지로 값이 8보다 큰 곳에서는 그 값을 높게 표시합니다 그것은 우리의 첫 번째 작업이 될 것이며, 분류 작업이기 때문에 범주 열이 필요합니다 그렇게하겠습니다

이 ifelse 함수를 사용하겠습니다 우리가하는 일은 카시트에서이 판매 칼럼을 가져 오는 것입니다 데이터 세트이며 값이 8보다 작은 경우에는 아니오라고 말할 것입니다 그래서 기본적으로 자동차 판매량이 많지 않고 8 대 이상인 곳에서는 예 계속해서이 새로운 변수를 만들어 봅시다 그래서 나는 실제로 이것을 작은 C로 먼저 변환하십시오

이 데이터 세트를 가져 와서 새 객체에 저장합니다 대문자 C 이것은 작은 C입니다 여기에서 판매 열을 가져오고 값이 작은 곳 8보다 크면 새 것으로 태그를 지정하고 값이 8보다 큰 경우 예라고 태그를 붙입니다 그 결과를 높은 물체에 넣겠습니다 이제 새 데이터를 만들겠습니다 이 어린 이용 카시트 데이터 세트의 모든 열로 구성된 프레임 이 새 오브젝트를 추가하면 카시트에 다시 저장합니다

그래서보기 여기, 우리는이 새로운 열을 추가 한 것을 볼 수 있습니다 그것은 그렇습니다 그리고 그렇습니다 따라서 '예'는 기본적으로 판매 가치가 8보다 크고 값이 없으면 판매 값이 이제 8과 같거나 작습니다 이제 우리는 데이터 셋을 가지고 있습니다 모델을 빌드하십시오

실제로 트리 기능부터 시작하겠습니다 쓰다 트리 기능을 사용하려면 트리 패키지가 필요합니다 이것을로드하겠습니다 (이미 높은 열 또는 _____) 아니요 새 열을 만들고 있습니다 기둥

실제로 원래 데이터 세트를 보여 드리겠습니다 어린 이용 카시트보기 : So 이것은 높은 열로 구성되지 않은 원래 데이터 프레임입니다 그래서 내가하고있는 일은, 나는이 판매 칼럼을 가져 가고 있으며 어디에서나 값이 8 이하인 경우 아니요로 태그를 지정합니다 8보다 크면 예로 태그를 지정합니다 그 결과 나는 그것을에 저장합니다 새 개체와 해당 개체의 이름을 높게 지정하십시오

이것이 기본적으로 우리의 새로운 것입니다 기둥 새 열을 카시트 데이터 프레임에 추가합니다 원본 데이터 프레임 결과를 카시트에 다시 저장하겠습니다 할 수 있는 이것을 따라? 네

여기에 데이터 세트가 있습니다 이제 시간이야 모델을 빌드합니다 당신이에 관심이 있다면 그냥 빠른 정보 사람 인증 된 데이터 감각 전문가 및 데이터 과학 과정 확인 intellibid에서 제공하는 아래 설명 상자에서 코스 링크를 찾을 수 있습니다 이제 세션을 계속 진행하고 사용할 모델을 빌드하겠습니다 트리 패키지이므로 이제 트리 라이브러리는이 트리 함수를 사용하고 결과가 높은지 아닌지, 다시 말해서 판매 가치가 다른 모든 열을 기준으로 높거나 높지 않으므로 다른 열과 관련하여 알고 싶은 경우 여기에 여기에 점을 대어 종속 변수가 높고 독립적입니다

변수는 나머지 열입니다-판매는이 높은 열이기 때문에 판매 열에서 바로 생성되었으므로 모든 열을 사용하겠습니다 씰을 제거하여 판매 열을 두 번 제외하고는 독립 변수와 다시 데이터 세트를 분할하지 않습니다 이제이 전체 데이터 셋 위에이 모델을 직접 구축하고 있습니다 이제 데이터는 카시트와 동일하게됩니다 이것은 나무 점 자동차 좌석의 요약이며 이것은 다른 것에 대해 알려줍니다

독립 변수와 우리가 가진 터미널 노드의 수와 오 분류 오류율은 이제 실제로 진행해 보도록하겠습니다 이 나무 점 자동차 좌석의 줄거리 이제 우리는 계속해서 텍스트를 추가 할 것입니다 이 텍스트와 우리는 당신이 만든 것과 동일한 모델을 전달할 것입니다 제로와 같습니다 이걸 제로로 제거하면 기본적으로이 범주 열은 Dixon이 알았어 이제 이걸 먼저 빼자 내가 이것을 플롯 할 때 당신은 이제 알파벳 수준의 범주 레벨을 얻습니다

이름과 관련하여 범주 열을 원한다면 케빈은 0과 꽤 같아서 여기서이 부분을 삭제하겠습니다 여기에 실제 범주 형 열이 표시되므로 이제 실제로 이걸보고 무슨 일이 일어나고 있는지 이해해서 첫 번째 스플릿 포인트는 선반 위치 열을 기준으로합니다 이것은 열이며 여기에서 첫 번째 분할을 결정합니다 값이 나쁘거나 중간 인 경우 왼쪽의 왼쪽으로 이동합니다 다른 한편으로 가치가 좋다면 우린 오른쪽으로갑니다 다시 오른쪽으로 갑시다

가격이 작은 지 확인하겠습니다 135 가격이 135보다 작 으면 다시 왼쪽으로갑니다 가격이 백보다 작은 지 확인하고 가격이 백보다 작은 지 확인하십시오 9시 판매 가치가 높을 것입니다 마찬가지로 이것은 여기에서도 같은 일을하므로 이것이 우리가 방금 구축 한 의사 결정 트리 지금은 전체 데이터를 기반으로 구축 한 모델입니다 우리가 할 일은이 데이터를 기차와 자산으로 나누고 열차 세트 위에 모델링하고 테스트 위에 값을 예측 다시 설정하면 동일한 패키지 CA 도구를 사용하게됩니다 샘플 도트 스플릿 기능 이것을로드 할 것이므로 먼저 시드 값을 설정하겠습니다 여러분도 같은 값을 얻도록 시드 값을 101로 설정하겠습니다 여기에서 샘플 도트 스플릿 기능과 스플릿 기준을 열 및 분할 비율은 0

65이며 기본적으로 65 %의 레코드가 훈련 세트 및 35 % 기록이 시험에 들어갑니다 그리고이 n split 태그를 훔쳤습니다 이제 부분 집합 함수를 사용하고 전체 카시트 데이터 세트에서 서브 세트 기능의 도움 split 태그 값이 참이면 어디든지 trainset에 저장합니다 분할 태그 값이 거짓이면이 전체 카시트 데이터 세트에서 테스트 세트에 저장하여 교육 및 테스트 세트를 준비하십시오 계속해서 훈련 세트 위에 모델을 구축하겠습니다 트리 함수를 사용하고 다시 수식은 여기에서 동일합니다 종속 변수이며 영업 항목을 제외한 다른 모든 항목은 독립 변수와 우리는 기차 위에이 모델을 구축하고 있습니다 이 시간을 설정 보니 내가 방금 잃어버린 태그는 2와 같고 여기에서 오는 것이 좋습니다

그래서 샘플 도트가 나옵니다 함수는 먼저 두 개의 매개 변수를 취합니다 기본적으로 열에 있습니다 두 부분으로 나누고 싶고 종속 변수가 높기를 원하기 때문에 우리는 이것을 분할 기준으로 취하고 분할 비율은 기본적으로 분할 비율은 기본적으로 true 또는 false 값을 제공하므로 65 %의 관측치에는 실제 레이블이 있고 나머지 35 % 관측치에는 잘못된 라벨과 분할 태그에 저장했습니다 이제 이것을 인쇄하겠습니다

태그를 분할하여 여기에 여러 개의 참과 거짓 값이 있습니다 그래서 내가 할 수있는 참과 거짓 값의 무리에서 스플릿 태그 값이 참인 모든 카시트 데이터 세트 이 기록들 중 하나를 차 전체와 비슷하게 열차에 보관하십시오 split 태그 값이 false 인 곳마다 좌석 데이터 세트 첫 번째 기록을 위해 여기에 테스트를 설정하고 우리가 할 때 그 부분을 이해합니다 이 분할 비율과 태그를 저장 및 분할하면 true 또는 false로 지정됩니다 65 %의 비율로 예, 기본적으로 부서는 6535입니다 Saqqara 5 % 신은 진실의 35 %가 잘못을 가지고 이것을 사용할 것입니다 여기 모두 사실이므로 모든 사람이 따라갈 수 있습니다

이 오른쪽 그는 분할 태그를 만들었고 이제는 하위 집합 기능을 사용하고 전체 카시트 데이터 세트에서 분할 태그가 사실임 전체 카시트 데이터 세트에서 분할 태그와 유사하게 기차에 저장합니다 거짓으로 테스트에 저장하여 교육 및 테스트 준비를 마쳤습니다 훈련 세트에 모델을 구축 할 시간이므로 기능 존중은 트리 함수를 사용하고 종속 변수가 높고 독립적입니다 변수는 봉인 열을 제외한 모든 것을 취할 것입니다 컬럼은 기본적으로 판매 컬럼에서이 높은 컬럼을 만들었습니다

열차 세트 위에이 모델을 구축하고 있으며이 모델을 저장합니다 나무 점 자동차 좌석에서 나는 지금 내가 입력하자 이 줄거리를 한눈에 볼 수 있도록 이번에는 다시 플롯을 만들겠습니다 분할 기준이 결정된 첫 번째 분할 기준이 결정됨 가격이 90보다 작 으면 가격이 90보다 크면 오른쪽으로 이동하여 기본적으로 여기에있는 전체 결정 트리이므로 이제 모델도 계속 진행하여 값을 예측하고 예측 함수를 사용할 값으로 첫 번째 매개 변수는 모델이므로 두 번째 매개 변수를 만든 것은 테스트 세트입니다 테스트 세트 상단의 값과 세 번째 매개 변수는 예측은 예측 유형이 클래스이므로 기본적으로 직접 여기에 결과가 있으므로 클래스는 기본적으로 예 또는 아니오이며 다시 우리는 이 결과 트리 도트 빵을 바로 저장하여 이제 값들을 혼동 행렬을 만들 것입니다 실제 값은이 테스트 달러 높이에서 가져 오므로 실제 값은 값과 이것들은 3 개의 점이있는 예측 된 값입니다

빵은 우리에게 혼란 매트릭스를 제공 하므로이 값은 기본적으로 그 중에서 알려진 모든 실제 값은 68 그것들은 정확하게 그리고 이것은 우리가 알려진 실제 값 또는 그중 15 개를 예라고 잘못 분류하고이 18 개는 기본적으로 실제로 예인 값은 아니요로 잘못 분류하고 이 39 개는 실제로 그렇습니다 예로 분류 했으므로 기본적으로이 왼쪽 대각선은 올바르게 분류 된 관측치 및이 오른쪽 대각선은 모든 잘못 분류 된 관찰과 정확성을 얻기 위해 이것을 왼쪽으로 나눕니다 모든 관측치에 대해 대각선 인증 된 데이터에 관심이 있다면 간단한 정보를 얻을 수 있습니다 감각적 인 전문가가 제공하는 데이터 과학 과정을 확인하십시오 intellibid 아래 설명 상자에서 코스 링크를 찾을 수 있습니다

세션을 계속 진행하여 68 + 39를 68 + 39 + 15로 나눕니다 플러스 18 그리고 이것은 우리에게 76 %의 정확도를 제공합니다 어제 수업에서 나무가 완전히 자란 것을 알게되었습니다 여기에서 우리가 할 일은 계속해서이 나무를 잘라 내고 가지 치기 후 모델의 정확도에 어떤 차이가 있는지 확인 좋아요, 그 테이블을 위해 우리는 조금해야 할 것입니다 교차 검증의 첫 번째 어제 또한 우리는 보았거나 핵심 폴드 크로스 CV 도트 트리는이를 위해 정확하게 사용되므로 CV의 도움 도트 트리 기능 우리는 교차 검증과 스테이크를 둘로 할 수 있습니다 우리가 만든 모델로 매개 변수를 먼저 지정하고 다음으로 너무 정리하는 함수입니다 닷 미스 클래스는 기본적으로 우리가이 교차 검증을하고 있다고 말합니다 나무를 가지 치기의 목적이며 이것은 기본적으로 내장 함수입니다

백그라운드에서 전체 작업을 수행하고이를 CV 도트 카시트에 저장합니다 이제 CV 도트 카시트를 바로 인쇄하겠습니다 이것이 기본적으로 하나의 루트 노드로 시작하여 트리의 크기를 그래서 하나 둘 셋 증가하고 마지막으로 우리는 나무가 총 24 개의 터미널 노드이며 이는 MIS 분류 비율입니다 여기에 기본적으로 하나의 노드 만 있으면 resub 상황 오류와 같은 최대 값이며이 터미널 노드가 모두있을 때 완전히 자란 나무이므로이 자란 나무는 최소한의 경감 또는 다시 말해, 분류로 최소값을 가지며 이는 비용입니다 서로 다른 레벨의 각 노드와 관련이 있습니다 교차 검증을 통해 CV 도트 카시트 플롯을 그릴 수 있습니다

기본적으로 나무의 크기로 보는 것을 여기에서 확대 해 봅시다 오 분류 율이 증가 할 때까지 오 분류 율을 증가시킵니다 처음에는 2 개 또는 3 개의 노드와 같은 위치에서 다시 증가합니다 매우 높은 미스 분류로 인해 노드 수를 읽을 때 15 세에서 16 세 사이에 우리는 최소 오 분류 율을 보였습니다 우리가 계속 헤어질 때 실제로 미스 증가 이상적인 노드 수로 알 수있는 분류 15 개 정도 쯤 되니까 기본적으로 나무를 가지 치기합니다 그래서 우리가이 포스트 정리 전이나 복잡성을 야기하는 가지 치기 때문에 우리는 이것이 올바른 생각이 아닌 완전히 자란 나무라는 것을 알았습니다 실제로이 값을 인쇄 해 보도록하겠습니다

16시 16 분에이 미스 분류가 다시 증가했습니다 내가 할 일은 여기에 16이 될 노드 수를 가진 모델을 만들 것입니다 이 값을 16으로 설정하겠습니다 이번에는 함수를 작성하겠습니다 프룬 도트 미스 절을 사용하고 있으므로이 프룬 도트 엉망 클래스는 가장 좋은 값으로 트리를 정리하거나 최대 수의 노드 수만큼 Rob 16 살이되고 그 결과를 저장해 두겠습니다 나는 자두 점 자동차 좌석의 홍수를 줄입니다

이제 우리에게 텍스트를 추가 할 것입니다 맞습니다 그래서 이것은 12 34 5678 9 10 11 12 13 14 15 16을 갖습니다 완전히 자란 나무이지만 그 후에 우리는 약간의 교차 검증을 한 다음 완전히 자란 나무는 좋은 생각이 아니라는 것을 알았습니다 완전히 자란 나무는 우리에게주지 않으므로 특정 지점 후에 오 분류 율은 기본적으로 증가하므로 완전히 자란 나무와 우리는 16의 레벨이 있다는 것을 이해했습니다 여기서 노드 분할을 중지해야하므로 이제 우리가 할 것은이 자두로 값을 다시 예측할 것입니다

나무는 계속 진행하겠습니다 다시 한 번 저는 오페라 기능을 다시 사용할 것입니다 테스트 세트 옆에있는이 가지 치기 된 트리로 먼저 매개 변수를 설정 한 다음 우리는 내가 입력 할 클래스 인 유형을 가지고 있습니다 우리가 이번에 얻는 정확도가 무엇인지 봅시다 68 더하기 40을 68 더하기 40 더하기 70 더하기 15 더하기 15 앞에서 보았 듯이 초기 정확도는 76 %였습니다

여기에 초기 값을 인쇄하여 68 + 39로 나옵니다 68 더하기 39 더하기 18 더하기 15 더하기 그러나 그 후에 우리는 계속해서 나무를 잘라 내고 예측했습니다 나무를 가지 치기 후 다시 77의 정확도를 얻습니다 68 + 40을 68 + 40 + 17 + 15로 나눈 비율입니다 77 %의 정확도를 가지므로 모든 사람이 우리가 어떻게했는지 이해할 수 있습니다 가지 치기를하고 가지 치기 후 어떻게 더 나은 정확도를 얻었습니까 여기에 질문이 있으시다면 카레 자리 값은 기본적으로 이제 기본적으로이 모델을 만들 때 모두 다를 수 있습니다 내가 얻는 것과 같은 값을 원한다면 스키를 타십시오

시드 값 또는 동일한 결과 바로 다른 토끼 토끼 실제로 나는에 대해 분명했다 무들은 실제로 씨앗을 볼 때마다 당신이 줄 것입니다 희망과 같은 동일한 데이터가 어떻게 진행되는지 알 수 있습니다 봉인 개념을 이해하면 아무것도 볼 수 없습니다 씨앗을 설정 한 다음 임의의 값을 지정하여 올바르게 할 수 있습니다 이것 후에 무엇이든 보자 샘플을 생성하고 지금 당장 당신은 3 3 3을보고 당신은 얻을 것이다 심지어 샘플 기능을 사용 같은 값을 가지고 있거나 다시 샘플링하면 도트 시드를 사용하고 사용할 것입니다

three three three three three 및 샘플 10 쉼표 2를 설정하십시오 기본적으로 동일한 결과를 원한다면 상기 도트 시드를 사용해야합니다 그것은 지금도 거의 매번 쪼개고 있어요 gingerreadslainey 내가 원한다면 내가 원하는 것처럼 no no no no no no 내가 사용할 때마다 지금이 결과를 다른 사람에게 보여주기 위해 샘플 함수 이것은 매번 다른 결과를 줄 것입니다 이 샘플을 다른 사람에게 보여주기 위해 샘플을 원한다고 말하십시오 쉼표 2로 매번 같은 결과를 얻을 수 있습니다

시드 값을 설정하면 시드 값이 매번 동일한 결과를 제공합니다 그래서 시드를 설정하면 임의의 값 1을 제공하고 샘플 10 쉼표 2 I 3 쉼표 4를 다시 얻습니다 시드 값을 1로 설정하고 샘플 10 쉼표 2를 얻습니다 동일한 결과이므로 10 개의 쉼표 2 I의 한 샘플의 시드가 아님 기본적으로 동일한 결과를 원할 때 동일한 결과를 얻습니다 이 세트 닷 시드 이제 다른 것은 없습니다 그런 다음 교체 램프 교체 샘플을 뿌립니다

샘플링은 값을 대체하므로 반복하지 않아도됩니다 같은 결과를 원한다면 당신은 도트 씨를 말했다 그래, 그래서 우리가 여기에 대체하는 것은 없다 우리가 이런 종류의 분류를 올바르게 할 때와 언제 우리는 정확도를 의미하는 테스트를하고 있습니다 내 테스트 데이터를 기반으로 얻을 수 있습니까? 난 그냥 점수를하고 싶어 지금이 분류와 함께 할 수 있습니다 무엇을 기준으로 점수를 매겼는지 우리가 무엇을했는지 확인하십시오 맞습니다 그리고 당신은 8보다 작습니다 8보다 작습니다

판매 종류 예측에서 점수를 매기고 싶은 것은 없습니다 내 매출을 어떻게 예측할 수 있을까 결정 그 판매 가치를 예 예측할 수 있습니다 그래서 당신이 말하는 것은 기본적으로 회귀 또는이 의사 결정 트리의 도움을 받아 우리가 지금까지 할 수있는 것은 사랑의 모범 이니까 우리가 함께 할 예제는 부품 패키지이므로 실제로 의사 결정의 도움으로 지속적인 가치를 알고 예측 결정 트리에 대한 트리는 분류 목적에 모두 사용됩니다 회귀 목적뿐만 아니라 둘 다 할 수 있습니다 이 데이터 세트에 대한이 예는 분류를 올바르게 수행하므로 약간 가지 치기를하고 우리는이 결과를 여기에 얻었습니다 우리는 이것을 다시 인쇄하고 실제로 다른 것으로 잘라냅니다 이 노드 유효성 검사를 통해 붙여 넣을 수 있도록 노드 수 여기에 바로 여기에 우리는 노드의 수를 가져 16이 아니라 16이 되겠습니다

노드를 9로 설정하면 노드 수가 9 바로이 노드에서 9 개의 노드로이 트리를 가지 치기 때문에 다시 설정하면됩니다 이 최고의 값은 9와 같으므로 다시 정리할 것입니다 다음에 빌드하는 모델은 기본적으로 닷 미스 클래스 기능 당신이 원하는 노드의 수를 정한 후 1 2 3 4 5 6 7 8과 9가 있으며 이번에는 다시 분할이 가격이 90 포인트 5 미만인 경우 기본적으로 안녕하세요 예와 같습니다 이제 모델입니다 계속 진행하여 값을 예측하겠습니다

다시 한 번이 작업을 수행해야합니다 다시 한 번 예측 함수를 사용하여 그냥 당신 위에 지어진 이것은 정리 된 모델이며 우리는 예측하려고합니다 테스트 세트와 타입의 값은 class와 같으며 계속해서 혼동 행렬을 작성하여 이번에 정확도가 무엇인지 살펴 봅시다 68 plus 37 68 더하기 37 더하기 20 더하기 15 그래서 이번에는 정확도 75가 우리가 할 때처럼 세 개를 잘라 내야 할 분할 또는 이상적인 수준 16 개의 노드가 다시 있으므로이 교차 검증이 매우 중요합니다 우리는이 결과를 통해 9와 16이 16이 다시 이상적이라는 것을 알 수 있습니다 우리는이 많은 CV 도트 카시트의 플롯을 만들 때도 같은 것을 보았습니다

여기에서 우리는 이것이 우리의 이상적인 가치라는 것을 알았습니다 그래서 이것은 점프가있는 곳입니다 여기까지 오 분류 율이 감소 할 때까지 16에서 노드 수를 진행 한 후부터 우리는 오 분류 율 증가분을 계속 나누고 있습니다 스위스의 이상적인 가치입니다 기본적으로 우리가 어떻게 건설 할 수 있을까요? 트리 패키지의 도움으로 의사 결정 트리 파티 패키지가 포함 된 의사 결정 트리 의사 결정 트리를 작성하여 계속 진행하고이 패키지를로드하십시오

다들이 패키지를 빨리 확인 해주세요 자 이제 이것을 위해 우리는 홍채 데이터 셋을 사용할 것입니다 바이러스에 대한 홍채 데이터 셋보기이므로 이번에는 3 가지 분류가 있습니다 우리는 종이 setosa virginica인지 또는 versicolor 그래서 아이리스 수준의 달러 종 그래서 우리는 세가 이 강의를 통해 이번에는 의사 결정 트리를 구축 할 것입니다 데이터 세트가 setosa 또는 c 색상에 속하는지 또는 virginica 오른쪽 그래 그래 우리가 가지고 그렇게하자 이번에는 파티 패키지를로드 했으므로 지금까지 CA 도구를 사용했습니다 패키지 및 CA 도구 패키지 K는 샘플 도트 분할 기능으로 샘플 도트 분할 우리는 또한 데이터 파티션 생성 패키지를 가지고 있습니다

기본적으로 도트 분할을 샘플링 할 수 있으므로 데이터 파티션 생성은 일부입니다 당근 패키지 및 샘플 도트 분할은 CA Toles 패키지의 일부이므로 지금이 당근 ​​패키지를로드하겠습니다이 데이터 생성 파티션을 사용하겠습니다 데이터를 생성하는 샘플 도트 분할 대신에 거의 동일합니다 분할 및 분할 열 종 및 분할 비율은 65이므로이 목록은 일반적으로 샘플링되거나 분할되면 false와 같습니다 벡터이지만 이것은 실제로 벡터 대신리스트를 제공하므로리스트라고합니다 false와 같으며 분할 태그에 저장하고 다시 거의 동일합니다

이제 샘플 도트 분할의 사실은 우리에게 참 또는 거짓 값을 주었지만 데이터 파티션 생성은 레코드 번호를 제공하므로 이것을 인쇄하겠습니다 여기에 태그를 분할하면 여기에 레코드 번호가 표시됩니다 여기에있는 분할 태그에서 학습하고 테스트해야합니다 기본적으로 이것을 데이터 세트 내부의 매개 변수로 전달하므로 우리가하는 일 이 홍채 데이터 세트 에서이 행 번호를 모두 선택합니다 이 행 번호는 홍채 데이터 세트의 65 %로 구성됩니다

split 태그가 65를 포함하도록 Train Set에 저장하십시오 행 번호의 %는 65 %와 다릅니다 빼기 기호를 넣었으므로 기본적으로 모든 레코드입니다-65 % 분할 압정에 존재하는 행 번호 중 기본적으로 60은 기본적으로 35 %이므로 35 %의 레코드가 테스트 세트에 들어갑니다 이것이 배수구와 테스트 세트를 만드는 방법입니다 이것을 반복하여 기본적으로 샘플링 또는 분할과 유사합니다

데이터 세트를 올바르게 분할하는 다른 방법으로 이번에는 참조 트리가 있습니다 PA RT y 패키지의 일부로 모델을 빌드 할 함수 기차 세트 위에 우리는 어떤 종류의 종을 이해하고 싶습니다 꽃은이 4 개의 란에 대하여입니다 길이와 꽃잎 너비가 여기에 점을 넣은 이유는 결과와 내 나무를 저장하면 이제 여기에 이것을 그려 보도록하겠습니다 이것이 3과 C 3의 차이입니다 이번에는 처음입니다 분할 기준은 꽃잎 길이 열을 기준으로하므로 꽃잎이 길이가 1

7보다 작거나 같으면 꽃을 세토 사로 분류하여 이것을 보면 거의 1에 가까운 확률이 있습니다 확률이 1에 가까우므로 꽃잎 길이가 17보다 작거나 같은 경우 반면에 꽃잎 길이가 길면 세토 사로 분류합니다 17보다 크면 다음 분할 기준은 꽃잎 너비이며 꽃잎 인 경우 너비가 0001보다 작으므로 꽃잎 너비 인 경우 1

7보다 작거나 같습니다 다시 꽃잎 길이를 확인하겠습니다 이번에는 꽃잎 길이가 짧으면 48보다 크거나 같으면 꽃잎이 낫다면 낫 오류 일 것입니다 길이가 48보다 큽니다 60 %의 확률로 호주 색상이고 40 %의 확률 반면에 꽃잎 길이가 다른 경우 버지니아 일 확률 이 경우 17보다 크고 꽃잎 너비가 1

7보다 큽니다 그리고 버지니 카입니다 여기에서 우리는 멀티 V를하고 있습니다 분류하고 우리는 여기서 하나와 세 가지를 혼동하려고합니다 하나의 상자 1과 상자 아래에 동일한 4 개의 값을 분할합니다

세 쓰기 스크립트는 0보다 작은 점을 가지고 있습니다 1 포인트 7 이상에서 1 포인트 미만으로 분할되는 것을 알고 있습니다 7 번은 상자 3에서도 같은 일이 일어나고 있습니다 이 p- 값에 대해 여기이 값을 가져 와서 꽃잎 길이는 이것이 꽃잎 길이의 값입니다 이것은 꽃잎의 값입니다

제가 오른쪽에있는 다른 질문을하겠습니다 당신은 오른쪽으로 이동합니다 오른쪽을 향해 나갑니다 그래, 그럼 우리는 어떻게 상자를 쫓을 수 있을까 3 분할 다시 맞아 맞아이 P 값을 잊어 버리면 혼란 스러우므로이 P 값을 잊어 버리십시오 먼저 꽃잎 길이를 기준으로 분할하므로 꽃잎 길이가 1 점 7 이하인 경우 거의 100 % 반면에 꽃잎 길이가 1 포인트 7보다 큰 경우 우리는 setosa 꽃잎 너비를 확인하겠습니다 꽃잎 길이가 아니므로 꽃잎 너비입니다

이번에 꽃잎 너비가 1 포인트 7보다 작 으면 꽃잎을 확인하겠습니다 꽃잎 길이가 4 포인트 8보다 작거나 같으면 우리는 거의 100이 될 수 있습니다 손이 48보다 크면 약 60 %의 확률로 C 컬러였으며 처녀성 일 가능성이 약 40 %입니다 반면에 꽃잎 길이가 17보다 크고 꽃잎 너비가 17보다 크면 다시이 꽃을 거의 100 % 확신 할 수 있습니다 또는 Jenica에 속해 있으므로 다중 클래스 분류로 여기에서 수행 한 작업 우리가 꽃이 세토 사에 속하는지 이해하려고 노력하는 곳 Wasi 색상 또는 virginica와이 모델의 도움으로 만든이 모델 여기에 C 트리 기능이 있으므로 부유 한 모델을 갖게되었습니다

이번에는 값을 예측하므로 다시 예측 기능을 사용하지만 이제 이전의 경우 우리는 type이 class와 같다고 말 했으므로 이번에는 c3입니다 유형 값의 예측 값을 함수 응답 속도가 이 함수들 사이의 누드 차이와 같은 것입니다 트리 함수를 사용했고 값을 정확히 예측했습니다 트리 함수를 사용할 때 클래스로 설정 한 예측 유형과 C를 사용할 때 트리 함수를 통해 여기에있는 유형의 값을 예측합니다 응답하지만 다시 매개 변수는 거의 동일합니다 다음에 구축 한 모델은 구축 할 테스트 세트입니다

다음 모델은 예측 유형이므로 여기에서 예측 유형은 명명법이 바뀌 었다고 말하는 클래스와 거의 동일한 응답 C 트리 기능에 관해서는 여기에 내 빵에 저장합니다 값도 예측 했으니 이제 혼란을 만들어 봅시다 행렬이므로 실제 값이 정확하게 설정되어있는 값입니다 세토 사로 분류되었으므로 두 경우입니다 실제로 그것은 세 두사 였지만 그는 색으로 분류되어 있습니다 실제 색상은 장미 빛이며 4c로 올바르게 분류되었습니다 색상 이것은 실제 색상과 같으며 잘못되었습니다 Jenica로 분류 된이 경우는 virginica로 실제였으며 4c 색상으로 잘못 분류 된 경우 virginica 그리고 Jenica에 대해서도 올바르게 분류되었습니다

왼쪽 대각선은 올바르게 분류 된 값이며 따라서 2 1 & 2로 쉬십시오 잘못 분류 된 값이므로 계속해서 정확도를 찾으면 이번에는 15 더하기 16 더하기 15가됩니다 15 더하기 16 더하기 15 더하기 2 더하기 1 더하기 2 더하기 우리가 줄거리에서 본 것이 매우 좋은 90 %의 정확도는 꽃잎 너비와 꽃잎 길이만으로 분할이 결정되었으므로 꽃잎 길이 꽃잎의 폭이 넓기 때문에 분할을 결정하는 유일한 열입니다 이들은 꽃이 속하는지 여부를 결정하는 유일한 열입니다 setosa 4c 색상 또는 virginica 그래서 우리는 무엇을 할 것인가 꽃잎 너비와 꽃잎 길이 만 독립 변수는 다른 변수를 포함하는 요점이 무엇입니까 그들이 당신이 분할 기준의 힘조차 알지 못한다면 앞서 다른 모델을 다시 빌드하십시오 이번에는 공식을 C 3 종속 변수 종과 독립 변수는 꽃잎 너비 꽃잎 길이 만이 둘이므로 우리는 sepal length와 sepal width를 갖지 않습니다 이번에는 기차 세트 위에이 모델을 구축하고 있습니다 이제 계속하겠습니다

먼저 이것을 삭제하겠습니다 이제 이것의 플롯을 만들겠습니다 그렇기 때문에 이것은 꽤 지글 지글합니다 예 그렇습니다 의사 결정 트리에서 두 가지만 얻는다는 것을 알아야합니다

사용하고 다른 열을 사용하지 않았 으므로이 방법이 무엇입니까? 모델에 있어야 할 차원의 수를 줄입니다 변수가 10 개 있고 단서가 생기면 사용해야 할 것 이 특정 모델에서 다른 것을 요구하지 않는다고 말하면서 변수를 모델링에 사용할 필요가 없습니다 올바른 방법입니다-예 supernat 의사 결정 트리에 온다 당신이 할 수있는 일이지만 다시이 시행 착오입니다 그래서 그래도 다시 볼 필요가 있습니다 모델과 관련하여 작동하는 것은 여기에서 우리는 sepal width라는 단서를 얻었습니다

sepal length는 split 프로세스의 일부가 아니기 때문에 이것을 사용하지 않고 모델을 빌드하십시오-기본적으로 가져옵니다 리던던시 (redundancy)는 리던던시 (redundancy)를 원하지 않으므로 모델로 이동해 봅시다 그리고 출력이 무엇인지 확인하십시오 Cruz는 기본적으로 데이터를 제한하거나 우리가 이것을 실제로 사용할 수 있도록 독립 변수의 수 예 예, 그래 맞습니다 두 번째와 우리는 여기에 비슷한 음모가 있음을 알 수 있습니다 실제로 비슷하지는 않지만 거의 같은 속도이므로 꽃잎 길이가 짧습니다

17보다 우리는 다시 setosa를 얻습니다 17보다 크면 버지니 카가됩니다 우리가 다시 예측할 수 있도록 여기에 같은 결과를 얻습니다 방금 구축 한 모델의 값을 사용하여 예측 함수는 작성한 모델이 첫 번째 매개 변수가됩니다

나무-그리고 우리는 테스트 세트와 응답으로 입력하면 빵에 저장하겠습니다 이제 다시 진행하겠습니다 먼저 내 혼란스런 매트릭스를 다음 테스트 세트는 예측 값입니다 이 빵 개체보다 더 많이 저장하고 Enter 키를 누르면 다시 볼 수 있습니다 여기서 비슷한 결과를 다시 얻습니다

정확도 15 + 15를 확인하겠습니다 더하기 16을 15 더하기 15 더하기 15 더하기 16 더하기 2 더하기 1 더하기 2 더하기 이 음모를 통해 동일한 정확도로 분리 길이를 알 수 있습니다 sepal width는 모델에 정보를 제공하지 않았을 때 우리는 그 두 열을 제거하고 모델을 다시 부드럽게 만듭니다 모델을 다시 빌드하면 다음과 같은 정확도를 얻을 수 있습니다 모든 독립 변수를 포함하여 이것이 당신이하는 방식입니다

기본적으로 시행 착오에 이것은 당신이 가장 잘 맞는 것을 찾으려고 노력하는 방법입니다 모델은 나무로 완성되었으므로 이제 C 나무로 완성되었습니다 우리의 최종 결정 트리 기능을 위해 이 Arpad 패키지를 설치하기 전에 그래, 우리가 분류를 할 때 우리가 아닌 것을 정상적으로 알고 있는지 우리는 내가 말한 것처럼 마지막 세션에서 의미 우리가 할 때 동의하는 상황에서 분류가 필요합니다 문제는 특정 왼쪽에만 의존하는 것이 아니라 화살표 위의 곡선 아래이 영역은 예에 해당합니다 다시 실행하려면 필요한 국가 하나를 수행해야합니다 분류 문제 당신은이 모든 것을 처리해야 할 것입니다 분류 문제가 무엇이든간에 요인 분류 특이성 사이에 올바른 균형이 필요합니다

민감한 당신은 민감성을 알고 있습니다 이러한 모든 요소가 이제 우리가 ROC 어떤 특정 포인트 5 포인트 7 우리는 그 값을 사용해야합니다 독자를 두는 것과 같은 결론은 다시 반복 할 수 있습니다 포인트 7 포인트 7 주장 ROC 값이 임계 값이라고 가정 이 점과 같은 결론 매트릭스에서 사용해야하는 05 점 또는 이와 같습니다 표는 인쇄 기준보다 크거나 Zenga보다 크지 않으므로 우리는 그것을 좋아했습니다 GLM을 사용할 때 당신이 이것을 사용할 때 반면에 당신에게 확률을주는 기능 트리 함수와 트리 함수를 참조하십시오

우리가 직접 수업을 주겠다고 예측했을 때 이 함수 자체는 임계 값을 받아 해당 임계 값의 기초로 데이터를 클래스로 나누거나 두 클래스의 데이터를 예측하므로 여기서는 설정할 필요가 없습니다 수동으로 직접 임계 값을 설정하므로 GLM에서 물류를 수행해야했습니다 회귀 함수는 우리에게 예측할 확률을주었습니다 유형은 소품과 같습니다 강 중 하나에 대한 우리의 아이디어를 다시 사용하는 방법을 다시 보여줄 수 있습니까? 이 권한에 ROC를 사용하는 지점이므로 이에 대한 임계 값이 필요하지 않습니다 내가 좋아하는 것은이 두 가지의 예상 결과를 보여줄 것입니다

그래서 우리는 괜찮아이 모델을 다시 약을 먹일 것이다 이것을 복사해서 여기에 붙여 드리겠습니다 잠깐만 기다려라 그러면이 전체를 다시로드해야합니다 이 값들을 인쇄해서 트리 도트를 읽도록하겠습니다 값은 실제로 당신이 예 / 아니오를 얻는 최종 결과입니다 여기에는 확률이 없으므로 0과 같은 확률을 얻지 못합니다 이것이 그렇다는 80 % 확률이 있거나 나머지 20 % 확률이 이것은 아니므 로이 기능 자체는 적절한 평균을 취하거나 임계 값과 최종 분류 결과를 제공하므로 이 최종 분류 결과를 가져 와서 원본과 비교하십시오

결과와 모듈 자체가 얼마나 정확한지 알아보십시오 이 트리 C 트리와 Arpad 함수까지 최적의 임계 값을 제공합니다 자체적으로 최적의 임계 값을 제공하므로 해당 임계 값을 수동으로 설정하십시오 당신은 우리가 당신 사이의 절충을 원한다는 것을 이해해야 각 하위 ROC는 다시 정확한 정확도에 대한 임계 값을 제공합니다 이 임계 값에서 잘라 내면 최대 정확도이지만 다시이 기능 자체가 수행하므로 수동으로해야하는데 임계 값을 수동으로 설정하지 않아도됩니다 임계 값을 수동으로 설정하지 않으면 이 모든 것을 알고있는 AUC 기능을 사용하십시오 참을성없이 옳지 않다

그리고 두 번째 것은 두 번째 질문이다 멀티 클래스이기 때문에 같은 방식으로 사용할 수 있습니다 파티 패키지를 사용할 때의 분류는 리 팩키지 azamati 클래스 예, 당신은이 세 가지 모두로 그렇게 할 수 있습니다 할 수있는 기능이지만 시작하기 위해 LM 모델을 사용할 수 있습니다 아니, 그건 불가능 해 난 그렇게 생각한다 로지스틱 회귀가있는 다중 클래스 분류이므로 확인해야합니다 우리가 다른 GA를 다른 함수로 사용한 것처럼 G가 네가 직접 사용할 수있는 것이므로 세는 부분이며 C 3은 할 수 있습니다

멀티 클래스 분류에 직접 사용하므로 다시 LM 당신이 이것을 이해하기 위해 필요한 것은 이항 모델이며 이 확산 트리 모델은 둘 다에 사용됩니다 그들이 회귀와 분류에 사용되는 목적은 예, 우리는 나무로 끝났습니다 우리는 C 나무로 끝났습니다 우리와 함께 우리의 부분은 회귀를 할 것이므로 이번에는 Boston 데이터 세트를 가지고 있으므로 대량 패키지를 먼저로드해야합니다 화성의 도서관을 열면 Boston 데이터 셋을로드해야합니다

보스톤의 데이터입니다 여기이 데이터 세트가 표시됩니다 이 열이 의미하는 바는이 보스턴 데이터 프레임이 6 개로 정리 된 것입니다 행과 열 14 개와 모두 다릅니다 CR이있는 콜린스는 기본적으로 1 인당 범죄를 나타냅니다 마을 Zeldin에 의해 속도는 음모에 대한 곧 주거 용지의 비율입니다 25,000 평방 피트이며 이것은 비 소매 비즈니스 에코의 비율입니다 이 목록을 통해 갈 수있는 다른 열입니다 초점은이 ma DV 열에있을 것이므로이 ME DV는 천 달러의 소유자가 점유 한 주택으로 기본적으로 우리는 예측하려고합니다

이 집의 가치는이 집의 가치는 $ 24,000입니다 $ 21,000이고 $ 24,000과 같으므로 다른 열을 기준으로 이 중앙값을 예측하는 데 도움이되는 회귀 모델을 작성 Arpad 기능을 사용하여 첫 번째 작업을 다시 수행하겠습니다 Arpad 패키지를 다시로드해야합니다이 데이터 생성 파티션을 사용하고 있습니다 당근 패키지의 일부인 함수이므로 이번에는 분할 열이 이 MATV와 비율은 0

65이므로 65 %는 훈련에, 35 %는 먼지가 적을수록 시퀀스가 ​​떨어 지므로 다시 태그를 나누십시오 이 보스턴 데이터에서 우리가 할 일은 분할 태그 나는 그것들을 훈련 세트와 분할 태그에는 35 %의 나머지 값을 저장하지 않습니다 테스트 세트를 준비하여 교육 및 테스트 세트를 준비했습니다 이번에는 훈련 세트 위에 모델을 만들 것입니다 우리가 사용하는 기능은 우리의 부분이며 다시 동일하므로 공식에서 데이터를 얻었으므로 공식 sme DV 물결표가 나와 TV 종속 변수와 다른 모든 열은 독립적이므로 MeV는 종속적이고 모든 열은 독립 변수이며 우리는 Spree를 플롯하기 위해 지금 설정된 기차 위에이 모델을 빌드하십시오

Part dot plot 패키지에 필요할 것입니다 패키지를 만든 다음 방금 트리를 시각화해야합니다 불완전한 도트 플롯을 만들었고 내 나무 인이 오브젝트를 전달할 것입니다 좋습니다 이것은 이것에서 얻을 수있는 일종의 시각화입니다

여기에서 첫 번째 분할 기준은 L 시작을 기준으로합니다 L 시작이 9 포인트 7 이상이면 왼쪽으로갑니다 ll의 다른쪽에 9 포인트 7 미만으로 시작하면 우리는 계속 오른쪽으로 이동해서 먼저 다른 오른쪽으로 이동하겠습니다 우리가 오른쪽으로 가면 9 포인트 7 미만이라고 가정 해 봅시다 RMS가 7 포인트 5 미만이므로 7 포인트 5에 다시 남아 있으면 왼쪽 7 점 5보다 크면 오른쪽으로옵니다 스플릿이 발생하는 방식이며이 값이 어제 집값의 평균값은 어제 플레이어의 월급을 예측하려고 할 때의 첫 번째 예 의사 결정 트리를 사용할 때 플레이어의 평균 급여를 알려주십시오

연속 값을 예측하는 모델은 평균 값을 제공하므로 분할은 이런 식으로 진행되며 평균 가격은 9입니다 천 달러와 같은 평균 가격이 그 집은 만오 천이고이 과정을 따른다면 평균은 집의 가격은 마흔 오천 달러이므로 이것이 당신의 것입니다 여기 스플릿이 작동하는 방식입니다 이제 모델을 만들었습니다 이번에는 예측을 사용할 것입니다 우리는 세 번째 매개 변수를주지 않을 것이므로 이번에는 연속 값이므로 유형을 설정할 필요가 없으므로 자동으로 연속적인 값이므로 먼저 빌드 할 때 모델 이름을 지정합니다 Maya 트리이고 예측하려는 데이터 세트가 제공됩니다

값을 테스트 세트의 상단에서 예측하려고합니다 결과 예측 트리는 이제 실제 값과 예측 된 값을 찾습니다 C 포도 함수를 사용하여 실제 값이 테스트 세트에 있고 예측 된 값은이 개체에 있으며이 둘과 최종 데이터에 저장합니다 이것은 실제로 행렬이므로 이것을 최종 데이터의 저장 데이터 프레임으로 먼저 DITA 프레임으로 변환 최종 데이터로 다시 저장하므로 최종 데이터를 볼 수 있습니다 가치와 이것들은 우리가 지금 가지고있는 예측 된 가치입니다 계속해서 예측 오류를 찾아서 오류를 예측은 다시 실제 값에서 예측 된 값을 뺍니다

그리고 우리는 예측에서 오류를 얻습니다 그렇게 해봅시다 그것은 매우 간단합니다 당신이해야 할 모든 최종 리더 달러 실제-최종 날짜 예측하고 오류를 저장하고 다시 오류를 바인딩합니다 최종 데이터는 이제 최종 데이터에 대한이 관점을 한눈에 볼 수있게합니다

값은 예측 된 값이며 이것은 예측의 오류이므로 다시 원한다면 우리가해야 할 평균 오차를 찾으려면 약간의 두께가 있습니다 제곱 평균 제곱 오류입니다 계속해서 제곱 평균 제곱 오류를 알아 봅시다 먼저이 오류를 처리하고이 값을 제곱 한 다음 그리고 제곱근을 취하겠습니다 첫 번째 모델의 경우 3 점 9 3의 근 평균 제곱 오류가 발생합니다 이제 이것을 mac1ana에 저장하겠습니다

이 이미지를 가져 오겠습니다 L start NO x CR I am 및 RM 만 사용되었습니다 우리가 가지고있는 독립 변수는 분할에 사용 된 열은 이 독립 변수 만 사용하므로 모든 변수를 사용하지는 않습니다 독립 변수이므로 ML 시작을 여기서 다시 시작하겠습니다 X도 알고 있으므로 P도 끝났습니다 두 번째 모델도 마찬가지입니다

우리는하지만 에밀리와 같은 공식은 종속 변수이고 이번에는 독립 변수가 ML 별 CRI가되고 X와 D는 기차 세트 위에이 모델을 구축하여 모델을 구축합니다 다시이 오른쪽을 한 번 보도록하겠습니다 동일한 결과를 얻었으므로 변경 사항을 눈치 채지 못했습니다 오른쪽을 삭제하겠습니다 다시 Enter 키를 누르면 우리가 가진이 하나, 둘, 넷, 다섯 개의 독립 변수를 포함 시켰습니다 여기에 동일한 분할이 있으므로 기본적으로 다른 열은 분할 목적으로 사용되었습니다 이제 모델을 만들었습니다

계속해서 값을 예측하고 이 모델의 RMS C를 계산해 봅시다 신용 기능을 사용하여 모델을 첫 번째 모델로 사용합니다 매개 변수를 저장 한 다음 사막에서 값을 나누고 저장합니다 다시 나무를 예측하고 실제 값과 테스트 값을 찾아서 저장하고 최종 데이터를 데이터 프레임으로 변환하고 예측 오류 이제이 오류를 최종 데이터에 다시 바인딩해야합니다 다시 C bind 함수를 사용하여 최종 데이터를 나는 이것에 오류를 묶고 있습니다이 시점을 한눈에 볼 수있게하십시오

파이 데이터를 독립적으로 사용했을 때의 최종 데이터 변수는 실제 값이며 예측 된 값입니다 이제 오류 도입이 다시 진행되고 근본 평균을 찾도록하겠습니다 제곱 오차이므로 근 평균 제곱 오차는 3 점 9 3입니다 MSE에 올바른 것을 넣었으므로 첫 번째 모델과 두 번째 모델은 제곱 평균 제곱 오차가 동일하므로 이 다섯 독립 후 다른 변수를 포함 할 필요가 전혀 없습니다 변수는 모델에 아무것도 추가하지 않기 때문에 변수이므로 이상적인 독립 변수를 선택할 수있는 방법은 다음과 같습니다

의사 결정 트리의 도움으로 회귀 분석 우리가 좋을 때 나는 아직도 알고있는 기능들 우리는 우리가 싸움을 잘라 내가 세션 후 내가 당신과 함께 이것을 공유합니다 이것을 운영 팀과 공유하면 그들은 우리 파일을 너희들과 함께 줄 것입니다 그래 정말 고마워 그리고 난 아들 것입니다 그래, 내 성은 내가 상반기를 기록하지 않았다는 말을 들었다 어제의 세션의 그래서 기본적으로 내 잘못이었다 그래서 나는 이전 부분을 다시 기록해야한다고 믿습니다 제가 할 것은 2d 세션 후에 이론 부분을 기록 할 것입니다 다시 내일 밤까지 어제 이론에 의해 업로드됩니다 세션은 계속 진행되므로 아무도 모르는 다른 의심도 있습니다

우리의 냉각 속도와 우리는 또한 여기 그래도 당신은 가지 치기를 할 수 있습니다 참조하십시오 같은 쿨링 방식이 아니므로 정직한 꿈의 통제가 있습니다 컷에 대한 스프링 제어 파라미터를 사용하여 나무는 C 3이 무엇인지 읽었으므로 C 3에는 열차 제어 매개 변수가 있습니다 그 열차 제어 매개 변수 안에 당신은 당신이 이상적인 설정 알고 사랑 분할 할 때 노드 수 또는 이상적인 임계 값 분할하고 그것이 당신이하는 방법입니다 우리는 모든 가지 치기 기술이 될 것입니다 동일한 결과를 가지므로 후 가지 치기에서 한 가지 유형의 비용 복잡성이 있습니다 우리가 이전에 본 것은 비용 복잡성 정리 (plancity pruning)였습니다

그 뒤에 루트 노드로서 가장 높은 미스가 있습니다 오 분류 율을 계속 낮추는 분류 율 또는 대체 오류가 감소하므로 다음과 같은 오류를 찾아야합니다 특히 당신은 그 특정 수준의 분할을 알고 우리가 초안에서 본 것처럼 오 분류 율은 최소이며 16 개의 메모를 읽음으로써 분류 오류가 가장 적었지만 우리가 다시 쪼개기 시작했을 때 열 여섯은 실제로 학위가 아니었지만 오 분류 율이 증가했기 때문에 비용 복잡성 정리 귀하의 아이디어는 오 분류 율의 최소값을 갖도록하는 것입니다 오 분류 율의 최소값이있는 최소값 그것은 이상적인 수의 터미널 노드가 될 것입니다 기본적으로 불순물 기능의 Gini 인덱스 또는 정보 획득 이 세 패키지는 Gini 인덱스의 imperator를 사용합니다

이제는 다시 확실하지 않아서 그렇게 읽어야합니다 기본적으로 이러한 의사 결정 트리 기능은 그들은 Jini를 사용하므로 임의의 숲을 위해 우리는이 CD GT와 함께 작업 할 것입니다 이게 기본적으로 내가 당신에게서 가져간 의료 데이터 세트입니다 기계 학습 저장소라고 말하면이 데이터 세트를 보내 드리겠습니다 세션 후 얘들 아 그래서 당신은이 비디오를 통해 나를 따라 와야 그래서 기본적으로이 모든 열로 구성되어 있으므로 기본적으로 데이터입니다 환자의 태아 심박수를 측정하는 세트와는 다릅니다

매개 변수이며 이는 기본적으로 최종 카테고리 열입니다 예측하기 위해이 NSP는 기본적으로 정상을 나타냅니다 태아의 심박수가 정상이거나 병리학 적이거나 병리학 적 비율로 의심되므로 다시 당신의 멀티 클래스 분류와 우리의 도움으로 그것을 할 것입니다 임의의 숲과 의사 결정 트리 우리는 하나의 트리를 가지고 있습니다 우리가 가진 데이터 세트는 이제 앙상블 학습이라고 불리는 것입니다 이것에 대한 완벽한 예는 영화를보고 싶다고 말하고 한 친구가 모든 행동을 미워하도록 친구의 조언을 받음 영화를 보니까 어벤져 스와 그 친구를보고 싶어 모든 액션 영화를 싫어하고 그는 매우 오 그는에 대한 매우 편견을 가지고 액션 영화와 그가 복수자를 보지 못했지만 그는 당신에게 말할 것입니다 그것은 당신이 기본적으로 우리를 배우고 앙상블에서 일어나는 지금 나쁜 영화입니다 여러 사람에 대한 의견이므로 그냥 대신 앙상블 학습 하나의 의사 결정 트리를 작성하면 여러 의사 결정 트리가 있거나 다른 의사 결정 트리가 있습니다 당신은 열 사람의 의견을 가지고 그 열 사람 중 여덟 사람의 의견을 다른 두 사람이 가지고있는 좋은 영화이기 때문에 어벤저를 보라고 할 것입니다

자신의 편견을 가지고 있기 때문에 그들이 나쁜 영화라고 말하는 이유입니다 전체적으로 당신은 복수자가 기본적으로 훌륭하다는 집단적 견해를 얻을 것입니다 앙상블 학습은 여러 의사 결정 트리에서 결과를 얻으므로 첫 번째 확장은 의사 결정 트리가 포장하고 우리가 가지고있는 포장에서 나옵니다 우리에게 임의의 숲이 있습니다 초기 데이터 세트이므로이 초기 데이터 세트에서 여러 데이터 세트를 만듭니다 교체로 샘플링하여 생성 한 데이터 세트를 n 개의 레코드가있는이 데이터 세트는 내가하는 일을합니다

동일한 수의 레코드를 가지며 다른 레코드가있는 다른 데이터 세트 l1 L에서 가져 왔지만 비슷한 방식으로 교체하여 샘플링하여 수행됩니다 L에서 가져온 n 개의 레코드가있는 l2를 생성하지만이 레코드는 샘플링 중입니다 대체와 마찬가지로 다른 데이터 세트를 생성합니다 L에서 가져온 n 개의 레코드가 있고 다시 샘플링하는 l3입니다 X와 같은 데이터 세트를 생성하고 하나의 결정을 내릴 것입니다 하나의 결과를 얻는 대신 각 데이터 세트의 맨 위에 트리 여러 의사 결정 트리에서 여러 결과를보고 집계를 수행합니다

모든 결정 트리의 결과이므로 당신이 나를 따라갈 수 있니? 우리는 임의의 배깅이 임의의 숲이라는 것을 알고 있습니다 임의 포리스트이 부분은 동일하므로 먼저 여러 데이터 세트를 생성하지만 임의의 숲이 우리에게 분할 기준을 포기하는 것과 다른 부분은 이 분할 기준에 대해 여기에있는 노드는 독립 변수 독립 변수의 하위 섹션 만 가져옵니다 그리고 그것은 임의의 하위 섹션이 될 것입니다 내가 사용할 10 개의 독립 변수에서 내 데이터 세트의 변수 이 분할과 유사하게 분할에 대한 3 개의 임의의 독립 변수 다시 나는 세 개의 무작위를 다시 사용할 것입니다 임의의 변수를 사용할 수 있으므로 10 개의 임의 변수를 모두 사용할 수 없습니다 split에만 em 임의의 변수를 사용할 수 있으며 일반적으로 이 M 값은 P의 근본이고이 P는 독립 변수의 총 수이므로 10 개의 독립 변수가 있다고 가정 해 봅시다 변수 M은 10의 근 아래에 있으며 약 3 ~ 4입니다 이 임의의 네 개의 임의의 숲은 임의의 숲에서 임의의 단어입니다

기본적으로 여기이 부분에서 나옵니다 임의의 독립 변수에 종속되어 있으므로 노드는 앙상블 학습은 임의의 숲으로 알려져 있으므로 이것이 유일한 부분입니다 자루에 넣기와는 다르며 다시 이러한 결정 트리가 있으며 이러한 모든 의사 결정 트리에서 결과를 얻은 다음 의사 결정 트리와 이것이 우리의 최종 결과가 될 것이므로 이것이 기본 아이디어입니다 임의의 숲 뒤에서 당신을 도와줍니다 좋아, 그래 이제 우리가 어떤 랜덤 숲으로 가자 임의의 숲과 함께 그래서의 구조를 보면서 시작하겠습니다 이 데이터를 사용하여 STR 함수를 사용합니다

이 열은 모두 지금이 내 의존 열은 n SP입니다 정수 유형이지만 분류를 수행하고 있으므로 경고했습니다 이것은 범주 형 변수이므로 첫 번째 단계는 이것을 변환하는 것입니다 정수형 변수를 범주 형 변수로 바꾸고 AZ 도트 팩터 함수를 점으로 변환합니다 데이터 달러 NSP의 사실과 나는 이것을 저장합니다 데이터 달러로 돌아 가기 NSP는 이제 두 번째의 구조를 살펴 보겠습니다 데이터 구조와이 정수 유형이 다시 한 번이 NSP의 레벨을 한 눈에 살펴 보겠습니다

이 것은 환자가 정상임을 나타내며 환자가 태아 심장 질환이있는 것으로 의심되고 3 개는 환자는 병리학적인 심장병을 앓고있어 1600 명이 쉰 다섯 정상 환자 이백 아흔 다섯 환자 태아 심장 질환이 의심되는 176 명의 환자가 실제로 병리학적인 심장병을 가지고 있습니다 이제 다시하겠습니다 앞서이 데이터 세트를 훈련 테스트 세트로 나누고 열차의 상단이 설정되었으므로 이제 다시 시드 값을 1로 설정합니다 세 가지 결과가 나올 때마다 반복 할 수 있습니다 나중에 다시 똑같이 닷 시드 103을 말했고 계속 사용하겠습니다 분할 열을 NSP로 설정하여 분할 확률을 0

65로 설정 기록 할 기록의 65 % 훈련 지금 시험 할 기록 35 % 기록 분할 태그의이 값이있는 곳이면 어디든 가져 와서 이 65 % 값을 저장하고이 분할 태그를 제외하고 세트를 학습 35 % 레코드의 나머지는 내가 가져 와서 여기서 테스트 세트를 준비했습니다 이제 훈련 및 테스트 세트를 준비했습니다 앞서 훈련 세트 위에 임의의 숲 모델을 구축하여 임의의 포리스트 패키지를 올바르게로드해야하므로 이것을로드했습니다 패키지 다시 시드 값을 먼저 설정합니다 시드 값 스트립 이제 열차 데이터 위에이 랜덤 포레스트 모델을 빌드하고 다시 공식의 말뚝은 훈련 인 데이터를받습니다 기본적으로 여기 공식은 n SP 델 도트 도트입니다 이것은 n SP가 종속 변수이므로 우리의 종속 변수입니다 변수 및이 점은 다른 모든 열이 독립 변수임을 나타냅니다

훈련 세트 위에이 모델을 구축하고 있습니다 여기에 RF를 인쇄하십시오 이것이 기본적으로 우리가 만든 모델입니다 랜덤 포레스트 알고리즘은 트리의 수를 500으로하는데이 M 값은 우리가 본 M 값은 변수의 개수입니다 이것은 4입니다

기본적으로 나무 수는 500으로, 그 M은 값은 4로 간주되며 이것은 혼란 매트릭스입니다 트리 외부 또는 오류 추정으로 알려진 것이 있으므로 우리가 언제 나아 갔는지 알고 나무를 만들면 데이터 세트에 대해 알 수 없습니다 우리가 이것을 만들 때 모든 행 이이 데이터 세트에 들어와야합니다 데이터 세트 모든 행이이 데이터 세트로 들어 와서는 안됩니다 입력하지 않은 레코드로 우리가하는 일 우리는 기본적으로이 알고리즘을 사용할 것입니다

기본적으로 들어오지 않은 레코드에서이 임의의 포리스트 모델을 빌드합니다 이 X 데이터 세트는 해당 레코드의 정확도를 계산합니다 이 X 데이터 세트의 일부가 아니므로 오류 추정치는 5입니다 일곱 여덟 퍼센트 또는 다른 말로 정확도는 약 94 % 정도 였으므로이 기록의 경우 혼동 행렬로 천만 60 세의 모든 환자들이 정상으로 올바르게 분류 됨 14 잘못 분류 됨 용의자와 두 사람은 모두 병리학 적으로 잘못 분류되었습니다 미안한 50 명의 환자를 제외한 기록 실제로 심장의 절반 인 것으로 의심되는 50 명의 환자 질병이 정상으로 잘못 분류되었습니다 심장병이 의심되는 139 명의 환자가 올바르게 용의자로 분류되었으며 그 중 두 개는 다음과 같이 잘못 분류되었습니다 병리학 적으로 질병은 병리학 적 질병이있는 것으로 올바르게 분류되었습니다 5와 6은 MIS 분류이며 분류 오류입니다 이 세 클래스와 관련하여 이것은 임의의 포리스트 모델입니다

방금 구축했습니다 계속해서 값을 예측하겠습니다 다시 사용하겠습니다 예측 함수의 첫 번째 매개 변수는 다음을 빌드하는 모델입니다 매개 변수는 테스트이므로 여기에는 세 번째 매개 변수가 없습니다

기본적으로 클래스 레이블을 제공하고 이것을 P one에 저장하고 다시 계속해서이 테이블의 도움으로 혼란 매트릭스를 만들 것입니다 이것이 바로 실제 값이고 예측 된 값입니다 여기에있는 값은 정확도를 계산할 수 있도록 앞의 예에서이 왼쪽 대각선은 모든 것을 정확하게 나타냅니다 실제로 질병을 앓 았던 567 명이 분류 된 값으로 질병이있는 것으로 의심되는 질병 81을 갖는 것으로 분류 실제로 병리학적인 사람이있는 것으로 의심되는 51 명으로 올바르게 분류 됨 질병은 병리학 적 질병을 가지고 올바르게 분류되어 이에 대한 정확도는 567 플러스 81 플러스 51을 567 플러스 81 플러스 51로 나눈 값입니다 더하기 8 더하기 4 더하기 2 더하기 5 더하기 5 맞습니다 그것은 20도 그렇습니다 그래서 5 6 1 80 1 쉰 1 8 4 2 스물 다섯 다섯, 그래서 책상은 94 %의 정확도를 사용합니다 이것과 ACC 하나를 해봅시다

이제 우리가 할 것은 M의 최적 개수이므로 M은 기본적으로 사용 가능한 변수의 개수입니다 그 최적의 M 값을 얻기 위해 우리는이 조정 또는 기능 I 시드 값을 다시 설정하고이 튜닝 또는 기능을 사용하여 모든 매개 변수는 이것이므로 먼저 n의 집합을 취합니다 독립 변수 다음에이 마이너스 22 음이므로 기본적으로 모든 마지막 행을 제외한 행이 마지막 열이므로이 22가 마지막입니다 열이므로 마지막 열을 제외한 모든 열을 가져옵니다 첫 번째 예 예 예 예 그래서 우리에게 정확도 왼쪽 대각선 너무 대각선으로 정확히 우리의 실제 Pheebs 대각선 왼쪽 대각선을 모든 값으로 나눈 값은 정확도를 제공합니다 왼쪽 대각선은 정확하게 모든 값으로 구성되어 있기 때문에 오른쪽으로 분류하여 첫 번째 매개 변수로 넘어갑니다

독립적 인 변수의 혼란으로 다음 매개 변수는 종속 변수를 설정 한 다음 깊이 계수를 제공하여 단계 계수가 기본적으로 각 반복에서 M 값이 H를 얼마나 증가 또는 감소시켜야하는지에 따라 그래서 나는 이것을 05라고 말했고 이것이 튜닝 할 때 플롯을 만들어야합니다 3으로 설정합니다 사실이라고 말한 다음이 항목이 있습니다 최적의 M 값 나는 나무의 수가 300 개일 때 원한다

그래서 나는 이 임의의 숲에서 나무의 수를 300으로 삼고 이 나무 수에 대한 최적의 M 값은 기본적으로 응력 이 모델이 구축 될 때 나무를 제공하고 반복 할 때마다 개선해야 할 요소가 많이 있습니다 이를 통해 005로 할당했습니다 기본적으로 그래프를 제공합니다 이것은 이와 같은 것이므로 먼저 살펴 보도록하겠습니다 이제 우리가 300으로 가지고있는 나무의 수와 나무의 수가 300 일 때 처음에는 M 값을 사용하여 시도합니다

처음에는 변수의 수가 사용 가능한 독립 변수는 4이고 독립 변수에 사용할 수있는 독립 변수는 6 포인트 1 5이고 그런 다음 도움으로 시도 했으므로 도움이 필요할 때 루비 오류가 발생했습니다 16 점으로 시도한 후 5 점 7 점 1 % 16 나무가 세 개일 때 우리가 보는 것을 다시 증가시켜 백개의 최적 M 값은 8입니다 그래서 우리는 여기에서 본 것입니다 2 4 8은 2에서 4에서 8까지 오차가 감소하지만 8 회 후에 다시 감소합니다 더 많은 수의 임의의 독립 변수를 제공했습니다

실제로 증가하지 않습니다 감소하지 않습니다 그래서 우리는 발견 우리를위한 최적의 M 값의 최적 수 이제 우리는 계속해서 그 M을 사용할 것입니다 시드를 다시 설정하고 임의의 포리스트 모델을 다시 빌드하고 random forest 함수를 사용하므로 종속 변수는 n SP입니다 나머지 변수는 내가 짓고있는 독립적 인 변수입니다 나무의 수는 300이고 M 값은 속도입니다 이제 F를 출력하겠습니다 이것이 이번에 우리가 얻는 것입니다

바깥 상자 오류 추정치는 5 점 8 6입니다 이제 계속해서 클릭하겠습니다 예측 함수를 다시 사용할 값은 먼저 두 개의 매개 변수를 사용합니다 맞아요이 기차는 기본적으로 괜찮아요

이 튠 RF를하겠습니다 이 기차에서 22를 빼면 예측 변수의 지표 또는 데이터 프레임으로 표시됩니다 이 열차 22 변수 이것은 응답 인자이므로 먼저 우리는 마지막 열을 제외한 나머지 예측 변수 목록 예측 변수이거나 다시 말해 독립 변수입니다 그 후 우리는 반응 계수 또는 종속 요소를 제공해야합니다 반응 계수는이 20 초 열입니다 우리가 사용했던 다른 속성들은 이 플롯은 기본적으로 OB 에러를 M의 기능을 시도한 다음 여기에서 기본적으로 나무 수를 설정하여 나무를 사용합니다 이것은 검색 진행 상황을 인쇄 할 것인지를 알려줍니다

검색에 대한 OB 오류의 상대적 개선이이 정도 여야합니다 Lin에게 우리가 제공하는 모든 매개 변수를 올바르게 계속 이해합니다 이 보수에 대한 교육-21 22 나는 산업계가 그 길을 이해하지 못했다 그냥 인쇄 한 다음에 우리가 나누는 곳을 따라 갔습니까? 전체 데이터 세트는 우리를 기차 세트로 훈련시키고 그들이 할 수있는 바를 테스트 우리는이 원본 데이터 세트를 가지고 있고 기차로 나누었습니다 이제 홍수를 테스트 한 후 모델을 만들었습니다 완벽한 m 값을 찾기 위해 F 함수에 걸리는 완벽한 m 값을 찾으십시오

특정 매개 변수에서 첫 번째 매개 변수는 구성된 데이터 프레임입니다 이제 모든 예측 변수 중 열차 데이터 프레임을 보여 드리겠습니다 이 열로 구성된 열차 데이터 프레임입니다 이 전체 데이터 프레임에서 22를 제외한 모든 열을 선택합니다 열과 나는 이것을 -22로 명명 할 것입니다

그래서 당신이 여기에서 -22를 봅시다 이 열차 데이터 세트를 참조하십시오 여기에는 NSP 열이 있지만이 마이너스 22는 없습니다 NSP 열이 맞습니다 기차 쉼표에서 22를 빼면 마지막 열을 제외한 모든 열이 사용되므로 당신은 당신이 시도했던 초기 수업의 초기에 배웠어야합니다 사용하는 행과 열을 다시 색인하는 방법을 배우는 곳을 알고 있습니다

22 번째 줄은 다시 한 번 같은 명령을 사용합니다 그래서 이것은 현재 마지막 열입니다 더하기 20-더하기 22보기 그래서 이것은 단지 하나의 열을 가지므로 우리는이 전체를 가졌습니다 데이터 프레임은 이제 첫 번째 매개 변수는 예측 변수 열입니다 NSP 열 다음 매개 변수를 제외한 열은 종속 열이므로 종속 열을 원할 때 오른쪽 열 번호 만 입력하십시오 이 열은 의존 열만으로 구성되어 있으므로이 열차 데이터 프레임에서 우리가 당신을 원한다는 것을 알고 내, 특히 나는 다시는 소품이 없다 이것들을 닫고 싶습니다

이것들은 우리가 가지고있는 모든 매개 변수입니다 우리는 M의 최적 개수가 8이라는 것을 알았습니다 최적의 숫자는 8입니다 또한이 RF 값을 인쇄하겠습니다 이제 계속해서 값을 나누겠습니다

최적의 M 값을 알고 그 최적의 M 값과 관련하여 숲을 짓고 테스트 세트의 값을 예측하고 이제 p2 객체에 저장하고 그 후에 빌드하고 혼동 행렬이므로 다시 두 개의 매개 변수를 사용합니다 실제 값은 다음은 p2에 저장된 예측 값이므로 혼란입니다 우리는 너무 괜찮아요 여러분 중 몇 명이 아직도 가지고 있습니까? 이 혼란스러운 매트릭스를 사용하지 않도록 선택하는 방법을 알 수 있습니다 내가이 혼란스러운 행렬로 오류를 계산하고 있습니까? 이 권리에 관한 질문 다른 사람들은 혼란 매트릭스로 분명합니다

이 매끄러운 혼란을 어떻게 해석합니까? 행렬과이 정확도에서 정확도를 어떻게 얻습니까? 앞서 정확도를 계산 한 다음 566 + 83 + 52를 Phi 66 +로 나눕니다 83 더하기 52 더하기 8 더하기 파이 더하기 2 더하기 파이 더하기 4 그래서 우리는 무엇이든 놓쳤다 18도 있습니다 556 5와 4에서 350에서 850까지입니다 우리는 94 % ECC 1의 정확도를 얻습니다 우리가 당신에게 3의 수는 300이고 우리는 기본적으로 다음과 같이 94 %의 정확도를 얻습니다

이것은 처음에 500의 가치가있는 3의 수와 엠 드라이브 가치는 4 였지만 RF 튜닝을 통해 우리는 약간의 조정과 우리는 때의 최적의 값을 얻고 싶었다 나무는 300이었고 우리는 M em이 em의 최적 가치를 시도한다는 것을 알았습니다 나무의 수를 300으로 설정하고 M을 우리는 90 점의 정확도를 얻었습니다 마녀의 경우 3은 이전 모델보다 약간 개선되었습니다 이것은 당신이 매개 변수를 다시 부여 할 수있는 방법입니다 항목과 M try 인 두 가지 변수 속성으로 구성 바로이 두 가지로 놀 수 있습니다-다시 시도해 볼 수 있습니까? 나는 어떻게 든 그것을 그리워한다 그래서 당신은 내가 이것을 커버하기를 원한다-nah riff 다시 그래 그래 훌륭한 M 내가 시도하는 의의가 무엇인지 시도 M 가격은이 M 값이므로 M try는 M 값이 변수의 수 또는 임의의 수입니다

우리가 여러분의 M 소수 또는 M 인 분할에 제공하는 변수 이 실행 예 그래서이 M 은이 시점에서 시도 해요 우리는 모든 변수를 먹이고 하나의 의사 결정 트리에서 당신이 사용할 수있는 최대 값은이 무작위에 대해 분할하지 않는 8 개의 변수입니다 여기 숲이 있습니다 22 또는 23이 아닌 열 수를 확인하겠습니다 예, 우리는 22 개를 가지고 있습니다 그 열은 우리가 여기서하는 일입니다 랜덤 8이 맞습니다 그래서 M이 여기있는 것입니다

각 분할에 대해 독립 변수의 임의 하위 섹션이 있습니다 이 분할에 대해이 분할에 대해 8 개의 독립 변수가 있습니다 이 분할에 대해 8 개의 임의의 독립 변수가 있습니다 8 개의 무작위 독립 변수 우리는 어디에 영향을 미치는 각 변수의 무게 가장자리를 볼 수 있습니까 바로 모델로 알려진 당신은 그 정장에 갈 것입니다 중요도 기능 또는 변수 중요도 기능과 우리가 무작위로 항목을 최적화하는 방법 하나 더 300 맞습니까? 그래서 다시 할 수있는 것은 임의의 값을 설정할 수 있다는 것입니다 다시 당신은 혼자서 플레이를해야하거나 이것을 400으로 설정할 수 있습니다 400에 대한 최적의 값을 얻으십시오

이 값을 천으로 설정하고 수천에 대한 최적의 값이므로 조정해야 할 하이퍼 파라미터입니다 자신이 그래서 다시 재판하고 오류가 4S에 무엇인가 당신이 의미하는 나무의 깊이 음의 깊이와 관련이 있습니다 우리가 가져갈 수있는 깊이를 의미하는 것이 유감이다 과적 응처럼 될 것입니다 그러나 다시 확실하지 않으므로 다시 읽어야 할 것입니다 먼저 나무를 가지 치기하고 그런 다음 임의의 숲에서 자두 나무 만 사용하십시오 그 오른쪽에 올라 서서 우리는 이제이 예 후에 예측을 끝냈습니다

우리가 가진 다른 나무들에 대한 노드 수를 볼 수 있습니다 히스토그램을 작성하면이 트리 크기 함수가 있습니다 랜덤 포레스트 패키지와 우리는 당신이 만든 모델을 전달할 것입니다 이 히스토그램에 나무의 노드 수와 색상을 히스토그램은 녹색이어서 약 80 개의 의사 결정 트리가 있음을 알 수 있습니다 약 80 개의 노드가 있으므로이 주파수가 임의의 포리스트에있는 의사 결정 트리 수의 트리 크기 또는 노드 수 아마 5 개의 임의의 숲을 멈추고 약 100 개의 노드가 있으므로 약 20 개의 의사 결정 트리가 있습니다

약 60 개의 노드에 약 50 개의 의사 결정 트리가 있으며 약 70 개의 노드가 있습니다 노드는 이것이이 히스토그램이 알려주는 것입니다 이 VAR m 플롯에 변수 중요도라는 것을 묻습니다 이 모든 변수의 상대적 중요성을 제공하므로 이 매개 변수는 잘못된 m 플롯과 모델을 전달합니다 내가 정렬을 구축하므로 기본적으로 이것을 정렬합니다

변수의 중요성 때문에 당신의 숫자는 우리는 수중 중소 또는 상위 10 개의 변수를 계속 볼 수 있습니다 나는 멈추는 제목과 변수의 중요성을주었습니다 당신이 보는 것은 어제의 수업에서 보았 듯이 평균 Gini를 다시 줄이는 것입니다 루트 노드에는 Gini 인덱스 값이 있고 집계 리프 노드가 있습니다 Gini 인덱스 값과 최대 감소가있는 트리가 있습니다

Gini 인덱스 값 또는 다시 말해 최대 게인을 갖는 트리 기본적으로 이상적인 분할이라는 것을 알 수있는 정보 그래서 이것은 STV가 당신이 아는 이상적인 스플릿이 될 것입니다 STV와 관련하여 다음으로 가장 이상적인 스플릿을 얻습니다 중요한 것은 MST 주간이고 우리는 Al TV Guide를 가지고 있기 때문에이 네 가지가 그 후 가장 중요한 것은 평균과 DP 사이에 상당한 간격이 있으므로 우리가 결론을 내릴 수있는 것은 이것에서 주요 변수를 알 수 있습니다 es tv ms TV al TV와 이것이 바로 산 제브라는 의미는 변수의 중요성 때문에 화면에 출력하고 싶다면 그냥 사용하십시오 중요 기능 yeah yeah 당신은 이것이 나에게 말할 것이라고 언급했습니다

모델에서 변수의 중요성 또는 실제로 나에게 이 변수가 가변성 또는 내 의존 변수 um의 예측 가능성 때문에 중요하다고 말할 때 그것은 기본적으로 독립 변수가 얼마나 많은 영향을 미치는지를 의미합니다 피고인 충실하므로이 H TV는 부양 가족에게 가장 많은 영향을 미칩니다 변수 뒤에 ms TV가 있고 l TV가 나옵니다 중요한 것은 아마도 모든 변수가 종속 변수에 얼마나 중요한 영향을 미치는지 10 % 내 10 %의 범위는 각각의 중요성 변수는 이것이 나에게 말하는 방법이거나 괜찮습니다 종속 변수 TV에서 일어나는 모든 일이 거의 그것의 90 %는 당신이이 방법으로 그것을 취할 수 있도록 es TV는 최대 효과를 갖습니다 종속 변수에 대해 이것이 바로 여러분에게 알려주는 것입니다 모두 괜찮아요 변수를 사용하여 모델을 만들고 싶다고 가정 해 봅시다

괜찮다면 아는 것만으로도 간단한 모델을 만들려고한다면 하나의 독립 변수 인 경우에는 독립 변수를 원할 것입니다 가장 영향을 미치는 변수이므로 독립 변수는 T입니다 V 그래서 두 개의 독립 변수가있는 모델을 만들고 싶다면 이 경우 종속 변수의 최대 값에 영향을 미치므로이 경우 TV 및 M 내가 세 개를 사용하고 싶다면이 세 개는 독립 변수 일 것입니다 우리가이 일을하고있는이 줄거리는 이 네 가지 독립형 만 사용할 모델을 다시 빌드하십시오 이 네 개의 독립 변수가 종속 변수 최대 권리 그래서 기본적으로 최대를 커버 종속 변수의 분산이 너무 혼란 스럽거나 알고있는 과정을 보여줍니다 가져 오기 기능 또는이를 다시 알 수 있도록 도와줍니다

기본적으로 평균 감소 단위를 제공하므로 여기에있는 것은 다시 여기에있는 ms TV를 알려줍니다 TV는 최대 값이므로 TV가 종속 변수 다음에 ms TV 다음에 Al TV가 있습니다 혼란 스럽거나 비즈니스의 중요성이 사라졌습니다 우리는 독립 변수의 중요성 또는 중요성의 순서를 알고 있습니다 계속해서 사용하는 다른 임의의 포리스트 모델을 빌드하겠습니다 ms TV es TV l TV 및 평균 및 이전 모델에서는 나무의 수가 300 개라고 말 했으므로 우리는 여기서 모델을 구축하고 RF에 저장하고 우리는 값을 바로 예측할 것입니다

RF는 당신이 만드는 모델입니다 그리고 우리는 이제 테스트 세트 위에 값을 운영하고 있습니다 계속해서 혼란 매트릭스를 만들고 Phi 64의 정확성을 찾으십시오 + 73 + 53을 4 + 73 + 53 + 2 + 3 + 7 + 8 + 1 + 29로 나눈 값 말해 봅시다-3이 없습니다-3 아, 죄송합니다 564 73-53 8 7 129 6 + 2 맞습니다 그래서 우리는 92 %의 정확도를 얻습니다

94 acc 인 acc 하나를 확인하십시오-또한 94였습니다 독립적 인 변수 이들은이 4 가지 d 자체의 슈퍼 뉴스입니다 우리에게 92 %의 정확도를 제공하므로 다른 변수는 단지 2 %까지 더합니다 이것들은 제가 의미하는 것이므로이 4 개의 독립 변수를 사용할 때 그것들은 의존성에 크게 영향을 미치는 변수입니다 여기에 변수가 있으므로 jr를 알 수있는 또 다른 방법입니다 모델 권리 맞아요-이거 뭐 좋았어? NSP 열은 범주 값이며 NS 사람들이므로 처음에는 이것이 정수 나는 AZ 도트 팩터 함수를 사용하고 그것을 인자로 변환했습니다 NSP의 클래스가 맞습니다

그래, 이건 임의의 숲에 관한 것입니다 GLM 함수를 사용할 때 LM을 사용할 때 확률에 익숙해졌습니다 함수를 참조하십시오-우리가 primo 일 때의 확률-모든 모델에 우리가 내리고있는 것에 대한 결과는 s 또는 no로 분류됩니다 살인을 막기 위해서라도 우리는 최종 수업 결과는 괜찮습니다 여기에 p3을 출력하겠습니다 수업 중 11 번째 기록에서 보는 것은 하나는 21 번째 레코드 클래스에 대해 3 개는 레코드 번호 1 70에 대해 레코드 번호 4 17 개의 클래스 1 개-최종 결과를 얻습니다

수업이지만 임의의 숲뿐만 아니라 의심이 있으시면 그냥 인쇄하십시오 이 값을 출력하므로 p3에 저장하여 나중에 사용할 수 있습니다 일반적으로 이것을 인쇄하면 목록을 얻을 위험이 있습니다 한 세션에서 본 것과 같은 예측은 임의의 숲 모델에서 볼 수 있지만 여기에 ROC를 의미하는 화살표를 사용하십시오 수업을 할 때 말한 것처럼 사용하기 만하면됩니다

사용하지만 동영상과 같은 하나의 동영상이이 모델에 ROC를 사용하는 경우 랜덤 포레스트 모델 우리는 ROC 패키지 괜찮습니다 타입은 확률이었을 것입니다 그래서 제가 정상적으로하는 것만 확인하겠습니다 그래, 난 그냥 수업을 듣습니다 그래요

이 경우에 그 유형이 확률이라고 말했을 때 확률을 얻습니다 이것은 내가 당신을 사랑하는 곳입니다 어쩌면 특정 임계 값을 알고 있지만 다시 무엇을 알고리즘은 자동으로 임계 값을 취한다고 말합니다 수동으로 임계 값을 설정하려면 다음과 같이하십시오 그렇습니다, 그렇습니다

잊혀진 기름을 가리고 뜨고 뜨개질을하기 만하면 아만다는 확실히 무엇을 사용하는지 질문하십시오 예, 무엇을 사용합니까? 응답 유형을 클래스 또는 동등한 응답 유형의 의미 차이가 움직여서 예, 의사들 사이에 작은 선으로 결론 지을 것입니다 질병 또는 그는 세 그래서 그래서에 대한 명명법의 차이입니다 당신이 가지고있는 다른 기능들 미리 포장 된 당신은 당신이 사용할 때 사용할 명명법을 알고 있습니다 클래스와 같은 유형이 될 예측을하고 싶습니다 다시 C 3 클래스에 관해서는 이번에도 기본적으로 이 클래스를 클래스로 설정하면 작동하지 않습니다 차이점을 여기에 표시하고 이것을 클래스로 설정하면 이것이 바로 당신이 얻는 것이므로 기본적 으로이 기능은 유형을 응답으로 사용하므로 클래스를 인식하지 못합니다

그 사람이 가지고있는 패키지를 작성한 사람의 정상적인 연령 차이 여기 대신 예측 유형을 응답 유형으로 지정했습니다 우리는 부분적으로 회귀 분석을 위해 여기에 유사하게 클래스를 배치하므로 임의의 숲에 대해 다시 그렇게하면 누가 이것을 만들 었는지 알 수 있습니다 당신을 위해 패키지 그가 그가 원하는 경우 표준 인클로저를 말했다 알고 그런 다음 그 명명법은 PR OB라고하며 당신이 도움을 원한다면 당신이해야 할 모든 차이가있는 경우의 규범 당신은 너무 임의의 숲을 검색 알고 당신은 당신에게 모든 도움을 얻을 것이다 당신과 관련하여 여기 에이 패키지가 있다는 것을 알고 있어야합니다 이 모든 것들이 Lord kyun RF를 예측하도록하세요 사용 하거나이 패키지에서 사용하려는 기능을 얻을 수 있습니다

도움말 기능의 마지막 질문과 마지막 질문 Bernie 에서이 물류 사용 무작위 삼림은 분류를 위해 모든 것을한다 분류와 회귀 모두에 투표하십시오 이제 언제 논리에 갈 것인지를 언제 무작위로 갈 것인지를 결정한다고 가정 해 봅시다 임의의 숲은 항상 솔루션 트리보다 낫습니다 앙상블 학습이 당신을 제공하기 때문에 확실한 로지스틱 회귀 의사 결정 트리와 임의의 포리스트를 비교하면 앙상블 학습이 단일 의사 결정 트리를 작성하면 하나의 결과를 얻을 수 있지만 그 의사 결정 트리를 가져 와서 그것의 복제본을 100 개 만들면 그 수백 개의 복제본의 총체적인 결과로 임의의 숲 또는 또는 우리의 모든 종류의 앙상블 학습은 앙상블 학습이 우리가 이런 일을 할 때 사용하는 단일 모델보다 항상 좋습니다 우리가 소개하기로 결정했을 때이 두 가지는 하나처럼 보입니다

그러나 특정 데이터 세트는 특정 책 데이터를 따릅니다 임의의 숲 어떻게 우리가 어떤 아이디어를 당신에게 시작 했습니까? 내가 생각하는 것은 주로 당신이 알고있는 클라우스에게 알고 있다는 것입니다 분류하여 전체 회귀 분석을 사용할 수 있는지 확실하지 않습니다 멀티 비트 분류이므로 다시 읽어야합니다 또한 난 그냥 여기 임의의 숲을 가정하고 더 나아지고 내 이 두 클래스가있을 때 분류 및 자폐 회귀 사용 그러나 다시 한 번 내 말을 받아들이지 않습니다

나는 우리가 할 수있는 것이 확실하지 않습니다 내 멀티 클래스에 사용자 정의를 위해 사용할 것입니다 우리가 다중 규범 함수를 사용하거나 네트워크 패키지에 n을 다운로드해야합니다 그것들은 GLM 모델에 사용될 것이지만 타이핑하는 것이 혼란 스럽다고 생각했습니다 이항으로 갈 때 효율적인 이항 계급은 실제로 더 나은 것을 줄 것입니다

우리는 낮은 데이터를 시험하기 위해 데이터 세트를 사용합니다 모델링을 시작할 때마다이 규칙에 아무런 문제가 없습니다 바로 당신은 예측과 정확성을보아야합니다 로지스틱 모델의 정확도 향상 또는 결정 또는 무작위 및 결정은 일반적으로 사용되지 않습니다 우리는 우리 에게이 방향으로 이동해야 할 경우를 대비하여 항상 무작위로 간다 모델을 만들고 해당 모델을 조정하고 결과를 비교해야합니다

그것은 당신이 그것을하는 방법입니다 그것은 항상 재판이며 엄지 손가락 규칙이 없습니다 이 경우에 더 잘 작동해야한다는 것을 알고 있습니다 이 경우에 더 나은 작업 더 나은 Bernie는 우리가있을 때 의미 한 점을 원 이전에 평가 과제를 수행하면서 몇 가지 주제가있었습니다 그렇습니다 그래서 팀원들과 대화를 나 spoke습니다 그들은 코스 커리큘럼의 일부가 아니기 때문에 대치가 있습니다

대치가 나열되어 있기 때문에 다중 공선 성이 있으므로 부분이 아닙니다 당신은 내가 그 주제를 다룰 수 있음을 알고 이 과정의 핵심은이 과정의 핵심입니다 지금 남은 주제는 이제 우리는 예상치 못한 비지도 학습에서 차일을 우리는 우리가 추천 엔진을 가지고 주제를 클러스터링하여이 두 가지로 이동하여 다음 세션에서 다루므로 해당 측면이 코스를 찾아야합니다 다음 세션에서는 커리큘럼이 완전히 감독되지 않은 학습입니다 그래서 우리를위한 학습이 그 후에 클러스터링 기술이 될 것이라고는 생각하지 않습니다

우리는 어떻게 추천 엔진 장면을 만들 수 있는지 볼 것입니다 다시 한 번 추천하면 사용자 기반 협업이라는 것이 있습니다 필터링 및 항목 기반 공동 작업 필터링을 통해 비지도 학습과 같이 PCA를 다루는 것은 축소 치수 축소 기술을 위해 음 그래도 다음 세션에도 코스를 살펴 봐야 했어요 커리큘럼 두 가지가 확실하므로 k- 평균 군집화가 있습니다 확실히 가르치고 내가 추천 엔진이 있습니다 강의를 찾아보아야 할 다른 주제를 확실히 가르치고 있습니다

커리큘럼은 우리가 모델처럼 열 당 코스에 대해 먼저 예를주었습니다 추천 엔진 및 K에 대한 시계열 및 감정 분석 내가들을 수있는 사람이 있다면 감독하지 않는 것이 좋습니다 추천 엔진과 k- 평균 클러스터링 저는 다음 수업에서 그렇게 할 것입니다 시계열과 정서 주말 이후 주말에있을 분석 오늘 다루는 내용과 관련하여 다른 질문이 있습니다 다른 요일에 침을 뱉을 주제로 읽기 괜찮습니다

그 방해가 채팅 창을 채울 수 있기를 원합니다 괜찮을 곳이면 어디든 내가 다시 보낼 게 환자 팀을 죽이는 목록을 다시 Bernie Bernie하시기 바랍니다 및 데이터 데이터 세트 또는 이것은 사과입니다 예, 오늘 저는이 두 파일을 보낼 것입니다 데이터 세트 그렇습니다 그러면 작동 할 것입니다 당신이 경기 침체에 이행해야 집에서 그것을 떨어져 피드백 양식이 있습니다

예 피드백 양식을 작성해야하는 모든 사람 우리는 피드백 양식을 얻습니다 세션을 마치면 자동으로 피드백 양식 괜찮아 친구 주제는 우리가 당신을 마지막으로 논의했을 때와 같습니다 마법 에너지와 같은 주제이고 두 번째 에너지는 학대와 같습니다 결 측값과 특이 치 그리고 다음 값은 오븐에 대한 것과 같습니다 잠깐만 기다려 루덴의이 주제들을 다시 한 번 기다려 봐 코스 커리큘럼에서 벗어나기 때문에 이러한 주제가 강의 커리큘럼에 대해서는 최소한 당신이 그런 주제를 가르 칠 수 없습니다 오늘 30 분은 마지막으로 적어도 새로운 데이터 세트를 가져 와서 그것을 밖으로 넣어 적어도 그것이 절반 밖에 될 레이어를 어디 밖으로보고 참조 다시 한 번 우리에게 좋은 시간 이니까 같은 것을 반복하지만 다시는 내 손에 있지 않습니다

당신이 우리를 설명 할 수있는 시간은 내가 더 나은 예라고 생각합니다 우리가 모델을 알고 있지만 이것들은 우리가 모델링에 가기 위해 필요한 단계 전에 있습니다 좋은 병에 대한 우리가 어떻게 그런 일을 모르는 경우 Kaling 여기서 발생하는 모델을 구현하기가 어려울 것입니다 다시 할 수있는 유일한 것은 운영 팀에 문의하여 추가 주제와 관련하여 추가 세션을 예약하면 너희들이 자유라면 아침에 한 번, 한 번에 밤에 이렇게 세션이 8시에서 10 시까 지이므로 Blake는 운영팀이 오전 7 시부 터 오전 9 시까 지 그러면 내가 할 수있는 일을 할 수 있습니다 우리가 먼저 모든 모듈을 다 다루고 나면 이런 일이 일어날 수 있습니다

추가 주제 후에 우리가 가진 모든 모듈을 마무리해야합니다 이 목록에 추가 주제를 다룰 필요가 있는데 그것은 모든 샘플을 웃고 있습니다 2d 세션과 오늘부터 시작하겠습니다 놀랍지 않은 알고리즘 인 클러스터링은 k- 평균 알고리즘은 오늘이고 심지어 오늘날의 세션조차도 수학적이므로 우리는 k- 평균 군집 알고리즘의 기본 원리를 이해해야합니다 이 열로 구성된 홍채 데이터 세트로 여기에서 보는 것 이전 세션에서이 데이터 세트로 작업해야했기 때문에 settlin sepal Worth 꽃잎 길이 꽃잎 너비와 최종 종 열 기본적으로 우리는 클러스터링 알고리즘을 구축하려고합니다

이 데이터를 확인하고 해당 클러스터링 알고리즘에서 어떤 일이 발생하는지 이해하거나 기본적으로 우리는 클러스터링의 배후에있는 수학을 이해하려고합니다 알고리즘이 맞습니다 시작하겠습니다 여기이 데이터 셋이 있습니다 이제 첫 번째 작업은 중심 값을 얻는 것입니다

기본적으로 각 개별 값을 빼면 평균값은 이제 아래로 스크롤하여 각 평균값을 볼 수 있습니다 열 길이의 나머지 길이는 5 포인트 8입니다 열은 이것들이 값이므로 내가하고있는 일은 기본적으로 가지고 있습니다 여기 첫 번째 레코드 51에서이 값을 평균과 마찬가지로이 중심 값을 얻습니다

49를 빼고 평균값과 여기서 중심 값을 다시 얻습니다 4 점 X 평균값을 뺀 다음 sepal에 대해이 값을 비슷하게 얻습니다 다시 너비가 여기에 3 점 5이므로 3 점을 빼겠습니다 3 점 이상의 5 점, 5 점, 여기이 중심 값을 얻을 것입니다 이것이 우리가 할 수있는 방법입니다 이것이 우리로 알려진 것을 얻는 방법입니다

중심 값이므로 기본적으로 원래 값을 가지며 원래 값을 평균 값과 결과로 빼기 우리가 여기서 얻는 가치는 중심 가치로 알려져 있습니다 기본적으로이 네 개의 숫자 열 모두에 대한 중심 값을 가져옵니다 현재 모든 기록은 기본적으로 방향에 관심이 없습니다 이 수치는 우리가 원하는 위치에 마이너스가 있기 때문에 기본적으로이 빼기 기호를 원하지 않기 때문에 중심 사각형으로 알려진 것이므로 중심 사각형은 기본적으로 이 값의 제곱을 여기에 제곱하면이 값을 제곱하면 그래서 당신이이 마이너스 영점 7-4 일 때 제로 점 5를 얻습니다 5와 비슷하게이 값을 취하고이 값을 제곱하면이 값을 얻습니다 마찬가지로이 값을 제곱하여 중심을 잡을 것입니다

여기 광장은 저를 따르는 모든 사람들이 당신이하고있는 것을 말해줍니다 이 원래 값을 가지고 우리는 원래 값을 빼고 그리고 중심 값을 얻습니다 이제 중심 값을 가져옵니다 그런 다음 우리는 그것들을 제곱 할 것이고 결과는 정사각형 광장입니다 아니면 아니 나를 따라와 그래 좋아 좋아 우리가 기본적으로 원래의 편차를 얻는 것 값 또는 원래 값의 평균과의 편차가 이제 내려옵니다 그래서 내가 할 일은 sepal length에 총 편차를 더하는 것입니다

열과 마찬가지로 102의 값을 얻습니다 총계를 계산합니다 sepal width 열의 편차 나는이 값을 비슷하게 얻습니다 꽃잎 길이의 총 편차 나는 이것을 얻을 것이다 나는 총을 계산합니다 이 열의 편차와 나는 이것을 얻을 것입니다 그래서 기본적으로 이것은 합계입니다 함수를 보면 기본적으로 이것을 요약합니다 규칙 번호 2에서 규칙 번호 51까지이 전체 열의 합을 총 편차 또는 총 분산을 얻습니다 이 칼럼과 비슷하게 나는 이것을 합할 것이다

이 열에 대한 편차를 얻을 수 있습니다 요약하면 편차가 발생합니다 이 열에 대해 요약하고이 열의 편차를 얻습니다 이제 이들은 각각의 개별 열에 대한 변형입니다 이 개별 편차를 모두 더하면 총합이 구해집니다 데이터 세트에 존재하는 편차 또는 총 분산 여기 681이 있으므로 총 제곱합이라고도합니다

총 제곱합은 기본적으로 존재하는 편차의 총합을 나타냅니다 이제 모든 열과 관련하여 이제 다시 데이터 세트에 각 개인 기록에 대해이 차이를 원한다면 총 150 개의 레코드가 있기 때문에이 값을 150으로 나누면됩니다 450 개의 레코드가 있으므로이 값을 나누면 이것이 최종 값입니다 150의 최종 값은 각 값에 분산을 얻습니다 sepal length column과 마찬가지로 068이 될 것입니다

150으로 나눈 값은 01 88입니다 마찬가지로이 세 번째 열을 150으로 나누면 309가됩니다 음식 열을 150으로 나누면이 열을 다시 여기로 가져옵니다 이 모든 것을 합하면 분산이 하나로 나타납니다

누군가가 당신에게 분산을 계산할 수있는 방법을 묻는다면 전체 기록 하나의 단일 레코드에 존재하면 이것을 계산하는 방법이됩니다 날 따라 오는 사람들 모두 예, 아니오 예 왜 말할까요 값의 제곱에서의 반지름 왜 제곱근을하지 않습니까? 그리고 이것이 다시 분산이라고 말하면 우리가 저의 주요 질문은 나는 당신이 당신의 사각형을 알고 있다는 것을이 부분을 이해합니다 양수 값을 가진 제곱이지만 현재 가지고있는 제곱 값입니다 그리고 여기서 얻을 수있는 차이를 얻지 못하는 것을 여기서 보도록하겠습니다 이 용어에서 제곱의 차이가 있습니다

그래서 산 예프는 조금 기다려야합니다 이 모든 것이 10 분 더 기다려야하고이 모든 것이 합쳐집니다 이 값을 총 제곱합이라고합니다 k-means 알고리즘에서 사용할 것이므로 우리는 총 제곱합으로 알려진 제곱과 당신은 제곱의 합 안에 정직한 것을 가지고 있습니다 k- 평균 알고리즘에 관한 세 가지 중요한 구성 요소 기본적으로 총합을 계산하는 방법을 알려주는 아이디어 그냥 제곱의 바로 제곱의 총합을 이해한다는 것을 의미합니다 이것을 제곱이라고 생각할 수 있듯이 제곱은 정확히 오류가 아닐 수도 있습니다

다시 이것은 당신이 이것을 일종의 항공이라고 생각할 수있는 정확한 차이는 아닙니다 이 데이터 세트에 존재하는 편차의 총합은 지금은 좋아 그래 그래 지금은 그냥 당신이 가지고있는이 680을 고려 이것은이 데이터 세트에서 가지고있는 총 편차입니다 여기에있는이 요약표는 같은 것이므로 이 열을 오른쪽으로 밀면이 네 개의 열이 있고 이것이 전체입니다 데이터 세트 이제 여기 보시는 것은 기본적으로 오스카입니다 제가하고있는 것은이 값들을 더할 때 여기로 넘어가겠습니다 중심의 정사각형 값이 맞으므로이 4 개의 값을 더하면 추가 할 때와 마찬가지로 하나의 레코드에 대한이 제곱합 이 네 개를 반대하여이 네 개를 더하면이 값이됩니다 마찬가지로 두 번째에 대한 총 제곱합을 얻습니다 150 개 레코드 모두에 대해 동일한 내용을 추가하면 기본적으로 681이되므로 이것을 합하면 681이됩니다

의심의 여지 없이이 SS가 무엇인지 알려주세요 이것은 기본적으로 각 레코드와 관련된 오류의 합계입니다 이 모든 것을 추가하면 681 인 총 제곱합을 얻을 수 있습니다 k- 평균을 구현 한 후 얻은 클러스터 ID 알고리즘은 다시이 클러스터 ID를 살펴보고 클러스터 ID는 나중에 오른쪽에 할당되어 k- 평균을 구현했습니다 알고리즘과 k- 평균 알고리즘은 첫 번째 행을 차지하고 클러스터 1의 행은 두 번째 행을 취했으며 클러스터 4의 두 번째 행을 참조하십시오

비슷하게 내려가도록하겠습니다 클러스터 번호 3은 기본적으로 각 개별 레코드를 가져 왔습니다 k- 평균 알고리즘에 관해서는 이러한 개별 레코드는 기본적으로 총 150 개의 데이터 포인트가 있으며 각 데이터를 가져 왔습니다 하나의 클러스터에 각 단일 데이터 포인트를 배치하고 여기에 우리는 네 개의 클러스터가 있습니다 150 개의 데이터 포인트가 있으며이를 클러스터링했습니다

이 작업을 수행 한 후 150 개의 데이터 포인트를 4 개의 클러스터로 이 데이터 세트를 생성 된 클러스터와 관련하여 분할했습니다 클러스터 1에 존재하는 모든 레코드를 분리하고 덮어 썼습니다 여기에 클러스터 2에 배치 된 모든 레코드와 비슷하게 분리되었습니다 이것들은 다시 클러스터 3에 존재하는 모든 레코드입니다 이 개별 클러스터 각각에 대해 클러스터 4에있는 모든 레코드 제곱의 합으로 너비를 계산하여 제곱의 합으로 다시 우리는 같은 일을하고 있으므로 이것은 5 점 1이 중앙에 기록됩니다

5 점 1에서이 평균을 뺀 값을 취하면 우리가 그렇게 할 때 우리는 SS 내에서 이것을 다시 얻을 것입니다 평균과 관련하여 그것을 빼고 베일을 잘 싸운 다음 우리는 정사각형을 취할 것입니다 이것이 우리가 여기서 얻는 것입니다 150 개 레코드 중 첫 번째 클러스터에 대해 얻은 총 SS 내 46 3으로 이제 SS 내에서 이것을 총 편차로 간주 할 수 있습니다

군집 1에 존재하므로 전체 편차 또는 존재하는 제곱의 합 첫 번째 클러스터 또는 첫 번째 클러스터 내에서 4가 다시 4입니다 클러스터 번호 2에 대한 것이므로 클래스 번호 2에서 다시이 값을 가져 왔습니다 이 값에서 평균을 뺀 다음 마찬가지로 제곱합니다 이 모든 것을 추가하면 SS 내에서 이것을 얻을 수 있습니다 150 개 레코드 모두에 대해 SS 내에서 계산할 것입니다 다시 클러스터 2에 존재하는 편차 또는 제곱의 합 내 군집 3과 군집 4의 경우와 동일하므로 SS 내에서 계산했습니다

각 레코드에 대해 별도로 너비를 계산했습니다 150 개의 행을 모두 입력 한 다음 다시 클러스터 번호를 갖습니다 각 레코드에 대해 SS 내에서 계산 한 다음 합산하여 클러스터 번호 4에 대한 SS 내 총계 클러스터 내에서 평균을 취한 다음 빼기를 수행하는 것입니다 이 열의 평균값을 여기에 군집 3 다음에이 평균을 빼고 이 기둥을 제곱 한 다음 3 점 2의 더하기 이 열의 평균과 이의 제곱에 4 점 7의 평균을 뺀 값 이 열의 제곱 더하기이 열의 1 점 4 빼기 평균 우리가 어떻게 그 가치를 얻었는지 클러스터 번호는 무작위로 존재하지 않으므로 우리가 얻은 후 얻은 클러스터 번호 k- 평균 알고리즘을 구현 했으므로 지금은 k- 평균 알고리즘에 의해 숫자가 생성되었으므로 우리는 우리와 함께 데모를 할 때 그 후 데모를하고 있습니다 이론이 어떻게 하나의 알고리즘을 취하는 지 이해합니다 이론적으로 클러스터처럼 작동합니다

반복 할 수 있습니까? 나는 알고리즘이 일부 논리를 기반으로 작동한다는 것을 의미합니다 논리적으로이 클러스터를 기반으로 PD 뒤에 무엇이 있고 어떤 논리가 로사 리타를 수동으로 출력하고 싶다면 다시 10 분 더 기다려야합니다 이 수학이 중요하다고 가정하면 먼저이 수학을 완료 한 다음 이론으로 향하면 실용으로 가자 정화 나는 당신이 그것을 해결할 것인지 모르겠다 나중에 제 몸짓으로이 K가 무엇을 의미하는지 이해조차 못합니다 알고리즘은 내가하는 일을 계산하는 동안 그러나 나는 단지 의의와 관련성을 사지 않았습니다 k는 의미합니다 그래서 당신은 내가 지금 당장 해줄 게 처음부터 핵심은 알고리즘이 클러스터링 알고리즘임을 의미합니다 클러스터링 알고리즘은 감독되지 않은 알고리즘이므로 비 감독자와 피 감독 사이에 라벨이 없는가? 비지도 학습은지도 교수의 기본적인 차이점입니다 비지도 및 비지도에서 당신은의 구조를 이해하려고 노력 레이블이없는 데이터를 다시 가져 오므로이 데이터 세트를 사용하면 감독 학습에서 우리가하는 일을 데이터로 나누면됩니다

훈련 및 테스트 세트는 k- 평균 군집화이므로이 데이터를 k- 평균 군집에 제공합니다 알고리즘과 k- 평균 군집 알고리즘은이 데이터 세트를 이제 두 개의 클러스터가 있습니다이 클러스터는 클러스터링에 대한 아이디어가 있어야합니다 높은 클러스터 내 유사성과 낮은 미안은 매우 높았습니다 클러스터 내 유사성 및 클러스터 간 유사성이 있어야합니다

따라서 이러한 용어는 높은 클러스터 내 유사성과 높은 수준을 이해해야합니다 클러스터 간 비 유사성이므로 클러스터 1에 존재하는 데이터 포인트는 무엇입니까? 서로 매우 비슷하며 거북이의 의미는 이 유사점은 클러스터 1과 클러스터 2는 유사성이 없음을 알고 있어야합니다 군집 1과 군집 2 사이의 유사성, 즉 군집 1과 군집 2 사이의 상당한 유사성 때문에 여전히 데이터에서 클러스터링 알고리즘 피크의 간단한 용어로 혼동됩니다 의 기능에 따라 데이터를 여러 개의 클러스터로 나눕니다 이러한 클러스터 뒤에있는 데이터 포인트와 아이디어는 클러스터 유사성 및 클러스터 간 유사성 감소 클러스터 간 유사성이므로 이러한 모든 데이터 포인트는 클러스터 1에 존재하는 것은 비슷해야하므로 인트라 대신에 따라서이 클러스터 1 내의 모든 데이터 포인트는 비슷해야합니다

이것은 클러스터 유사성 내에 있으며 우리는 말하는 대신에 나는 사이에 말할 것이므로 클러스터 유사성 사이에 있으므로 클러스터 유사성 사이에는 존재하지 않아야하므로 이는 상당히 필요합니다 여기서는 클러스터 1과 클러스터 2가 유사하지 않아도되지만 클러스터 1의 데이터 포인트는 클러스터 2의 데이터 포인트와 유사해야합니다 클러스터 3의 모든 데이터 포인트가 비슷해야하므로 감각 또는 당신이 여전히 의심이있는 경우 다시 우리는 경기가 연결될 것이라고 말하는 모든 것을 다룰 것입니다 모두 의심의 여지없이 클러스터링 알고리즘이 무엇인지 알려주십시오 여기에서 클러스터링 알고리즘의 목표는 무엇입니까 나는 다른 사람들이 빠르다는 것을 발견하고있다

예 또는 아니오까지 우리가 다루는 내용까지 우리가 어떻게 지내고 있는지 알 수 있습니다 제곱의 합계 내에서 이것을 계산하면 모두 빠른 확인하십시오 그래도 우리는 각각의 클러스터는 지금 당장 클러스터 1에 대한 제곱의 합계 내에 있지만 클러스터 2에 대한 제곱의 합입니다 클러스터 3에 대한 것입니다 클러스터 4에 대한 제곱의 범위 내에서 지금 내가 뭘 악화시킬까요? 이전 섹션에서 우리는 바로 음을 가지고 있었으므로 다시 프로세스 흐름을 다루겠습니다 k-me 뒤에는 수학이 이것을 먼저 이해하는 것이 중요하다고 말합니다

여기의 탭은 우리의 총 합을 계산했습니다 제곱과이 총 제곱합은 689가되었으며이 탭에서 각 제곱을 알 수 있도록 제곱의 범위 내에서 계산 클러스터 1 클러스터 2 클러스터 3 및 클러스터 4의 제곱의 합 이 클러스터 각각에 대해 제곱의 합 안에이 모든 것을 더합니다 이 값을 얻을 수 있으므로 이것은 현재 제곱의 합계 내에서 total이라고합니다 이 두 값을 보면 k- 평균을 적용하기 전의 경우입니다 k- 평균 알고리즘을 적용한 후의 경우 알고리즘을 적용하기 전에 총 제곱합의 값을 데이터 세트의 편차는 681이며 카미를 적용한 후 알고리즘은 그 이후 681에서 처음 71 비율로 떨어졌습니다 k- 평균 알고리즘과이 총 제곱합을 적용하여 71로 줄었습니다 이제 내 질문은 나머지 오류가 어디에 있습니까? 그래서 이것이 초기입니다 우리가 k- 평균 알고리즘을 수학에 적용한 후의 제곱합 편차와 총 제곱합이 감소했음을 이해할 수 있습니다 모두가 이것에 동의하므로 너희들에게 내 질문뿐만 아니라 내가 어떻게 우리가 71 45를 얻을 수 있는지를 그릴 때 오류가 발생했습니다

클러스터 1 클러스터 2에 대한 증인입니다 클러스터 3에 대한 증인입니다 이 4 개의 값을 모두 추가하면 군집 4에 대한 증인이 70 145가됩니다 알았어

고마워 그래서 이제 누구라도 이해할 수 있겠 니? 여기 k-means가 어떻게 작동하는지에 대한 단서가 생겼습니다 시나리오 우리는 k- 평균을 적용했고 k- 평균은 우리에게 네 개의 클러스터를 뒤집어 주었다 SS 내에서이 총계를 보면 편차가 줄어드는 것을 볼 수있었습니다 알았어 이미 클러스터 내에서 말했듯이 우리가하고있는 일 유사성과 클러스터 간 비 유사성이므로이 값은 가능한 한 낮으므로 제곱의 합계 내에서 총합입니다 이 값이 가능한 한 낮다면 클러스터는 SS간에 가능한 한 유사합니다

SS 사이의 이것은 클러스터 사이의 제곱의 합이므로 이것은 클래스 내에서 사각형의 일부입니다 클러스터 내에서 제곱의 합으로 모든 점이 옆에 있고 이 모든 클러스터에 대한 제곱의 합을 요약하면 71까지 나오고 609는 4 사이의 제곱의 합입니다 당신이 우리를 이해할 수있는 것은 매우 많은 양이 있습니다 내부 클러스터 2 내부와 클러스터 2 내부의 유사성 클러스터 3 및 클러스터 4 내부이지만 시도 할 때와 볼 수있는 경우 클러스터 간의 유사성 사이에 유사성이 있는지 확인하십시오 클러스터 4 또는 클러스터 3 및 클러스터 1의 클러스터 1 및 클러스터 2 또는 스러 스터 1 바로 그때 SS 사이가 상당히 높고 이것이 k- 평균의 목표입니다 알고리즘 또는 다른 클러스터링 알고리즘이므로 클러스터링 알고리즘 데이터 세트를 가져 와서 데이터 세트를 클러스터로 나눕니다 군집 유사성이 높아야하고 군집 유사점 사이에 있어야합니다

총계 제곱합을 따르는 모든 사람이 제곱 총 증인과 우리 사이에 여기를 통해 떨어지는 모든 사람들이 키의 기본 수학은 빠른 예 또는 아니오 예를 의미합니다 괜찮은 일에 대한 마지막 버그 요약 테이블에 다시 표시하겠습니다 변동성 섹션 우리는 전체에 대한 총 제곱합을 계산했습니다 데이터 세트와 681에 도달했습니다 k- 평균 알고리즘을 적용하여 k- 평균 알고리즘을 적용했습니다 이 데이터 세트를 4 개의 클러스터로 나누었고 우리가 한 것은 각 군집에 대한 제곱의 합 내에서 군집 1 군집 2 + 2 3 및 군집 4의 제곱이므로 증인입니다

클러스터 2에 대한 클러스터 1 감시자 클러스터 3에 대한 감시자 및 감시자 클러스터 4의 경우이 4 개를 합하면 이 681의 제곱은 적용하기 전의 총 제곱합입니다 k- 평균 알고리즘과 k- 평균 알고리즘을 적용한 후 681에서 71로 떨어졌습니다 150 개 데이터 포인트가 모두이 네 개에만 있음을 이해해야합니다 이 네 개의 클러스터에 관해서는 다시 유사성이 있습니다 매우 높기 때문에이 편차가 681에서 감소한 이유입니다

609 더하기 71을 더하면 681이됩니다 나머지 609는 당신이 제곱합 사이라고 부르는 것을 제곱합 사이의 것은 클러스터 간의 비 유사성으로 인해 클러스터링의 기본 개념 알고리즘은이 값을 최소화하고이 값을 증가시켜이 값을 낮추는 것입니다 클러스터 내부의 유사성이 높을수록이 값이 높아집니다 클러스터 간의 유사성이 더 커지므로 k- 평균 알고리즘 뒤의 전체 수학 그게 좋은거야 다른 것들도 마찬가지입니다 이것이 핵심 수단의 주요 부분이므로 이해한다면 이 다음 나머지는 당신이 경우에 단지 빠른 정보 사람 케이크 조각입니다 공인 데이터 센스 전문가가되고 싶다면 intellibid에서 제공하는 데이터 과학 과정은 과정 링크를 찾을 수 있습니다 아래 설명 상자에있는 경우이 세션을 마치면 당신은 질문이있는 경우 아래의 의견 상자에 의견을 넣어 주시기 바랍니다 우리는 즉시 연락을 드릴 것입니다 다가오는 비디오에 대한 업데이트이 비디오를 시청 해 주셔서 감사합니다