Machine Learning Complete Elite Course (projects with python included) | Beginner to Expert | CF

(자막 자동 생성)이 과정에서 Python을 사용한 기계 학습에 오신 것을 환영합니다 머신 러닝이 많은 주요 분야와 산업에서 어떻게 사용되는지 의료 산업 데이터 과학자들은 머신 러닝을 사용하여 암 발병 위험이 있다고 여겨지는 인간 세포는 기계 학습과 같은 양성 또는 악성은 당신이 또한 배울 사람의 건강과 복지를 결정 의사 결정 트리의 가치와 역사적으로 좋은 의사 결정 트리를 구축하는 방법 데이터는 의사가 각각의 적절한 약을 처방하는 데 도움이됩니다 은행원이 머신 러닝을 사용하여 의사 결정을 내리는 방법을 배우는 환자 대출 신청 승인 여부와 기계 사용 방법 배우기 일반적이지 않은 은행 고객 세분화 학습 이 과정에서 방대한 양의 데이터를 쉽게 실행할 수 있습니다

머신 러닝은 YouTube Amazon 또는 Netflix와 같은 웹 사이트 개발을 돕습니다 고객에게 다양한 제품 또는 서비스에 대한 권장 사항 관심있는 영화 나 구입할 책 머신 러닝으로 할 수있는 일이 너무 많아서 사용법을 배울 수 있습니다 자동차를 예로 들어 모델을 빌드하는 인기있는 Python 라이브러리 데이터 세트 scikit-learn 라이브러리를 사용하여 이산화탄소 배출량을 추정 할 수 있습니다 엔진 크기 나 실린더를 사용하는 자동차는 이산화탄소 배출량은 아직 생산되지 않은 자동차에 대한 것이며 우리는 통신 산업이 고객 이탈을 어떻게 예측할 수 있는지 확인 안녕하세요,이 비디오에 오신 것을 환영합니다 머신 러닝을 시작하겠습니다 이것은 추출 된 인간 세포 샘플입니다

이 세포는 환자의 덩어리와 같은 특성을 가지고 있습니다 두께는 6이며, 셀 크기의 균일 성은 1이며, 한계 접착력은 1이며 이 시점에서 우리가 물을 수있는 흥미로운 질문 중 하나는 양성 종양과 대조적으로 양성 또는 악성 세포 악성 종양은 주변 조직을 침범하거나 신체에 퍼질 수있는 종양 조기 진단은 환자의 생존을위한 열쇠 일 수 있습니다 수년간의 경험을 가진 의사 만이 그 종양을 진단 할 수 있다고 추정 환자가 암을 앓고 있는지 또는 옳지 않다고 말하면 수천 명의 인간 특성을 포함하는 데이터 세트를 얻었습니다 의 위험이 있다고 여겨지는 환자로부터 추출한 세포 샘플 원래 데이터의 암 분석을 개발하면 양성 샘플과 악성 샘플의 특성이 크게 다름 다른 세포의 샘플에서 이러한 세포 특성의 값을 사용할 수 있습니다 새로운 샘플이 양성인지 또는 악성 데이터를 정리해야합니다 예측 모델을 만들고 모델을 훈련시켜 양성 또는 모델을 통해 학습 한 후 데이터 내 악성 세포 반복적으로 데이터를 사용하여 새 셀 또는 알 수없는 셀을 예측하는 데 사용할 수 있습니다 오히려 높은 정확도 이것은 기계 학습입니다

학습 모델은 의사의 업무를 수행하거나 최소한 의사가 프로세스가 빨라졌습니다 이제 머신 러닝 머신에 대한 공식적인 정의를 드리겠습니다 학습은 컴퓨터에 능력을 부여하는 컴퓨터 과학의 하위 분야입니다 명시 적으로 프로그래밍하지 않고 배우기 위해 내가 의미하는 바를 설명하겠습니다 명시 적으로 프로그래밍하지 않고 말할 때 데이터가 있다고 가정합니다 고양이와 개와 같은 동물의 이미지 세트 그리고 당신은 소프트웨어를 갖고 싶어 또는 가장 먼저 인식하고 차별화 할 수있는 응용 프로그램 여기서해야 할 것은 이미지를 일련의 기능 세트로 해석하는 것입니다 예를 들어 이미지는 동물의 눈을 보여줍니다

기계에 날개가있는 다리는 몇 개입니까? 각 이미지를 학습하면 기능의 벡터로 변환됩니다 전통적으로 우리는 몇 가지 규칙이나 방법을 써야했습니다 컴퓨터가 지능적이며 동물을 감지하지만 실패한 이유 뿐만 아니라 전류에 크게 의존하는 많은 규칙이 필요하다고 추측 할 수 있습니다 표본이없는 경우를 탐지하기에 충분히 일반화되지 않은 데이터 세트 기계 학습은 기계 학습을 사용하여 현장에 들어갔습니다 모든 기능 세트와 해당 유형의 동물을 보는 모델 기계 학습에 의해 만들어진 모델 인 각 동물의 패턴을 배웁니다 본질적으로 프로그래밍하도록 명시 적으로 프로그래밍하지 않고 텍스트로 알고리즘 기계 학습은 4 살짜리 아이가 사용하는 것과 동일한 과정을 따릅니다

기계 학습 알고리즘을 이해하고 동물을 배우는 데이터로부터 반복적으로 학습 된 인간 학습 과정에서 영감을 얻어 컴퓨터가 숨은 통찰력을 찾아이 모델이 다양한 작업에 도움을줍니다 기계에 대한 객체 인식 요약 권장 사항 등 여기에 아주 영향력있는 방식으로 영향 사회를 배웁니다 먼저 Netflix와 Amazon이 비디오 영화를 추천한다고 생각하십니까? TV는 사용자에게 머신 러닝을 사용하여 친구가 텔레비전을 추천하는 방법과 비슷합니다 당신이보고 싶어하는 쇼의 종류에 대한 지식을 바탕으로 은행이 사용하는 대출 신청을 승인 할 때 은행이 결정을 내린다고 생각하십니까? 각각의 기본 확률을 예측하는 기계 학습 신청자에 근거하여 대출 신청을 승인 또는 거부 확률 통신 회사는 고객 인구 통계 데이터를 고객을 분류하거나 다음에 회사에서 탈퇴 할 것인지 예측 우리가 보는 모든 머신 러닝 응용 프로그램은 여러 달 있습니다 채팅 BOTS와 같은 일상 생활에서 전화 또는 컴퓨터에 로그인 얼굴 인식을 사용하는 게임은 각각 다른 기계를 사용합니다 학습 기술과 알고리즘을 통해 회귀 추정 기법이 사용되는 인기있는 기법 가격과 같은 것들을 예측하는 것과 같은 지속적인 가치 예측 그의 특성에 기초한 집의 또는 자동차 엔진 분류 기술은 클래스를 예측하는 데 사용되거나 예를 들어, 세포가 양성인지 악성인지의 여부 예를 들어 고객이 유사한 사례의 클러스터링 그룹을 이탈 할 수 있습니다 유사한 환자 또는 은행에서 고객 세분화에 사용될 수 있습니다 현장 협회 기술은 종종 항목이나 이벤트를 찾는 데 사용됩니다 예를 들어 식료품류 품목과 같은 공동 발생 일반적으로 특정 고객 이상 탐지에 의해 함께 구입하는 데 사용됩니다 신용 카드 사기 등에 사용되는 비정상적이고 비정상적인 사례 발견 탐지 시퀀스 마이닝은 예측에 사용됩니다 클릭 스트림 및 웹 사이트의 크기 축소와 같은 다음 이벤트 데이터의 크기를 줄이고 마지막으로 추천 시스템을 취향이 비슷한 다른 사람들과 사람들의 선호도를 연관시키고 책이나 영화 등 새로운 아이템을 추천합니다

이 시점에서 다음 비디오에서 이러한 기술은 확실히이 질문 확신합니다 이 유행어의 차이점은 무엇입니까? 우리는 인공 지능이나 AI 기계와 같은 요즘 계속 듣고 있습니다 학습과 딥 러닝의 차이점을 설명하겠습니다 AI는 컴퓨터를 지능적으로 만들어서 인공 지능은 일반적인 인간의인지 기능 컴퓨터 비전 언어 처리를 포함한 광범위한 분야 창의성과 요약 머신 러닝은 인공 지능의 한 분야입니다 인공 지능의 통계적 부분은 컴퓨터에게 수백 또는 수천 개의 예제를 통해 문제를 해결 그런 경험을 이용해 새로운 상황에서 같은 문제를 해결하고 딥 러닝은 컴퓨터가 할 수있는 매우 특별한 머신 러닝 분야입니다 실제로 자신의 딥 러닝에서 지능적으로 결정하고 학습합니다

대부분의 머신 러닝과 비교하여 더 높은 수준의 자동화가 필요합니다 머신 러닝 입문을 마쳤으니 이제 알고리즘 다음 비디오는 먼저 두 가지 주요 구성 요소를 검토하는 데 중점을 둡니다 머신 러닝의 목적과 가능한 위치에 대해 배우게됩니다 실제 세계에 적용되며 두 번째로 기계에 대한 일반적인 개요를 얻을 수 있습니다 지도 학습과 비지도 학습 모델과 같은 학습 주제 평가 및 다양한 머신 러닝 알고리즘으로 이 여행에 저장되어있는 것들에 대한 우리의 면도를 계속 탐구합시다 이 비디오에서 안녕하세요를 배우고 환영합니다 파이썬을 사용하는 방법에 대해 이야기하겠습니다

머신 러닝 시작하자 파이썬은 대중적이고 강력하다 최근에 선호로 등장한 범용 프로그래밍 언어 데이터 과학자들 사이의 언어로 머신 러닝 알고리즘을 작성할 수 있습니다 파이썬을 사용하면 잘 작동하지만 많은 모듈이 있으며 파이썬으로 이미 구현 된 라이브러리로 인생을 훨씬 쉽게 만들 수 있습니다 우리는이 과정에서 파이썬 패키지를 소개하고 실험실에서 그것을 사용하려고합니다 더 나은 실습 경험을 제공 첫 번째 패키지는 수학입니다 파이썬에서 n 차원 배열로 작업 할 수있는 라이브러리 효율적이고 효과적으로 계산하는 것은 일반 파이썬보다 낫습니다 예를 들어 배열 사전 작업을위한 놀라운 기능 numpy SCI PI에 대해 알아야 할 데이터 유형 및 이미지 작업 수치 알고리즘 및 도메인 별 도구 상자 모음 신호 처리 최적화 통계 등 SCI pi는 과학 및 고성능 계산을위한 훌륭한 라이브러리입니다 matplotlib는 2D 플로팅을 제공하는 매우 인기있는 플로팅 패키지입니다

이 3 가지 패키지에 대한 기본 지식도 파이썬 위에 구축 된 것은 일하고 싶은 데이터 과학자들에게 좋은 자산입니다 이 패키지에 익숙하지 않은 경우 실제 문제가 발생합니다 파이썬 코스를 사용하여 데이터 분석을 먼저 수행해야합니다 이 패키지에서 유용한 주제의 대부분은 팬더 라이브러리입니다 사용하기 쉬운 고성능 데이터를 제공하는 고급 Python 라이브러리 데이터 가져 오기 조작 및 분석을위한 많은 기능이있는 구조 특히 조작을위한 데이터 구조 및 작업을 제공합니다 숫자 표와 시계열 scikit-learn은 기계 학습을위한 알고리즘 및 도구 이 과정에서 scikit-learn을 사용하는 방법을 배우게됩니다

실습에서 상당히 조금 더 설명하고 보여 드리겠습니다 데이터 과학자들 사이에서 인기가 높은 이유 scikit-learn은 무료입니다 파이썬 프로그래밍 언어를위한 머신 러닝 라이브러리 분류 회귀 및 클러스터링 알고리즘으로 작동하도록 설계되었습니다 파이썬 숫자 및 과학 라이브러리 numpy 및 Sai 파이프도 머신 러닝 구현 위에 매우 훌륭한 문서를 포함 scikit-learn이있는 모델은 머신에서 수행해야 할 대부분의 작업을 Python 코드 라인 학습 파이프 라인은 이미 키트 학습 내부에 구현되어 있습니다 데이터 특징 선택 특징 추출의 전처리 모델 조정 알고리즘을 정의하는 훈련 테스트 분할 매개 변수 예측 평가 및 내보내기 모델을 통해 이 라이브러리를 사용할 때 scikit-learn이 어떻게 보이는지의 예 지금 코드를 이해할 필요는 없지만 얼마나 쉽게 할 수 있는지 확인하십시오 기본적으로 머신 러닝으로 몇 줄의 코드로 모델 구축 알고리즘은 데이터 세트가 표준화 된 경우 데이터 세트의 특이 치 또는 다른 스케일 필드를 수정해야합니다

scikit-learn의 전처리 패키지는 몇 가지 일반적인 유틸리티를 제공합니다 원시 피처 벡터를로 변환하는 함수 및 변환기 클래스 모델링에 적합한 형태의 벡터는 데이터 세트를 기차로 분할해야합니다 모델을 훈련시킨 다음 모델 정확도를 개별적으로 테스트하기위한 테스트 세트 scikit-learn은 배열 또는 행렬을 임의의 기차 및 테스트로 나눌 수 있습니다 한 줄의 코드로 당신을 위해 하위 집합을 설정하면 예를 들어 지원 벡터 분류를 사용하여 분류기를 만들 수 있습니다 알고리즘 우리는 추정기 인스턴스 CLF를 호출하고 매개 변수로 초기화합니다 훈련 세트를 적합하게 전달하여 기차 세트로 모델을 훈련시킬 수 있습니다 CLF 모델이 알려지지 않은 사례를 분류하는 방법을 배우면 테스트를 사용할 수 있습니다 예측을 실행하도록 설정하고 결과는 각 미지의 클래스가 무엇인지 알려줍니다 또한 다른 측정 항목을 사용하여 모델 정확도를 평가할 수 있습니다 예를 들어 혼란 매트릭스를 사용하여 결과를 표시하고 마지막으로 저장하면 모델에서 이러한 머신 러닝 용어 전체 또는 일부를 혼동 할 수 있습니다 다음 동영상에서 이러한 주제에 대해 이야기 할 것입니다

기억해야 할 가장 중요한 점은 기계 학습의 전체 프로세스가 scikit-learn을 사용하여 몇 줄의 코드로 간단하게 작업을 수행 할 수 있습니다 당신이 원한다면 그것은 쉽지 않을 것입니다 것을 유의하십시오 numpy 또는 side PI 패키지를 사용 하여이 모든 작업을 수행하고 물론 많은 것을 필요로합니다 순수한 파이썬 프로그래밍을 사용하여 이러한 모든 것을 구현하면 더 많은 코딩 이 비디오에서 우리는 감독 된 알고리즘을 소개합니다 감독되지 않은 알고리즘과 비교하여 시작하는 쉬운 방법을 시작하겠습니다 지도 학습의 개념을 파악하는 것은 그것을 감독하는 단어는 실행을 관찰하고 지시하는 것을 의미합니다

작업 프로젝트 또는 활동은 분명히 사람을 감독하지 않을 것입니다 대신에 우리는 가능한 기계 학습 모델을 감독 할 것입니다 여기에서 볼 수있는 것과 같이 분류 영역을 생성하므로 기계 학습 모델 우리는 우리가 미래 사례를 예측할 수 있도록 지식을 갖춘 모델 우리가 가르치는 모델을 정확히 어떻게 가르치는가하는 다음 질문으로 이어집니다 레이블 데이터 세트의 일부 데이터로 학습하여 모델링해야합니다 데이터에 레이블이 지정되어 있고 레이블 데이터 세트의 모양이 이 예제는 암 데이터 세트에서 가져온 것입니다 환자에 대한 과거 데이터가 있고 클래스를 이미 알고 있습니다 이 표의 일부 구성 요소를 소개하여 시작하겠습니다

세포 크기 균일 성의 클럽 두께 균일 성이라고 불리는 셀 모양의 한계 접착력 등을 열이라고하는 속성이라고합니다 이 데이터를 플로팅하고 단일 데이터 포인트가 적용되지 않으면 다음과 같은 속성이 모두 적용됩니다 이 차트에서 행을 만들어 관측치라고도 함 데이터의 가치에서 직접 두 종류를 가질 수 있습니다 기계 학습을 다룰 때 가장 일반적으로 사용되는 데이터는 숫자 두 번째는 범주 형입니다 즉 숫자가 아닙니다

이 경우 숫자가 아닌 문자입니다 분류를 위해 설정됩니다 감독 학습의 두 가지 유형이 있습니다 그들이 분류하는 기술과 침략 분류는 과정이다 이산 클래스 레이블 또는 범주 회귀를 예측하는 과정은 다음과 같습니다 범주 형 값을 예측하는 대신 연속 값을 예측하는 분류이 데이터 세트를 보면 다른 CO2 배출과 관련이 있습니다 자동차에는 엔진 크기의 실린더 연료 소비 및 이산화탄소 배출이 포함됩니다 이 데이터 세트가 제공된 다양한 자동차 모델에서 회귀를 사용하여 엔진 크기와 같은 다른 분야를 사용하여 새 차의 이산화탄소 배출량 예측 지도 학습의 의미를 알고 있기 때문에 실린더 수 비지도 학습이 필요하다고 생각합니다 비지도 학습은 모델을 감독하지는 않지만 우리는 모델 자체가 작동하지 않을 수도있는 정보를 발견하게했습니다

사람이 볼 수 있습니다 안녕하세요, 감독되지 않은 알고리즘은 데이터 세트 및 일반적으로 말하는 레이블이없는 데이터에 대한 결론 도출 비지도 학습은지도 학습보다 더 어려운 알고리즘을 가지고 있습니다 데이터 나 결과에 대한 정보가 거의 없거나 전혀 없기 때문에 치수 축소 밀도 추정 예상 시장 바구니 가장 널리 사용되는 비 감독 시스템 인 분석 및 클러스터링 학습 기법 차원 축소 및 / 또는 기능 선택 플레이 중복 기능을 줄여서 분류가 용이 한 시장 바구니 분석은 모델링 기술 기반 특정 품목 그룹을 구매하면 다른 그룹의 항목 밀도를 구입할 가능성이 매우 간단합니다 데이터를 탐색하여 내부에서 일부 구조를 찾는 데 주로 사용되는 개념 클러스터링 클러스터링은 가장 인기있는 것으로 간주됩니다 데이터 포인트 또는 객체를 그룹화하는 데 사용되는 감독되지 않은 기계 학습 기술 비슷한 클러스터 분석에 많은 응용 프로그램이 있습니다 고객을 세분화하려는 은행의 요구 여부에 따라 다른 영역 특정 특성 또는 개인이 자신을 조직하고 그룹화하도록 돕는 클러스터링이 사용되지만 일반적으로 말하는 그녀가 좋아하는 음악 주로 구조 요약 및 이상 감지를 발견하기 위해 수프의 가장 큰 차이점을 요약 비지도 학습은지도 학습이 라벨을 다루는 것입니다 비지도 학습은 비지도 데이터를 관리하는 동안 우리는 분류를위한 기계 학습 알고리즘을 가지고 있으며 비지도 학습의 회귀 분석에는 클러스터링과 같은 방법이 있습니다 지도 학습과 비교 비지도 학습은 모델이 적습니다

보다 적은 평가 방법으로 결과를 보장 할 수 있습니다 이러한 비지도 학습이 통제력이 떨어짐에 따라 모델이 정확함 기계가 우리를 위해 결과를 창조함에 따라 환경 이 비디오에서는 회귀에 대한 간단한 소개를하겠습니다 이 데이터 세트를 살펴보면 다른 이산화탄소 배출량과 관련이 있습니다 자동차 엔진 크기의 실린더 연료 소비 및 이산화탄소 포함 다양한 자동차 모델에서 방출되는이 데이터 세트는 엔진 크기와 같은 다른 분야를 사용하여 자동차의 이산화탄소 배출을 예측합니다 또는 실린더는 우리가 다른 자동차의 과거 데이터를 가지고 있다고 가정 해 봅시다 9 행과 같은 자동차는 아직 제조되지 않았지만 생산 후의 대략적인 CO2 배출량 추정에 관심이있는 경우 가능한 회귀 방법을 사용하여 다음과 같은 연속적인 값을 예측할 수 있습니다

다른 변수를 사용한 이산화탄소 배출량 실제로 회귀 분석은 회귀의 연속 값을 예측하는 데는 두 가지 유형이 있습니다 종속 변수와 하나 이상의 독립 변수 종속 변수는 우리가 연구하고있는 주 목표 또는 최종 목표로 볼 수 있습니다 예측을 시도하고 설명이라고도하는 독립 변수 변수는 독립 변수가 그 상태의 원인으로 볼 수 있습니다 일반적으로 X로 표시되고 종속 변수는 Y로 표시됩니다 회귀 모델은 Y 또는 종속 변수를 X의 함수와 관련시킵니다 회귀 분석의 핵심은 독립 변수입니다

우리의 종속 가치는 연속적이어야하지만 이산 가치는 될 수 없습니다 독립 변수는 범주 형으로 측정 할 수 있습니다 또는 지속적인 측정 척도이므로 여기에서하고 싶은 것은 하나 이상의 기능을 사용하는 일부 카드의 과거 데이터 데이터는 회귀 분석 모델을 구축하기 위해 회귀를 사용하는 모델을 만듭니다 이 모델은 새로운 또는 알 수없는 자동차 기본적으로 두 가지 유형의 회귀 모델이 있습니다 회귀 및 다중 회귀 단순 회귀는 하나 일 때 독립 변수는 종속 변수를 추정하는 데 사용됩니다 예를 들어 이산화탄소 방출을 예측하는 선형 또는 비선형 엔진 크기 선형성 회귀 변수를 사용하는 것은 독립 변수와 종속 변수 사이의 관계 특성 둘 이상의 독립 변수가 존재하는 경우 프로세스를 다중이라고합니다 예를 들어 엔진 크기를 사용하여 이산화탄소 배출을 예측하는 선형 회귀 주어진 차에서 다시 실린더의 수 사이의 관계에 따라 종속 및 독립 변수는 선형 또는 비선형 일 수 있습니다 회귀 분석 기본적으로 회귀 분석의 일부 샘플 응용을 살펴 보겠습니다 예를 들어 연속적인 값을 추정 할 때 회귀를 사용합니다

회귀 분석의 응용 프로그램 중 하나는 판매 영역에있을 수 있습니다 연간 총 매출을 예측할 수 있습니다 연령 교육 및 수년간의 경험과 같은 독립적 인 변수 예를 들어 개인을 결정하기 위해 심리학 분야에서 사용 우리가 사용할 수있는 인구 통계 학적 및 심리적 요소에 따른 만족도 크기를 기준으로 한 지역의 주택 가격을 예측하는 회귀 분석 침실 수 등을 사용하여 고용 소득을 예측할 수도 있습니다 근로 시간 직업 직업 성 연령과 같은 독립 변수 실제로 경험의 유용성에 대한 많은 예를 찾을 수 있습니다 이 분야 및 기타 여러 분야의 회귀 분석 또는 금융 의료 소매 등의 영역 우리는 많은 회귀 알고리즘을 가지고 있습니다

그들의 적용이 가장 적합한 특정 조건 우리는이 과정에서 그 중 몇 개만 다뤘습니다 다른 회귀 기술을 탐색 할 수있는 지식 이 비디오에서 우리는 선형 회귀를 다룰 것입니다 이 높은 수준의 선형 회귀 주제를 이해하는 선형 대수 소개는 선형에 대한 충분한 배경 ​​정보를 제공합니다 자신의 문제에 효과적으로 사용할 수있는 회귀 시작합시다 이산화탄소와 관련된이 데이터 세트를 살펴 보겠습니다 엔진 크기의 실린더 연료 소비를 포함하는 다른 자동차의 배출 다양한 자동차 모델에 대한 CO2 배출량 엔진 크기와 같은 다른 필드를 사용하여 자동차의 이산화탄소 배출을 예측합니다 아주 간단하게 그렇습니다 선형 회귀를 사용하여 연속 값을 예측할 수 있습니다 다른 변수를 사용하여 이산화탄소 방출과 같은 선형 회귀는 둘 사이의 관계를 설명하는 데 사용되는 선형 모형의 근사 간단한 선형 회귀 분석에 더 많은 변수가 있습니다 종속 변수와 독립 변수 회귀는 종속 값이 지속적이어야하며 이산 값이지만 독립 변수는 범주 형 또는 연속 측정 스케일에는 두 가지 유형의 선형이 있습니다 회귀 모형은 단순 회귀 및 다중 회귀입니다

간단한 선형 회귀는 하나의 독립 변수를 사용하여 추정하는 경우입니다 예를 들어 엔진을 사용하여 이산화탄소 배출을 예측하는 종속 변수 하나 이상의 독립 변수가 존재하는 경우 크기 변수 예를 들어 CO2 예측과 같은 프로세스를 다중 선형 회귀 분석이라고합니다 이 비디오에서 우리의 초점은 자동차의 엔진 크기와 실린더를 사용하여 배출 간단한 선형 회귀 분석 이제 선형 회귀가 어떻게 작동하는지 봅시다 선형 회귀를 이해하기 위해 데이터 세트를 다시 살펴 보겠습니다 여기서 변수는 엔진 크기를 독립 변수로 보여줍니다 산점도를 예측하고자하는 목표 값으로서의 임무 하나의 변수가 변경되는 변수 간의 관계를 명확하게 보여줍니다

다른 변수를 설명하거나 변경했을 수도 있습니다 이 변수는 선형 회귀와 선형으로 관련되어 있습니다 예를 들어 엔진 크기가 증가함에 따라 데이터를 통해 라인을 맞추십시오 선형 회귀 분석을 통해 배출량의 관계를 모델링 할 수 있습니다 좋은 모델을 사용하여 대략적인 방출량을 예측할 수 있습니다

각 자동차는 어떻게 우리가 예측을 위해이 라인을 사용합니까? 선이 데이터에 잘 맞는 순간을 사용하여 데이터를 예측할 수 있습니다 예를 들어 엔진 크기가 24 인 샘플 자동차의 경우 알려지지 않은 자동차 배기 배출량이 214임을 알 수 있습니다 이제 피팅 라인에 대해 이야기하겠습니다 실제로 우리는이 경우 목표 값 Y를 예측할 것입니다

X 1로 표시되는 독립 가변 엔진 크기 맞춤 선이 표시됨 전통적으로 단순한 회귀 문제에서 다항식으로 단일 X 이 식에서 모형의 형태는 세타 0 + 세타 1 X 1입니다 종속 변수 또는 예측값이며 X 1은 독립 변수 세타 0과 세타 1은 우리가 해야하는 라인의 매개 변수입니다 세타 1을 조정하면 피팅 선의 기울기 또는 그라디언트로 알려져 있으며 세타 0 절편 theta 0으로 알려져 있고 theta 1은 계수라고도합니다 선형 방정식 중이 방정식을 함수로 해석 할 수 있습니다 X 1 또는 Y 모자 중 X 1에 종속되어 있습니다 이제 질문은 어떻게 그릴 것입니까? 점을 통과하는 선과 가장 적합한 선을 결정하는 방법 회귀는 선의 계수를 추정합니다

theta 0과 theta 1은이 줄에 맞는 데이터에 가장 적합한 줄을 찾습니다 알려지지 않은 데이터 포인트의 승인을 가장 잘 추정하는 방법 이 줄을 찾거나 매개 변수를 조정하여 잠시 동안 데이터에 가장 잘 맞는 라인을 찾아 보자 가장 적합한 선은 이제 모든 요점을 살펴보고 이 라인에 가장 잘 맞는 라인을 확인하십시오 예를 들어 엔진 크기가 x1 인 자동차는 54이고 실제 이산화탄소는 250입니다 이산화탄소는 y가 250 인 실제 값에 매우 가깝게 예측되어야합니다

과거 데이터를 기반으로하지만 적합 선을 사용하거나 알려진 CO2 배출량을 예측하기 위해 알려진 매개 변수가있는 다항식 차의 실제 입장료를 비교하면 y 모자는 340이됩니다 모델을 사용하여 예측 한 내용을 통해 90 단위 오류는 예측 선이 정확하지 않음을 의미합니다 오차는 잔차 오차라고도하는데, 오차가 거리라고 말할 수 있습니다 데이터 포인트에서 적합 회귀선까지 모든 잔차의 평균 오류는 라인이 수학적으로 전체 데이터 세트에 얼마나 잘 맞지 않는지를 보여줍니다 그것은 우리의 목표 MSE로 표시된 방정식 평균 제곱 오차로 표시 될 수 있습니다 이 모든 오류의 평균이 최소화되는 라인을 찾는 것입니다 적합 선을 사용한 예측의 평균 오차를 최소화해야합니다 선형 회귀의 목표는 기술적으로 더 기술하자 이 MSE 방정식을 최소화하고 최소화하려면 최선을 찾아야합니다 매개 변수 theta0 및 theta1 이제 질문은 theta 0을 찾는 방법입니다 이 오류를 최소화하는 방식으로 세타 1을 어떻게 찾습니까? 완벽한 라인 또는 다른 방법으로 최적의 매개 변수를 찾는 방법을 설정하십시오

선을 무작위로 많이 움직여서 MSE 값을 계산해야합니다 매번 최소 한 개를 선택하십시오 실제로 실제로는 두 가지 옵션이 있습니다 여기 옵션 1은 수학 접근법을 사용할 수 있고 옵션 2는 최적화 접근법을 통해 수학 공식을 쉽게 사용할 수있는 방법을 알아 보겠습니다 세타 0과 세타 1 앞에서 언급 한 세타 0과 세타 1을 찾습니다 간단한 선형 회귀는 우리가 사용할 수있는 적합 선의 계수입니다 주어진 계수를 추정하는 간단한 방정식 두 개의 매개 변수 만 있고 간단한 선형 회귀 세타 0과 세타 1은 우리가 할 수있는 선의 절편과 기울기입니다 데이터에서 직접 추정하여 평균을 계산해야합니다

데이터 세트의 독립 및 종속 또는 대상 열은 매개 변수를 순회하고 계산할 수있는 모든 데이터가 있어야합니다 인터셉트와 슬로프는 다음을 사용하여 계산할 수 있습니다 세타 1의 값을 추정하여 시작할 수있는 방정식입니다 데이터를 기반으로 선의 기울기를 찾을 수 있습니다 X 막대는 평균값입니다

데이터 세트의 엔진 크기는 9 행이 있습니다 0에서 8까지 먼저 x1의 평균과 Y의 평균을 계산 한 다음 방정식에서 쎄타 1 X I 및 yi를 구하는 기울기 방정식은 우리는 우리의 모든 값에 대해 이러한 계산을 반복해야한다는 사실 데이터 세트와 I는 찾은 모든 값을 적용하는 X 또는 Y의 eyuth 값을 나타냅니다 세타 1은 39와 같습니다 두 번째 매개 변수입니다 선의 절편 인 첫 번째 매개 변수는 세타 1을 세타 0을 구하는 선 방정식 세타 0이 같다는 것을 쉽게 계산할 수 있습니다

125 point seven four 그래서 이것은 세타가있는 선의 두 매개 변수입니다 0은 바이어스 계수라고도하며 theta 1은 CO2 배출 컬럼은 실제로 기억할 필요가 없습니다 이러한 매개 변수를 계산하는 데 사용되는 대부분의 라이브러리 python r과 scala의 기계 학습은 이러한 매개 변수를 쉽게 찾을 수 있습니다 하지만 이제 어떻게 작동하는지 이해하는 것이 좋습니다 다항식으로 데이터에 가장 적합한 것을 찾는 방법을 알 수 있습니다 이제 방정식은 새로운 방출을 예측하기 위해 어떻게 사용할 수 있는가입니다

우리는 선형의 매개 변수를 찾은 후 엔진 크기를 기반으로 자동차 방정식 만들기 예측은 특정 방정식을 해결하는 것처럼 간단합니다 일련의 입력은 엔진 크기 또는 X에서 이산화탄소 배출 또는 Y를 예측한다고 상상해보십시오 9 번 자동차의 선형 회귀 모델 이 문제에 대한 표현은 y 모자가 theta 0 + theta 1 x1과 같거나 데이터 세트에 매핑하면 이산화탄소 배출량은 세타 0에 세타 1을 더한 것입니다 우리가 보았 듯이 엔진 크기 우리는 방정식을 사용하여 세타 0 세타 1을 찾을 수 있습니다 일단 우리가 선형 모형의 방정식을 꽂을 수 있다는 것을 알게되면 예를 들어 theta 0은 125를, theta 1은 39를 사용하여 이산화탄소 배출량이 125 + 39 엔진 크기 인 선형 모델 데이터 세트의 9 번째 행과 자동차의 이산화탄소 배출량을 계산 엔진 크기가 24이므로 이산화탄소 배출량은 125에 39 곱하기 2

4를 곱한 값입니다 따라서이 특정 자동차의 이산화탄소 배출은 218 point six 선형 회귀가 왜 그렇게 유용한 지에 대해 조금 이야기 해 봅시다 실제로 한 가지 이유를 사용하고 이해하는 것이 가장 기본적인 회귀입니다 선형 회귀가 유용한 이유는 빠르다는 것입니다 또한 매개 변수를 조정할 필요가 없으므로 신경망에서의 K 파라미터 및 K 가장 가까운 이웃 또는 학습 속도 선형 회귀에 대해 걱정할 것이 없습니다 이해하기 쉽습니다

이 동영상에서 다루게 될 모든 해석과 해석은 모두 환영합니다 모델 평가이므로 회귀의 목표를 시작합시다 이를 위해 알려지지 않은 사례를 정확하게 예측하기위한 모델 이 비디오에서 모델을 작성한 후 회귀 평가를 소개하고 달성하는 데 사용할 수있는 두 가지 유형의 평가 접근법에 대해 논의 이 목표는 이러한 접근 방식이 동일한 데이터 세트에서 학습하고 테스트하는 것입니다 훈련 테스트 스플릿 우리는 각각의 장점과 전문가에 대해 이야기 할 것입니다 이러한 각 모델을 사용하는 단점은 회귀 모형의 정확도 고려할 때 첫 번째 접근 방식을 살펴 보겠습니다

평가 모델 우리는 우리에게 가장 정확한 결과이므로 질문의 정확도를 계산하는 방법은 다시 말해 우리는이 모델을 얼마나 신뢰할 수 있는지 예측할 수 있습니다 주어진 데이터 세트를 사용하고 선형과 같은 모델을 구축 한 미지의 샘플 회귀 중 하나는 데이터 세트의 일부를 선택하는 것입니다 예를 들어 테스트는 데이터 세트에 10 개의 레코드가 있다고 가정합니다 훈련을위한 전체 데이터 세트 및이 훈련 세트를 사용하여 모델 구축 이제 우리는 행 번호 6에서 9와 같은 데이터 세트의 작은 부분을 선택합니다 레이블이 없으면이 세트를 레이블이있는 테스트 세트라고합니다

레이블은 예측에 사용되지 않으며지면으로 만 사용됩니다 사실 레이블을 테스트 세트의 실제 값이라고합니다 빌드 된 모델에 대한 테스트 부분의 기능 세트 및 목표 예측 마지막으로 우리는 모델에 의해 예측 된 값과 실제 값을 비교합니다 테스트 세트의 값은 모델이 실제로 얼마나 정확한지 나타냅니다 모델의 정확성을보고하는 다른 측정 항목이지만 대부분 일반적으로 예측값과 실제 값의 유사성에 기초하여 작동합니다 회귀 정확도를 계산하는 가장 간단한 측정 항목 중 하나를 살펴보십시오

언급 한 바와 같이 우리는 실제 값 Y와 예측 값을 비교합니다 테스트 세트에서 y 모자로 표시되는 값은 모델의 오류입니다 예측값과 실제 값의 평균 차이로 계산 모든 행에 대해이 오류를 방정식으로 쓸 수 있으므로 첫 번째 평가 우리가 방금 말한 접근 방식은 가장 간단한 기차와 테스트입니다 데이터 세트는 본질적으로이 접근법의 이름은 모델을 훈련시키는 모든 것을 말합니다 전체 데이터 세트에서 동일한 데이터 세트의 일부를 사용하여 테스트합니다 목표를 알고있는 데이터 세트로 테스트 할 때의 일반적인 의미 정확한 데이터 비율을 얻을 수있는 각 데이터 포인트의 가치 이 평가 방식에 대한 모델 예측 가장 높은 교육 정확도와 낮은 샘플 부족 모델이 모든 테스트 데이터 포인트를 알고 있기 때문에 정확도 훈련 정확도와 표본 외 정확도 란 무엇입니까? 동일한 데이터 세트에 대한 교육 및 테스트를 통해 높은 교육 정확도 그러나 훈련 정확도 훈련 정확도는 정확히 테스트 데이터 센터를 사용할 때 모델의 정확한 예측 그러나 높은 훈련 정확도가 반드시 좋은 것은 아닙니다

훈련 정확도가 높으면이 데이터가 과적 합 될 수 있습니다 모델이 데이터 세트에 과도하게 훈련되어 잡음을 포착 할 수 있음을 의미 일반화되지 않은 모델에서 샘플을 벗어난 정확도는 백분율입니다 모델이하지 않은 데이터에 대해 모델이하는 정확한 예측 동일한 데이터 세트에 대해 훈련 테스트를 수행하도록 훈련 받았으며 과적 합 가능성으로 인해 샘플 외부 정확도가 낮음 우리의 모델은 샘플 외부 정확도가 높기 때문에 우리 모델의 목적은 물론 알려지지 않은 데이터를 정확하게 예측하는 것입니다 한 가지 방법은 다른 방법을 사용하는 것입니다 이 접근법에서 열차 테스트 분할이라는 평가 접근법은 예를 들어 0 행에서 5 행까지 훈련을위한 데이터 세트의 일부이며 나머지는 사용됩니다 예를 들어 6 행부터 9 행까지의 테스트를 위해 모델은 학습 세트에 구축됩니다

테스트 기능 세트는 예측을 위해 모델로 전달되고 마지막으로 테스트 세트에 대해 예측 된 값은 실제 값과 비교됩니다 테스트 세트 두 번째 평가 방법을 열차 테스트 분할이라고합니다 열차 시험 분할은 데이터 세트를 훈련 및 시험 세트로 분할하는 것을 포함합니다 상호 배타적 그런 다음 훈련 세트로 훈련하고 테스트 세트로 테스트하십시오 샘플 외부 정확도에 대한보다 정확한 평가를 제공 할 것입니다 테스트 데이터 세트는 데이터를 훈련하는 데 사용 된 데이터 세트의 일부가 아닙니다

실제 문제에 대해 더 현실적입니다 데이터 세트의 각 데이터 포인트의 결과는 이 데이터는 모델 학습에 사용되지 않았기 때문에 이러한 데이터 포인트의 결과에 대한 지식이 없으므로 본질적으로 그러나 샘플 외부 테스트를 통해 모델을 학습하십시오 귀중한 데이터를 잃고 싶지 않기 때문에 나중에 테스트 세트 열차 테스트 분할 문제는 데이터 세트에 크게 의존한다는 것입니다 데이터가 훈련되고 테스트 된이 변형은 열차 테스트를 유발합니다 에 대한 교육 및 테스트보다 더 나은 샘플 외부 예측을 갖도록 분할 동일한 데이터 세트이지만이 종속성으로 인해 여전히 일부 문제가 있습니다 k- 폴드 교차 검증이라는 평가 모델이 이들 대부분을 해결합니다

의존성으로 인한 높은 변형을 어떻게 수정합니까? k-fold cross-validation의 기본 개념을 이 문제를 어떻게 해결할 수 있는지 확인하십시오 전체 데이터 세트는 K가 4 배인 경우 왼쪽 상단의 이미지 포인트 예를 들어 첫 번째 폴드에서이 데이터 세트를 분할하면 테스트 할 데이터 세트의 처음 25 %, 모델 학습을위한 나머지 데이터는 훈련 세트를 사용하여 구축하고 테스트 세트를 사용하여 평가 한 다음 다음 라운드 또는 두 번째 접기에서 데이터 세트의 두 번째 25 %가 모델을 다시 훈련시키기위한 테스트와 나머지는 모델의 정확성입니다 우리는 모든 폴드에 대해 계속 계산 마지막으로 네 가지의 결과 평가는 평균이며 각 폴드의 정확도는 평균입니다 훈련 데이터가 하나도없는 경우 각 겹이 뚜렷하다는 점을 명심하십시오 폴드는 가장 간단한 형태의 또 다른 k- 폴드 교차 검증에서 사용됩니다 각 분할에서 동일한 데이터 세트를 사용하여 훈련 된 여러 테스트 분할을 수행합니다

다른 경우보다 결과는보다 일관된 생산 평균 표본이 정확하지 않은 정확도를 제공하는 평가 모델을 보여 드리고자했습니다 그러나 이전 접근 방식에서 설명한 문제 중 일부는 k- 폴드 교차 검증 모델의 깊이는이 과정의 범위를 벗어납니다 안녕하세요이 비디오에서는 모델의 정확도 측정 항목을 다루겠습니다 평가를 시작하겠습니다 평가 지표를 설명하는 데 사용됩니다 모델의 성능 모델 평가 지표에 대해 더 자세히 이야기하겠습니다 기본적으로 언급 한 것처럼 회귀에 사용됩니다 실제 값과 예측값으로 정확도를 계산 회귀 모델 평가 지표는 개선이 필요한 영역에 대한 통찰력을 제공하는 모델 평균 절대 오차를 포함한 여러 모델 평가 지표 검토 평균 제곱 오차와 근사 평균 제곱 오차를 정의하기 전에 이것들은 실제 회귀 상황에서 오류가 무엇인지 정의해야합니다

모델의 오차는 데이터 포인트와 여러 데이터 포인트가 있기 때문에 알고리즘에 의해 생성 된 추세선 오류는 여러 가지 방법으로 결정될 수 있습니다 주요 절대 오류는 오류의 절대 값 이것은 이해하기 가장 쉬운 지표입니다 평균 오차이므로 평균 제곱 오차는 제곱의 평균입니다 오류는 초점이 평균이기 때문에 평균 절대 오차보다 더 인기가 있습니다 큰 오차에 더 적합하도록 기하 급수적으로 기한이 되었기 때문입니다

작은 것보다 큰 에러를 증가시키는 것 평균 제곱 오차의 제곱근입니다이 중 가장 인기있는 것 중 하나입니다 평균 제곱 오차가 다음과 같이 해석되므로 평가 메트릭스 반응 벡터 또는 Y 단위와 동일한 단위를 사용하여 정보 상대 절대 오차는 Y의 잔차 제곱이라고도 함 bar는 Y의 평균값으로 총 절대 오차를 취하여 정규화합니다 단순 예측 변수 상대 제곱의 총 절대 오차로 나눈 값 오차는 상대 절대 오차와 매우 유사하지만 R 제곱을 계산하는 데 사용되는 데이터 과학 커뮤니티 R 제곱은 오류 자체는 아니지만 모델의 정확도에 대한 대중적인 지표입니다 데이터 값이 적합 회귀선에 얼마나 가까운 지 나타냅니다

r 제곱이 높을수록 모형이 각각의 데이터에 더 잘 적합합니다 측정 항목은 측정 항목의 선택을 예측 수량화하는 데 사용할 수 있습니다 데이터 유형과 지식 영역 모델의 유형에 전적으로 의존 불행히도 추가 검토는이 과정의 범위를 벗어납니다 안녕하세요이 비디오에서 여러 선형 회귀 분석을 다루겠습니다 간단한 회귀 모델에는 두 가지 유형의 선형 회귀 모델이 있다는 것을 알고 있습니다

다중 회귀 간단한 선형 회귀는 하나가 독립적 일 때 변수는 예측과 같은 종속 변수를 추정하는 데 사용됩니다 실제로 엔진 크기의 변수를 사용하여 이산화탄소 배출 다중 독립 일 때 이산화탄소 배출을 예측하는 다중 변수 변수가 존재하는 경우 프로세스를 다중 선형 회귀 분석이라고합니다 엔진 크기 및 실린더 수를 사용하여 이산화탄소 배출량 예측 예 자동차 엔진에서이 비디오에 중점을 둔 것은 다중 선형 회귀입니다 좋은 점은 다중 선형 회귀 분석은 간단한 선형 회귀 모델이므로 간단한 선형 과정을 거치는 것이 좋습니다 회귀 비디오를 먼저 보지 않은 경우 회귀 비디오를 샘플 데이터 세트 및 다중 선형 회귀가 어떻게 작동하는지 확인하십시오

우리가 그것을 사용해야 할 때 어떤 종류의 문제를 해결할 수 있습니까? 어떤 종류의 질문에 답할 수 있습니까? 기본적으로 두 가지가 있습니다 다중 선형 회귀에 대한 응용 프로그램을 먼저 사용할 때 사용할 수 있습니다 독립적 인 효과의 강도를 확인하고 싶습니다 변수는 종속 변수에 있습니다 예를 들어 수정 시간 테스트 불안 강의 참석 및 성별은 시험 성적에 영향을 미칩니다 학생들은 두 번째로 변화의 영향을 예측하는 데 사용될 수 있습니다 독립 변수를 변경할 때 종속 변수가 어떻게 변하는 지 이해 예를 들어 개인의 건강 데이터를 검토하는 경우 다중 선형 회귀는 그 사람의 혈압을 알려줄 수 있습니다 환자의 체질량이 증가하거나 감소 할 때마다 증가 또는 감소 간단한 선형의 경우와 마찬가지로 다른 요소를 일정하게 유지하는 인덱스 회귀 다중 선형 회귀는 연속을 예측하는 방법입니다 변수 독립 변수라는 여러 변수를 사용하거나 목표 변수의 값을 가장 잘 예측하는 예측 변수 다중 선형 회귀 분석에서 종속 변수라고 함 Y 값은 독립 변수의 선형 조합입니다 예를 들어, 독립으로 인해 자동차가 얼마나 많은 이산화탄소를 수용 할 수 있는지 예측할 수 있습니다 자동차 엔진 크기 실린더 수 및 연료 소비량과 같은 변수 다중 선형 회귀 분석은 다음을 검사 할 수 있으므로 매우 유용합니다

변수는 결과 변수의 중요한 예측 변수입니다 각 기능이 결과 변수에 어떤 영향을 미치는지 그리고 이러한 회귀 모델을 만들면 간단한 선형 회귀 레코드 번호와 같은 알려지지 않은 경우의 방출량을 보호하기 위해 사용 9 일반적으로 모델은 y 모자 형태입니다 세타 0 + 세타 1 x1 + 세타 2 x2 등과 동일합니다 수학적으로 벡터 형태로 보여줄 수 있습니다 매개 변수 벡터와 특징의 두 벡터의 내적으로 표시 벡터 설정 일반적으로 우리는 다차원 공간에 대한 방정식을 보여줄 수 있습니다 세타는 X를 전치합니다

여기서 세타는 다차원 공간이고 X는 세타가 계수의 벡터이며 일반적으로 X를 곱해야합니다 조옮김 세타 세타로 표시됩니다 매개 변수 또는 무게라고도합니다 회귀 방정식의 벡터는이 두 용어를 서로 바꿔서 사용할 수 있습니다 X는 예를 들어 x1의 자동차를 나타내는 기능 세트입니다 기능 세트의 첫 번째 요소에 대한 엔진 크기 또는 x2 등 세타 0을 절편 또는 편향으로 변환하기 때문에 1로 설정됩니다 벡터에 매개 변수 벡터를 곱한 경우 매개 변수 1 차원 공간에서 세타 전치 X는 그것은 우리가 더 높은 차원에서 간단한 선형 회귀에 사용하는 것입니다 라인이 평면 또는 초평면이라고하는 입력 또는 X가 두 개 이상인 경우 이것이 우리가 다중 선형 회귀에 사용하는 것이므로 전체 아이디어는 우리의 데이터에 가장 적합한 초평면 회귀 분석을 가장 잘 예측하는 세타 벡터 값을 추정해야합니다

이 목표를 달성하기 위해 각 행의 대상 필드 값을 최소화해야합니다 예측의 오류는 이제 문제는 최적화를 개선하는 방법입니다 모델에 최적화 된 파라미터를 찾기위한 파라미터 최적화 된 매개 변수가 무엇인지 이해하면 최적화 할 수있는 방법을 찾을 수 있습니다 짧은 최적화 매개 변수의 매개 변수는 오류가 가장 적은 모델 우리가 이미 가지고 있다고 가정 해 봅시다 모델의 매개 변수 벡터를 찾았습니다 세타 벡터 이제 첫 번째 행의 모델과 기능 세트를 사용할 수 있습니다 우리가 데이터를 연결하면 첫 번째 자동차의 이산화탄소 배출량을 예측하는 데이터 세트 우리가 찾은 모델 방정식에 특징 세트 값 예를 들어이 특정 행의 예측 값으로 140을 반환합니다 실제 값 y는 196과 같습니다

실제 값과 예측값이 얼마나 다른가 196의 값은 196 빼기 140과 같이 아주 간단히 계산할 수 있습니다 물론 56과 같습니다 이것은 한 행 또는 한 대의 자동차에 대해서만 모델의 오류입니다 선형 회귀의 경우와 마찬가지로 우리의 경우 여기에 오류가 있다고 말할 수 있습니다 데이터 점에서 적합 회귀 모형까지의 거리 잔차 오차는 모형이 모형을 나타내는 데이터 세트를 얼마나 나쁜지 보여줍니다

평균 제곱 오차 또는 MSE 수학적으로 MSE는 이것은 여러 선형의 오차를 노출시키는 유일한 방법은 아니지만 방정식 회귀 모형 가장 적합한 모형 중 하나입니다 우리의 데이터 세트는 모든 예측 값에 대한 최소 오차가있는 데이터 세트이므로 다중 선형 회귀의 목표는 MSE 방정식을 우리는 최고의 매개 변수 세타를 찾아야 최소화 그러나 여러 매개 변수 또는 계수를 어떻게 찾을 수 있습니까? 선형 회귀이 계수의 값을 추정하는 많은 방법이 있습니다 그러나 가장 일반적인 방법은 일반적인 최소 제곱 및 최적화입니다 평범한 최소 제곱에 접근하여 계수 값을 추정하려고 시도합니다 평균 제곱 오차를 최소화함으로써이 접근법은 데이터를 선형 대수 연산을 사용하여 최적의 추정치 세타 값이 기술의 문제는 시간 복잡성입니다 매트릭스 작업을 계산하는 데 시간이 오래 걸릴 수 있으므로 데이터 세트의 행 수가 10,000보다 작습니다 옵션으로 기술하지만 더 큰 가치를 위해 다른 시도해야합니다 더 빠른 접근 방법 두 번째 옵션은 최적화 알고리즘을 사용하여 가장 좋은 매개 변수는 다음의 값을 최적화하는 프로세스를 사용할 수 있다는 것입니다

모델의 오차를 반복적으로 최소화하여 계수 예를 들어 훈련 데이터를 시작하면 그라데이션 하강을 사용할 수 있습니다 각 계수에 대한 임의의 값으로 최적화 한 다음 오류를 계산합니다 여러 계수의 현명한 변화를 통해 그것을 최소화하려고합니다 큰 데이터 세트가있는 경우 반복 그라디언트 하강은 적절한 방법입니다 그러나 다른 방법으로는 여러 선형 회귀 분석의 매개 변수는 모델에 가장 적합한 매개 변수를 찾은 후 선형 방정식 만들기의 매개 변수를 찾은 후 예측 단계 예측은 특정 입력 집합에 대한 방정식을 푸는 것만 큼 간단합니다

우리가 다른 변수로부터 co2-emission 또는 y를 예측한다고 상상해보십시오 레코드 번호 9의 자동차,이를위한 선형 회귀 모델 표현 문제는 우리가 매개 변수를 찾으면 y 모자가 세타 전치 x와 같습니다 예를 들어 선형 모델의 방정식에 꽂을 수 있습니다 세타 0은 125와 같습니다 세타 1은 6 점 2와 같습니다 세타 2는 14와 같습니다

이산화탄소 배출량과 같으므로 선형 모델을 다시 작성할 수있는 데이터 세트에 매핑합니다 125 플러스 6 포인트 2에 엔진 크기 + 14 실린더에 곱한 여러 선형 회귀 추정값을 볼 수 있듯이 예를 들어 실린더가 이산화탄소에 더 큰 영향을 미치는 것으로 예측 변수의 중요성 엔진 크기와 비교 한 배기량 이제 데이터 세트의 9 번째 행을 연결하고 이산화탄소 배출량을 계산해 봅시다 엔진 크기가 24 인 자동차의 경우 이산화탄소 배출량은 125 + 6 포인트 2와 같습니다 2 포인트 4 더하기 14 곱하기 4 등은 이산화탄소 배출을 예측할 수 있습니다 이 특정 자동차는 214 포인트 1이 될 것입니다

보았 듯이 이미 다중 선형 회귀에 관한 것일 수 있습니다 여러 독립 변수를 사용하여 목표 값을 예측할 수 있습니다 여러 선형 회귀 분석으로 인해 때때로 하나의 독립 변수 만 사용하는 간단한 선형 회귀를 사용하여 종속 변수 예측 이제 질문은 얼마나 많은 독립 모든 필드를 사용해야하는 경우 예측에 사용해야하는 변수 데이터 세트에서 독립 변수를 여러 선형에 추가합니다 회귀 모델은 항상 기본적으로 추가하는 모델의 정확도를 높입니다 이론적 정당성이없는 너무 많은 독립 변수는 오버 피트 모델에서 오버 피트 모델은 너무 크기 때문에 실제 문제입니다

데이터 세트에 복잡하고 일반적으로 사용하기에는 충분하지 않습니다 예측에 많은 변수를 사용하지 않는 것이 좋습니다 회귀 분석에서 모형에 과적 합을 피하는 방법에는 여러 가지가 있습니다 그러나 그것은이 비디오의 범위를 벗어납니다 다음 질문은 독립 변수가 기본적으로 연속적이어야한다는 것입니다 범주 형 독립 변수는 다음과 같이 회귀 모형에 통합 할 수 있습니다 예를 들어 이진 변수와 같은 숫자 변수로 변환 자동차 유형으로 코드 더미 0을 수동으로, 자동 자동차를 위해 마지막 지점으로 1 다중 선형 회귀는 특정 유형의 선형 회귀입니다 따라서 종속 관계 사이에 선형 관계가 있어야합니다 변수와 각 독립 변수에는 여러 가지 방법이 있습니다

선형 관계를 확인하십시오 예를 들어 산점도를 사용할 수 있습니다 관계가 산포에 표시되면 선형성을 육안으로 확인하십시오 플롯은 선형이 아니므로 비선형 회귀를 사용해야합니다 안녕하세요 이 비디오에서 우리는 모든 비선형 회귀 기본이 될 것입니다

시작하겠습니다이 데이터 포인트는 중국의 국내 총생산에 해당합니다 1960 년부터 2014 년까지의 제품 또는 GDP 그에 대한 중국의 연간 총 국내 총 수입은 미국 달러입니다 올해는 데이터 포인트의 모습입니다 이제 몇 가지 흥미로운 점이 있습니다 질문은 먼저 시간을 기준으로 gdp를 예측할 수 있고 두 번째로 데이터가 매력적인 추세를 나타내는 경우 실제로 선형 선형 회귀 분석 선형 회귀는 다음과 비교할 때 매우 정확한 결과를 생성하지 않습니다 이름이 선형 회귀를 의미하기 때문에 비선형 회귀 데이터가 선형이라고 가정하고 산점도는 GDP와 시간 사이의 강한 관계이지만 관계는 선형이 아닙니다 보시다시피 성장은 천천히 시작하여 2005 년부터는 성장을 시작합니다 매우 중요하고 마침내 2010 년에 약간 감속합니다 로지스틱 함수 또는 지수 함수처럼 보이므로 비선형 회귀 분석 절차의 특별 추정 방법 이 데이터 점에 대한 모형이 지수라고 가정하는 경우의 예 y 모자와 같은 함수는 세타 0에 세타 1 세타 2를 전치하거나 X의 힘은 모델의 매개 변수, 즉 Thetas를 추정하는 것입니다

알려지지 않은 또는 향후 사례에 대한 GDP를 예측하기 위해 적합 모형을 사용합니다 데이터 세트의 모양에 맞게 사용할 수있는 다른 회귀 분석 여기에 2 차 및 3 차 회귀선이 있고 계속 진행할 수 있습니다 본질적으로 무한 도로 우리는이 모든 다항식을 호출 할 수 있습니다 독립 변수 X와의 관계 종속 변수 Y는 X에서 n 차 다항식으로 모델링됩니다 선택할 수있는 회귀 유형 데이터 세트를 잘 선택하는 것이 중요하다는 것을 기억하십시오 다항식 회귀 분석은 데이터에 가장 적합한 회귀 분석 다항식 회귀 분석은 데이터에 곡선을 맞추는 간단한 예입니다 y 모자가 세타 제로 + 세타 1 X와 같으므로 차수가 3 인 다항식이 표시됩니다

플러스 세타 2 x 제곱 플러스 세타 3 x 큐브 또는 3의 거듭 제곱 여기서 Thetas는 모형을 적합하게 만드는 추정 할 매개 변수입니다 x와 y의 관계는 여기서 비선형이고 다항 회귀는 다항 회귀에 적합 할 수 있습니다 모델은 여전히 ​​선형 회귀로 표현 될 수 있습니다 그러나 다음과 같이 3 차 다항식이 주어진 예를 살펴 보겠습니다 x1을 정의하면 x는 x와 같고 x2는 x 제곱 또는 X는 2의 거듭 제곱과 같습니다 모델에서 간단한 것으로 변환됩니다 Y 모자가 theta 0 + theta 1 x1과 같으므로 새로운 변수를 사용한 선형 회귀 더하기 세타 2 x2 더하기 세타 3 x3이 모델은 따라서이 다항식 회귀 분석은 전통적인 다중 선형 회귀의 특별한 경우로 간주 선형 회귀와 같은 메커니즘을 사용하여 그러므로 다항식 회귀 모형 문제 최소 제곱의 모형을 사용하여 적합 할 수 있습니다 최소 제곱은 추정 방법입니다 합을 최소화하여 선형 회귀 모형에서 알 수없는 매개 변수 관측 된 종속 변수 간 차이의 제곱 주어진 데이터 세트와 선형 함수에 의해 예측 된 데이터 세트에서 비선형 회귀는 정확히 첫 번째 비선형 회귀는 종속 변수와 일련의 비선형 관계를 모델링 비선형 Y 모자로 간주되는 모델에 대한 독립 변수는 두 번째이어야합니다

매개 변수의 비선형 함수이어야합니다 세타는 반드시 비선형 방정식에 관한 특징 X 지수 로그 및 로지스틱 또는 다른 많은 모양 일 수 있습니다 이 모든 방정식에서 볼 수 있듯이 Y hat의 변화는 파라미터 세타의 변화는 반드시 X에서 만일 필요는 없습니다 비선형 회귀 모형은 다음과 대조적으로 매개 변수에 의해 비선형입니다 선형 회귀 우리는 일반적인 최소 제곱 법을 사용하여 비선형 회귀 데이터 및 일반적으로 모수의 추정치 쉽지 않은 질문 두 가지를 먼저 여기에 답하겠습니다 문제는 우리가 가진이 질문에 대답하기 쉬운 방법으로 선형 또는 비선형입니다

두 가지를 먼저하는 것은 관계가 있는지 시각적으로 알아내는 것입니다 선형 또는 비선형 출력 변수의 이변 량 플롯을 그리는 것이 가장 좋습니다 각 입력 변수는 또한 상관 계수를 계산할 수 있습니다 독립 변수와 종속 변수 사이의 모든 변수에 대해 07 이상은 선형 경향이 있으므로 적합하지 않습니다 비선형 회귀 분석 두 번째로해야 할 일은 비선형을 사용하는 것입니다 우리가 정확하게 모형을 만들 수 없을 때 선형 회귀 대신 회귀 선형 매개 변수와의 관계 두 번째 중요한 질문은 어떻게해야합니까 산포도에 비선형으로 표시되면 데이터를 모델링합니다 이것은 다항식 회귀 분석을 사용해야하고 비선형 회귀 분석을 사용해야합니다 이 코스에 해당되지 않는 데이터를 모델링하거나 변환하십시오

이 비디오에 오신 것을 환영합니다 우리는 물류라는 기계 학습 방법을 배울 것입니다 이 방법을 검토 할 때 분류에 사용되는 회귀 로지스틱 회귀가 무엇인지이 세 가지 질문에 구체적으로 답변합니다 로지스틱 회귀로 어떤 종류의 문제를 해결할 수 있으며 어떤 문제에서 상황은 로지스틱 회귀를 사용하므로 시작하겠습니다 로지스틱 회귀 분석은 입력 필드의 값을 기반으로 데이터 세트의 레코드 분류 통신 데이터 세트가 있다고 가정 해 보겠습니다 다음 달에 어떤 고객이 우리를 떠날 지 이해 각 행이 한 고객을 나타내는 고객 데이터입니다 이 회사의 애널리스트와 누가 떠나는 사람과 왜 그런지 알아 내야합니다 데이터 세트를 사용하여 기록 레코드를 기반으로 모델을 빌드하고 데이터 세트에 포함 된 고객 그룹 내 미래 이탈 예측 각 고객이 고객을 위해 등록한 서비스에 대한 정보 성별과 같은 고객에 대한 계정 정보 인구 통계 정보 지난 달에 회사를 떠난 연령대 및 고객 열을 이탈이라고합니다

로지스틱 회귀를 사용하여 로지스틱 회귀 분석에서 주어진 기능을 사용하여 고객 이탈 예측 임기 연령 및 소득과 같은 하나 이상의 독립 변수를 사용하여 예측 이탈과 같은 결과를 우리가 종속 변수라고 부릅니다 고객이 서비스 로지스틱 회귀 사용을 중지하는 것은 유사하지 않습니다 선형 회귀 분석이지만 범주 형 또는 이산 형 목표를 예측하려고합니다 선형 회귀 분석에서 숫자 필드 대신 필드를 예측하여 집 혈압의 가격과 같은 변수의 지속적인 가치 자동차의 환자 또는 연료 소비량이지만 로지스틱 회귀 분석에서는 yes / no true / false 성공 또는 실패와 같은 이진 변수 임신하지 않은 임신 등으로 물류에서 0 또는 1로 코딩 될 수 있음 회귀 종속 변수는 범주 형인 경우 연속적이어야합니다 더미 또는 표시기 코딩 이것은 우리가 그것들을 일부로 변환해야 함을 의미합니다

연속 값 로지스틱 회귀는 두 가지 모두에 사용될 수 있습니다 이진 분류 및 다중 클래스 분류 이 비디오에서는 이진 분류에 중점을 둘 것입니다 로지스틱 회귀의 적용 방법을 설명하기 전에 언급 된 로지스틱 회귀는 분류 알고리즘의 한 유형이므로 예를 들어 사람의 확률을 예측하기 위해 다른 상황에서 사용 지정된 기간 내에 심장 마비가있는 경우 개인의 연령 성별 및 체질량 지수에 대한 지식 또는 부상당한 환자의 사망 가능성을 예측하거나 환자는 관찰에 근거하여 당뇨병과 같은 주어진 질병을 앓고있다 체중 신장 혈압 및 결과와 같은 환자의 특성 마케팅 환경에서 다양한 혈액 검사 등을 할 수 있습니다 고객이 제품을 구매하거나 중단 할 가능성을 예측 우리의 턴 예제에서했던 것처럼 우리는 또한 물류를 사용할 수 있습니다 주어진 공정 시스템의 고장 확률을 예측하기위한 회귀 제품을 사용하여 주택 소유자의 채무 불이행 가능성을 예측할 수도 있습니다 모기지에서 이들은 해결 될 수있는 문제의 좋은 예입니다 로지스틱 회귀 분석을 사용하면 이러한 모든 예에서 우리는 또한 사건의 확률을 측정하는 각 사건의 클래스를 예측 특정 클래스에 속할 수있는 다른 기계 알고리즘이 있습니다

언제 물류를 사용해야 하는가에 대한 변수를 분류하거나 추정 여기서 회귀는 로지스틱 회귀가 좋은 상황을위한 것입니다 데이터의 대상 필드가 범주 형이거나 구체적 일 때 첫 번째 후보 0 1 yes / no churn 또는 no churn positive negative 등의 이진수입니다 예를 들어 원하는 경우 예측 확률이 필요합니다 고객이 제품 물류를 구매할 확률이 무엇인지 파악 회귀는 0과 1 사이의 확률 점수를 반환합니다 실제로 로지스틱 회귀 분석은 주어진 데이터 샘플에 대해 샘플의 확률과 사례를 개별 클래스에 매핑했습니다 데이터가 선형으로 분리 가능한 경우 세 번째 확률을 기반으로 로지스틱 회귀의 결정 경계는 선 또는 평면 또는 초평면 분류기는 한 쪽의 모든 점을 분류합니다

한 계급과 다른 쪽의 모든 계급에 속하는 의사 결정 경계 예를 들어 두 가지 기능 만 있고 그렇지 않은 경우 다른 클래스에 속합니다 다항식 처리를 적용하면 세타 0과 같은 불평등을 얻을 수 있습니다 더하기 세타 1 X 1 더하기 세타 2 X 2는 0보다 큽니다 로지스틱 회귀 분석을 사용하면 다항식 처리를 사용하여 복잡한 결정 경계를 달성 여기에서 범위를 벗어나면 더 많은 통찰력을 얻을 수 있습니다 로지스틱 회귀가 어떻게 작동하는지 이해하면 결정 경계 최고의 기능을 선택할 수있는 기능의 영향을 이해해야합니다

로지스틱 회귀 모형의 통계적 유의성에 근거 최적의 매개 변수를 찾은 후의 계수 또는 매개 변수 가중치 세타가 0에 가까운 X는 세타의 절대 값이 큰 피쳐보다 실제로 예측 독립 변수가 다른 독립 변수를 제어하면서 종속 변수 데이터 세트에서 다시 독립 변수를 X로 정의하고 종속 변수를 Y로 변경하면 단순성을 위해 대상을 코딩하거나 로지스틱 회귀의 목표는 0 또는 1의 종속 값으로 모형을 작성하는 것입니다 이 경우 고객이기도 한 각 샘플의 클래스를 예측 각 샘플이 클래스에 속하는 확률로 문제를 공식화하기 시작 X는 실수의 공간에 데이터 세트입니다 M 차원 또는 피처 및 n 레코드 및 Y 인 M x n 0 또는 1이 될 것으로 예측하려는 클래스 이상적으로는 로지스틱 회귀 모델 인 y hat은 클래스를 예측할 수 있습니다 고객의 1은 기능 X가 주어 졌을 때 1입니다 고객이 클래스 0에있을 확률은 1에서 이 동영상에서 고객 클래스가 1 명일 확률은 분류에 대한 소개를 제공하여 시작하겠습니다

기계 학습 분류는 감독 학습 방식으로 알려지지 않은 일부 항목을 분류하거나 분류하는 수단으로 생각 개별 클래스 분류 세트는 관계를 배우려고 시도합니다 피처 변수 세트와 대상이 관심있는 대상 변수 사이 속성 및 분류는 이산 형을 갖는 범주 형 변수입니다 일련의 훈련이 주어지면 분류 및 분류 기가 어떻게 작동합니까? 대상 레이블 분류와 함께 데이터 포인트가 클래스를 결정합니다 레이블이없는 테스트 사례의 레이블이 예제를 좋은 설명으로 설명하겠습니다 분류 샘플은 대출 기본 예측입니다 은행이 대출을 상환하지 않을 가능성에 대해 우려하고 있다고 가정 이전 대출 기본 데이터를 사용하여 어떤 고객이 대출을 상환하는 데 문제가있는 경우 대출 신청이 거부되었거나 대체 제품에 대출 목표 제공 기본 예측 변수는 정보 인 기존 대출 기본 데이터를 사용하는 것입니다 주위에 건설 연령 연령 교육과 같은 고객에 대한 분류기는 새로운 고객이나 잠재적 인 미래를 모델로 왜곡시킵니다 그런 다음 레이블을 지정하십시오

즉, 데이터 포인트를 기본값 또는 기본 ur 또는 예 0 또는 1 분류 기가 레이블이없는 테스트 사례를 예측하는 방법입니다 이 특정 예제는 두 개의 이진 분류기에 관한 것입니다 이진 분류에 대한 분류기 모델을 구축 할 수도 있습니다 예를 들어 멀티 클래스 분류는 동안 동일한 질병으로 고통받은 환자 세트에 대한 데이터 그들의 치료 과정은 각 환자가 세 가지 약물 중 하나에 반응했다 이 레이블이 지정된 데이터 세트를 분류 알고리즘과 함께 사용하여 분류 모델을 사용하면 어떤 약물인지 알아낼 수 있습니다 당신이 볼 수있는 것과 같은 질병을 가진 미래의 환자에게 적합 멀티 클래스 분류 분류의 샘플에는 다른 비즈니스가 있습니다 예를 들어 고객이 속한 카테고리를 예측하기위한 사용 사례 고객이 다른 고객으로 전환하는지 여부를 예측하는 이탈 탐지 제공 업체 또는 브랜드 또는 고객이 특정 광고 캠페인 데이터 분류에는 여러 응용 프로그램이 있습니다 다양한 산업에서 본질적으로 많은 문제가 발생할 수 있습니다 특징과 목표 변수 사이의 연관성으로 표현 라벨 데이터를 사용할 수있는 경우 광범위한 적용 가능성을 제공합니다 분류를 위해 예를 들어 분류를 이메일에 사용할 수 있습니다 음성 인식 필기 인식 생체 인식 필터링 문서 분류와 훨씬 더 많은 분류 유형이 있습니다 머신 러닝의 알고리즘에는 의사 결정 트리가 포함됩니다

선형 판별 분석 k 가장 가까운 이웃 로지스틱 회귀 신경망과 지원 벡터 머신에는 여러 유형이 있습니다 분류 알고리즘 우리는이 과정에서 몇 가지만 다루겠습니다 이 비디오에 오신 것을 환영합니다 우리는 K 가장 가까운 이웃 알고리즘을 다룰 것입니다 시작하자 통신 공급자는 서비스 사용 패턴을 분류하여 고객 기반을 세분화했습니다

인구 통계 데이터를 사용할 수있는 경우 고객을 4 개의 그룹으로 회사가 개인을위한 오퍼를 사용자 정의 할 수있는 그룹 멤버십 예측 잠재 고객에게 제공되는 분류 문제입니다 사전 정의 된 레이블이있는 데이터 세트 예측을 위해 사용할 모델을 구축해야합니다 예에서 인구 통계 사용에 중점을 둔 새로운 사례 또는 알려지지 않은 사례 사용 패턴을 예측하기위한 지역 연령 및 결혼 상태와 같은 데이터 Cust cat이라는 대상 필드에는 다음과 같은 4 개의 고객 그룹 기본 서비스와 서비스 및 총계 우리의 목표는 예를 들어 행 0을 사용하여 분류기를 구축하는 것입니다 행 8의 클래스를 예측하기 위해 특정 유형의 시연을 위해서 K 인접 이웃이라고하는 분류 예측 자로서 구체적으로 연령과 소득으로 2 개의 분야 만 그룹 멤버십을 기반으로 고객을 플로팅합니다 나이 및 소득이 알려진 레코드 번호 8과 같은 신규 고객 이 고객의 클래스를 찾아 가장 가까운 사례 중 하나를 찾아서 새 고객과 동일한 클래스 레이블을 사용하여 새로운 고객은 그룹 4, 즉 가장 가까운 그룹이기 때문에 전체 서비스 일 가능성이 높습니다 이웃은 또한 클래스 4입니다

네, 우리는 실제로 가장 가까운 이웃입니다 이제 문제는 우리가 근거한 판단을 어느 정도 신뢰할 수 있는가하는 것입니다 첫 번째 가장 가까운 이웃, 특히 첫 번째 경우 가장 가까운 이웃은 매우 구체적인 경우이거나 특이한 것입니다 이제 살펴 보겠습니다 가장 가까운 이웃을 선택하기보다는 다시 산점도를 가장 가까운 5 명의 이웃을 선택하고 그들 사이에서 다수결을한다면 이 경우에 우리의 새로운 고객을 정의하십시오 가장 가까운 5 명 중 3 명은 우리에게 3 급으로 가라고 말합니다 플러스 서비스는 사실이 경우에 더 의미가 없습니다

K 가장 가까운 이웃 알고리즘에서 K 값은 5입니다 K 가장 가까운 이웃 알고리즘의 직관을 강조합니다 K 가장 가까운 이웃 정의 K 가장 가까운 이웃 알고리즘은 많은 레이블 포인트를 사용하여 분류 알고리즘을 사용하는 분류 알고리즘 이 알고리즘이 사례를 기반으로 사례를 분류하는 다른 지점에 레이블을 지정하는 방법 알아보기 다른 경우 및 K 가장 가까운 이웃 데이터 포인트와의 유사성 서로 가까이있는 이웃이라고한다 k 가장 가까운 이웃은 이것을 기반으로한다 같은 클래스 레이블을 가진 유사한 사례가 서로 가까이 있습니다

두 경우 사이의 거리는 존재하지 않는 차이의 척도입니다 유사성 또는 반대로 거리를 계산하는 다른 방법 또는 예를 들어 유클리드를 사용하여 두 데이터 포인트의 비 유사성을 수행 할 수 있습니다 이제 거리는 K 가장 가까운 이웃 알고리즘이 실제로 어떻게 작동하는지 봅시다 분류 문제 K 가장 가까운 이웃 알고리즘은 다음과 같이 작동합니다 K에 대한 값을 선택하여 새 사례 홀드 아웃에서 거리를 계산합니다

데이터 세트의 각 사례는 알려지지 않은 데이터 포인트의 측정에 가장 가까운 훈련 데이터 4 개는 가장 많이 사용하여 알려지지 않은 데이터 포인트의 응답을 예측합니다 K 가장 가까운 이웃의 인기있는 반응 값에는 두 부분이 있습니다 이 알고리즘은 먼저 약간 혼란 스러울 수 있습니다 예를 들어 올바른 K와 두 번째 사례 간의 유사성을 계산하는 방법 고객 중 먼저 두 번째 관심사부터 시작하겠습니다 두 데이터 포인트 간의 유사성을 계산하면 고객 고객 1과 고객 2 그리고 잠시 동안이 두 고객은 특정 유형의 이 두 고객의 거리를 계산하는 Minkowski 거리 실제로 X 2에서 X 1의 유클리드 거리 거리는 34에서 32까지의 루트입니다

2의 거듭 제곱은 4입니다 예를 들어 둘 이상의 기능이 있다면 어떨까요? 연령 및 소득 각 고객의 소득 및 연령이있는 경우에도 여전히 같은 공식이지만 이번에는 2 차원 공간에서 사용할 수 있습니다 다차원 벡터에도 같은 거리 행렬을 사용합니다 정확한 비 유사성 측정을 위해 기능 세트를 정규화해야합니다 이 목적을 위해 사용될 수 있지만 다른 데이터 유형과 도메인에 따라 크게 달라집니다 K와 K가 가장 가까운 이웃은 검사 할 가장 가까운 이웃 수를 지정해야합니다 사용자가 올바른 케이크를 선택하는 방법은 무엇입니까? 무슨 일이 일어 났는지 차트에 물음표로 표시된 고객 클래스 K의 매우 낮은 값을 선택하면 k가 첫 번째 가장 가까운 점 1과 같다고 가정 해 봅시다

클래스 1 인 파란색 일 것입니다 주변의 점은 마젠타 또는 클래스 4입니다 이웃은 파란색입니다 데이터에서 잡음을 포착했다고 말할 수 있습니다 데이터에 이상이 있었던 점 중 하나를 K의 낮은 값으로 선택했습니다

모델이 너무 복잡하여 모델은 예측 과정이 아니라는 것을 의미합니다 샘플 외부 사례에 사용할 수있을 정도로 일반화 즉, 모델을 훈련시키는 데 사용 된 데이터 세트 외부의 데이터입니다 그것은 알려지지 않은 샘플의 예측에 사용될 것으로 신뢰할 수 없었습니다 우리는 일반적인 모델을 원하기 때문에 과적 합이 나쁘다는 것을 기억해야합니다 훈련에 사용 된 데이터뿐만 아니라 모든 데이터에 적용 가능 K와 같은 K의 매우 높은 값을 선택하면 스펙트럼의 측면은 모델이 끝났고 일반화되었으므로 K에 가장 적합한 값을 찾는 방법 일반적인 해결책은 테스트를 위해 데이터의 일부를 예약하는 것입니다 한 번 모델의 정확도 때문에 K와 1을 선택하십시오

그런 다음 훈련 부분을 사용하여 모델링하고 정확도를 계산하십시오 테스트 세트의 모든 샘플을 사용한 예측 이 과정을 반복하여 K를 높이고 모델에 가장 적합한 K를 확인하십시오 우리의 경우 k는 4와 같고 가장 정확한 정확도를 제공합니다 이웃 분석을 사용하여 연속 대상의 값을 계산할 수도 있습니다 이 상황에서 가장 가까운 이웃의 평균 또는 중간 목표 값은 예를 들어 새 사례에 대한 예측 값을 얻는 데 사용됩니다

수와 같은 기능 세트를 기반으로 주택 가격을 예측하고 있습니다 방의 건축 면적은 해마다 만들어 졌으므로 쉽게 찾을 수 있습니다 가장 가까운 이웃 주택 3 곳은 물론 거리뿐만 아니라 모든 속성을 기반으로 집의 가격을 이웃의 매체 안녕하세요,이 비디오에 오신 것을 환영합니다 우리는 평가를 다룰 것입니다 분류기에 대한 측정 항목을 시작하겠습니다 평가 지표는 모델의 성능을 설명합니다

분류에 사용되는 모델 평가 지표에 대해 우리는 과거 데이터 세트를 가지고 있으며 통신 회사 우리는 모델을 훈련했으며 이제 우리는 테스트 세트를 모델에 전달하여 테스트 세트를 사용하여 정확도 계산 예측 레이블을 수정하면 문제는이 모델이 얼마나 정확한지입니다 기본적으로 테스트 세트의 실제 값과 값을 비교합니다 모델 평가 지표의 정확성을 계산하기 위해 모델에 의해 예측 영역에 대한 통찰력을 제공하므로 모델 개발에 핵심적인 역할을합니다 다른 모델 평가 지표가 있지만 개선이 필요할 수 있지만 자카드 인덱스 f1 점수와 로그 손실 먼저 가장 간단한 정확도 측정 중 하나를 살펴 보겠습니다 자카드 지수라고도하는 Jaccard 유사성 계수 이탈 데이터 세트 및 Y 모자의 실제 레이블은 분류기를 사용하면 자카드를 교차점의 크기로 정의 할 수 있습니다 예를 들어 테스트 세트의 성별을 레이블링하기 위해 유니온의 크기로 나눈 값 8 개의 정확한 예측 또는 8 개의 가로 채기와 함께 크기 10의 자카드 지수는 전체 세트가 예측되면 영점 6 6이됩니다

샘플의 라벨은 실제 라벨 세트와 정확히 일치합니다 부분 집합 정확도는 1 점 0입니다 그렇지 않으면 0 점 0입니다 분류기의 정확성을 보는 방법은 혼란을 보는 것입니다 예를 들어 행렬은이 행렬에 40 행만 있다고 가정 해 봅시다 와 비교하여 수정 된 예측과 잘못된 예측을 보여줍니다

실제 레이블 각 혼란 매트릭스 행에는 테스트에서 실제 실제 레이블이 표시됩니다 집합과 열은 분류 자별로 예측 된 레이블을 보여줍니다 첫 번째 행 첫 번째 행은 테스트 세트에서 실제 이탈 가치가있는 고객을위한 것입니다 40 명의 고객 중 15 명의 고객 이탈 가치를 계산할 수 있으므로 1입니다 이 15 개 중 1 개는 분류기에서 6 개를 1 개와 9 개로 올바르게 예측했습니다

이들 중 0 명은 6 명의 고객에 대해 실제 이탈 가치가 1임을 의미합니다 그러나 테스트 세트에서 분류기는 1을 올바르게 예측했습니다 9 명의 고객의 실제 레이블은 1 이었지만 분류자는 다음과 같이 예측했습니다 0으로 좋지 않다 우리는 이것을 모델의 오차로 간주 할 수있다

첫 번째 행은 이탈 가치가 0 인 고객의 경우 두 번째를 살펴 보겠습니다 이탈 가치가 0 인 고객이 25 명인 것 같습니다 분류 기가 올바르게 24 개를 예측하고 그 중 하나를 잘못 예측했습니다 1이므로 고객 이탈을 예측하는 데 훌륭한 일을했습니다 값이 0이면 혼동 행렬에 대해 좋은 점은 특정 클래스를 정확하게 예측하거나 분리하는 모델의 기능 이 예제와 같은 이진 분류기의 경우 이러한 숫자를 해석 할 수 있습니다 카운트 참 긍정 거짓 긍정 참 우리가 할 수있는 각 섹션의 수에 따른 부정 및 오탐 각 라벨의 정밀도를 계산하고 리콜 정밀도는 클래스 레이블이 예측 된 경우 정확도 정밀도는 참 긍정을 참 긍정 + 거짓 긍정으로 나눈 값 리콜은 리콜이 진정한 양의 값으로 정의 된 진정한 양의 비율입니다 true positive와 false negative으로 나눠서 각 클래스의 정밀도와 리콜은 이제 계산할 위치에 있습니다

f1은 해당 라벨의 정밀도와 회수에 따라 각 라벨에 대해 점수를 매 깁니다 f1 점수는 정밀도의 고조파 평균이며 f1 점수가있는 위치를 회상합니다 완벽한 정밀도와 리콜을 나타내는 1의 s 값에 도달 그리고 0에서 최악입니다 분류 기가 좋은 가치를 가지고 있음을 보여주는 좋은 방법입니다 리콜과 정밀도 모두 f1 점수 방정식을 사용하여 정의됩니다 예를 들어 클래스 0에 대한 f1 점수, 즉 churn은 0과 같습니다

클래스 1의 f1 점수, 즉 이탈은 1과 같고 0은 5 5입니다 마지막으로이 분류기의 평균 정확도는 이 경우 영점 7 2 인 두 레이블의 f1 점수 Jaccard와 f1 점수 모두 멀티 클래스 분류 자에 사용될 수 있습니다 이 과정의 범위를 벗어난 것도 이제 다른 것을 살펴 보겠습니다 분류기의 정확도 메트릭 때로는 분류기의 출력이 물류 대신 레이블 대신 클래스 레이블의 확률 회귀 출력은 고객 이탈 가능성, 즉 예 또는 이 확률은 0과 1 사이의 값입니다 로그 손실이라고도하는 로그 손실은 분류기의 성능을 측정합니다 여기서 예측 된 결과는 0과 1 사이의 확률 값이므로 실제 레이블이 1 일 때 0

1 3의 확률을 예측하는 예는 다음과 같습니다 다시 로그 손실이 발생할 수 있습니다 각 로그 손실을 계산할 수 있습니다 각 예측이 얼마나 멀리 떨어져 있는지 측정하는 로그 손실 방정식을 사용한 행 실제 레이블 다음 모든 행에 대한 평균 로그 손실을 계산합니다 테스트 세트 이상적인 분류 기가 점차 작아짐이 분명합니다 로그 손실 값이 낮으므로 로그 손실이 낮은 분류 기가 더 좋습니다

우리가 소개하고 검토 할 비디오의 정확성에 오신 것을 환영합니다 의사 결정 트리입니다 의사 결정 트리가 정확히 어떻게 사용되는지 시작합시다 내 의사 결정 트리를 어떻게 키울 수 있는지 분류하는 데 도움이됩니다 의사 결정 트리라는 용어를 듣고 염두에 두어야 할 질문들 바라건대 당신은 곧이 질문들과 더 많은 것에 대답 할 수있을 것입니다

이 비디오를보고 당신이 의료 연구원이라고 상상해보십시오 이미 수집 한 연구에 대한 데이터 컴파일 그들의 과정 동안 같은 질병으로 고통받은 모든 환자 각 환자가 두 가지 약물 중 하나에 반응 한 치료법을 그리고 당신의 일의 약 B 부분은 어떤 약이 될 수 있는지 알아내는 모델을 만드는 것입니다 기능이 동일한 질병을 가진 미래 환자에게 적합 이 데이터 세트는 우리 그룹의 연령 성별 혈압과 콜레스테롤입니다 환자와 대상은 각 환자가 반응 한 약물이며 샘플입니다 이진 분류기 및 데이터 집합의 훈련 부분을 사용할 수 있습니다 의사 결정 트리를 구축 한 후이를 사용하여 미지의 환자의 클래스를 예측합니다 새로운 환자에게 처방 할 약에 대한 결정을 내릴 수있는 본질 이 데이터 세트에 대한 의사 결정 트리가 작성되는 방법을 보자 훈련 세트를 하나의 노드가 포함 된 별도의 노드로 분할하여 구축 여기서 다이어그램을 보면 데이터의 한 가지 범주 전부 또는 대부분 언급 한 바와 같이 환자의 분류 자임을 알 수 있습니다 새로운 환자에게 약물을 투여하지만 약물 a 또는 B를 선택하기로 한 결정은 영향을받습니다

환자의 상황에 따라 우리는 젊은 중년 또는 환자가 중년이라면 노인은 분명히 약 B를 복용 할 것입니다 다른 한편으로 그가 젊거나 노인 환자라면 더 자세한 정보가 필요합니다 추가 결정을 처방 할 약을 결정할 수 있도록 변수는 콜레스테롤 수치 성별 또는 혈액과 같은 것들 일 수 있습니다 예를 들어 환자가 여성 인 경우 약물을 권장하지만 환자가 남성 인 경우 의사 결정 트리가 표시되는 것처럼 약물 B를 사용합니다 속성을 테스트하고 결과를 기반으로 사례를 분기하는 방법 각 내부 노드는 테스트에 해당하고 각 분기는 테스트 결과 및 각 리프 노드는 이제 환자를 클래스에 할당합니다 문제는 우리가 어떻게 그러한 결정 트리를 구축 할 수 있는가입니다 의사 결정 트리는 다음을 고려하여 의사 결정 트리를 구성 할 수 있습니다

먼저 데이터 세트에서 속성을 선택하십시오 다음 비디오에서 데이터 분할에서 속성의 중요성 우리는 속성의 중요성을 계산하는 방법을 설명합니다 효과적인 속성이거나 다음에 값을 기준으로 데이터를 분할하지 않습니다 가장 좋은 속성은 각 지점으로 이동하여 나머지 지점에 대해 반복하십시오 이 트리를 만든 후 속성을 사용하여 클래스를 예측할 수 있습니다 알 수없는 경우 또는 우리의 경우 새로운 환자에 적합한 약물 그녀의 특징 안녕하세요

이 비디오에서 우리는 과정을 다룰 것입니다 의사 결정 트리 구축에 대한 내용이므로 약물 데이터 세트를 다시 고려하십시오 문제는 해당 데이터 세트를 기반으로 의사 결정 트리를 작성하는 방법입니다 의사 결정 트리는 재귀 분할을 사용하여 구축되어 데이터를 분류합니다 데이터 세트에 14 명의 환자가 있고 알고리즘이 가장 많이 선택한다고합니다 의사 결정에 중요한 데이터를 분할하는 예측 기능 트리는 분할하기에 가장 적합한 속성을 결정하는 것입니다 이 기능을 기반으로 한 데이터 우리는 콜레스테롤을 데이터를 분할하는 첫 번째 속성은 데이터를 두 지점으로 분할합니다 환자의 콜레스테롤 수치가 높은지 확인할 수 있습니다 우리는 다음과 같은 경우에도 약물 B가 그에게 적합 할 것이라고 확신 할 수 없습니다 환자의 콜레스테롤이 정상입니다

아직 충분한 증거가 없습니다 약물 a 또는 약물 B가 실제로 적합한 지 결정하기위한 정보 데이터 분할을위한 잘못된 속성 선택 샘플이므로 다른 것을 시도해 봅시다 속성 다시 우리는 이번에 우리의 섹스 속성을 선택 환자가 볼 수 있듯이 우리의 데이터를 남성과 여성의 두 가지로 나눕니다 환자가 여성 인 경우 술에 취한 B가 그녀에게 적합하다고 말할 수 있습니다 확실성이 높지만 환자가 남성 인 경우 충분한 증거가 없습니다 또는 약물 a 또는 약물이 적합한 지 결정하기위한 정보 콜레스테롤 특성과 비교할 때 여전히 더 나은 선택입니다 결과는 노드가 더 순수합니다

우리는 섹스 속성이 더 중요하다고 말할 수 있습니다 콜레스테롤 또는 다른 말로하면 다른 속성보다 더 예측 적입니다 실제로 예측력은 코의 불순물 감소를 기반으로합니다 리드에서 환자의 불순물을 줄이는 최고의 기능을 찾고 해당 기능을 기준으로 분할 한 후 섹스 기능이 좋습니다 그것은 순수한 환자가 거의 발견했기 때문에 다음 경우에 후보 남성 환자 브랜치를 위해 한 걸음 더 나아가 다른 속성을 다시 테스트합니다 우리가 콜레스테롤을 테스트하는 하위 트리를 분할하면 결과를 볼 수 있습니다 예를 들어 환자는 남성이고 그의 콜레스테롤은 높으며 우리는 확실히 약 a를 처방 할 수 있습니다

그러나 그것이 정상이라면, 우리는 약물 B를 처방 할 수 있습니다 데이터를 분할하기위한 속성 선택이 매우 중요하며 모두 중요합니다 분할 후 나뭇잎의 순도에 대해 나무의 노드가 고려됩니다 경우의 100 %에서 노드가 실제로 목표 필드의 특정 범주는 재귀를 사용합니다 교육 기록을 최소화하여 교육 기록을 세그먼트로 분할 각 단계에서의 불순물 노드의 불순물은 데이터의 엔트로피에 의해 계산됩니다

엔트로피 엔트로피는 정보 장애의 양 또는 노드의 엔트로피 데이터의 무작위성 정도는 임의의 데이터가 해당 노드에 있으며 결정시 각 노드에 대해 계산됩니다 우리는 노드에서 가장 작은 엔트로피를 가진 나무를 찾고 있습니다 엔트로피는 해당 노드에서 샘플의 균질성을 계산하는 데 사용됩니다 샘플이 완전히 균일 한 경우 엔트로피는 0이고 샘플은 균등하게 나뉘어져 있습니다 노드의 데이터는 약물 a 또는 약물 B이며 엔트로피는 0이지만 절반이면 데이터 또는 약물 a와 다른 절반은 B이고 엔트로피는 쉽게 속성의 빈도 표를 사용하여 노드의 엔트로피 계산 엔트로피 공식을 통해 p는 a의 비율 또는 비율입니다 약물 a 또는 b와 같은 카테고리는 반드시 기억할 필요는 없지만 라이브러리 또는 패키지에 의해 쉽게 계산되므로이를 계산하십시오 예를 들어 데이터 세트의 엔트로피를 계산해 보겠습니다

그것을 나누기 전에 우리는 9 번의 약물 B와 v의 약물 a를 가지고 있습니다 이 숫자를 엔트로피 공식에 포함시켜 이 경우 분할하기 전에 대상 속성의 불순물은 094이므로 분할 후 엔트로피는 무엇입니까? 이제 다른 속성을 테스트하여 찾을 수 있습니다 가장 예측 성이 좋은 것으로 분기가 더 적습니다 먼저 환자의 콜레스테롤을 선택하고 데이터가 어떻게 나오는지 봅시다 예를 들어 정상일 때 약물 B에 대해 6을 갖는 값을 기준으로 분할 그리고 약물 a의 경우 2를 기반으로이 노드의 엔트로피를 계산할 수 있습니다

이 경우 08 인 약물 a 및 B의 분포 그러나 콜레스테롤이 높으면 약물 B와 3에 대해 데이터가 3으로 나뉩니다 약물의 엔트로피를 계산할 때 우리는 그것이 10이어야한다는 것을 알 수 있습니다 모든 속성을 통해 분할 후 엔트로피를 계산 한 다음 가장 좋은 속성을 선택하십시오 다른 필드를 사용해 봅시다

sex 속성을 사용하여 다음에 확인할 수있는 다음 확인을위한 sex 속성 그 가치가 여성 일 때 데이터를 나누다 약물 B와 약물에 반응하는 환자의 경우이 노드의 엔트로피 098로 분기의 반대편에는 그리 유망하지 않습니다 sex 속성 값이 male이면 결과는 6보다 더 순수합니다 약물 B의 경우 약물 a의 경우이 그룹의 엔트로피는 0 점입니다 다섯 아홉 지금 질문은 콜레스테롤과 성 속성 사이에 하나는 나누는 첫 번째 속성에서 더 나은 선택입니다 데이터를 두 개의 브랜치 또는 다른 말로 표현한 결과 약물에 대한 더 순수한 노드 또는 어떤 나무에서 우리는 후 엔트로피가 적습니까? 엔트로피가 098 인 성 속성을 분할하기 전에 분할하기 0

5 9에서 또는 엔트로피가 08 1 및 1 포인트 인 콜레스테롤 특성 가지가 0이면 답은 더 높은 나무입니다 분할 후 얻은 정보이므로 정보 획득 정보 란 무엇입니까? 게임은 후에 확실성의 수준을 높일 수있는 정보입니다 쪼개기 전에 쪼개기-가중하기 전에 나무의 엔트로피 속성에 의한 분할 후 엔트로피 정보 획득과 엔트로피와는 반대로 엔트로피 또는 무작위의 양은 얻은 정보 또는 확실성의 양이 증가하고 그 반대의 경우도 마찬가지 의사 결정 트리를 구성하는 것은 최고 정보 게임 정보 이득이 어떻게 계산되는지 봅시다 언급 된 바와 같이 성 정보는 얻은 정보는 엔트로피 분할 전 트리에서 가중치 가장자리를 뺀 값 분할 후 분할 전 나무의 엔트로피는 094입니다

여성 환자는 14 명 중 7 명이고 그의 엔트로피는 098 5입니다 남성은 14 명 중 7 명이고 남성 노드의 엔트로피는 05 9입니다 여기서 대괄호는 분할 후 가중 엔트로피입니다

sex 속성을 사용하여 데이터 세트를 분할하면 트리에서 얻은 정보 보다시피 엔트로피를 고려할 것입니다 각 리프 노드 아래로 떨어지는 샘플 분포와 가중치를 적용합니다 그 아래로 떨어지는 샘플의 비율에 의해 가중되는 엔트로피의 평균 우리가 콜레스테롤을 사용하면 나무의 정보 획득 량을 계산할 수 있습니다 또한 그것은 이제 제로 포인트 여덟입니다 문제는 어떤 속성이 더 더 높은 정보를 얻은 트리에 언급 된 것처럼 적합합니다 이것을 분할하면 섹스 속성이 의미되므로 섹스 속성을 첫 번째 스플리터 이제 섹스로 분기 한 후 다음 속성은 무엇입니까 우리가 각각에 대해 프로세스를 반복해야한다고 짐작할 수 있습니다

다른 속성을 각각 분기하고 테스트하여 가장 많이 도달 순수한 잎 이것은 의사 결정 트리를 구축하고 환영합니다 우리는 로지스틱 회귀라는 기계 학습 방법을 배웁니다 분류에 사용 되며이 방법을 검사하면 구체적으로 대답합니다 이 세 가지 질문은 로지스틱 회귀가 무엇이며 어떤 종류의 문제가 될 수 있는가 로지스틱 회귀로 해결되며 어떤 상황에서 로지스틱을 사용합니까? 회귀 분석 시작하기 로지스틱 회귀 분석은 통계 및 기계입니다 를 기반으로 데이터 세트의 레코드를 분류하는 학습 기술 입력 필드의 값은 통신 데이터 세트가 있다고 가정 해 봅시다

어떤 고객이 떠날 수 있는지 이해하기 위해 분석하고 싶습니다 다음 달 우리는 각 행이 나타내는 역사적인 고객 데이터입니다 한 고객은 귀하가이 회사의 분석 가라고 생각하며 누가 떠나고 있는지 그리고 왜 데이터 세트를 사용하여 모델 기반을 구축하는지 알아보십시오 과거 기록을보고 미래의 이탈을 예측하는 데 사용합니다 고객 그룹 데이터 세트에는 각 서비스에 대한 정보가 포함됩니다 고객이 고객 계정 정보 인구 통계에 가입했습니다 성별 및 연령대와 같은 고객 및 지난 달에 회사를 떠났다 로지스틱 회귀 분석을 사용하여 고객 이탈을 예측하기위한 모델을 구축합니다

로지스틱 회귀 분석에서 하나 이상의 독립 변수를 사용합니다 우리가 부르는 이탈과 같은 결과를 예측하기 위해 재임 연령 및 소득과 같은 고객의 사용 중단 여부를 나타내는 종속 변수 서비스 로지스틱 회귀는 선형 회귀와 유사하지만 선형 숫자 필드 대신 범주 형 또는 이산 형 대상 필드 예측 회귀는 다음과 같은 변수의 연속 값을 예측하려고 시도 할 수 있습니다 환자의 집 혈압 가격 또는 자동차의 연료 소비 그러나 로지스틱 회귀 분석에서 yes / no와 같은 이진 변수를 예측합니다 참 / 거짓 성공 또는 실패 성공 임신하지 않음 등 로지스틱 회귀 종속 변수에서 0 또는 1로 코딩 될 수 있어야합니다 범주 형인 경우 더미 또는 표시기 코드 여야합니다

연속적인 값으로 변환해야합니다 로지스틱 회귀는 이진 분류 및 다중 클래스 모두에 사용될 수 있습니다 분류하지만이 비디오의 단순성을 위해 바이너리에 중점을 둘 것입니다 분류 로지스틱 회귀의 일부 응용을 살펴 보자 언급 된 로지스틱 회귀 분석이 어떻게 작동하는지 설명하기 전에 분류 알고리즘의 유형으로 다른 상황에서 사용할 수 있습니다 예를 들어 사람이 심장 마비를 일으킬 확률을 예측하는 예 개인의 연령 성별에 대한 지식을 바탕으로 지정된 기간 체질량 지수 또는 다친 환자의 사망률 예측 또는 환자에게 당뇨병과 같은 주어진 질병이 있는지 예측 체중 신장 혈압과 같은 환자의 관찰 된 특성 마케팅 상황에서 다양한 혈액 검사 결과 등 고객이 제품을 구매하거나 중단 할 가능성을 예측 이탈 예제에서 수행 한 구독은 물류를 사용할 수도 있습니다

주어진 공정 시스템의 고장 확률을 예측하기위한 회귀 제품을 사용하여 주택 소유자의 채무 불이행 가능성을 예측할 수도 있습니다 모기지에서 이들은 해결 될 수있는 문제의 좋은 예입니다 로지스틱 회귀 분석을 사용하면 이러한 모든 예에서 우리는 또한 사건의 확률을 측정하는 각 사건의 클래스를 예측 특정 클래스에 속할 수있는 다른 기계 알고리즘이 있습니다 언제 물류를 사용해야 하는가에 대한 변수를 분류하거나 추정 여기서 회귀는 로지스틱 회귀가 좋은 상황을위한 것입니다 데이터의 대상 필드가 범주 형이거나 구체적 일 때 첫 번째 후보 0 1 yes / no churn 또는 no churn positive negative 등의 이진수입니다 예를 들어 원하는 경우 예측 확률이 필요합니다 고객이 제품 물류를 구매할 확률이 무엇인지 파악 회귀 분석은 주어진 데이터 표본에 대해 0과 1 사이의 확률 점수를 반환합니다

실제로 로지스틱 회귀 분석은 해당 표본의 확률을 예측합니다 이 경우 세 번째 확률을 기준으로 사례를 개별 클래스에 매핑했습니다 로지스틱 회귀의 결정 경계는 선 또는 평면 또는 초평면 분류기는 모든 점을 분류합니다 한 계급에 속하는 결정 경계의 한 쪽과 예를 들어 우리가 단지 두 개만 있다면 다른 클래스에 속하는 다른 쪽 우리가 얻을 수있는 다항식 처리를 적용하지 않습니다 세타 0 + 세타 1 x1 + 세타 2 x2와 같은 불평등은 0보다 큽니다 로지스틱 회귀를 사용할 때는 반평면이 쉽게 그럴듯하다 다항식 처리를 사용하여 복잡한 결정 경계를 달성 할 수도 있습니다

여기서 범위를 벗어난 것은 결정에서 더 많은 통찰력을 얻을 수 있습니다 로지스틱 회귀가 어떻게 작동하는지 이해할 때 경계 최고의 기능을 선택할 수있는 기능의 영향을 이해해야합니다 로지스틱 회귀 모형의 통계적 유의성에 근거 최적의 매개 변수를 찾은 후의 계수 또는 매개 변수 가중치 세타 1이 0에 가까워진 X는 예측에 더 작은 영향을 미칩니다 세타의 절대 값이 큰 기능 1 실제로 독립 변수가 미치는 영향을 이해할 수 있습니다 다른 독립 변수를 제어하면서 종속 변수를 살펴 보겠습니다 데이터 세트에서 다시 독립 변수를 X로 정의하고 종속 변수를 Y로 변경하면 단순성을 위해 대상을 코딩하거나 로지스틱 회귀의 목표는 0 또는 1의 종속 값으로 모형을 작성하는 것입니다

이 경우 고객이기도 한 각 샘플의 클래스를 예측 각 샘플이 클래스에 속하는 확률로 문제를 공식화하기 시작 X는 실수의 공간에 데이터 세트입니다 M 차원 또는 피처 및 n 레코드 및 Y 인 M x n 0 또는 1이 이상적 일 수있는 클래스를 예측하려는 클래스 y 모자라는 회귀 모델은 고객의 클래스를 예측할 수 있습니다 그것의 특징 X가 주어지면 1입니다 그것은 또한 확률을 아주 쉽게 보여줄 수 있습니다 클래스 0에있는 고객의 확률은 1에서 확률을 뺀 것으로 계산할 수 있습니다 고객 클래스가 1 명이며이 동영상에서 환영합니다

선형 회귀와 로지스틱 회귀의 차이점을 배우십시오 선형 회귀를 통해 왜 이진에 대해 올바르게 사용할 수 없는지 확인하십시오 분류 문제 우리는 또한 주요 인 시그 모이 드 함수를 봅니다 로지스틱 회귀 분석의 일부 시작하자 로지스틱 회귀의 목표를 다시 설정하여 각 고객의 클래스와 각 샘플의 확률을 예측 이상적으로 클래스에 속하면 우리는 추정 할 수있는 모델 모자를 만들고 싶습니다 XI가 강조하고 싶은 기능을 감안할 때 고객의 클래스는 1입니다 Y는 실제 값이라고도하는 레이블 벡터입니다

예측 및 Y 모자는 모델 매핑에 의해 예측 된 값의 벡터입니다 정수에 대한 클래스 레이블은 선형 회귀를 사용하여이를 해결할 수 있습니다 문제 먼저 선형 회귀가 어떻게 더 잘 이해되는지 기억해 봅시다 로지스틱 회귀 분석은 1 분 동안 이탈 예측을 잊고 가정합니다 우리의 목표는 데이터 세트에서 고객의 소득을 예측하는 것입니다 범주 값인 이탈을 예측하는 대신 지속적인 가치 인 소득을 예측 해보자 고객 연령과 같은 독립 변수를 선택하고 물론 소득과 같은 종속 변수 우리는 더 많은 기능을 가질 수 있지만 간단하게하기 위해 하나의 기능 만 취하겠습니다 독립 변수로서의 연령과 소득은 우리가 목표로하는 가치를 가진다 선형 회귀를 사용하여 선 또는 다항식을 적합하게 예측할 수 있습니다

모델 훈련 또는 계산을 통해이 라인을 찾을 수있는 데이터 수학적으로 샘플 세트를 바탕으로 이것은 직선이라고 말할 것입니다 샘플 세트를 통해이 라인에는 더하기 B x1로 표시된 방정식이 있습니다 이 선을 사용하여 연속 값 Y를 예측합니다 나이에 따른 알 수없는 고객의 수입 우리는 이탈을 예측하고 싶습니다 동일한 기술을 사용하여 범주를 예측할 수 있습니까? 고객 이탈에 대한 데이터가 제공되었다고 가정하겠습니다 이번 목표는 고객 연령에 따라 고객 이탈을 예측하는 것입니다

특징 연령이 x1로 표시되고 범주 적 특징이 2로 이탈 클래스 이탈은 예이며 이탈은 언급 한대로 예, 아니오 2를 매핑 할 수 있습니다 정수 값 0과 1 이제 어떻게 그래픽으로 모델링 할 수 있을까요? 산점도로 데이터를 나타내지 만 이번에는 두 개의 값만 있습니다 이 플롯에서 y 축의 경우 클래스 0은 빨간색으로 표시되고 클래스 1은 여기서 우리의 목표는 기존 데이터를 기반으로 모델을 만들어 신규 고객은 빨간색 또는 파란색입니다 선형에 사용하는 것과 동일한 기술을 사용하겠습니다 범주 형 속성의 문제를 해결할 수 있는지 확인하기 위해 회귀 분석 선형 회귀가있는 치트와 같이 다시 다항식을 전통적으로 플러스 BX로 표시되는이 다항식은 전통적으로 Fatah의 0 + theta 1 x 1을 가지고 있습니다 이는 벡터 세타 0으로 표시되며, 여기서 벡터 R 세타 0 및 또한 세타가 X를 전치 할 때이 선의 공식을 공식적으로 보여줄 수 있습니다 일반적으로 다차원 공간에 대한 방정식을 세타로 표시 할 수 있습니다

X를 전치하십시오 여기서 theta는 라인의 매개 변수입니다 2 차원 공간 또는 3 차원 공간에서 평면의 매개 변수 등 Stata는 매개 변수로 구성된 벡터이며 X를 곱해야합니다 조옮김 세타 세타는 또한 전통적이라고도합니다 이 두 항을 모두 사용하여 방정식의 인수 또는 신뢰도 상호 교환 가능하고 X는 어쨌든 주어진 고객을 나타내는 기능 세트입니다

모든 기능 집합 X 세타 매개 변수의 데이터 집합은 최적화 알고리즘 또는 수학적으로 피팅 라인 예를 들어이 라인의 매개 변수는 마이너스 1과 01이며 선에 대한 방정식은-1에 01 X 1을 뺀 값입니다 이제이 회귀 분석을 사용할 수 있습니다 예를 들어 고객의 새로운 고객의 전환을 예측하는 라인 또는 X 값이 age 인 13 인 데이터 포인트를 값에 연결한다고 가정 해 보겠습니다 행 수식과 Y 값이 계산되고 예를 들어 p1 포인트의 경우 우리는 세타 전치 x = -1 + 0

1 x x1을가집니다 빼기 1 더하기 01 곱하기 13 같음 03 우리는 지금 그래프에 표시 할 수 있습니다 클래스를 정의하기 위해 여기에 임계 값을 정의 할 수 있습니다 (예 : 05)

클래스 0과 클래스를 분리 할 수있는 모델 Y 모자에 대한 규칙 세타 전치 X의 값이 05보다 작 으면 클래스는 0입니다 그렇지 않으면 세타 전치 X의 값이 05보다 크면 클래스가 1이고 고객 Y 값이 임계 값보다 작기 때문에 모델에 따라 클래스 0에 속한다고 말하지만 여기에 한 가지 문제가 있습니다 보시다시피이 고객이 클래스 0에 속할 확률입니다

이 문제를 해결하는 가장 좋은 모델이 아니라 다른 문제가 있습니다 선형 회귀가 분류에 적합한 방법이 아닌지 확인 회귀선을 사용하여 클래스를 계산하는 경우 언급 한 문제 점의 경우 항상 3 또는 음수 2와 같은 숫자를 반환합니다 그런 다음 영점 5와 같은 임계 값을 사용하여 0 또는 1의 클래스를 가리킴이 임계 값은 단계 함수로 작동합니다 크거나 작은 양의 값에 관계없이 0 또는 1을 출력합니다 입력은 임계 값을 사용하므로 레코드 통지 클래스를 찾을 수 있습니다

스텝 함수에서 값이 클수록 값이 클지라도 05보다 작 으면 값이 아무리 작더라도 1과 같고 그 반대도 마찬가지입니다 Y는 05보다 작 으면 출력은 0이됩니다 1000의 값이 1 인 고객의 차이는 다음과 같습니다

1이 단계 함수 대신에 우리가 더 매끄럽다면 좋지 않을 것입니다 이 값을 실제로 0과 1 사이에 투영하는 첫 번째 줄 이 방법은 실제로 고객이 매우 바람직한 클래스 우리에게 확률을 줄 수있는 방법이 필요합니다 수업에 빠지는 것의 과학적인 해결책은 무엇입니까? 세타 조옮김 X를 사용하는 대신에 특정 함수를 사용합니다 시그 모이 드 다음 세타 전치의 시그 모이 드는 우리에게 점의 확률을줍니다 y 값 대신 클래스에 속한다고 직접 설명하겠습니다 잠시 후 sigmoid 함수이지만 지금은 트릭을 수행한다는 것을 수락하십시오 세타 전치 X 값을 직접 계산하는 대신 세타 전치 X가 매우 크거나 작을 확률은 항상 세타의 크기에 따라 0과 1 사이의 값을 반환합니다 조옮김 X는 이제 모델이 세타 조옮김 X의 시그 모이 드입니다

X가 주어지면 출력이 1 일 확률을 나타냅니다 S 자형 함수는 무엇이며 S 자형이 실제로 무엇인지 자세히 설명하겠습니다 로지스틱 함수라고도하는 시그 모이 드 함수 step 함수와 유사하며 다음 식에서 사용됩니다 로지스틱 회귀 분석 시그 모이 드 함수는 처음에는 약간 복잡해 보이지만 이 방정식을 기억하는 것에 대해 걱정하지 마십시오 그것으로 작업하면 theta가 X를 전치 할 때 S 자형 방정식에서 e는-의 세분을 X의 전치로 옮깁니다

분수는 거의 0이되고 시그 모이 드 함수의 값은 세타 조옮김 X가 매우 작 으면 시그 모이 드 함수가 세타 전치 X가 얻을 때 S 자형 플롯에 0에 더 가깝습니다 시그 모이 드 함수의 값이 1에 가까워지고 세타 전치 X가 매우 작습니다 시그 모이 드 함수가 0에 가까워 지므로 시그 모이 드 함수 출력은 항상 0과 1 사이입니다 확률로 결과 S 자형의 결과가 함수가 1에 가까워짐에 따라 y가 1 일 때 X는 1이 될 확률 S 자형 값이 0에 가까울수록 X가 매우 작을 때 y는 1과 같습니다 그래서 우리가 사용할 때 모델의 출력은 무엇입니까? 로지스틱 회귀 분석의 시그 모이 드 함수는 입력 X는 기본 클래스 y에 1이고,이 공식을 쓸 수 있습니다 X가 주어진 y의 확률이 1과 같으므로 Y의 확률을 쓸 수도 있습니다 X가 1 인 경우 y를 1로했을 때의 확률은 1입니다

예를 들어 고객이 회사에 머무를 확률은 다음과 같이 표시 될 수 있습니다 고객의 소득과 연령을 감안할 때 이탈 확률은 1과 같습니다 예를 들어 08이고 동일한 고객에 대해 이탈 확률은 0입니다 고객의 소득과 연령은 1에서 0

8을 02로해서 계산할 수 있습니다 이제 우리의 임무는 모델이 매개 변수 값을 설정하도록 훈련시키는 것입니다 우리의 모델은 y의 확률이 X에 주어진 1과 같다고 추정 한 것입니다 사실 이것은 로지스틱 회귀에 의해 만들어진 좋은 분류기 모델입니다

우리를 위해해야 ​​하는데도 y의 확률은 1을 뺀 것으로 표시 될 수있는 X의 클래스 0에 속합니다 세타의 시그마는 이제 X를 바꿉니다 문제는 우리가 이것을 어떻게 달성 할 수 있는지입니다 훈련 과정을 통해 세타를 찾을 수 있습니다 프로세스는 1 단계입니다

대부분의 경우와 같이 임의의 값으로 세타 벡터를 초기화합니다 기계 학습 알고리즘 (예 : -1 또는 2 단계 2)은 모델을 계산합니다 샘플 고객에 대한 세타 전치 X의 시그 모이 드 출력 세타 조옮김 X의 트레이닝 세트 X는 피처 벡터 값입니다 예를 들어 2 및 5에 대한 고객의 연령 및 수입 및 세타는 이전 단계에서 설정 한 신뢰도 또는 가중치 방정식은 예측 값, 즉 고객은 클래스 1에 속합니다 3 단계 모델 y 모자의 출력을 비교합니다

이는 실제 레이블이있는 영점 7이라고 할 수 있습니다 예를 들어 chert와 같은 고객은 다음과 같이 차이를 기록합니다 이 고객에 대한 모델 오류는 1 마이너스 영점 7입니다 물론 제로 포인트 3과 같은 것은 하나의 고객에 대한 오류입니다 교육 세트 4 단계의 모든 고객 중 이전 단계에서했던 모든 고객과이 오류를 합산 오차는 모델의 비용이며 모델 비용 함수로 계산됩니다

그런데 비용 함수는 기본적으로 오류를 계산하는 방법을 나타냅니다 실제 모델과 모델의 차이점 인 모델 예측 된 값을 통해 비용이 모델의 추정 수준을 보여줍니다 따라서 고객 레이블은 비용이 낮을수록 모델의 품질이 향상됩니다 고객 라벨을 정확하게 추정하고 우리가 원하는 것은 이 원인 단계 5를 최소화하려고 시도하지만 세타의 초기 값 때문에 무작위로 선택되었습니다 비용 함수가 매우 높을 가능성이 높습니다 총 비용 단계 6을 희망적으로 줄 이도록 세타를 변경합니다 세타 값을 변경 한 후 2 단계로 돌아갑니다

그런 다음 다른 반복을 시작하고 모델 비용을 다시 계산합니다 세타의 값을 바꾸면서 계속해서 비용이 충분히 낮아질 때까지 시간이 걸리므로 두 가지 질문이 먼저 발생합니다 세타 값을 바꿔서 비용을 줄일 수 있을까요? 반복과 둘째로 반복을 중단해야 할 때 세타 값을 변경하는 방법이지만 가장 인기있는 방법 중 하나는 그라디언트입니다 하강 또한 반복을 중지하는 다양한 방법이 있지만 본질적으로 중지 모델의 정확도를 계산하여 훈련 만족스러운 안녕하세요이 동영상에 오신 것을 환영합니다

로지스틱 회귀 모델 또한 매개 변수를 변경하는 방법을 논의 할 것입니다 결과를 더 잘 추정하기 위해 모델의 로지스틱 회귀 분석에서 함수 및 그라디언트 하강 최적화 방법 모델은 물류 교육의 주요 목표를 시작합시다 회귀는 모형의 매개 변수를 최고로 변경하는 것입니다 고객과 같은 데이터 세트의 샘플 라벨 추정 우리는 그것을 어떻게 간단히할까요? 먼저 비용 함수를 살펴보고 비용 함수와 매개 변수 세타 사이의 관계를 확인하십시오 따라서 비용 함수를 공식화 한 다음 비용의 미분을 사용하여 비용을 줄이기 위해 매개 변수를 변경하는 방법을 찾을 수 있습니다 오류가 어떻게 작동하는지 알아보기 위해 뛰어 들지만 설명하기 전에 기본적인 수학적 배경이 필요하다는 점을 강조해야합니다 이해하지만 걱정하지 않아도됩니다 Python R 및 Scala와 같은 대부분의 데이터 과학 언어에는 패키지가 있거나 이러한 매개 변수를 계산하는 라이브러리이므로 살펴 보겠습니다 먼저 샘플 사례에 대한 비용 함수 방정식을 찾아 보겠습니다 이탈 문제에서 고객 중 하나를 사용할 수 있습니다 비용 함수를 계산하는 방정식 비용 함수는 y의 실제 값과 모델 출력 Y hat이 일반적인 규칙입니다

기계 학습에서 대부분의 비용 함수 우리는 이것을 우리의 비용으로 보여줄 수 있습니다 실제 레이블과 비교하는 모델입니다 모델의 예측 값과 목표 필드의 실제 값 우리 모델의 예측 값은 세타 트랜스의 시그 모이 드입니다 X는 일반적으로이 방정식의 제곱이 부정적인 결과와 단순성을 위해이 값의 절반은 파생 프로세스를 통해 비용 함수로 간주됩니다 훈련 세트의 모든 샘플에 대한 비용 함수 고객은 모든 경우의 비용 함수의 평균 합계로 작성할 수 있습니다 또한 평균 제곱 오차라고도하며 매개 변수의 함수이므로 벡터 세타 그것은 세타의 J로 표시됩니다 좋아 좋아 우리는 지금 비용 함수를 가지고 이 비용을 최소화하는 최고의 무게 또는 매개 변수를 찾거나 설정하는 방법 함수는 우리가 계산해야합니다 이 비용 함수의 최소 포인트이며 모델을 사용하여 함수의 최소 지점을 찾을 수 있지만 함수의 미분 세계 최소값을 찾는 쉬운 방법은 없습니다 도달하는 방법을 설명하는 이러한 복잡성을 감안할 때 이러한 방정식을 지적하십시오 이 방정식의 전체 최소값은이 비디오의 범위를 벗어납니다 솔루션은 우리가 다른 비용 함수를 찾아야합니다

최소 점을 찾기가 더 쉬운 동일한 동작을 우리의 모델에 대한 바람직한 비용 함수 실제 값은 y 또는 0 또는 1이며 모델은 우리가 추정 할 때 잠시 동안 모델에 대한 간단한 비용 함수를 찾고 싶습니다 Y의 바람직한 값은 1입니다 이는 y가 1 인 것으로 추정하면 모형이 가장 적합 함을 의미합니다 이 경우 결과가 0이면 0을 반환하는 비용 함수가 필요합니다 모델은 실제 라벨과 동일하며 비용은 유지해야합니다 모델의 결과가 하나에서 멀어지고 비용이 증가함에 따라 증가 모델의 결과가 0에 가까우면 매우 큰 마이너스 로그 함수는 우리에게 그러한 비용 함수를 제공합니다

값이 1이고 모형에서 1을 뺀 로그 함수는 비용 0을 반환합니다 그러나 예측이 1보다 작은 경우 빼기 로그 함수는 더 큰 값을 반환합니다 마이너스 로그 기능을 사용하여 비용을 계산할 수 있습니다 로지스틱 회귀 모델이므로 일반적으로 비용 함수의 미분을 계산하는 것은 어렵다 이제 우리는 쉽게 증명할 수있는 모델의 마이너스 로그로 바꿀 수 있습니다 바람직한 y가 1 인 경우 비용을 마이너스 로그로 계산할 수 있음 y 모자이며 바람직한 y가 0 인 경우 비용은 마이너스로 계산할 수 있습니다

log 1 빼기 y 모자 이제 총 비용 함수에 연결하고 다시 쓸 수 있습니다 이 함수는 로지스틱 회귀 비용 함수입니다 클래스가 0 인 상황을 처벌합니다 모델 출력은 1이고 그 반대도 마찬가지입니다 그러나 Y 모자는 그렇지 않습니다

클래스를 출력으로 반환하지만 0 또는 1의 값으로 가정해야합니다 이제이 함수를 사용하여 매개 변수를 쉽게 찾을 수 있습니다 비용을 최소화 할 수있는 방식으로 우리 모델 우리의 목표는 실제 라벨 발견을 가장 잘 추정하는 모델을 찾는 것이 었습니다 가장 좋은 모델은 해당 모델에 가장 적합한 매개 변수 세타를 찾는 것을 의미합니다 첫 번째 질문은 우리가 모델에 가장 적합한 매개 변수를 어떻게 찾습니까? 다시 말해, 모델의 비용 함수를 찾아 최소화 세타 J는 다음 질문을 정의했습니다 비용을 최소화하는 방법은 답이 최적화를 사용하는 기능 접근법에는 다른 최적화 접근법이 있지만 우리는 하나를 사용합니다

여기에서 가장 유명하고 효과적인 방법 중 하나 다음 질문은 그라디언트 디센트가 무엇이며 일반적으로 그라디언트 디센트는 특히 함수의 최소값을 찾는 반복적 접근 케이스 그라디언트 디센트는 비용 함수의 미분을 사용하는 기술입니다 비용 또는 오류를 최소화하기 위해 매개 변수 값을 변경하는 방법 기울기 하강의 주요 목표는 매개 변수를 변경하는 것입니다 그라디언트 디센트가 생각하는 방법을 비용을 최소화하기 위해 2 차원 공간에있는 모델의 매개 변수 또는 가중치 예를 들어 두 기능 세트의 연령 및 소득 회수에 대한 세타 1 세타 2 이전 슬라이드에서 논의한 비용 함수 J 변수 함수 theta 1과 theta 2의 함수 인 비용 함수 J입니다 관찰 된 호출 또는 오류 J 함수의 차원을 추가합니다 세타 1과 세타 2의 모든 가능한 값을 기반으로 비용 함수를 플로팅합니다

우리는 이와 같은 것을 볼 수 있습니다 매개 변수의 함수 인 오류 인 매개 변수의 값 비용 함수의 오류 곡선 또는 내부 보울이라고합니다 이 오류 Bowl을 사용하여 최상의 결과 값을 찾는 방법 지금 비용 가치를 최소화하는 것은 문제가 가장 좋은 점입니다 비용 함수를 지적하십시오 예 오차 곡선은 무엇을해야합니까? 매개 변수를 변경하여 비용을 계산하지만 당신의 무게 또는 일부 가치를 공제하고 그 가치가 얼마나 될 수 있을까요 생각할 수있는 그릇의 한 지점을 찾는 임의의 매개 변수 값을 선택하십시오

시작점은 노란색 점이며 델타로 매개 변수를 변경합니다 theta1과 delta theta2를 살펴보고 표면에 한 걸음 씩 가자 우리가 아래쪽으로 가고있는 한 그릇에서 한 발 아래로 내려 가면 더 가파른 경사를 더 가파르게 밟을 수 있습니다 더 작은 단계를 취할 수 있도록 경사가 가장 낮은 지점에 접근합니다 평평한 표면에 도달 할 때까지 이것은 곡선의 최소 점이며 최적의 theta1 theta2이 단계들이 실제로 의미하는 것은 무엇입니까 우리가 내려갈 수 있도록이 단계들을 취해야 할 방향과 방법 이 단계의 방향과 크기를 찾으려면 단계가 커야합니다 다른 말로하면 매개 변수를 업데이트하는 방법을 찾으려면 해당 시점에서 비용 함수의 기울기 기울기는 모든 점에서 표면의 기울기와 방향입니다

기울기는 가장 큰 오르막의 방향입니다 이제 문제는 우리가 당신을 선택하면 어떤 시점에서 비용 함수의 기울기를 계산합니까 이 표면의 임의의 점, 예를 들어 노란색 점은 그 시점에서 각 매개 변수에 대한 theta의 J의 미분 이동하면 해당 시점에서 각 매개 변수에 대한 이동의 기울기 그 경사의 반대 방향으로 우리가 예를 들어 우리가 J의 미분을 계산한다면 세타 하나 우리는 그것이 양수라는 것을 알아 이것은 세타가 증가함에 따라 기능이 증가하고 있음을 나타냅니다 J를 줄이면 반대 방향으로 움직여야합니다 이것은 세타 1에 대한 음의 미분의 방향으로 이동하는 것을 의미한다 기울기 각 단계마다 다른 매개 변수에 대해서도 계산해야합니다 기울기 값은 경사가 큰 경우 걸음 수를 나타냅니다

경사가 최소 인 경우 멀어지기 때문에 큰 걸음을 내딛어 야합니다 작음 우리는 더 작은 단계의 기울기를 가져야합니다 반복 할 때마다 최소를 향한 작은 단계 비용 함수 J는이 식을 사용하여 계산됩니다 J 함수의 미분은 계산해야합니다 여기서 우리의 범위를 벗어나지 만 정직하게 파생 된 개념 이것을 쉽게 사용할 수 있기 때문에 모든 세부 사항을 기억해야합니다 그라디언트를 계산하는 방정식 그래서 간단히 말해서이 방정식은 그 지점의 경사와 우리는 반대 방향으로 매개 변수를 업데이트해야합니다 기울기의 모든 기울기의 벡터는 기울기 벡터이며 이 벡터를 사용하여 이전에 취하는 모든 매개 변수를 변경하거나 업데이트하십시오 매개 변수의 값을 구하고 오차 미분을 빼면 우리가 알고있는 세타에 대한 새로운 매개 변수는 비용을 줄입니다

학습 속도 라 불리는 일정한 값 mu에 의한 기울기 값 학습 속도는 우리가 요약하면 우리는 단순히 경사 하강이 단계를 밟는 것과 같다고 말할 수 있습니다 기울기의 현재 방향과 학습 속도는 이 단계를 수행하면 새로운 매개 변수가 반복 작업과 각 반복에서 매개 변수를 업데이트하고 알고리즘 수렴이 허용 가능한 최소값에 도달 할 때까지 원인을 최소화 알았어 훈련을 통해이 시점에서 우리가 한 일을 다시 생각해 보자 알고리즘 다시 단계적으로 우리는 무작위로 매개 변수를 초기화합니다 가치 2 단계 우리는 훈련 세트로 비용 함수를 공급하고 매개 변수가 설정 될 때 높은 오류율이 예상되는 비용 계산 무작위 적으로 3 단계에서 우리는 비용 함수의 기울기를 계산합니다 그래디언트를 계산하기 위해 부분 미분을 사용해야 함을 명심하십시오 벡터 우리는 각 매개 변수에 대한 방정식을 공급하기 위해 모든 훈련 데이터가 필요합니다 물론 이것은 알고리즘의 비싼 부분이지만 일부는 이 단계 4에 대한 솔루션 우리는 새로운 매개 변수로 가중치를 업데이트합니다 5 단계 값은 여기서 2 단계로 돌아가서 앞에서 설명한대로 새로운 매개 변수를 갖는 비용 함수 우리는 오류 표면을 내려갈 때 더 적은 오류를 예상합니다 6 단계의 짧은 비용 또는 일부 반복 횟수에 도달 할 때까지 6 단계 매개 변수는 일부 반복 후에 대략적으로 발견되어야합니다

모델이 준비되었으며 고객의 확률을 보호하는 데 사용할 수 있습니다 머 무르거나 떠나고이 비디오에 오신 것을 환영합니다 우리는 기계를 배울 것입니다 지원 벡터 머신 또는 SVM이라는 학습 방법 분류를 시작하겠습니다 데이터 세트를 확보했다고 가정하겠습니다 에서 추출 된 수천 개의 인간 세포 샘플의 특성을 포함 의 암 분석을 개발할 위험이 있다고 여겨지는 환자 원래 데이터는 많은 특성이 크게 다르다는 것을 보여주었습니다 양성 및 악성 샘플 사이에서 세포의 값을 사용할 수 있습니다 다른 환자의 특성 및 샘플을 조기에 나타냄 새 샘플이 양성인지 악성인지에 관계없이지지 벡터를 사용할 수 있습니다 기계 또는 SVM을 분류기로 사용하여 모델 내에서 패턴을 이해하도록 훈련 모델이 만들어진 후에 양성 또는 악성 세포를 보여줄 수있는 데이터 훈련 된 새로운 또는 알려지지 않은 셀을 예측할 수 있습니다 정확도 이제 SVM에 지원 벡터를 공식적으로 정의 해 드리겠습니다

기계는 알고리즘을 찾아서 사례를 분류 할 수있는 감독 알고리즘입니다 분리기 SVM은 먼저 데이터를 고차원 피쳐 공간에 매핑하여 작동합니다 데이터 포인트가 다른 경우에도 데이터 포인트를 분류 할 수 있도록 선형으로 분리 가능한 경우 데이터가 분리해야하는 데이터에 대해 구분 기호가 추정됩니다 분리기가 초평면으로 그려 질 수있는 방식으로 변형된다 예를 들어 다음의 분포를 보여주는 다음 그림을 고려하십시오 가능한 한 단위 크기와 덩어리 두께를 기반으로 한 작은 셀 세트 데이터 포인트가 두 가지 카테고리로 분류되어 선형이 아닌 여러 데이터 세트는 두 범주가 곡선으로 분리 되나 선형이 아닌 선형으로 정렬 우리가 할 수있는 대부분의 실제 데이터 세트의 경우 인 분리 할 수없는 데이터 세트 이 데이터를 더 높은 차원의 공간으로 전송 (예 : 매핑) 변형 후 3 차원 공간으로 우리가 지금 3에있는 것처럼 2 개의 카테고리는 초평면으로 정의 될 수있다 이 공간을 사용할 수있는 평면으로 구분 기호가 표시되는 치수 공간 새로운 또는 알려지지 않은 사례를 분류하므로 SVM 알고리즘은 최적의 결과를 출력합니다 새로운 예제를 분류하는 초평면은 두 가지 어려운 질문이 있습니다

먼저 구분 기호와 같은 방식으로 데이터를 어떻게 전송합니까? 초평면으로 그려 질 수 있습니다 변형 후 초평면 분리기 먼저 살펴 보자 단순성을 위해 데이터가 어떻게 작동하는지보기 위해 데이터 변환 우리의 데이터 세트는 1 차원 데이터입니다 선형으로 분리 할 수 ​​없다는 것을 알 수 있습니다 예를 들어 2 차원 공간으로 옮기면 출력이있는 함수를 사용하여 X를 새 공간에 매핑하여 데이터의 차원 x와 x의 제곱은 이제 데이터를 선형으로 분리 할 수 ​​있습니다 2 차원 공간 초평면은 평면을 2로 나누는 선입니다 각 클래스가 어느 한쪽에 놓여있는 부분은이 라인을 사용하여 기본적으로 데이터를 더 높은 차원 공간에 매핑하는 새로운 사례를 분류합니다

변환에 사용되는 수학 함수에서 커널이라고합니다 커널 함수라고하며 선형과 같은 다른 유형일 수 있습니다 다항 방사형 기저 함수 또는 RBF 및 시그 모이 드 각 함수에는 그 자체의 특징 그 장단점과 방정식이지만 좋은 소식 대부분이 이미 구현되어 있으므로 알 필요가 없습니다 쉬운 방법이 없기 때문에 데이터 과학 프로그래밍 언어 라이브러리 주어진 데이터 세트에서 어떤 기능이 가장 잘 작동하는지 알기 다른 기능을 차례로 선택하고 결과를 비교하십시오 또 다른 질문은 구체적으로 어떻게 올바른 분리자를 찾는가? 변형 후 기본적으로 SVM은 여기에 표시된 것처럼 데이터 집합을 두 개의 클래스로 가장 잘 나누는 초평면 2 차원 공간에서는 초평면을 파란색 점을 빨간색 점과 선형으로 분리하여 하나의 합리적인 선택으로 최고의 초평면은 가장 큰 분리를 나타내는 것입니다

목표는 다음과 같은 초평면을 선택하는 것입니다 초평면에 가장 가까운 가능한 예는 지원으로 큰 마진 벡터 만 지원하기 위해서는 벡터 만 지원하는 것이 직관적입니다 목표와 다른 훈련 예제는 무시할 수 있습니다 벡터를 지원할 수있는 최대 거리를 갖도록하는 초평면 초평면 및 경계 결정 선에는 고유 한 점이 있습니다 최적화 된 초평면을 찾는 공식은 좀 더 많은 수학을 포함하는 방정식 그래서 나는 그것을 거치지 않을 것입니다 하이퍼 플레인은 여백을 극대화하고 다른 많은 문제와 마찬가지로 최적화 절차 이 최적화 문제는 구배 하강으로도 해결할 수 있습니다 이 비디오의 범위의 따라서 알고리즘의 출력은 값 W입니다 이 추정치를 사용하여 분류 할 수있는 라인의 경우 B 선 입력 값을 선 방정식에 꽂으면 충분합니다

알 수없는 점이 선 위 또는 아래에 있는지 계산할 수 있습니다 방정식은 0보다 큰 값을 반환하고 점은 첫 번째에 속합니다 지원 위의 두 가지 주요 장점과 그 반대 인 클래스 벡터 기계는 고차원 공간에서 정확하고 그들은 지원이라는 의사 결정 기능에서 훈련 포인트의 하위 세트를 사용합니다 또한 메모리 효율적이므로 지원 벡터의 단점 기계는 알고리즘이 다음과 같은 경우에 과적 합하기 쉽다는 사실을 포함합니다 기능의 수가 숫자보다 훨씬 큽니다 또한 SVM은 다음과 같은 확률 추정치를 직접 제공하지 않습니다 대부분의 분류 문제에서 바람직하며 마지막으로 svms는 그리 좋지 않습니다

데이터 집합이 시간과 같이 매우 큰 경우 효율적인 계산 1,000 개가 넘는 행이 있고 이제 마지막 질문은 어떤 상황에 있는가 SVM을 잘 사용해야합니까 SVM은 이미지와 같은 이미지 분석 작업에 적합합니다 분류 및 필기 숫자 인식도 SVM이 매우 효과적입니다 텍스트 마이닝 세금에서 특히 높은 처리에 대한 효과로 인해 차원 데이터 (예 : 스팸 다음 카테고리 감지) 할당 및 감정 분석 SVM의 다른 응용 프로그램은 유전자에 있습니다 높은 차원의 힘으로 인해 다시 표현 데이터 분류 데이터 분류 SVM은 다른 유형의 기계 학습에도 사용할 수 있습니다 회귀 이상치 탐지 및 클러스터링과 같은 문제 이 특정 문제에 대해 더 많이 탐구하고 안녕하세요 이 비디오는 클러스터링에 대한 고급 소개를 제공합니다 응용 프로그램과 다양한 유형의 클러스터링 알고리즘을 시작하겠습니다 고객 데이터 세트가 있고 고객을 적용해야한다고 상상해보십시오 이 과거 데이터에 대한 세분화 고객 세분화는 고객층을 비슷한 개인 그룹으로 분할 그것은 사업을 할 수 있기 때문에 중요한 전략입니다 보다 효과적으로 할당하기 위해 특정 고객 그룹을 타겟팅 예를 들어 한 그룹에는 제품을 구매할 가능성이 높은 높은 이익과 낮은 위험 이 정보를 아는 서비스에 가입하면 업체가 헌신 할 수 있습니다 다른 그룹에서 이러한 고객을 유지하는 데 더 많은 시간과 관심 비영리 단체 등의 고객 포함 일반적인 세분화 프로세스는 일반적으로 대량의 다양한 데이터 따라서 세그먼트를 도출하기위한 분석적 접근이 필요합니다 대규모 데이터 세트의 그룹을 기반으로 고객을 그룹화 할 수 있습니다

연령 성별이자 지출 습관 등 여러 가지 요소 중요한 요구 사항은 사용 가능한 데이터를 고객이 서로 어떻게 유사한 지 파악하고 식별하는 방법 고객 세트를 고객의 특성에 따라 카테고리로 나눕니다 고객에게 사용될 수있는 가장 많이 채택 된 접근법 중 하나를 공유 세그먼테이션은 클러스터링입니다 클러스터링은 감독되지 않은 데이터 만 그룹화 할 수 있습니다 고객과의 유사성에 따라 고객을 분할합니다 예를 들어 3 개의 클러스터로 상호 배타적 인 그룹으로 각 클러스터의 고객은 인구 통계적으로 서로 비슷합니다

공통된 특성을 고려한 각 그룹에 대한 프로파일 작성 예를 들어 첫 번째 그룹은 풍부하고 중년 고객 중 두 번째는 젊은 교육과 중산층으로 구성됩니다 고객과 세 번째 그룹에는 젊고 저소득층 고객이 포함됩니다 데이터 세트의 각 개인을이 그룹 중 하나에 할당하거나 고객 세그먼트는 이제 데이터 세트에서이 세그먼트와 교차 조인한다고 상상합니다 고객이 구매 한 제품 또는 서비스의 데이터 세트 귀하의 회사는이 정보가 실제로 이해하고 예측하는 데 도움이 될 것입니다 개별 고객 선호도와 구매 행동의 차이점 실제로이 정보를 가지고있는 다양한 제품에서 각 세그먼트 고객을 위해 고도로 개인화 된 경험을 개발하는 회사 세그먼테이션은 클러스터링 클러스터 분석의 일반적인 사용법 중 하나입니다 서로 다른 도메인에 많은 다른 응용 프로그램이 있으므로 먼저 정의 해 봅시다 클러스터링을하면 다른 애플리케이션을 살펴볼 것입니다 데이터 세트의 클러스터는 감독되지 않으므로 클러스터 란 무엇입니까? 데이터 세트의 다른 개체와 유사한 데이터 포인트 또는 개체의 다른 클러스터의 데이터 포인트와 그룹화 및 유사하지 않은 문제는 무엇입니까? 클러스터링과 분류가 다릅니다

고객 데이터 세트 다시 분류 알고리즘 범주 클래스 예측 이 레이블은 인스턴스를 기본 또는 예를 들어 분석가가 고객 데이터를 순서대로 분석하려는 경우 기본값이 아닙니다 결제시 기본 결제 대상 고객을 파악하기 위해 라벨이 지정된 데이터를 사용합니다 훈련 데이터로 설정하고 다음과 같은 분류 접근법을 사용합니다 의사 결정 트리 지원 벡터 시스템 또는 SVM 또는 로지스틱 회귀 예측 신규 또는 알려지지 않은 고객의 기본값 일반적으로 말하기 분류는 각 교육이 진행되는 감독 학습입니다 데이터 인스턴스는 클러스터링의 특정 클래스에 속하지만 데이터는 레이블이없고 프로세스가 감독되지 않습니다

예를 들어 k-means와 같은 클러스터링 알고리즘은 언급 된 것과 유사한 고객을 그룹화하고 비슷한 속성을 공유하는지 여부에 따라 클러스터에 할당 나이 교육과 같은 몇 가지 예를 들어 드리겠습니다 더 많은 클러스터링 샘플에 대해 생각하고 싶은 산업 소매 업계에서 클러스터링은 고객은 인구 통계 학적 특성에 따라 정보를 사용합니다 다양한 고객 그룹의 구매 패턴을 식별하기 위해 유사한 시스템 또는 유사한 사용자 그룹을 찾는 추천 시스템 공동 작업 필터링에 사용하여 책이나 영화 등을 은행 분석가의 고객은 찾을 수있는 일반 거래 클러스터를 찾습니다 사기성 신용 카드 사용 패턴은 클러스터링을 사용하여 예를 들어 충성 고객을 찾기 위해 고객 클러스터 식별 보험 산업 클러스터링의 고객 이탈은 사기에 사용됩니다 클레임 분석에서 탐지 또는 특정 보험 위험 평가 출판 미디어 클러스터링에서 세그먼트를 기반으로 고객은 내용에 따라 뉴스를 자동 분류하거나 뉴스에 태그를 달고 클러스터링 의학 분야의 독자들에게 유사한 뉴스 기사를 추천하기 위해 비슷한 특성을 바탕으로 환자 행동을 특성화 다른 질병이나 생물학에 대한 성공적인 의료 요법을 식별 클러스터링은 유사한 발현 패턴을 갖는 유전자를 그룹화하거나 주위를 둘러 보면 가족 유대를 식별하는 유전자 마커 클러스터링의 다른 많은 응용 프로그램을 찾을 수 있지만 일반적으로 클러스터링은 탐색 목적 데이터 분석 중 하나의 목적으로 사용 요약 생성 또는 특히 사용되는 스케일 이상치 탐지 감소 사기 탐지 또는 소음 제거를 위해 중복 및 데이터 세트를 찾거나 어느 하나의 예측을위한 전처리 단계 다른 데이터 마이닝 작업이나 복잡한 시스템의 일부로 간단히 살펴 보겠습니다 다른 클러스터링 알고리즘 및 특성 파티션 기반 클러스터링은 구형과 같은 클러스터링 알고리즘 그룹입니다 k- 평균 k 중앙값 또는 퍼지 c와 같은 군집은 이러한 알고리즘이 비교적 효율적이며 중형 및 대형 데이터베이스에 사용됩니다

계층 적 클러스터링 알고리즘은 다음과 같은 클러스터 트리를 생성합니다 응집 및 분열 알고리즘이 알고리즘 그룹은 매우 직관적이며 일반적으로 소형 데이터 셋 밀도 기반의 사용에 적합 클러스터링 알고리즘은 특히 좋은 임의의 모양의 클러스터를 생성합니다 공간 클러스터를 다룰 때 또는 데이터 세트에 노이즈가있는 경우 예를 들어 우리가 다루게 될이 비디오에서 DB 스캔 알고리즘에 오신 것을 환영합니다 k- 평균 군집화이므로 고객 데이터가 있다고 상상해 봅시다 이 내역 데이터에 고객 세분화를 적용해야합니다 고객 세분화는 고객 기반을 그룹으로 분할하는 관행입니다

알고리즘 중 하나와 비슷한 특성을 가진 개인의 고객 세분화에 사용할 수있는 것은 k- 평균 군집화입니다 k- 평균은 고객의 유사성에 따라 감독되지 않은 데이터 만 그룹화 할 수 있습니다 서로가이 기술을보다 공식적으로 정의하자 계층 적 계층 또는 밀도 분할과 같은 클러스터링 알고리즘 기반 클러스터링 k- 평균은 파티션 클러스터링의 한 유형입니다 데이터를 겹치지 않는 Kate 하위 세트 또는 클러스터로 나눕니다 클러스터 내부 구조 또는 레이블이 없으면 클러스터 내의 비지도 알고리즘 객체는 매우 유사하며 객체는 당신이 볼 수 있듯이 다른 클러스터에서 매우 다르거 나 비슷하지 않습니다 k- 평균을 사용하기 위해 유사한 샘플을 찾아야합니다

이제 고객은 몇 가지 주요 질문에 직면하게됩니다 군집화에서 표본의 유사성 고객의 목표는 인구 통계와 관련이 있지만 k- 평균은 유사한 샘플이 군집 및 이종 표본이 다른 군집에 속한다는 것을 알 수 있습니다 유사성 메트릭 대신에 유사성 메트릭을 사용할 수 있습니다 일반적으로 서로로부터 샘플의 거리는 k- 평균이 클러스터 내 거리를 최소화하려고 시도하고 이제 클러스터 간 거리를 최대화하십시오 문제는 Disome Alera T 또는 두 고객과 같은 두 경우의 거리는 우리가 두 명의 고객이 고객을 한 명의 고객이라고 부를 것입니다

이 두 고객 각각에 대해 하나의 기능 만 있으며 그 기능은 우리는 쉽게 특정 유형의 Minkowski 거리를 사용하여 이 두 고객의 거리는 실제로 유클리드 거리 거리입니다 X 2의 X 1은 34에서 30의 제곱을 빼고 4의 4입니다 나이와 소득 (예 : 소득이있는 경우)과 같은 둘 이상의 기능 각 고객의 연령대는 여전히 동일한 공식을 사용할 수 있지만 이번에는 2 차원 공간에서도 같은 거리 행렬을 사용할 수 있습니다 다차원 벡터는 물론 기능 세트를 정규화하여 정확한 불일치 측정 다른 불일치 측정도 있습니다 이 목적으로 사용할 수 있지만 데이터 유형과 또한 클러스터링이 수행되는 도메인 예를 들어 유클리드 거리 코사인 유사성 평균을 사용할 수 있습니다 거리 등은 실제로 유사성 측정 haile이 클러스터를 제어하는 ​​방법을 제어합니다 귀하의 도메인 지식을 이해하는 것이 좋습니다 데이터 세트 및 지형지 물 유형을 입력 한 다음 의미있는 거리를 선택하십시오

측정은 이제 K가 클러스터링이 어떻게 작동 하는지를 보여 드리겠습니다 단순성 데이터 셋에 연령과 소득의 두 가지 기능 만 있다고 가정 해 봅시다 이것은 고객이 우리가 보여줄 수있는 2 차원 공간이라는 것을 의미합니다 산점도를 사용하여 고객의 분포는 y 축이 연령을 나타냅니다 x 축은 고객 데이터 세트를 군집화하려는 고객의 수입을 보여줍니다 첫 번째 두 차원을 기반으로 별개의 그룹 또는 클러스터로 k- 평균의 핵심 개념 인 군집 수를 결정해야합니다

알고리즘은 각 클러스터의 중심점을 임의로 선택한다는 것입니다 본질적으로 클러스터 수를 나타내는 K를 초기화해야합니다 데이터 세트에서 클러스터 수를 결정하거나 K는 어려운 문제입니다 k- 나중에 우리가 나중에 논의 할 것을 의미합니다 그의 인생에서 우리의 표본 데이터는 클러스터이 세 가지 데이터 포인트를 클러스터의 중심이라고하며 고객 기능과 기능 크기가 동일해야합니다 이 중심을 선택하십시오 데이터 세트의이 관측 값을 초기 수단으로 사용 우리는 클러스터의 3 개의 임의의 점과 중심을 만들 수 있습니다

초기화 단계 후 플롯에 빨간색으로 표시되는 선택 각 클러스터의 중심을 정의하고 이 목적을 위해 가장 가까운 센터에 고객을 각 데이터 포인트 또는 우리의 경우 각 고객의 중심으로부터의 거리 데이터의 성격과 목적에 따라 앞에서 언급 한 포인트 클러스터링을 사용하는 경우 다른 거리 측정 값이있을 수 있습니다 아이템을 클러스터에 배치하는 데 사용되므로 각 행은 호출 된 각 중심으로부터 고객의 거리를 나타냅니다 k- 평균 군집화의 주요 목표는 거리 매트릭스를 최소화하는 것입니다 클러스터의 중심에서 데이터 포인트의 거리를 다른 군집 중심으로부터의 거리가 있으므로이 단계에서 각 데이터 포인트에 가장 가까운 중심 거리를 찾기 위해 거리 행렬을 사용할 수 있습니다 각 데이터에 가장 가까운 중심을 찾는 가장 가까운 중심 2 개의 데이터 포인트 각 데이터 포인트를 해당 클러스터에 할당합니다 즉, 모든 고객 중심으로부터의 거리에 따라 클러스터로 떨어질 것입니다 우리는 클러스터가 양호하지 않다고 쉽게 말할 수 있습니다

첫 번째 모델에서 중심이 무작위로 선택되었습니다 여기서 오류는 각 점의 총 거리를 오류 그것의 중심으로부터 그것은 클러스터의 제곱합 오차 내에서 보여 질 수있다 직관적으로 우리는이 오류를 줄이려고 노력합니다 클러스터의 모든 구성원의 거리가 중심에서 최소화 되었으니 이제 문제는 어떻게 우리가 그것을 오류가 적은 더 나은 군집 괜찮습니다 다음 단계에서 중심을 움직입니다 클러스터 센터는 클러스터의 평균 4 개 데이터 포인트로 업데이트됩니다

실제로 각 중심은 클러스터 멤버에 따라 움직입니다 세 군집 각각의 중심이 예를 들어 8 점 조정은 7 점 4와 3 점 6과 B 점 기능은 7 포인트 8과 3 포인트 8의 새로운 중심입니다 두 점을 가진 클러스터는 그 평균이 7 점 6입니다 3 포인트 7에 새로운 중심이 있습니다 다시 한번 추측 할 수 있습니다 새로운 중심에서 모든 점의 거리를 계산해야합니다 점이 다시 모여 중심이 다시 움직입니다

이것은 중심이 더 이상 움직이지 않을 때까지 계속됩니다 중심은 각 점 거리를 중심으로 이동합니다 다시 측정해야합니다 예 k- 평균은 반복 알고리즘이며 2 ~ 4 단계를 반복해야합니다 알고리즘이 각 반복에서 수렴 될 때까지 중심을 이동합니다 새로운 중심으로부터의 거리를 계산하고 데이터 포인트를 가장 가까운 중심에서 최소 오류 또는 가장 큰 클러스터 그러나 밀도가 높은 클러스터는 휴리스틱 알고리즘이므로 그것이 세계 최적으로 수렴하고 결과가 달라질 수 있음을 보장 초기 클러스터에서이 알고리즘은 결과이지만 결과는 로컬 최적 일 수 있습니다

즉 반드시 최고 일 필요는 없습니다 이 문제를 해결하기위한 가능한 결과 전체 프로세스를 실행하는 것이 일반적입니다 시작 조건이 다른 여러 번 무작위로 중심을 시작하면 더 나은 결과를 얻을 수 있으며 소유자는 일반적으로 매우 빠르게 여러 번 실행해도 아무런 문제가 없습니다 이 비디오에 오신 것을 환영합니다 k- 평균 정확도 및 특성을 살펴 보겠습니다 시작합시다 우리가 이야기하기 전에 알고리즘을 좀 더 구체적으로 정의 해 봅시다 정확도에 대해 k- 평균 알고리즘을 무작위로 K 중심을 배치함으로써 작동합니다

클러스터가 멀리 떨어져있는 각 클러스터마다 하나씩 다음 단계는 각 데이터의 거리를 계산하는 것입니다 중심점으로부터의 점 또는 물체 유클리드 거리는 측정에 사용됩니다 물체에서 중심까지의 거리는 유클리드 거리뿐만 아니라 다른 유형의 거리 측정도 사용할 수 있습니다 유클리드 거리는 가장 인기가 있으므로 각 데이터를 할당하기 때문에 사용됩니다 각 데이터에 대해 다음에 그룹을 생성하는 가장 가까운 중심을 가리 키거나 개체 포인트는 그룹으로 분류되어 사건의 위치를 ​​다시 계산 새로운 중심 위치는 모든 중심점의 평균에 의해 결정됩니다 그룹은 마침내 중심이 더 이상 움직이지 않을 때까지 계속됩니다 문제는 우리가 형성 한 클러스터의 장점을 어떻게 평가할 수 있는가입니다 k- 평균은 다시 말해 k- 평균의 정확도를 어떻게 계산 하는가 클러스터링의 한 가지 방법은 클러스터를 기본 진리와 비교하는 것입니다 케이트는 감독되지 않은 알고리즘 우리는 일반적으로 사실과 현실이 없습니다 사용되는 문제이지만 여전히 각 클러스터의 기반이 얼마나 나쁜지를 말할 수있는 방법이 있습니다 k- 평균의 목표에서이 값은 평균 거리입니다 클러스터 내 데이터 포인트도 데이터 포인트 거리의 평균 클러스터 중심에서 클러스터링에 대한 오류 메트릭으로 사용할 수 있습니다

기본적으로 데이터 세트 또는 K의 클러스터 수를 결정하는 알고리즘 k- 평균 알고리즘에서 올바른 데이터 클러스터링에서 빈번한 문제입니다 K의 선택은 모양에 따라 매우 다르기 때문에 종종 모호합니다 데이터 세트에서 포인트 분포의 규모 이 문제를 해결하지만 일반적으로 사용되는 기술 중 하나는 K의 다른 값에 대해 클러스터링을 실행하고 이 지표를 군집화하기위한 정확도는 데이터 포인트와 우리의 클러스터가 얼마나 조밀한지를 나타내는 클러스터 중심 클러스터링 오류를 최소화 한 다음 이 측정 항목은 K에 가장 적합한 값을 찾을 수 있지만 문제는 중심점 거리 두 개의 데이터 포인트의 클러스터 수 증가 항상이 값을 줄이려면 K를 늘리면 항상 오류가 줄어 듭니다 K의 함수로서의 메트릭 값이 그려지고 팔꿈치 포인트는 급격히 감소하는 비율이 이 방법을 클러스터링하기에 적합한 K를 엘보우 방법이라고합니다 k- 평균 군집화 k- 평균은 파티션 기반 클러스터링으로 B가 생산하는 중대형 데이터 세트에서 상대적으로 효율적 클러스터가 중심을 중심으로 형성되기 때문에 구형 클러스터 C의 단점은 클러스터 수를 미리 지정해야한다는 것입니다 쉬운 작업은 아닙니다

안녕하세요이 비디오에서 환영합니다 계층 적 클러스터링을 시작하겠습니다이 차트를 살펴 보겠습니다 UCLA 생물학자가 이끄는 국제 과학자 팀은이 덴드로 그램을 85 종 및 200 종 이상의 900 마리의 개에서 얻은 유전 데이터보고 북미 유럽의 인구를 포함한 전세계 야생 회색 늑대 중동 및 동아시아 그들은 분자 유전 기술을 사용하여 분석합니다

이 도표는 48,000 개 이상의 유전자 마커를 유전자 데이터의 계층 적 유사성에 기반한이 동물들 클러스터링 알고리즘은 각 노드가 클러스터 인 클러스터의 계층 구조를 구축합니다 의 딸 노드 전략의 클러스터로 구성 계층 적 클러스터링은 일반적으로 두 가지 유형으로 나누어집니다 응집 분할은 하향식이므로 모든 관측치에서 큰 클러스터를 작은 조각으로 나눕니다 응집 된 클러스터를 나누는 것이 각 관측 값이 자체 군집에서 시작되는 상향식입니다 계층 쌍 위로 이동함에 따라 클러스터 쌍이 병합됩니다 응집이란 이것이 정확히하는 일을 모으거나 모으는 것을 의미합니다 군집을 사용하면 응집 접근법이 데이터에서 더 많이 사용됩니다

이 비디오의 주요 주제는 과학자들입니다 응집 된 클러스터링이 방법은 개인으로부터 계층을 구축합니다 이 예에서 클러스터를 점진적으로 병합하여 요소를 캐나다의 6 개 도시를 서로의 거리를 기준으로 묶으려고합니다 그들은 토론토 오타와 밴쿠버 몬트리올 위니펙과 에드먼턴입니다 이 단계에서 거리 행렬을 구성합니다 J 열은 실제로 I와 J 도시 사이의 거리입니다 알고리즘이 시작되는 각 도시 쌍 사이의 거리 각 도시를 자체 클러스터에 할당하여 6 개의 도시가있는 경우 6 개의 도시가 각각 하나의 도시 만 포함 된 클러스터는 각 도시를 표시하여 이름의 처음 두 문자는 첫 번째 단계는 어느 도시를 결정하는 것입니다 지금부터 클러스터라고 부르고 일반적으로 우리가 원하는 클러스터로 병합합시다

선택한 거리에 따라 가장 가까운 두 개의 클러스터를 거리 행렬 몬트리올과 오타와가 가장 가까운 군집이므로 그중에서 우리는 단지 단순한 일차원을 사용한다는 것을 주목하십시오 여기에 거리 기능이 있지만 다차원 및 거리에있는 물체 측정은 피어슨 평균 거리 또는 다른 많은 거리에서 희미해질 수 있습니다 어쨌든 데이터 유형과 도메인 지식에 따라 거리 행렬에서 가장 가까운 두 도시와 행과 열이 거리 행렬 행에서 볼 수 있듯이 클러스터가 구성 될 때 병합 몬트리올 및 오타와 도시 관련 열이 클러스터로 병합됩니다 모든 도시에서이 새로운 병합 클러스터까지의 거리 업데이트되지만 예를 들어 위니펙과의 거리를 어떻게 계산합니까? 오타와 몬트리올 클러스터에는 다양한 접근 방식이 있지만 예를 들어 오타와의 중심에서 거리를 선택한다고 가정하십시오 몬트리올 클러스터에서 위니펙으로 거리 행렬 업데이트 클러스터 다음으로 우리는 다시 가장 가까운 클러스터를 찾습니다이 경우 오타와 몬트리올과 토론토는 다른 클러스터를 만드는 가장 가까운 것들입니다

다음 단계는 밴쿠버 클러스터와 가장 가까운 거리입니다 매트릭스 테이블에서 데이터를 얻는 새로운 클러스터를 형성하는 에드먼턴 클러스터 클러스터가 병합되면 기본적으로 행과 열이 병합됩니다 업데이트 된 거리는 이것을 구현하는 일반적인 방법입니다 클러스터링을 통해 클러스터 간의 거리를 현금화 할 수 있다는 이점이 있습니다 클러스터를 병합하여 집계 알고리즘이 진행되는 것과 동일한 방식 모든 클러스터가 병합되고 트리가 완성 될 때까지 반복합니다 모든 도시가 6 크기의 단일 클러스터로 클러스터 될 때까지 계층 적 클러스터링은 일반적으로 다음과 같이 덴드로 그램으로 표시됩니다 이 슬라이드는 각 병합이 수평선 수평선의 y 좌표는 도시가 단일 클러스터로 간주되는 곳에 병합 된 두 클러스터 덴드로 그램을 사용하면 맨 아래 레이어에서 맨 위 노드로 이동하여 묘사 된 클러스터링을 초래 한 병합 이력을 재구성 본질적으로 계층 적 클러스터링에는 미리 지정된 수의 그러나 일부 응용 프로그램에서는 분리 된 클러스터의 파티션을 원합니다 이 경우 플랫 클러스터링에서와 마찬가지로 계층 구조를 잘라야합니다

예를 들어 특정 수준의 유사성을 자르는 경우 비슷한 도시의 3 개 클러스터 안녕하세요이 비디오에 오신 것을 환영합니다 계층 적 클러스터링에 대한 자세한 내용을 시작하겠습니다 시작하겠습니다 계층 적 클러스터링을위한 응집 알고리즘에서 응집 클러스터링은 상향식 접근 방식이며 데이터 집합에 n이 있다고 가정 해 봅시다

데이터 포인트 먼저 각 데이터 포인트마다 n 개의 클러스터를 생성하고 각 점은 다음으로 거리를 계산하려는 클러스터로 지정됩니다 그 후 우리는 반복적으로 N x n 테이블이 될 근접 행렬 지정된 클러스터 번호에 도달 할 때까지 다음 단계를 실행하십시오 하나의 클러스터 만 남을 때까지 가장 가까운 두 개의 클러스터를 병합 거리는 근접 매트릭스에서 이미 계산 된 후 우리가 도달 한 후 우리가 멈춘 새로운 값을 가진 근접 행렬 지정된 수의 클러스터 또는 하나의 클러스터 만 남아 있습니다 근접 행렬에서 덴드로 그램에 저장된 결과 클러스터 사이의 거리와 가장 가까운 클러스터를 병합 핵심 작업은 클러스터 간의 근접성 계산입니다 하나의 포인트와이 시점에서 여러 데이터 포인트가있는 클러스터 예를 들어 어떻게해야합니까? 이 군집 사이의 거리를 측정하고 우리는 어떻게 클러스터 중에서 가장 가까운 곳에서 먼저 어떤 점을 사용하는지 물어볼 수 있습니다 한 점씩 두 클러스터 사이의 거리를 계산하는 방법 환자의 데이터 세트가 있고이를 묶고 싶다고 가정합니다

계층 구조 클러스터링을 사용하여 데이터 포인트가 기능 세트를 가진 환자 나이 체질량 지수 또는 BMI와 혈압과 같은 3 차원의 서로 다른 거리 측정을 사용하여 유클리드 거리와 같이 n 명의 환자가 있다면 n 비 유사 거리 행렬로 N을 만들면 데이터 포인트가 하나 인 클러스터는 언급했지만 클러스터를 병합합니다 응집성 군집화 문제는 어떻게 우리가 각 군집에 여러 환자가있을 때 군집 사이의 거리 다른 기준을 사용하여 가장 가까운 군집을 찾아 합병 일반적으로 데이터의 데이터 유형 차원에 완전히 의존하고 가장 중요한 것은 실제로 데이터 세트의 도메인 지식이 다르다는 것입니다 군집 사이의 거리를 정의하는 방법은 우리가 할 수있는 여러 가지 방법이 있다고 상상할 수있는 다른 알고리즘 첫 번째를 단일 연결이라고합니다 군집 단일 연계는 두 점 사이의 최단 거리로 정의됩니다 포인트 a와 같은 각 클러스터에서 다음 모임은 완전한 연결 클러스터링입니다 이번에 우리는 각 점 사이의 가장 긴 거리를 찾고 있습니다 점 A와의 ​​거리와 같은 군집 V 세 번째 유형의 연계는 평균 연계 클러스터링 또는 평균 거리입니다 이것은 우리가 하나의 클러스터에서 각 지점의 평균 거리를보고 있음을 의미합니다 다른 클러스터의 모든 지점에서 검토 할 최종 연계 유형은 중심 연결 클러스터링 중심은 기능 세트의 평균입니다

이 연계는 각각의 중심을 고려한 클러스터의 포인트 최소 인스턴스를 결정할 때 클러스터는 세 가지 주요 장점이 있습니다 먼저 계층 적 클러스터링을 사용하기 위해 알고리즘의 두 번째 계층 클러스터링에 필요한 클러스터는 쉽습니다 생성 된 덴드로 그램을 구현하고 세 번째로 이해하는 것은 매우 유용합니다 알고리즘에는 결코 취소 할 수없는 몇 가지 단점이 있지만 예를 들어 알고리즘이 두 지점 이상을 클러스터링하는 이전 단계 우리는 연결이 프로그램이 그것을 취소 할 수없는 좋은 연결이 아니라는 것을 알았습니다 2 단계 : 클러스터링의 시간 복잡성이 매우 길어질 수 있음 k- 평균과 같은 효율적인 알고리즘과 비교 한 계산 시간 마지막으로 큰 데이터 세트가 있으면 결정하기가 어려워 질 수 있습니다 덴드로 그램으로 정확한 클러스터 수를 비교해 봅시다 k- 평균 게이트 수단을 사용한 계층 적 클러스터링은 대규모에 더 효율적입니다 k- 평균 계층 적 군집과 달리 데이터 집합은 필요하지 않습니다 계층 적 클러스터링으로 지정할 클러스터 수는 해상도에 따라 하나의 분할, 반면 K는 데이터 계층 클러스터링의 한 파티션은 항상 생성 다른 군집을 반환하는 k- 평균과 대조적으로 동일한 군집 센트 로이드의 임의 초기화로 인해 실행될 때마다 hello and 이 비디오에 오신 것을 환영합니다

밀도 기반 클러스터링 DD 스캔을 다룰 것입니다 공간 데이터를 검사 할 때 사용하기에 적합한 알고리즘입니다 k-means와 같은 대부분의 기존 클러스터링 기술을 시작했습니다 계층 적 및 퍼지 클러스터링을 사용하여 감독되지 않은 상태에서 데이터를 그룹화 할 수 있습니다 그러나 임의의 모양의 클러스터 또는 클러스터가있는 작업에 적용될 때 방법 클러스터 내에서 전통적인 기술은 좋은 결과를 얻지 못할 수 있습니다 동일한 클러스터의 요소 인 결과가 충분히 공유되지 않을 수 있습니다 분할하는 동안 유사성 또는 성능이 추가로 저하 될 수 있습니다 k- 평균과 같은 기반 알고리즘은 이해하기 쉽고 구현하기 쉬울 수 있습니다

실제로 알고리즘에는 모든 점이 할당 된 특이 치에 대한 개념이 없습니다 비정상 도메인에 속하지 않아도 클러스터에 이상 지점이 동일한 군집 정규 데이터 점 이상 점 클러스터 중심을 향해 끌어 당겨서 대비 밀도 기반 클러스터링의 이상 점은 높은 영역을 찾습니다 저밀도 영역에 의해 서로 분리되는 밀도 이 문맥에서 밀도는 지정된 내의 포인트 수로 정의됩니다 특정의 매우 인기있는 밀도 기반 클러스터링 유형은 DP 스캔입니다 DB 스캔은 클래스 식별과 같은 작업에 특히 효과적입니다

공간적 맥락 DB 스캔 알고리즘의 놀라운 특성은 노이즈의 영향을받지 않고 임의의 모양의 클러스터를 찾습니다 예를 들어이지도는 캐나다 DB 스캔에서 기상 관측소의 위치를 ​​보여줍니다 같은 날씨를 보여주는 스테이션 그룹을 찾기 위해 여기에서 사용하십시오 당신이 볼 수 있듯이 조건은 다른 임의의 모양 클러스터를 찾을뿐만 아니라 밀도가 낮은 것을 무시하여 데이터 중심 샘플의 밀도가 높은 부분을 찾을 수 있습니다 영역 또는 노이즈는 이제이 클러스터링 알고리즘을 통해 작동 방식을 살펴 보겠습니다 DB 스캔은 노이즈가있는 애플리케이션의 밀도 기반 공간 클러스터링을 나타냅니다

이 기술은 기반으로 작동하는 가장 일반적인 클러스터링 알고리즘 중 하나입니다 객체 DB 스캔의 밀도에 대해 특정 점이 클러스터에 속하며 해당 클러스터의 다른 많은 지점에 가깝습니다 그것은 두 개의 매개 변수를 기반으로 작동하며 최소 지점은 지정된 반경 내에 충분한 점이 포함 된 경우 밀집 면적 mm은 우리가 원하는 최소 데이터 포인트 수를 결정합니다 클러스터를 정의하기위한 이웃 반경을 위해 두 개의 단위로 반경을 정의하겠습니다 간단하게 관심 지점 주위의 반경이 2 센티미터라고 가정합니다 최소 점 또는 M 점을 포함하여 6 점으로 설정하겠습니다 DB 스캔의 작동 방식을 확인하려면 포인트 유형을 결정해야합니다 데이터 세트의 각 포인트는 핵심 주문이거나 특이 치가 될 수 없습니다

이 요점들이 무엇인지 설명 할 것이지만 걱정은하지 않겠습니다 DB 스캔 알고리즘은 각 지점을 방문하여 유형을 먼저 찾은 다음 유형에 따라 군집으로 그룹 점을 무작위로 점을 선택합시다 먼저 핵심 데이터 포인트인지 확인하여 핵심 포인트가 무엇인지 확인합니다 데이터 포인트는 포인트 주변에 있다면 포인트입니다 예를 들어 2 센티미터에 6 개의 점이 있으므로 M 점 이상 렌트 포인트의 이웃 우리는이 포인트를 핵심 포인트로 표시합니다 그것이 핵심 점이 아니라면 다른 점을 보도록하겠습니다

이 점이 핵심 점입니다 아시다시피이 동네에는 5 점만 있습니다 노란색 점이므로이 점은 실제로 어떤 점입니까? 인접 지점 인 경우 데이터 지점이 경계 지점 인 경계 지점 M 개 미만의 데이터 포인트 또는 B를 포함합니다 여기서 일부 코어 포인트에서 도달 할 수 있습니다 도달 능력은 그것이 핵심 지점으로부터 우리의 거리 내에 있다는 것을 의미합니다 노란색 점이 빨간색의 2 센티미터 부근에 있어도 그것은 적어도 6을 가지고 있지 않기 때문에 그 자체로는 핵심 포인트가 아닙니다

우리가 볼 수 있듯이 그 이웃의 포인트는 다음 포인트로 계속됩니다 또한 핵심 지점과 그 주변이 아닌 핵심 지점 및 그 주변의 모든 지점 다음 핵심 지점과 다음 핵심 지점을 볼 수 있습니다 핵심 포인트도 아니고 국경 포인트도 아니므로 이상 점 이상 점이 란 무엇입니까? 핵심 점이 아닌 점입니다 또한 우리가 계속 방문하는 핵심 지점에서 도달 할 수있을만큼 가까이 있지 않습니다 데이터 세트의 모든 포인트를 핵심 순서 또는 이상치로 레이블을 지정합니다

다음 단계는 인접하는 핵심 지점을 연결하고 동일한 지점에 배치하는 것입니다 클러스터는 하나 이상의 코어 포인트에 도달 할 수있는 모든 지점으로 형성됩니다 핵심 포인트와 모든 경계선은 단순히 모든 클러스터를 형성하고 찾습니다 이상 치들뿐만 아니라 DB 스캔이 왜 멋진 지 알아보기 위해이 내용을 다시 한 번 검토하겠습니다 꿀벌은 임의의 모양의 클러스터를 제한 할 수 있으며 심지어 클러스터를 찾을 수 있습니다 다른 클러스터 DB 스캔으로 완전히 둘러싸인 소음 개념 그 DB 스캔 위에 두 개의 특이 치가 있습니까? 많은 실제 문제에서 사용하기에 매우 실용적입니다 k와 같은 군집 수를 지정하려면 k를 의미합니다 hello와 이 비디오에 오신 것을 환영합니다

빠른 소개를하겠습니다 추천 시스템을 시작하겠습니다 사람들의 취향이 다를 수 있지만 일반적으로 유사점과 사람들이 좋아하는 경향이 있거나 그것을 보는 또 다른 방법은 사람들이 같은 범주의 것을 좋아하는 경향이 있다는 것입니다 또는 예를 들어 최근에 기계 학습 및 Python에 관한 책을 구입했으며 즐기 셨습니다 그것을 읽고 당신은 또한 데이터에 대한 책을 읽는 것을 즐길 가능성이 매우 높습니다 시각화 사람들은 또한 사람들의 맛과 비슷한 맛을 가지고 있습니다 그들은 그들의 생활에서 추천자 시스템이 당신이 좋아할만한 것을 예측하는 데 도움이되는 패턴과 유사한 행동 추천 시스템에는 많은 응용 프로그램이 있습니다 실제로 추천 시스템에 이미 익숙하다 예를 들어 아마존에 관한 책과 넷플릭스에 관한 영화를 제안하는 웹 사이트 Netflix의 모든 웹 사이트는 고객이 선택한 경우 특정 영화가 자주 시청되는 경우 Netflix의 추천 시스템은 영화가 점점 커지도록 보장합니다 또 다른 예를 매일 사용할 수있는 권장 사항 수 추천 엔진을 사용하여 어디에서나 추천하는 모바일 앱 Facebook 또는 LinkedIn과 같은 소셜 미디어 사이트에 적용하거나 적용 할 직업 정기적으로 친구 추천 추천 시스템을 사용하는 것이 좋습니다 예를 들어 뉴스를 볼 때 웹에서 경험을 개인화하십시오

플랫폼 웹 사이트 추천 시스템은 스토리 유형을 기록합니다 클릭 한 다음 어떤 유형의 앞으로 읽고 싶은 이야기가 많이 있습니다 이러한 유형의 예제는 매일 증가하고 있습니다 추천 시스템을 사용하여 얻을 수있는 주요 이점을 자세히 살펴보십시오 추천 시스템 사용의 주요 장점은 사용자가 그들이 관심을 가질 수있는 다양한 제품에 대한 광범위한 노출 이 노출은 사용자에게 지속적인 사용 또는 구매를 권장합니다 제품은 사용자에게 더 나은 경험을 제공 할뿐만 아니라 하지만 잠재적 인 수익 증가와 함께 서비스 제공 업체에도 혜택을줍니다 고객의 보안 향상에는 일반적으로 두 가지 주요 유형이 있습니다 추천 시스템 콘텐츠 기반 및 공동 필터링 각각의 차이점은 소비자의 진술 유형에 의해 요약 될 수 있습니다

예를 들어 콘텐츠 기반의 주요 패러다임을 만들 수 있습니다 추천 시스템은 성명서에 의해 구동됩니다 콘텐츠 기반 시스템이 사용자가 무엇을 파악하려고 시도하기 전에 내가 좋아했던 것 가장 좋아하는 항목은 공유 항목에 대한 권장 사항입니다 이러한 측면의 협업 필터링은 사용자의 말을 기반으로합니다 내가 좋아할 수도 있기 때문에 내 이웃들에게 인기있는 것을 말해 협업 필터링 기술은 유사한 사용자 그룹을 찾고 제공합니다 해당 그룹 내에서 비슷한 취향을 기반으로 한 권장 사항은 사용자가 유사한 사용자가 관심을 갖는 것에 관심이있을 수 있음 다양한 메커니즘을 결합한 하이브리드 추천 시스템이 있습니다

추천 시스템 구현 조건에는 두 가지 유형의 메모리 기반이 있습니다 전체 사용자 항목을 사용하는 메모리 기반 접근 방식을 기반으로하는 모델 추천 시스템을 생성하기위한 데이터 세트 이러한 기술의 대략적인 사용자 또는 항목 예에는 Pearson이 포함됩니다 상관 관계 코사인 유사성과 유클리드 거리 사용자 기반 모델은 학습하려는 시도로 개발 된 모델 기반 접근법 선호도 모델은 다음과 같은 기계 학습 기술을 사용하여 만들 수 있습니다 이 비디오에서 회귀 클러스터링 분류 등 콘텐츠 기반 추천 시스템을 다룰 예정이므로 시작하겠습니다 콘텐츠 기반 추천 시스템은 사용자 기반으로 아이템을 추천하려고합니다

프로필에서 사용자 프로필은 해당 사용자 기본 설정을 중심으로합니다 그리고 횟수를 포함하여 사용자 등급에 따라 모양이 맛 사용자가 다른 항목을 클릭했거나 해당 항목을 좋아했을 수도 있습니다 추천 프로세스는 해당 항목 간의 유사성을 기반으로합니다 품목의 유사성 또는 근접성은 우리가 이야기하는 내용을 말할 때 예를 들어 Gouri 태그 장르 등 4 개의 영화가 있으며 사용자가 처음 두 항목을 좋아하거나 평가하는 경우 항목 3이 장르 측면에서 항목 1과 유사하면 엔진은 또한 본질적으로 사용자에게 3 번 항목을 추천합니다 추천 시스템 엔진은 이제 컨텐츠 기반 추천 프로그램에 대해 알아 보겠습니다

작동 방식을 확인할 수있는 시스템 6 개의 영화 데이터 세트 만 있다고 가정 해 봅시다 이 데이터 세트는 사용자가 본 영화와 각 장르의 장르를 보여줍니다 예를 들어 배트맨 대 슈퍼맨은 모험 슈퍼 히어로에 있습니다 은하계의 장르와 보호자는 코미디 모험 슈퍼 히어로에 있으며 공상 과학 장르 z'm 사용자가 3 편의 영화를보고 평가했다고 가정 해 보겠습니다 지금까지 그녀는 10 점 만점에 2 점을 받았습니다 10-두 번째 영화 10에서 8에서 세 번째로 추천자의 작업 엔진은이 사용자 또는 세 가지 후보 영화 중 하나를 추천하는 것입니다 다시 말해, 사용자가 평가할 수있는 수준을 보호하고자합니다 그녀가 이것을 달성하기 위해 그들을 볼 수 있다면 세 개의 후보 영화 먼저 사용자 프로필을 작성하십시오

벡터를 생성하여 그녀가 이미 본 영화는 사용자 평가를 입력 한 다음 장르 영화가 사용되는 원 핫 인코딩 방식을 통해 영화를 인코딩 여기서는 기능 세트로이 세 개의 영화를 사용하여 이 두 행렬을 곱하면 영화 기능 세트 행렬을 나타냅니다 영화에 대한 가중치 기능을 설정하십시오 결과를 살펴 보겠습니다 이 매트릭스는 매트릭스를 장르하는 방법이라고도하며 시청 한 영화를 기준으로 각 장르에 대한 사용자의 관심사 이제 가중 된 re 레 마이 트릭을 고려할 때 활성 프로파일을 형성 할 수 있습니다 사용자는 기본적으로 장르의 가중치를 집계 한 다음 정규화 할 수 있습니다 사용자 프로필을 찾으려면 그녀가 슈퍼 히어로를 좋아한다는 것을 분명히 나타냅니다 다른 장르보다 더 많은 영화 이 사용자에게 추천하는 것은 적절합니다

사용자가 세척하지 않은 추천 영화 영화도 지금 우리는 어디에 위치 사용자에게 가장 적합한 것을 파악해야합니다 이 작업을 수행하려면 사용자 프로필 매트릭스에 후보 영화를 곱하면됩니다 가중 영화 행렬을 생성하는 행렬 그것은 우리가 지금 사용자 프로필과 관련하여 각 장르의 무게를 보여줍니다 이 가중치 등급을 집계하여 활성 사용자에게 가능한 관심 수준을 얻습니다 이 세 영화에서 본질적으로 우리가 정렬 할 수있는 추천 목록이 있습니다 예를 들어 영화의 순위를 매기고 사용자에게 추천하기 위해 은하계 히치하이커를위한 안내서는 우리 목록에서 가장 높은 점수를 받았으며 적절합니다

사용자에게 추천하기 위해 돌아와서 지금까지 논의한 내용을 요약하기 위해 사용자에 대한 예측 등급 콘텐츠 기반 시스템에서의 추천은 사용자의 취향과 콘텐츠에 기초 또는 모델과 같은 기능 세트 항목은 매우 효율적이지만 경우에 따라 예를 들어 작동하지 않습니다 드라마 장르에 영화가 있다고 가정하면 사용자가 본 적이 없어서이 장르는 프로필에 없습니다 따라서 이미 존재하는 장르와 관련된 권장 사항 만 가져옵니다 그녀의 프로필과 추천 엔진은 어떤 영화도 추천하지 않습니다 다른 장르이 문제는 다른 유형의 추천 시스템으로 해결할 수 있습니다 공동 작업 필터링 안녕하세요이 동영상에 오신 것을 환영합니다 협업 필터링이라는 추천 시스템 기술을 다루기 때문에 협업 필터링 시작은 제품과 사람들의 관심사 사이에 관계가 존재한다는 사실 추천 시스템은 협업 필터링을 사용하여 이러한 관계를 찾습니다

사용자가 좋아하거나 좋아할만한 제품을 정확하게 추천합니다 공동 작업 필터링에 관심이 있으려면 기본적으로 사용자 기반의 두 가지 방법이 있습니다 항목 기반 사용자 기반 협업 필터링은 사용자를 기반으로합니다 유사성 또는 이웃 항목 기반 협업 필터링은 항목 간의 유사성 먼저 사용자 기반의 직관을 살펴 보겠습니다 우리가 가지고있는 사용자 기반 협업 필터링의 접근 방식 추천을위한 활성 사용자 협업 필터링 엔진은 먼저 유사한 사용자를 찾고 활동적인 사용자 비가 패턴 협업 필터링 기초 기록 환경 설정 및 사용자가 선택한 사항과 유사 예를 들어 영화를 보거나 즐길 때 유사한 사용자가 높게 평가 한 후 이와 유사한 등급을 사용합니다

사용자는 자신이 가진 영화에 대해 활성 사용자의 가능한 등급을 예측할 수 있습니다 예를 들어 두 명의 사용자가 비슷하거나 이웃 인 경우 관심있는 영화와 관련하여 영화를 이웃이 이미 본 사용자는 알고리즘을 살펴보고 이 모든 것이 어떻게 작동하는지 간단한 사용자 항목 매트릭스가 있다고 가정합니다 5 가지 영화에 대한 4 명의 사용자 평가를 보여줍니다 활동적인 사용자는이 5 가지 영화 중 3 개를보고 평가했습니다 활동중인 사용자가 보지 않은 두 영화 중 어떤 영화가 첫 번째 단계는 활성 사용자와의 유사성을 발견하는 것입니다 다른 사용자들에게 우리가 이것을 잘하는 방법은 여러 가지를 통해 수행 할 수 있습니다 거리와 같은 다른 통계 및 빅토리아 기법 또는 유클리드 거리 피어슨 상관 관계를 포함한 유사성 측정 코사인 유사성 등을 사용하여 둘 사이의 유사성 수준을 계산합니다

사용자는 과거에 두 사용자 모두 평가 한 3 개의 영화를 사용합니다 유사성 측정에 사용하는 것과 상관없이 활성 사용자와 다른 사용자 사이의 유사성은 07 09 및 04 일 수 있습니다 이 숫자는 활성 사용자의 유사성 가중치 또는 근접성을 나타냅니다

데이터 세트의 다른 사용자에게 다음 단계는 가중치 등급을 작성하는 것입니다 우리는 방금 사용자의 활성 사용자와 사용자의 유사성을 계산했습니다 이전 슬라이드를 사용하여 가능한 의견을 계산할 수 있습니다 영화를 목표로하는 우리의 활동적인 사용자는 이것을 곱해서 달성됩니다 사용자 등급과의 유사성 가중치 두 후보 영화에 대한 사용자의 이웃 의견을 나타냅니다 실제로 추천을 위해 다른 사용자의 행동을 통합합니다

더 유사한 사용자의 평가에 더 많은 가중치를 부여합니다 활성 사용자는 이제 전체를 집계하여 추천 매트릭스를 생성 할 수 있습니다 세 명의 사용자가 첫 번째 잠재적 영화를 평가함에 따라 요금의 가중치 두 명의 사용자가 가중치 등급을 정규화해야하는 두 번째 영화를 평가했습니다 사용자를위한 유사성 지수의 합계로 나누어서 결과는 활성 사용자가 이들에게 제공 할 잠재적 인 평가입니다 다른 사용자와의 유사성을 기반으로 한 영화는 우리가 그것을 사용할 수 있음이 분명합니다 현재 활성 사용자에게 추천을 제공하기 위해 영화의 순위를 정합니다 사용자 기반 협업과 항목 기반 협업의 차이점을 살펴 보겠습니다 사용자 기반 접근 방식에서 필터링 권장 사항은 예를 들어 다음과 같이 공통된 환경 설정을 공유하는 동일한 이웃 사용자 1과 사용자 3은 모두 항목 3과 항목 4를 좋아했습니다

이웃 사용자와 사용자 1이 긍정적으로 평가 한 항목 1을 추천합니다 항목 기반 접근 방식의 사용자 3에서 유사한 항목이 사용자의 행동은 내용에 근거하지 않는다는 점에 유의하십시오 예를 들어 항목 1과 항목 3은 원래의 이웃 항목으로 간주됩니다 사용자 1과 사용자 2에 의해 긍정적으로 평가되므로 항목 1을 사용자 3에게 추천 할 수 있습니다 그가 이미 항목 3에 관심을 보였으므로 여기에 권장 사항은 사용자가 공동 작업을 선호 할 수있는 주변 항목에 따라 필터링은 매우 효과적인 추천 시스템이지만 Dana 희소성 데이터 희소성입니다

일반적으로 언급 된 협업 기반 추천자로서 제한된 수의 항목 다른 사용자로 인해 아이템을 해방 한 경우에만 아이템의 코 골기 예측 희소성 사용자 항목 데이터 세트에서 평가가 충분하지 않을 수 있습니다 유지할 또 다른 문제에 대한 적절한 권장 사항을 제공하는 것이 불가능합니다 마음은 콜드 스타트 ​​콜드 스타트는 어려움을 나타냅니다 추천 시스템에는 새로운 사용자가있을 때와 같은 프로필이 없으므로 그들에게 존재하지만 콜드 스타트는 새로운 아이템이있을 때도 일어날 수 있습니다 평가 확장 성을받지 못한 경우 사용자 또는 항목이 증가하고 데이터 양이 협업 필터링을 확장합니다 알고리즘의 증가로 인해 성능이 저하되기 시작합니다 유사도 계산 이러한 각 문제에 대한 몇 가지 솔루션이 있습니다

하이브리드 기반 추천 시스템을 사용하는 등의 범위를 벗어납니다 시청 해주셔서 감사합니다 당신 당신

Machine Learning Basics | What Is Machine Learning? | Introduction To Machine Learning

Questpond의 YouTube 채널에 오신 것을 환영합니다 오늘 우리는 배울 것입니다 머신 러닝의 기본 원리

작업을 시작하기 전에 매우 중요하고 귀엽고 감동적인 댓글을 통해 사람들이 우리 채널에 넣었습니다 구체적으로 우리는 Himal 선생님으로 시작할 것입니다 당신 같은 구독자 덕분에 우리는 그러한 비디오를 만들 수 있습니다 우리는 당신과 같은 독자들로 인해 존재합니다 반품 선물로 우리는 당신에게 평생 구독을 제공하고 있습니다 네, 잘 들었습니다 당신이 우리가 가르 칠 수있는 시간까지 우리와 연결되도록 무료

다음 의견은 Priya Bist에서 나옵니다 이 비디오는이 의견을 다루어야합니다 이 비디오에서는 머신 러닝의 기본 이해 기계 학습, 기계 학습 소개로 시작합니다 알고리즘 및 교육 데이터에 대해 이야기합니다 머신 러닝의 벡터에 대해 이야기 할 것입니다 머신 러닝의 모델은 무엇입니까? 기계 학습의 입력 및 출력을 정의하는 기능 및 레이블에 대해 이야기합니다 BOW, 즉 Bag of Words에 대해 이야기하겠습니다

우리가 무엇을 시작하자 기계 학습? 기계 학습 공부의 영역이다 우리가 원하는 곳 기계 인간처럼 생각하기 인간처럼 행동합니다 이 여행 기계에서 나오는 인간에게 또는 기계 만들기 인간처럼 생각하면 적어도 두 가지가 필요합니다 하나는 일종의 사고가 필요하다는 것입니다 인간은 생각할 수 있습니다 둘째 인간은 경험이 성숙 해지고 주변에서 배웁니다 학교에서 배우다 부모로부터 배우다 등등 어쨌든 우리는 기계를 넣어야합니다 기계가 생각하게 만드는 두 가지 두 번째는 우리는 학습으로 기계가 성숙 해지는 것을 볼 필요가 있습니다

기계의 사고력은 어떤 종류의 알고리즘 우리 알고리즘을 넣어 기계의 사고력을 만들어야합니다 상황에 따라 우리는 다른 종류의 알고리즘을 가질 수 있습니다 가장 먼저 기계 학습 알고리즘이 필요합니다 그런 다음이 알고리즘 훈련 데이터를 제공합니다 그들을 훈련시킬 것입니다 경험 부분은 알고리즘에 일종의 훈련 데이터를 제공함으로써 가져옵니다

하나는 알고리즘 사고입니다 그리고 훈련 데이터를 제공함으로써 우리가 할 수있는 경험 또는 성숙 된 힘 컴퓨터는 숫자 만 이해합니다 우리가 제공 할 때 숫자는 매우 쉽게 훈련됩니다 그러나 텍스트, 오디오, 비디오 및 이미지가 있다면 우리는 그것들을 변환해야합니다 형식의 종류 그리고 것들 번호 그 숫자는 벡터 머신 러닝 데이터가있는 경우 순수한 숫자는 매우 쉽습니다 그러나 우리가 어떤 종류의 텍스트를 가지고 있다면 오디오, 이미지 또는 어떤 종류의 문서 문서를 숫자로 변환해야하며 이것을 벡터라고합니다

벡터는 숫자의 모음입니다 우리는 알고리즘이 있습니다 우리는 알고리즘을 훈련하고 있습니다 그리고 그렇게함으로써 우리는 경험 알고리즘을 가지고 있습니다 이 경험 알고리즘을 모델이라고합니다 모델은 알고리즘입니다 어떤 종류의 경험으로 훈련 데이터에서 얻은 것입니다 모델은 가장 중요한 부분입니다 모든 머신 러닝 프로젝트

머신 러닝 프로젝트부터 시작하려면 가장 먼저 우리 마음에 와야한다 우리는 하루 종일 어떤 모델을 기대하고 있습니까? 모델 수단 훈련 된 알고리즘 어떤 종류의 훈련 데이터를 사용하여 기계를 훈련시킬 때 우리는 그 훈련 데이터를 기능 및 레이블 이러한 기능 및 레이블은 입력 및 출력입니다 기능 입력 라벨이 출력됩니다 기능이란 무엇입니까? 특징은 중요한 특성입니다 이것은 텍스트에서 추출되어 기계가 배우고 자하는 물건, 사물, 실체 또는 무엇이든 설명합니다 빨강, 둥글고 달콤하다고 말할 수 있습니다 이 레드, 라운드 및 스위트를 볼 때 기계에 알려줍니다 그것이 애플이라고 생각하십시오

원뿔 모양이 보이면 노랗고 나뭇결 그것이 옥수수라고 생각하십시오 노란색, 달콤하고 육즙이 보이면 망고라고 생각하십시오 피처는 입력이며 레이블은 기계가 해당 피처에 대해 생각하기를 원하는 것입니다 교육 데이터를 제공 할 때마다 기능 및 레이블 측면에서 제공해야합니다 논의했듯이 기능은 머신 러닝에서 매우 중요한 부분입니다

우리는 할 수있는 메커니즘이 필요합니다 교육 데이터에서 기능을 추출합니다 누군가는 텍스트 형식으로 교육 데이터를 제공합니다 오디오 형식 또는 비디오 형식 우리는 어떻게 든 그 텍스트에서 기능을 추출해야합니다 나중에 기능에 레이블을 지정해야하며 이는 기계에 대한 교육 입력이 될 것입니다 사용할 수있는 많은 시간이 테스트 된 메커니즘이 있습니다 기능을 추출합니다

사용 가능한 가장 간단한 메커니즘은 BOW-단어의 가방 단어의 가방 개념이다 또는 자유 텍스트에서 기능을 추출 할 수있는 프로세스 Bag of Words는 단순화 된 표현입니다 큰 텍스트 문서에 대한 단어 우리는 텍스트 두 줄 문장이 있습니다 오늘은 야채 요리하는 법을 배웁니다 야채를 요리하려면 먼저 씻어야합니다

이를 위해이 두 문장을 나타내는 중요한 단어를 추출 할 수 있습니다 오늘 추출했습니다 배우고 요리하십시오 야채와 세척 단어의 가방은 실제로 문법을 확인하지 않습니다 또는 단어의 위치를 ​​확인하십시오 중요한 단어를 추출하려고합니다 중 하나 과정은 그것은 중지 단어를 피하려고 시도합니다 우리는 그런 동사를 많이 가질 수 있습니다

문서의 표현을 단순화하지 못할 수도 있습니다 중지 단어를 적용 할 수 있습니다 우리가 우리의 의지, 방법, 방법을 추출하지 않는 것처럼 우리는 이것에 의해 정지 단어를 교차시킬 수 있습니다 우리는 그 두 개의 라이너 텍스트로부터 중요한 단어만을 추출 할 수 있습니다 Bag of Words의 일부 중 하나 우리가하는 일은 우리는 또한 아니오를 얻으려고 노력합니다

발생 이 문서에서는 요리가 두 번 발생했습니다 그래서 우리는 또한 아니오를 적어 두었습니다 발생 나중에 이 중요한 단어 모음은 숫자 즉 벡터로 변환 할 수 있습니다 기계에 공급 그런 다음이 기능에 라벨을 붙입니다 기계가 훈련받을 수 있도록 Bag of Words는 텍스트를 단순화 한 표현입니다

아니 발생 그러나 문법이나 단어가 처음에 오는 곳 또는 마지막에 오는 곳은 고려하지 않습니다 비디오의 끝을 알려줍니다이 비디오에서는 다음과 같은 중요한 기본 사항을 이해하려고했습니다 기계 학습, 알고리즘, 교육 데이터, 벡터, 모델, 기능, 레이블, BOW 등의 기본 사항 기계 학습의 다음 단계로 우리는 당신이 볼 것을 권장합니다 파이썬 비디오

화면에 우리는 번쩍였다 파이썬 1 시간의 튜토리얼 이 튜토리얼을 살펴보면 파이썬에 익숙해야합니다 대단히 감사합니다! 행복한 학습

From The Brain To AI (Neural Networks | What Is Deep Learning | Deep Learning Basics)

이 시리즈의 마지막 비디오에서 깊은 차이점을 논의 학습 및 기계 학습, 방법 및 방법 딥 러닝 분야는 공식적으로 태어나고 주류 인기 이것의 초점 비디오는 인공 신경에있을 것입니다 더 구체적으로-네트워크 구조

독수리, 전투기 동안 이 두 별개의 실체는 모두 수행 동일한 작업, 비행, 그들이 달성하는 방식 매우 다릅니다 전투기 매우 전문적이고 공학적입니다 매우 구체적인 기계 작업과 그 작업을 극도로 실행 잘 독수리, 생물 시스템 확실히 훨씬 더 복잡합니다 다양한 방법으로 가능 일반화 된 작업 이 비유는 차이점과 많은 유사점 우리의 두뇌와 딥 러닝 시스템

그들은 둘 다 임무를 수행 할 수 있지만 패턴 인식의 두뇌는 매우 복잡한 일반 시스템 다양한 작업을 수행 할 수 있습니다 딥 러닝 시스템은 설계되었지만 매우 구체적인 작업에서 탁월합니다 에 딥 러닝을 더 잘 이해하고 이 비유와 인라인 유지 비행, 기본으로 돌아가 봅시다 에 대한 한 시스템의 기본 원칙 이해하기가 훨씬 쉽다 더 높은 수준의 이해 그 응용 프로그램 및 기능 상기 시스템 우리가 비디오에서 논의했듯이 과거에 딥 러닝은 연결 분야, 부족 목표가있는 머신 러닝 뇌를 디지털 방식으로 재구성합니다

이제 우리가 반드시해야하는 두뇌를 디지털 방식으로 재구성 먼저 가장 간단한 디지털 재구성 뇌의 구성 요소, 뉴런 이것은 뉴런의 예술적 표현, 다극 뉴런이 정확해야합니다 있다 뉴런의 세 가지 주요 구성 요소 : 1) 소마, 이것은 '뇌'* 메타 *입니다 정보 처리 센터를 말하십시오 세포체로 구성된 뉴런의 그리고 핵 2) 축색 제, 이것은 길다 전달하는 뉴런의 꼬리 세포체와의 정보

3) 수상 돌기, 이것들은 뉴런에서 분기 팔 다른 뉴런에 연결하십시오 우리가 논의한대로 Neuromorphic에 대한 이전 비디오에서 계산에 따르면 뇌는 천억이 넘습니다 100 조 이상의 시냅스를 가진 뉴런 시냅스와 연결 다른 뉴런 우리가 생각한다면 극도로 감소하는 관점, 우리 두뇌를 하나로 간주 할 수 있습니다 거대한 신경망 점점 더 많은 것을 알지 못합니다! 따라서 왜 연결 주의자들은 시도에 너무 단단합니다 뇌를 재구성하고 긴급 속성이 등장합니다! 이제 물러서서 개별 뉴런, 이것은 우리 중 하나입니다 뉴런의 첫 사진 안으로 그려지다 19 세기 후반 스페인의 해부학자에 의해 산티아고 라몬이 카할 그는 소개 될 수있는 얼룩을 사용했습니다 조직에 현미경을 사용하여 그가 본 것을 그립니다

이제 당신은 여기에 무엇을 볼 우리가 방금 논의한 것은 세포체, 긴 꼬리와 수상 돌기 서로 이제이 그림을 뒤집어 봅시다 거꾸로하고 추상적으로 매핑 오른쪽에있는 뉴런의 구성 요소 측면 먼저 우리는 소마를 원으로 표시 한 다음 긴 줄이 오는 축삭 뉴런에서 마지막으로 여러 줄로 표현되는 수상 돌기 뉴런으로 연결됩니다 보시다시피 여기, 우리는 기본적인 방법을 목격하고 있습니다 딥 러닝 신경의 구조 89 00 : 02 : 52,670-> 00 : 02 : 56,360 그물이되었습니다! 에 대한 토론을 시작하려면 뉴런이 작동하는 방식으로 수상 돌기는 입력으로 간주 우리의 뉴런에 몸에서 수상 돌기 그들의 전기 활동을 찾으십시오 끝 그것이 다른 것에서 오는지 여부 뉴런, 감각 또는 다른 활동 그 신호를 세포체로 보내십시오

그만큼 그런 다음 soma는 이러한 신호를 받아 시작합니다 그들을 축적하고 특정 신호 임계 값, 축삭은 활성화, 시스템의 출력 본질적으로 매우 간단한 방법으로 뉴런의 정보 처리는 그냥 물건을 추가하십시오 그리고 그것을 바탕으로 하나 수상 돌기 활동을 축삭 활동의 수준 다시 말해, 더 많은 수상 돌기 더 자주 그들은 축삭이 얼마나 자주 활성화되었습니다 이제 우리는 기능의 추상적 이해 뉴런의 시스템에 더 추가합시다 신경망을 형성하기 시작합니다

같이 앞에서 언급 한 바와 같이 뉴런을 시냅스라고합니다 수상 돌기, 하나의 입력 뉴런은 축삭에 붙어 있습니다 다른 사람의 출력 라몬으로 돌아 가기 카잘의 첫 번째 뉴런 그림 당신은 그가 보고이 작은 것을 볼 수 있습니다 수상 돌기의 마비 여기가 다른 뉴런의 축색 돌기는 현재 뉴런의 수상 돌기 측면에서 우리의 추상적 인 그림의 우리는 이 연결을 원형으로 나타냅니다 마디 축색 돌기는 수상 돌기에 연결될 수 있습니다

강하게, 약하게 또는 그 사이의 어떤 것 지금, 우리는의 크기를 사용합니다 연결 노드를 나타내는 연결 강도, 연결 입력이 얼마나 활발한가 뉴런 연결은 출력 뉴런 수상 돌기 우리는 또한 이 연결 강도에 값을 할당하십시오 0과 1 사이, 1은 매우 강하고 0에 가까워지고 있습니다 앞으로 확장 될이 가치 비디오 참조 연결 무게로 보시다시피 우리는 더 많은 뉴런을 추가하기 시작합니다 많은 다른 입력으로 흥미로운 뉴런은 수상 돌기에 연결될 수 있습니다 각각 하나의 출력 뉴런 연결 강도가 다릅니다

이제 연결되지 않은 모든 것을 제거합시다 수상 돌기 및 또한 노드를 제거 우리는 연결을 나타내야했다 강도, 단순히 두께를 보여 무게를 나타내는 선의 그 연결 이제 뒤집어 가로로 다이어그램을 보면 현대 딥 러닝의 시작 신경망 아키텍처 이후 이 비디오의 시작, 우리는 우리에서 갔다 수조의 엄청나게 복잡한 뇌 연결과 미묘한 운영과 상호 연결성 신경망을 이해하기 간단 모델 우리 시스템은 여기 바로 그 모델입니다 그

뇌에서 신경으로 네트워크는 매우 축소 과정입니다 그리고 사이의 진정한 관계 생물학적 시스템과 신경 네트워크 은유적이고 영감을줍니다 우리의 두뇌, 제한된 이해 우리는 그들 중 엄청나게 복잡하다 수조 개의 연결과 많은 다른 유형의 뉴런 및 기타 병행하여 작동하지 않는 조직 그냥 같은 인접 레이어에 연결 신경망 주제에 다시 돌아와 우리가 사용하는 용어 이 네트워크를 설명하십시오, 그것은 사실입니다 그들은 여전히 ​​매우 유용합니다 큰 표현을 도출 마지막에 언급 한 데이터 양 이 시리즈의 비디오 그리고 지금 우리는 이것들의 구조가 어떻게 보 였는지 네트워크가 개발되었습니다 이 표현은 층

출력 노드를 생각하는 방법 그들이 노드의 합이라는 것입니다 그들을 강하게 활성화시키는 가장 강한 무게의 연결 예를 들어 5 개의 입력이 있다고 가정 해 봅시다 문자를 정의하는 노드 : A, B, C, D 그리고 E이 경우 출력 노드는 ACE에 의해 정의됩니다 여기 있습니다 저급에서 목격 표현, 개별 문자 높은 수준의 표현 단어를 포괄하고 계속 가면 에, 문장 등-이 단순한 예는 자연어의 기초이다 가공

편지를 넘어서 방법론은 모든 유형의 이미지의 픽셀 값에서 입력 오디오의 이미지 인식 연설을위한 연설의 빈도 더 복잡하고 추상적 인 인식 영양 정보와 같은 입력 의료 병력은 예를 들어 암의 가능성 지금 우리가 앞서 기 전에 더 높은 수준의 예측으로 확대 더 복잡한 초록의 능력 딥 러닝 시스템의 응용 이 다음 동영상 세트에서 시리즈, 우리는 포괄적 인 과정을 거칠 것입니다 예를 들어, 많은 새로운 것을 소개합니다 직관적 인 방법으로 용어와 개념 노드 네트워크의 이해를 돕기 위해 작업 그러나 이것이 당신이 가지고 있다는 것을 의미하지는 않습니다 더 배우기를 기다립니다! 원한다면 딥 러닝에 대해 더 배우고 실제로 현장에 대해 배우는 것을 의미합니다 이러한 인공 학습 알고리즘 뇌에서 영감을 얻어 기초 빌딩 블록 퍼셉트론, 멀티 레이어 확장 네트워크, 다른 유형의 네트워크 컨볼 루션 네트워크, 재발과 같은 네트워크와 훨씬 더 많은 다음 화려한

org는 당신이 갈 곳입니다! 안에 자동화를 통한 세계 알고리즘이 점차 대체 될 것입니다 더 많은 직업, 그것은 개인으로서 우리에게 달려 있습니다 우리의 뇌를 날카롭게 유지하고 여러 분야에 대한 창의적인 솔루션 문제와 화려한 플랫폼입니다 그렇게 할 수 있습니다 예를 들어 매일 매일 도전이 있습니다 다양한 코스를 다룰 수 있습니다 STEM 도메인 이러한 도전은 그들이 그리는 방식으로 제작 당신은 다음 새로운 것을 배울 수 있도록 직관적 인 개념 설명 특이점을 지원하려면 번영과 더 많은 것을 배우십시오 Brilliant, brilliant

org/로 이동하십시오 특이! 또한 처음 200 그 링크에가는 사람들은 20 %를 얻을 것입니다 연간 보험료 할인 혜택! 이 시점에서 비디오는 결론, 감사합니다 그것을 볼 시간을내어! 만약 너라면 그것을 즐겼다, 나를지지하는 것을 고려해라 Patreon 또는 YouTube 회원 자격 유지 이 도전이 커지고 있습니다! 우리를 확인 자세한 내용은 웹 사이트를 참조하십시오 더 많은 콘텐츠를 구독 한 입 크기에 대한 우리의 페이스 북 페이지 내용의 덩어리 안쿠 르였습니다 당신은 특이점을보고있다 번영과 곧 다시 ll겠습니다! [음악]

CXC Ecoverse eps.14: Can we actually get from Machine Learning to A.G.I.?, Peter Voss pt. 5

TIM : 세 파도로 두 번째 물결 인 딥 러닝의 길입니다 다리가 있습니까 세 번째 물결에? 아니면 딥 러닝은 막 다른 골목입니다 완전히 새로운 접근법이 필요합니다 인지 아키텍처를 얻는 방법? PETER : 저는 견실 한 견해를 가지고 있습니다 딥 러닝에서 얻을 수없는 인지 아키텍처에 또는 적어도 그것에 대한 명확한 길은 없습니다 기본 가정이 이루어지기 때문에 사용되는 기본 기술 더 나아가서 기술을 구축하는 데 필요한 기술, 너무 다르기 때문에 실제로는 없습니다

당신은 사람들보다 훨씬 나아질거야 깨끗한 슬레이트인지 아키텍처로 시작하는 훨씬 더 진보 할 것입니다 딥 러닝 시스템을 사용하려는 사람보다 그것을인지 아키텍처로 바꾸십시오 단지 사고 방식 딥 러닝 / 머신 러닝에 종사하는 사람들은 일반적으로 훈련, 사고 방식, 수학자와 논리학 자의 접근 그것이 그들이 문제를 보는 방식입니다 그들은 그것을 통계적 문제로 본다 또는 수학적 문제

실제로 용어로 오는 반면 인지 아키텍처를 사용하면 시작해야합니다 인지 심리학자처럼 생각함으로써 먼저인지가 무엇인지 이해해야합니다 지능이 무엇인지, 당신이 알고, 추론이 무엇인지, 개념 형성은 무엇인가 인지 심리학이라는 용어는 그 용어로 문제를 이해해야합니다 그런 다음 코드로 변환 할 수 있습니다 일반적으로인지 심리학자들은 아마 그들 대부분은 좋은 수학자가 아니에요 그 반대 그래서 일하는 사람들조차도 딥 러닝 / 머신 러닝에 매료되어 일반적으로 올바른 사람이 아닙니다 인지 아키텍처

How to build a machine learning credit risk model

이것이 모델 샵입니다 보시다시피 Modelshop은 웹 기반 응용 프로그램입니다

온 프레미스 또는 클라우드에서 고객 또는 AWS에서 또는 선택한 클라우드 공급자가 무엇이든 여러 모델을 호스트 할 수 있습니다 단일 인스턴스이며 권한이있는 사용자간에 공유 할 수 있으며 승인과 관련하여 안전합니다 우리가 오늘 할 일은 학생 대출을 상환하기위한 모델을 구축하십시오 그래서 시작하겠습니다 처음부터 거의 처음으로 내가 지금까지 한 유일한 것은 이 모델에는 일부 소비자 신용 정보, 일부 신용 보고서가 뿌려졌습니다 대출 결정을 내리는 데 분명히 매우 중요합니다

실제로 먼저 살펴 보겠습니다 여기에 신용 보고서가 있습니다 우리는 약간의 정보를 뽑았지만 드물게 분명히 우리는 신용 보고서에서 더 많은 정보가 필요합니다 이것보다 어떻게 그 변수를 추가하고 추가하기 시작합니까? 우리의 맞춤형 로직? Modelshop에서는 정말 쉽습니다 새로운 분야를 추가 할 수 있습니다

나는 FICO를 먼저 꺼내 보겠습니다 우리는 커플을 할 것입니다 어떻게 다른 크레딧 변수를 볼 수 있습니다 우리가 당기면 세부 사항을 살펴보면 실제로 우리가 기록한 특정 기록 나는 주제 기록에서 내려 가고 신용 보고서를 처리 한 사람이라면 누구나 보고서가 크다는 것을 알고 있습니다 성가신 문서와 물건을 꺼내는 것은 매우 어렵습니다

그래서 저는 국 문서로 무장을 제안하지만 일단 당신이 어디를 안다면 당신은 당신이 가고, 이러한 것들을 찾기가 매우 쉽다는 것을 알 수 있습니다 꽤 잘 지명되었습니다 이것이 우리가 찾고있는 것입니다 우리는 크레딧을 찾고 있습니다 우리가 그것을 찾은 후에 우리가해야 할 모든 것은 그것을 꺼내 넣어 우리의 계산에서 이것을 정수로 만들고 일단 저장하면됩니다

이제 새로운 FICO 점수가 모델에 추가되었습니다 우리는 누락되어 하나에 오류가 있습니다 정리할 수는 있지만 난 지금은 걱정하지 않아도됩니다 데이터를 외부로 매핑하는 것만이 아닙니다 신용 보고서를 사용하여 파생 상품 계산을 작성할 수도 있습니다

보고서에 포함 된 정보뿐만 아니라 자체 논리 구축하자 그런 사람 간단한 것을 해보도록하겠습니다 열린 무역 라인 그것은 단지 정수이기 때문에 정수가 될 것입니다

카운트 그렇다면 우리가 할 수있는 것은 당신이 말할 수 있습니다 너는 볼 수있어 코드 힌트가 있습니다 열려있는 것을 세어 봅시다 이제 저장하면 다시 한번 우리는 새로운 계산이 모델에 추가 된 것을 볼 수 있습니다

모든 기록 우리는 정말 쉽게 상호 작용할 수 있습니다 정렬 할 수 있습니다 우리는 할 수 있습니다 들어가서 걸러 내고 말하기 : "1"만 보여주세요 데이터와 상호 작용하고 새로운 신용 변수를 추가하는 것은 정말 쉽습니다

그 단지 한 조각입니다 우리는 우리가 원하는 신용 ​​변수 모델을 구축하려는 것이 아닙니다 애플리케이션 데이터와 병합합니다 Modelshop에 새로운 데이터를 어떻게 가져 옵니까? 한 가지 방법은 가져 오는 것입니다 여러 옵션이 있습니다

우리는 가져올 수 있습니다 파일, 데이터베이스, 웹 서비스 실제 생산 환경에서 데이터베이스에서 왔거나 여기에있는 모든 것이 실제로 REST API에 싸여 있지만 나중에 조금 더 다루겠습니다 따라서 REST API를 통해서도 새로운 정보를 보낼 수 있습니다 지금은 사용하자 응용 프로그램을 빌드하기 위해 Excel 파일에있는 일부 데이터 이 두 개의 탭이있는 Excel 파일입니다 응용 프로그램과 프로그램이 있습니다

우리는 많은 데이터가 깨끗하지 않지만 지금 당장 다른 구성 옵션 기본값은 잘 보이기 때문에 한 번에로드 할 것입니다 이제 두 개의 새로운 테이블을 추가하거나 데이터를 호출합니다 우리의 응용 프로그램에 목록 스위치를 통해 정확히 볼 수 있습니다 우리가 방금 신용 보고서를 보았던 것과 같은 형식이지만 이제는 어떻게 실제로 응용 프로그램과 신용 보고서 자체 사이에 링크를 작성합니까? 이를 위해 링크 마법사를 사용하면이 작업을 매우 쉽게 수행 할 수 있습니다

한번 다시 수동으로 구성하고 "내 연결하고 싶습니다 내 신용 보고서에 적용 "하지만 실제로 들어 와서 우리는 정말 쉽게 할 수 있습니다 고객 ID가 있다고합니다 그것들은 우리의 응용 프로그램 및 신용 보고서입니다 주목할 것은 동일한 헤더를 찾고 실제로 데이터 자체를보고 있지만 제안을 연결하고 클릭하면 완료됩니다 이 필드는 이제 파란색으로 표시되어 링크 필드임을 나타냅니다

우리에게는 새로운 필드를 삽입 할 수 있기를 바라고 있습니다 FICO 점수를 응용 프로그램에 가져 와서 할 수 있다고 가정 해 봅시다 정수와 지금 할 수있는 것은 고객 ID에 대해 동일한 코드를 말할 수 있다는 것입니다 힌트 그들의 FICO를 원하고 모델을 저장하고 이제는 FICO는 이러한 각 옹호자에 대한 신용 보고서에서 점수를 매 깁니다 또한 우리가 신용에서 변수를 추출하는 것에 국한되지 않은 것처럼 우리는 여기서 정보를 추출하는 것에 만 국한되지 않습니다

계산에 무엇이든 사용할 수 있고 실제로 모든 모델을 탐색 할 수 있습니다 이 점을 증명하기 위해 더 많은 링크를 통해 우리는 전에 모기지의 총 균형을 보자 전에 본 적이 없다 이번에는 카운트가 아닙니다 이제 통화가 필요하기 때문에 통화를 원합니다 금전적 금액으로 신용 보고서에 들어가 거래에 들어갈 수 있습니다 이제 우리는 모기지 인 모든 것을 찾고 싶습니다 합계, 찾기 하나를 반환, 모두 찾기를 반환 모든 것, 현재의 균형

그렇게 쉽습니다, 우리는 방금 신용에 들어갔습니다 우리의 무역 라인에보고, 우리는 아래에있는 것을 찾기 위해 그것을 부식시켰다 모기지와 우리는 현재 잔액을 요약했습니다 실제로 만들자 그것은 열린 모기지의 총 잔고이며 실제로 다른 부분을 추가 할 수 있습니다 여기서 말하는 기준은 열려 있습니까? 이제 저장합니다 이제 그 새로운 분야 우리는 또한 다시 정렬하고, 필터링하고, 이 모든 정보를보십시오 우리는 계속 구성 할 수 있습니다 이 모든 신용 변수를 가져 와서 프로그램과 연결하고 오퍼를 제공하지만 시간이 조금 걸리면 아마 약 한 시간 안에 할 수 있습니다 내가하고 싶은 것은 우리가 가지고있는이 모델의 버전으로 전환하는 것입니다 그냥 했어요 우리는 한 시간 정도의 시간을 보냈습니다

우리가 어떻게했는지 안내해 드리겠습니다 그래서 우리는 더 완벽한 모델입니다 가장 먼저 눈에 띄는 것은 대시 보드가 있다는 것입니다 대화 형 대시 보드 사용자를 변경할 수 있고 열 가지를 모두 볼 수있는 곳 우리가 실제로 그들을 위해 만들고 제안하는 방법을 살펴 보겠습니다 우리는이 10 개의 오퍼를 한 번에 생성하지만이 오퍼 각각은 에 동일한 비율 대출 금액이 있습니다 우리는 매달 지불 우리는 실제로 몇 가지 예측을하고 있습니다 잠시 후 손을 대면 대출을 결정하고 있습니다

승인 여부와 Google에서 제공하지 않는 경우 이유 또는 이유 이유 이 대화 형 대시 보드는 실제로 우리가 들어 와서 바꿀 수있는 정보를 보여줄뿐 아니라 무슨 일이 일어나고 있는지 이해하기 위해 즉시 업데이트 실제로 모델과 상호 작용하므로 어떻게 구축하고 있는지 살펴 보겠습니다 이 첫째, 신용 보고서를 다시 한 번 살펴 보겠습니다 실제로 이것을 조금 확장했습니다 이제 우리는 많은 거래를하고 있습니다

우리는 현재 작업과 관련된 많은 변수를 만들었습니다 학생 대출 잔액, 학생 대출 지불 금액이 있습니다 우리가 리파이낸싱 모델을하기 전에 언급했듯이 응용 프로그램의 초기 대출 금액은 학생 대출을 기준으로합니다 우리가 볼 수 있듯이 그들은 많은 것을 가질 수 있기 때문에 균형 재조정을 원할 수있는 공개 학생 대출 하나의 대출로 우리는 그들이 그렇게 할 수 있도록 우리는 이것을 초기로 사용할 것입니다 대출 금액 또한 결제가 이루어 지므로 새로운 결제 방식을 이해합니다 이전 상황과 비교해 보면 그들은 그들의 역사와 FICO 점수 이후로 파일에있었습니다 그래서 우리는 당겨 사용자에 대한이 모든 정보를 지금 어떻게 사용하고 실제로 사용하는지 그것? 계속해서 우리의 응용 프로그램 데이터를 다시 한 번 매우 봅니다

우리가 전에 보았던 것에이 정보는 우리는 학생 대출 잔액을 학점 보고서이지만 학교에 대한 정보도 만들었습니다 그 자체로 사용자로부터 전송되지만 우리가 한 일은 실제로이 정보를 공개 API의 데이터로 보완했습니다 주어진 학교의 등급에 관한 데이터가있는 학업 자격 증명 및 사람들의 추정치 매년 그 기관에서 얼마나 많은 동문을 졸업하고 우리는 추가 정보를 사용하여보다 구체적이고 관련성이 높은 결정 다시 애플리케이션 테이블을 다시 살펴 보았습니다 우리는 지금 우리 학교와 우리는 두 가지 맞춤 변수로 매핑했습니다 경력 중반에이 기관들 각각에 대한 중간 지불액 파생 된 변수를 만들고 학교를 지정하는 변수를 엽니 다

순위에 따라 클래스 그래서 상위 25는 1을 얻습니다 25에서 100은 2를 얻습니다 앞으로 그래서 우리는 이것들을 무엇에 사용하고 있습니까? 그것이 실제로 들어온 곳입니다 이 용어의 용어는 예측입니다

우리가 여기서하고있는 일은 경제적 인 생존 가능성을 바탕으로 렌더 오퍼를 만들고 싶습니다 그것이 주관적이고 다른 사람들과 다를 수 있기 때문에 제공 사람들은 대출을 더 빨리 갚고 싶을 수도 있고 더 많은 돈을 지불하지 않아도됩니다 한 달에 다른 사람들이 월별 지불액을 낮추고 더 많은 가처분 소득 또는 필요에 대한 더 많은 소득 사람들을 기반으로 인구 통계, 그들이 만드는 돈의 양, 나이, 나이 다른 환경 설정 이므로이 용어 예측 및 유형 예측은 그 정보를 알아 내려고 시도하십시오 우리가 한 것은 과거의 훈련 자료를 만들어 실제 사건이 우리는 과거에 낮은 FICO 점수를 가진 39 세가 왔다고 가정했습니다 저소득이 왔는데 이것이 고정으로 선택한 용어입니다 율

지원자와 유사한 사람들을 사용하여 그들이 선호하는 곳이 어디인지 그리고 그것이 우리에게 또 다른 것을 줄 수 있는지 알아 내십시오 게재중인 오퍼의 우선 순위를 지정하는 방법에 관한 데이터 포인트 우리의 가격에 영향을 줄 수 있습니다 우리가 그렇게 한 방식은 두 가지 머신 러닝 알고리즘을 훈련하여 머신 러닝을 도입했습니다 이 대출 과정에 인공 지능 Modelshop에서이 작업을 수행하는 것은 매우 간단합니다

분석 이 경우이 용어에 사용하려는 데이터를 가리킬 수 있습니다 우리는 역사적 훈련 데이터를 사용하고 있습니다 우리는 우리가 믿는 분야를 선택합니다 우리가 예측하고자하는 첫 번째는이 경우 용어 선택입니다 우리가 믿는 것은 예측적일 것입니다

우리는이 데이터 세트를 만들고 이 모든 항목은 본질적으로 대출이라고 예측할 수 있다고 생각했습니다 균형, 지불금, 학급, 연령, FICO 및 수입과 단순히 "train model"을 누르면 우리가 가진 통합으로 보냅니다 우리를 위해 모든 데이터 준비를 수행하고 모델을 훈련시키고 다시 돌아 오는 h2o AI 첫 번째 단어를 예측하는 데 가장 중요한 변수는 무엇입니까? 사람들이 선택합니다 그래서 우리는 학생 대출 잔액과 지불이 가장 중요한 가중치 그런 다음 몇 가지 통계를 얻습니다 훈련과 예측 모델이 얼마나 정확한지보고 약간 더 많은 시각적 효과를 제공하는 혼란 매트릭스를 얻습니다

우리가 무언가를 예측 한 횟수를 볼 수 있고 얼마나 자주 우리가 정확했고 얼마나 솔직하게 우리가 도착했는지 이 모든 정보를 제공하지만 가장 중요한 것은 훈련 된 모델을 얻는 것입니다 새로운 인스턴스를 예측하는 데 사용할 수 있습니다 응용 프로그램 내부에서 다시 한 번 우리는 우리가 취할 수있는 모델을 호출합니다 계산을 살펴보고 우리는 단순히 나에게 점수를 매기라고 말하고 각 항에 관심이있을 확률이 반환됩니다 그래서 120과 모든 제품은 고정적이거나 가변적이므로 이 둘 사이에있는 것보다이 사람은 가능성이 훨씬 높습니다 고정 변수에 관심이 있습니다 우리가 할 수있는 일은 우리의 제안 테이블로 가져 와서 살펴 보겠습니다 나는 우리 그룹으로 할 수 있습니다 더 쉽게 읽을 수 있도록 응용 프로그램 번호 그러나 지금 여기에서 우리는 우리의 각 하나에 대한 제안을 만든 것을 볼 수 있습니다 대출 유형뿐 아니라 모든 경제 정보를 요율표를 통해 요율을 도출 할 수 있습니다

해 보자 요율표 자체를 살펴본 다음 계산을 살펴 보겠습니다 대출 유형이있는 프로그램 테이블이 있습니다 대출 유형별로 각각 APR과 FICO 밴드가 있습니다 이 작품은 누군가가 720에서 850 FICO 사이에 있고 그들은 5 년 고정 기간에 관심이 있습니다 몇 가지 다른 규칙이 적용됩니다

따라서 최소 연령, 최소 크레딧이 있습니다 프로그램 테이블에서이 모든 정보를 사용하여 사람들이 요율이 무엇인지 1 위인지, 그 제안의 경제학은 그 다음에 승인되거나 거절되면 그럴 것입니다 실제로 찾아서 추출하는 계산을 살펴 보겠습니다 이 정보 요율 계산은 다음과 같습니다 당신은 그것을 볼 수 있습니다 프로그램을 의미합니다

그 프로그램은 바로 여기에 있습니다 우리는 이 프로그램들 각각은 우리가이 계산을 통해 수행됩니다 "프로그램에 들어가서 대출 유형이 내 프로그램과 같은 프로그램을 찾으십시오" 계약 기간과 두 FICO 구간 사이의 현재 대출 유형 " 지금 당신은 조금 다루기 어려울지도 모른다고 생각할지도 모릅니다 이해하다

Modelshop은 쉽게 알아낼 수 있습니다 의존성 엔진을 통한 이러한 사용자 정의하고 솔직한 강력한 논리 중 일부 그래서 우리는 실제로 그 계산을보고 모든 것을 볼 수 있습니다 그것이 의존하는 변수와 그것에 의존하는 모든 것 그것이 어떻게 모두 함께되는지에 대한 이해를 얻습니다 그래서 말할 수 있습니다 이것은 대출 유형을 기반으로합니다

이제 클릭을 통해 이익을 얻으려고합니다 대출 유형에 대한 이해를 통해 모델 전체를 탐색 할 수 있습니다 이것을 확인하십시오 이를 확인하기위한 정말 강력한 도구입니다 쉽고 이해하기 쉽습니다

우리가하는 일은 한 번입니다 우리는 FICO 밴드와 관련 용어를 찾아 프로그램을 찾았습니다 APR을 추출하면 누구든지 내장 라이브러리를 사용할 수 있습니다 익숙한 Excel 스프레드 시트 우리는 알아낼 재정이 있습니다 지불 그리고 우리는 그들의 현재가 무엇인지 말하고 할 수 있습니다 우리의 응용 프로그램으로 이동하고 우리가 가지고있는 학생 대출 지불을 얻을 신용 보고서에서 추출되었습니다

그럼 우린 할 수있어 그들의 월별 저축이 무엇인지 알아 내고, 우리가 얼마인지를 결정할 수 있습니다 대출 기간을 평균 연장 또는 삭감하면 우리가 말하기 전에 본 예측 자 이 특정 제품에 관심이 있으십니까? " 그들에게 맞는 제품을 보여주세요 마지막은 우리가 어떻게가요 이 결정에 대해? 이 사람은 승인되지 않았습니다 우리가있는 곳 앞에서 본 것처럼 거절 당하면 여기서 녹아웃 규칙을 볼 수 있습니다 녹아웃 규칙은 어떻게 정의됩니까? 우리는 지배하는 룰베이스를 열 수 있습니다 이 제안 표를보고 살펴보면 몇 가지 간단한 규칙이 있습니다 우리의 제안 각각에 적용되고 있습니다

자 한번 살펴 봅시다 샘플 하나 여기, 우리는 응용 프로그램에 들어가고, 나이가 들어갑니다 우리가 말하는 것은 프로그램 최소 연령보다 적다는 것입니다 프로그램 테이블에서 본 것을 기억하십시오 우리가 추출하는 것과 같은 방식으로 평가를 통해 해당 프로그램에서 최소 연령을 얻을 수 있습니다

해당 규칙이 실행되는 경우 연령이이 규칙보다 낮습니다 화재가 발생하면 해당 응용 프로그램이 거부됩니다 좋아요 그냥 터치하고 싶어요 몇 가지 다른 점 나는 이것이 간단한 데모 였음을 알고 있지만 우리는이 대화 형 대시 보드를보고 있습니다 여기에 매우 유용하지만 이것이 상호 작용하는 유일한 방법은 아닙니다 Modelshop 내부의 데이터로

지금까지 본 모든 것 REST API를 통해 노출 될 수 있습니다 그래서 나는 그것이 어떻게 생겼는지 보여줄 것입니다 지금 우리는 우리가보고있는 것에 국한되지 않습니다 새로운 데이터를 보낼 수 있습니다 데이터를 쿼리하고 필터링하고 방금 수행 한 모든 작업을 수행 할 수 있습니다 API를 통해 UI에서 보았지만 매우 쉽게 할 수 있음을 의미합니다

다른 시스템에 통합하면 프론트 엔드 웹 앱에 통합 할 수 있습니다 또는 다운 스트림 데이터베이스, 그것은 당신에게 달려 있고 완전히 유연합니다 그런 점 또한 이것은 엔터프라이즈 응용 프로그램에 실제로 잘 통합됩니다 그리고 엔터프라이즈 아키텍처

왜 우리가 우리의 모든 것을 관리 하는가 즉석에서 의존성이므로 무엇을 감사하고 이해하기가 정말 쉽습니다 여기에서 우리는 계산 중 하나에서 미니 버전을 보았습니다 여기서 의존성 측면에서 전체 모델을 볼 수 있으며 필터링 할 수 있습니다 이해하기 위해서 이제 이것은 정말 강력해야합니다 그 힘은 누구든지 쉽게 이해할 수 있어야합니다 큰 Excel 스프레드 시트 또는 코드 기반을 받았으며 몇 달 동안 거기에서 무슨 일이 일어나고 있는지 알아 내십시오 이렇게하면 들어가고 말하기가 정말 쉬워집니다 "이봐 요, 그 비율은 어떻게 계산 되나요?" 이제 찾을 수 있습니다

그것이 의존하는 모든 것과 그것에 의존하는 모든 것 또한 모든 성능을 모니터링하여 흥얼 거리는 모든 것을 모니터링합니다 특히 비효율적 인 계산을 통해 다운됩니다 누구든지 저장하는 데 10 초가 걸리는 Excel 스프레드 시트 처리 내가 말하는 것 우리는 이러한 모델을 프로파일 링하여 성능이 뛰어나고 병목 현상이 발생하지 않습니다 그것은 순수한 자바 응용 프로그램이므로 훨씬 더 성능이 뛰어나므로 Excel이라고 가정 해 봅시다

스프레드 시트이지만 Modelshop과의 차이점에 대한 예입니다 엔터프라이즈 용이 아닌 일부 도구 우리는 정말 확인하려고 가능한 한 간소화되었습니다 마지막으로, 모든 변경 사항은 모든 구성 변경 모델은 소스 제어에 체크인되며 돌아가서 이전 버전의 모델을 다운로드하여 시간 여행의 종류 또한 누가 무엇을 변경했는지 심사하고 볼 수 있습니다

언제 그리고 어떤 효과가 있었으며 이전 버전으로 되돌릴 수도 있습니다 경우에 문제가 발생하여 이전 버전으로 돌아 가야합니다 좋아, 내가 참여해 주셔서 감사합니다 Modelshop의이 짧은 데모 더 궁금한 점이 있으면 우리는 심층 데모 및 설명을 좋아하므로 언제든지 문의하십시오

질문이나 의견이 있으면 감사!

Deploying Deep Learning Models to the Edge | Data Center to the Edge | Episode 6 | Intel Software

안녕하세요 저는 메가 나 라오입니다

이것은 데이터 센터의 AI입니다 Edge 비디오 시리즈 이 에피소드에서는 심층 신경망을 배포하는 방법을 보여줍니다 가장자리 장치로 인텔 아키텍처 기반 CPU라면 통합 그래픽, 인텔 신경 컴퓨팅 상태 또는 FPGA 인텔 배포판을 소개합니다 OpenVINO 툴킷 및 Python 워크 플로우 가장자리에 응용 프로그램을 배포합니다 마지막으로 툴킷의 기능을 소개합니다 2 세대의 고정밀 추론 Intel Xeon 확장 가능 프로세서

내용을 자세히 살펴 봅시다 이 장에서 다룹니다 배포 프로세스에 대한 입력 고정 된 그래프 인 열차 모델입니다 우리는 인텔의 기능을 소개하여 시작 OpenVINO 툴킷 배포 해결되는 두 가지 주요 구성 요소 최신 최적화 및 추론 엔진입니다 Model Optimizer는 하드웨어 불가지론 적 중간 표현 파일

추론 엔진은 이러한 중간체를 도구 및 대상에 표현 파일 대상은 Intel 아키텍처 기반의 CPU이며 통합 그래픽 또는 신경 계산 상태 제공된 MKDLN, CLDLN 또는 Movidius 플러그인을 사용하십시오 그 추론 엔진 툴킷은 C ++ 및 Python을 모두 지원합니다 이 과정은 기본 워크 플로를 보여줍니다 런타임에 유추 할 파이썬 애플리케이션의 마지막으로이 과정에서는 인텔 배포판 사용 방법을 보여줍니다

모든 변형 양자화를 수행하는 OpenVINO 툴킷 부동 소수점 32 비트 모델을 n 번째로 변환 낮은 정밀도 추론을위한 8 개 최소 손실에서 더 나은 추론 속도를 제공합니다 정확성 데이터 센터에서 Edge까지 AI를 시청 해 주셔서 감사합니다 등록 할 링크를 확인하십시오 강의와 공책을 완성 할 수 있습니다 이 과정의 리소스에 나열되어 있습니다 다음 에피소드에서 나와 함께 방법에 대해 자세히 알아보십시오

선택 과목 수료증을 취득 할 수 있습니다

How to design a student performance prediction using machine learning

이 비디오에서는 ANNHUB 기계 학습 소프트웨어를 사용하여 중학생을위한 성과 예측 시스템을 설계 할 것입니다 우리는 Paulo Cortez와 Alice Silva의 작품에서 학생의 속성과 성적 (G1, G2)이 포함 된 데이터 세트를 사용합니다

머신 러닝을 사용하면 학생의 속성 및 기타 중간 학년 (G1 및 G2)에 따라 학생의 최종 성적 (G3)을 예측할 수 있습니다 이 응용 프로그램에서 ANNHUB는 기계 학습 모델을 교육하고 Windows 응용 프로그램에 배포합니다 데이터베이스에서 학생을 선택할 수 있습니다 각 학생마다 성별, 연령과 같은 고유 한 특성이 있습니다 과거 성과 (G1 및 G2 등급)를 기준으로 시스템은이 학생의 최종 성적을 예측할 수 있습니다

우리는 학생의 학습 / 연구 능력을 나타내는 학생의 속성을 조정할 수 있습니다 그러나 중간 학점은 학생이이 특정 주제의 지식을 어떻게 흡수하는지 나타냅니다 결과적으로이 중요한 정보를 결합함으로써 인공 지능을 사용하여이 학생의 성과를 정확하게 예측할 수 있습니다 예측 시스템이 예측 점수가 특정 범위 아래로 떨어지면 학생과 학교 모두에게 알릴 수 있습니다 따라서 학생과 학교 모두에게 유익합니다

학생들은 현재 상황을 파악하는 데 도움이되므로 더 나은 최종 결과를 얻기 위해 더 많은 노력을 기울일 수 있습니다 학교의 경우, 학생들이 과목에 어떻게 반응하고 교사가 정보를 제공하는 방식에 대한 통찰력있는 정보를 제공합니다 따라서 학교는 학생의 성공률을 향상시킬 수있는 솔루션을 찾을 것입니다 이 응용 프로그램은 또한 실패율과 재시험에 대처하기 위해 교직원 자원을 할당 할 계획을 갖도록 학교의 소중한 정보를 제공합니다 자세한 내용은 https://www

anscentercom을 방문하십시오

Bringing DevOps to Machine Learning | HPE ML Ops

우리는 일반적인 가용성을 발표하고 있습니다 HPE Machine Learning Ops HPE ML Ops, 기능 확장 BlueData EPIC 플랫폼 전체 기계 학습 수명주기

속도와 민첩성을 제공합니다 머신 러닝 라이프 사이클 DevOps가 수행 한 작업과 유사 소프트웨어 개발 샌드 박스 개발에서 분산 교육까지 배포 및 모니터링까지 생산에서 훈련 된 모델의 AI는 핵심 전략 이니셔티브 모든 기업에 관계없이 그들이 속한 업계의 진정으로 비즈니스를 변화시킬 수 있습니다 비즈니스 성과를 크게 향상시킵니다 이것은 AI 채택이라는 사실에서 분명합니다 거의 세 번 증가했습니다 지난 몇 년 동안 그러나 몇몇 주요 기술 회사를 제외하고 대부분의 기업은 우리가 부르는 것에 부딪칩니다 마지막 마일 문제로 모델을 생산에 도입

이것은 머신 러닝 때문입니다 기업 분야가 비교적 새로운 분야이기 때문에 Pre-DevOps 소프트웨어 개발과 매우 유사합니다 기계 학습 워크 플로우 부족 개발을위한 표준화 된 프로세스 테스트 및 배포 문제는 일반적으로 세 가지입니다 다양한 도구가 있습니다 언어와 프레임 워크 IT는 일반적으로 이러한 개발 환경을 설정합니다 각 사용 사례를위한 도구와 프레임 워크 그러나 이것은 의도하지 않게 장벽을 만듭니다 교육 환경에는 복잡한 분산 컴퓨팅 클러스터 때로는 특수 하드웨어가 필요합니다 GPU 등이 어렵습니다 설정하고 복잡합니다 관리하기 어렵다

둘째, 일관성이 부족합니다 배포 방법론 데이터 과학자들은 많은 시간을 보낸다 데이터 과학 라이프 사이클의 프론트 엔드 그들은 정말 정확한 모델을 만드는 데 집중합니다 일단 훈련 된 모델을 전달하면 생산에는 실제로 거의 없습니다 모델 성능 및 정확도에 대한 가시성이 없습니다 마지막으로 표준화 된 프로세스가 없습니다 어떻게 다른 협업 팀원들이이 프로젝트를한데 모았습니다 접근 방식과 같은 DevOps가 필요합니다 머신 러닝 수명주기

컨테이너화의 힘을 제공하는 HPE ML Ops ML 수명주기 데이터 과학자는 컨테이너화 된 환경을 가동시킬 수 있습니다 확장 가능한 컴퓨팅 클러스터 머신 러닝 툴을 선택하여 현대적인 개발과 훈련을 위해 모델을 배포 할 준비가되면 컨테이너화 된 엔드 포인트를 제공합니다 보안, 자동 확장,로드 밸런싱 다른 엔터프라이즈 급 기능 워크로드 변동성을 처리하는 데 필요합니다 HPE ML Ops는 극소수 중 하나입니다 제공하는 엔터프라이즈 급 솔루션 완벽한 엔드 투 엔드 ML 수명주기 관리

즉, 사용자가 구현할 수 있음을 의미합니다 지속적인 CICD 개발 워크 플로우 A / B 테스트뿐만 아니라 표준화 할 카나리아 테스트 프레임 워크 머신 러닝 개발 및 테스트 관련 프로세스 완벽한 모델 ​​및 데이터 거버넌스 모델 레지스트리를 사용하여 구현할 수 있습니다 계보 추적과 함께 감사 가능성, 설명 가능성 또는 모델의 해석 가능성 ML Ops로 가속화 할 수 있습니다 데이터 과학 프로젝트의 가치 실현 시간 데이터 과학 팀의 생산성을 향상시키고 ML 프로젝트에 대한 위험을 줄입니다 워크로드를 실행할 수있는 유연성 확장 가능한 다중 테넌트 환경에서 사내, 클라우드 또는 하이브리드 모델 중 하나입니다 (경쾌한 음악)

Intro to Machine Learning (ML Zero to Hero, part 1)

AI 머신러닝에 대해 많이 들어보셨을 거예요 지난 몇 달간 말이에요 AI 머신러닝에서 이용할 수 있는 기능에 관한 영상을 보고 동기부여를 받으셨을 수도 있어요 정확히 이게 뭔지 알고 계시나요? 이런 광고를 보고 코드를 작성하지만 의문이 들게 되죠 AI가 진짜로 하는 일이 뭘까요? 이에 관한 내용을 이번 영상 시리즈에서 다룰 거예요 머신러닝의 코드를 작성하는 게 어떤 건지 알려드릴게요 어떻게 색다르고 새로우며 흥미진진한 시나리오를 제공하는지도요 앱을 작성하는 데 도움이 되는 것이고 보다 사람처럼 작동하며 인공지능을 제공하는 거죠 저는 로렌스이고요 제가 이에 관하여 설명해드릴게요 시작에 앞서 많은 걸 알아야 할 필요가 없어요 그리고 파이썬 언어를 사용할 거예요 사용한 경험이 없어도 괜찮아요 이해하기 정말 간단하니까요 금방 익히실 수 있을 거예요 간단한 예시로 시작해볼게요 '가위, 바위, 보' 게임을 만든다고 해볼게요 사람과 이런 게임을 하는 건 매우 간단해요 어떤 아이라도 몇 분이면 익힐 수 있죠 이제 게임의 가장 기본적인 부분을 볼게요 사람들이 정말로 잘하는 부분이죠 바로 눈에 보이는 것을 인식하는 거예요 여기에 있는 이미지를 보세요 대부분 이미지를 보고 바로 알아볼 수 있죠 어떤 이미지가 바위이고 어떤 이미지가 보이며 어떤 이미지가 가위인지요 하지만 어떻게 프로그래밍해야 컴퓨터가 이를 인식할 수 있을까요? 손의 유형과 색상은 정말로 다양하다는 걸 유념하세요 가위를 내밀 때, 저 같은 사람은 엄지가 튀어나와있어요 가위를 내밀 때 엄지를 넣고 내는 사람도 있고요 코드를 작성한 경험이 있으신 분들은 바로 아실 거예요 이게 정말로 어려운 일이라는 걸요 수천수만 줄의 코드를 작성해야 할 수도 있으니까요 그냥 가위, 바위, 보를 하기 위해서 말이에요 이렇게 보이는 이미지를 컴퓨터가 인식하도록 하는 다른 방법이 있다면 어떨까요? 사람이 인식하는 것과 같은 방식으로 컴퓨터가 인식하면 어떨까요? 이것이 머신러닝의 핵심이며 인공지능이 추구하는 거예요 기존의 프로그래밍은 이렇게 되어 있었어요 예를 들어, 웹캠에서 들어온 데이터가 있고 이러한 데이터를 처리하는 규칙이 있죠 이러한 규칙은 프로그래밍 언어로 표현돼요 여러분이 작성하는 엄청난 양의 코드죠 그렇게 해서 이러한 규칙이 데이터를 처리하고 여러분에게 답을 주죠 바위로 인식할 수도 있고 보라고 인식할 수도 있어요 가위라고 인식할 수도 있고요 다이어그램을 좀 바꿔볼게요 프로그래머인 여러분이 규칙을 알아내는 것 대신에 데이터로 답을 주는 거예요 그리고 컴퓨터가 알아서 규칙을 알아내는 거죠 이것이 바로 머신러닝입니다 이제 저는 수많은 바위 이미지를 가지고 컴퓨터에게 바위가 이렇게 생겼다고 알려주는 거예요 그리고 보가 어떻게 생겼는지 가위가 어떻게 생겼는지 알려주는 거죠 그리고 컴퓨터가 패턴을 알아내도록 해서 서로 일치하는 것을 찾도록 해요 그러면 컴퓨터에서 가위, 바위, 보를 인식하는 걸 배운 거죠 이게 머신러닝을 사용하여 만드는 방법의 핵심이에요 패턴을 담고 있는 일련의 데이터를 제공하고 컴퓨터가 그러한 패턴을 배우도록 하는 거죠 가위, 바위, 보처럼 복잡한 걸 배우는 신경망을 작성하기 전에 더욱 간단한 예시를 보죠 여기에 있는 숫자를 보세요 X와 Y 값 사이에는 어떤 관계가 있어요 보이시나요? Y = 2X – 1라는 걸 알 수 있죠 답을 맞히셨다면, 어떻게 알아내신 건가요? Y 값이 2만큼 증가하는 걸 알아채셔서 그럴 수도 있어요 X 값은 1만큼 증가했는데 말이죠 그러니 Y = 2X이고 여기에 더하기나 빼기가 필요하겠죠 그다음에 X가 0일 때 Y가 -1인 걸 보셨을 거예요 그렇게 Y = 2X – 1라고 예상을 하게 되고 다른 숫자에도 이를 적용해보니 예상이 맞는다는 결론이 나온 거예요 이게 바로 모든 머신러닝이 작동하는 원칙이에요 한 번 볼게요 여기에 있는 전체 코드는 머신러닝 모델을 만드는데 사용할 수 있어요 숫자들이 서로 일치하는 걸 알도록 말이에요 아직 익숙하지 않은 부분들이 보여도 걱정하지 마세요 금방 익히실 수 있을 거예요 첫 번째 줄은 모델 자체를 정의해요 모델은 훈련된 신경망이죠 여기에는 아주 간단한 신경망이 있어요 이번 경우에는 단일 레이어로 표시된 keraslayers

Dense 코드죠 레이어는 단일 신경을 가지고 있으며 단위는 1로 표시하고 있어요 신경망에 단일 값을 추가할 거예요 X 값이죠 신경망에서 X에 맞는 Y를 예측할 거예요 그래서 input_shape가 1의 값을 가지게 한 거예요 모델을 편집할 때, 두 가지 함수가 있어요 loss와 optimizer죠 머신러닝의 핵심적인 부분이에요 머신러닝이 작동하는 방법은 모델이 숫자 사이의 관계에 대해서 추측하는 거예요 예를 들어, Y = 5X + 5라고 추측할 수 있죠 훈련을 할 때, 이를 계산할 거예요 추측이 좋은지 나쁜지는 loss 함수로 알아내는 거죠 그리고 optimizer 함수를 사용하여 다른 추측을 생성할 거예요 이러한 두 가지 함수를 결합하는 논리는 점점 더 올바른 공식으로 천천히 이끌어갈 거예요 이번 경우에는 루프를 500번 처리할 거예요 추측하고, 추측이 맞는지 계산한 다음에 optimizer 함수를 사용해서 추측을 개선하며 반복하는 거죠 데이터 자체는 X와 Y 배열로 설정되어있어요 그리고 서로 일치시키는 과정은 모델의 fit 메서드에 있죠 X를 Y에 fit 메서드로 맞추려고 500번 시도하는 거죠 완료가 되면 훈련된 모델이 나온 거예요 그러면 주어진 X에 대한 Y 값을 예측할 수 있죠 X가 10일 때 Y를 예측하는 코드를 사용하면 어떤 일이 벌어질까요? 답이 19라고 생각하시겠죠, 그렇죠? 하지만 그렇지 않아요 답은 189998 정도쯤 돼요 19에 가깝긴 하지만 올바른 답은 아니죠 왜 그렇게 되는 걸까요? 컴퓨터가 오로지 여섯 묶음의 숫자를 일치시키도록 훈련되었으니까요 여섯 묶음의 숫자들 사이는 일직선 관계로 보이긴 하지만 그 밖에 있는 값을 보면 일직선 관계가 아닐 수 있어요 일직선이라는 매우 높은 확률은 있지만 확신할 수 없죠 이러한 확률은 예측으로 이뤄져요 그래서 값이 19에 매우 가깝지만 정확히 19는 아니라는 거죠 영상 아래에 있는 링크를 통해 코드를 사용해보세요 직접 사용해보시는 거죠 머신러닝에서 자주 보게 될 거예요 이번 시리즈의 다음 영상에서는 이전에 배웠던 내용으로 더욱 흥미로운 문제에 적용해볼 거예요 컴퓨터 비전이죠 컴퓨터가 대상을 보는 방법을 가르치는 거예요 여기서 사용한 동일한 방식을 이용해서 말이죠 그럼 다음 영상에서 뵐게요 구독하는 거 잊지 마시고요 감사합니다!

How To Build A Machine Learning Model For Predictive Analytics Using Azure Machine Learning Stuido

이 비디오에서는 머신 러닝 모델을 구축하는 방법을 보여 드리겠습니다 Azure Machine Learning Studio를 사용한 예측 분석 그리고 그렇게하기 위해 실리카 불순물의 비율을 예측하는 예를 사용 부유 공장의 철광석 농축 물

그래서이 데이터 세트를 다운로드했습니다 실제 플랜트 데이터 및 실험실 품질 테스트 결과 따라서 이 데이터 세트를 업로드 한 사용자, 두 번째 및 세 번째 열은 품질입니다 철광석이 공장에 공급되기 직전의 철광석 측정 8 열까지는 품질에 영향을 미치는 가장 중요한 변수입니다 광석 농축 물 나머지 열은 다음과 같은 프로세스 데이터입니다

기둥 내부의 수평 및 공기 흐름으로 인해 광석 품질에도 영향을 미칩니다 그리고 마지막 두 열은 품질에 대한 실험실 측정입니다 그래서 여기서 목표는 실리카의 백분율 인 마지막 열을 예측하는 것입니다 철광석 농축 물 제가하려고하는 것은이 CSV 파일을 업로드하는 것입니다 Azure Machine Learning 스튜디오에 이를 위해 Azure Machine으로갑니다

Learning Studio 웹 사이트를 방문한 다음 로그인합니다 자, 가장 먼저해야 할 일은 내 데이터 세트를 가져 오는 것입니다 새로 만들기, 데이터 세트를 클릭 한 다음 로컬 파일에서 업로드합니다 그럼 내가 할게 내 데이터 세트를로드 한 다음 확인을 클릭합니다 자 이제 나는 새로운 실험을 만들 것이다

새로 만들기, 실험에 이어 빈 템플릿을 선택하겠습니다 좋아, 그래서 새로운 것을 만들 때 실험 내 기계 학습 및 데이터가있는이 새로운 웹 페이지를 얻습니다 여기 왼쪽에있는 탐색 도구와 오른쪽에있는 탐색 도구가 있습니다 속성 창 실험 이름을 드리겠습니다

알았어 그래서 이제 여기에있는 데이터 세트로 이동 한 다음이 데이터 세트를 드래그하여 캔버스에 올렸습니다 그런 다음 내 데이터 세트의 내용을 시각화 여기에서이 원을 클릭하고 시각화를 선택할 수 있습니다 그래서 당신은 이것들을 볼 수 있습니다 데이터 세트의 내용이며 여기에서이 열을 예측하려고합니다 과 여기에서 데이터 세트의 행 수를 볼 수 있습니다 자 이제 훈련하세요 이 모델에서는이 데이터 세트의 모든 열을 사용하지 않겠습니다

몇 개의 열을 선택하십시오 이를 위해 데이터 변환으로 이동 한 다음 여기에서 조작 할 수있는 모듈을 선택하겠습니다 데이터 세트의 열 그런 다음 데이터 세트를 열에 연결합니다 selector를 클릭 한 다음 여기에 속성 창에서 열 선택기를 시작합니다 날짜를 남기고 2 열에서 8 열을 선택하겠습니다 컬럼 4 5 6 & 7의 기류를 선택하십시오 1 열부터 7 열까지의 레벨을 선택한 다음 물론 예측하고자하는 열을 포함하겠습니다

좋아, 그럼 움직일 게 선택한 열에이 열이 표시됩니다 권리 그런 다음 확인을 클릭합니다 이제 다음으로해야 할 일은 내가 좋아할 머신 러닝 알고리즘을 선택하십시오 불순물 예측 이제 백분율은 카테고리 I가 아닌 숫자이기 때문에 이 문제는 분류 문제가 아니라 회귀로 간주되므로 기계 학습, 모델 초기화, 회귀 및 여기에서 의사 결정 숲 회귀 알고리즘

이제 저는 전문 데이터 과학자가 아닙니다 이 특정 회귀 모델을 선택할 구체적인 근거가 없으므로 데이터 과학자이거나 데이터 과학과 함께 일한 경우 알려주세요 의견 에서이 모델을 훈련시키는 가장 좋은 알고리즘은 무엇 이었습니까? 괜찮아 다음으로해야 할 일은 훈련에 80 %를 사용하도록 데이터를 분할하는 것입니다 이를 위해 분할 데이터 모듈을 사용하겠습니다 그런 다음 구성하겠습니다 데이터의 80 %를 왼쪽 출력으로 전송 한 다음 출력을 연결합니다 열 선택기에서 내 데이터 스플리터의 입력으로 자 이제 우리는 모델을 훈련 시켜서 기차 모듈을 검색하겠습니다

이제 우리는 이 모델을 훈련시키기 위해 데이터 세트의 80 %를 사용하고 있습니다이 왼쪽 출력을 연결하겠습니다 열차 모델의 입력에 연결 한 다음 기계 학습을 연결하겠습니다 열차 모델의 다른 입력에 대한 알고리즘 그리고 우리는 우리가 예측하고자하는 컬럼은 실리카 비율이라는 트레이너 집중해서 트레이너의 컬럼 선택기를 시작하겠습니다 그리고 여기에 예측하려는 열을 선택한 다음 확인을 클릭합니다 그리고 이제 훈련 후 모델이 어떻게 수행되었는지 확인하고 그 점수 모듈

점수 모델을 캔버스로 드래그합니다 이 모델이 불순물 수준을 예측할 수 있는지 테스트하기 위해 20 %를 사용합니다 아직 보지 못한 데이터 세트 섹션에 대해 20 %를 연결하겠습니다 점수 모델의 입력과 다른 트레이너의 출력에 입력 그리고 우리가 시각화하기 위해 평가 모델이 필요합니다 실적 측정 항목을 사용하여 점수 모델의 출력을 평가 모델의 입력

좋아, 그게 내가해야 할 전부 야 저장하겠습니다 그런 다음 실행을 클릭하여 모델 교육을 시작합니다 좋아, 그래서 훈련 내 모델이 완성되었습니다 이제 모델의 성능 메트릭을 보려면 평가 모델의 출력을 마우스 오른쪽 버튼으로 클릭하고 시각화를 선택하십시오 좋아 하나 여기서 눈에 띄는 것은 결정 계수입니다 모형의 예측 검정력을 0과 1 사이의 값으로 나타냅니다

모형은 아무것도 설명하지 않으며 1은 완벽하게 적합 함을 의미합니다 보시다시피 우리는 074을 얻었습니다 불순물의 수준을 예측하는 데 매우 좋습니다 그리고 여기에 나는 음수 로그 가능성에 대해 엄청나게 높은 숫자, 그리고 실제로 설명 할 수없는 평균 절대 오차, 따라서 데이터 과학자라면 당신은 우리에게 그것을 설명하고 싶을 수도 있습니다

이제 다음 단계는 게시하는 것입니다 이 모델은 웹 서비스이며 웹 서비스를 설정하기 위해 여기로갑니다 권장 옵션을 선택하십시오 이제 웹 서비스를 게시하면 그런 다음 모델 및 모델에 실시간 프로세스 변수를 보낼 수 있습니다 불순물 비율의 예측에 응답하고 예측에 대해 얼마나 확실한지 백분율로 보내십시오

여기에 웹 서비스 입력을 점수 모델에 연결 한 다음 모델이 실리카 농축 비율을 예측하는 법을 배워서 열에서 제거하십시오 알았 으면 저장하고 실행하겠습니다 그런 다음 웹 서비스를 배포하십시오 자, 이것이 내가 사용할 인터페이스입니다 모든 장치, 컴퓨터 또는 컴퓨터에서 기계 학습 모델과 통신 소프트웨어 조각 따라서이 인터페이스를 사용하여 모델을 수동으로 테스트 할 수 있습니다 공정 변수에 대한 데이터를 입력합니다

요청 / 응답으로 이동하면 여기에서이 인터페이스를 사용하면 플랜트의 PLC 또는 HTTP를 사용하는 에지 게이트웨이의 머신 러닝 모델 실험 계획안 게시 요청을 보낼 수 있습니다 여기 내려 가면 샘플 코드가 있습니다 C #, Python 및 R의 경우 올바르게 사용할 수 있습니다 클라우드에서 머신 러닝 모델과 대화 할 수 있습니다

당신의 의견을 듣고 싶습니다 시청 해 주셔서 감사합니다 아래 댓글 섹션에 대한 의견