Spreadsheet Understanding Using Statistics and Deep Learning

>> 안녕 저는 벤 존입니다 스프레드 시트 이해에 대해 이야기하겠습니다

두 개의 프로젝트 Jura와 Alex Polozov와의 공동 작업 인 ExceLient는 에머리 버거, 댄 바로우 스프레드 시트에 관한 것 수백만의 사람들이 사용한다는 것입니다 그들은 중요한 결정을 내리는 데 사용됩니다 재정적 결정, 경제적 결정 등과 같은 이 스프레드 시트 중 많은 부분에 실제로 오류가 있습니다 실제로 뉴스를 보면 Reinhart-Rogoff 스프레드 시트 하버드 경제학자가 개발 한 스프레드 시트는 긴축 정책을 정당화하는 데 사용 그리스 및 미국과 같은 국가를 포함합니다 Reinhart-Rogoff 스프레드 시트는 매우 복잡한 스프레드 시트는 부채의 역사 수백 년에 걸친 국가 Reinhart-Rogoff 스프레드 시트에서 찾은 것은 실제로 중요한 오류가 있었다 저자가 잘못된 결론을 이끌어 내도록 유도하십시오

이것의 핵심 메시지는 많은 사람들이 스프레드 시트를 사용하여 중요한 결정과 우리가하려고하는 것은 그들을 도울 스프레드 시트 사용자 스프레드 시트를 더 쉽게 이해하고 그들에게 더 나은 결정을 내 리도록 도와주십시오 먼저 ExceLient라는 첫 번째 도구부터 시작하겠습니다 내가 여기서 보여주는 것은 실제로 Reinhart-Rogoff 스프레드 시트 이 하버드 경제학자들이 처음 개발했습니다 특히 여기서 중요한 시트는 요약 시트입니다 여러 국가 미국에서 볼 수 있듯이 영국 등 24 개국

의 역사적 부채에 관한 정보 이들 국가는 경제 성장과 관련이 있습니다 이 스프레드 시트를 보면 매우 복잡해 보입니다 이 나라들처럼 미국에는 많은 데이터가 있습니다 에 대한 많은 데이터 행 1791 년에 미국에서 시작해 하지만 요약을 보면 당신은 왜 그것이 사용자로서 어렵다고 상상할 수 있습니다 이 스프레드 시트가 올바른지 아닌지를 이해합니다 기술에서 우리가 한 일 중 하나는 우리는 ExceLient라는 기술을 가지고 있습니다 구조를 매우 빠르게 이해합니다 통계를 사용하여 스프레드 시트의 특히이 버튼을 누르면 Reinhart-Rogoff 스프레드 시트의“Reveal Structure '' 색상이 정보를 인코딩 할 것입니다 사물에 대해 사용자에게 스프레드 시트에서 일어나고 있습니다

특히 회색은 데이터가 있음을 의미하며 일반 데이터이지만 회색은 시트의 일부 수식으로 참조됩니다 노란색은 특이한 요소이기 때문에 시트에있는 데이터 수식에서 참조되지 않는 이 프리젠 테이션에서 바로 보는 것은 이 데이터 범위는 어떤 공식에서도 사용되지 않습니다 좀 더 자세히 살펴보면 당신이 찾는 것은 그 공식입니다 여기 평균을 계산하는 실제로이 셀 범위를 평균에 포함시키지 않습니다 이것은 Reinhart-Rogoff 스프레드 시트의 버그입니다 특히 캐나다, 벨기에, 오스트리아 및 호주 평균적으로 계산되지 않습니다

사실, 그것은 잘못된 결론으로 ​​이어집니다 ExceLient와 함께하는 것은 매우 유용한 도구입니다 무슨 일이 일어나고 있는지 빠르게 이해 스프레드 시트를 작성하고 중요한 결정을 내립니다 상상할 수 있듯이 스프레드 시트를 만든 개인 및 원래 Reinhart-Rogoff가이 도구를 가지고 있었다면 그들은 이것을 매우 중요한 오류로 만들었을 것입니다 잘못된 결론으로 ​​이어집니다 우리는 또한 볼 수 있습니다 다른 시트 스프레드 시트 (예 : 미국) 이 구조를 밝히면 당신은 다른 색상을 다시 보여주는 참조 다른 열이 다른 방식으로 계산되고 있습니다

하지만 흥미로운 점은 우리가 여기 있다는 것입니다 본질적으로 우리는 의심 지수라고 부릅니다 이 특정 범위의 세포가 클릭하면 거기로 이동합니다 이 범위의 세포는 의심스럽고 여기 보시는 것은이 세포가 첫 번째 칸인 K7은 실제로 그 아래의 셀과 다른 공식 다시, 아주 빨리 스프레드 시트에서 버그를 발견하고 다시 버그를 찾을 수 있습니다 원본 스프레드 시트입니다

그래서 저자는 실제로 이해하지 못했습니다 괜찮아 이것이 ExceLient입니다 나는 당신이 그것을 시도하는 것이 좋습니다 실제로 온라인에서 사용할 수 있습니다

다른 기술이 있습니다 연구에서 우리가하려고하는 것 중 하나는 스프레드 시트에는 데이터가 모두 포함되어 있으므로 수식은 코드와 프레젠테이션입니다 인간과 같은 것 다른 사람과 의사 소통하려고합니다 따라서이 시트는 특히 이에 대한 예입니다 사용자에게 헤더가 있습니다

사용자는 다음과 같은 방식으로 데이터를 형식화했습니다 공백에 도움이되는 빈 행과 열이 있습니다 결과적으로 어디서 이 테이블의 시작과 끝은 실제로 완전히 명확하지 않습니다 따라서 프레젠테이션에는 명시 적이 지 않습니다 우리가 개발 한 것은 Jura 기술입니다 본질적으로 테이블을 찾으려고 노력하고 있습니다

주어진 시트는 기본적으로 임의의 경계입니다 Jura는 다음을 기반으로하는 기술을 사용합니다 모든 세포를보고 질문을하는 신경망 우리가 질문하는 신경망, 이 셀이 테이블의 1/4입니까? 우리가 가진 것은 능력이 있다는 것입니다 신경망이 어떻게 생각하는지 보여주기 위해 모서리와 우리가보고있는 것은 신경망이이 코너에 이 코너와이 코너는 모두 오른쪽 아래 모서리처럼 보입니다 그것이 파란색으로 인코딩되는 것입니다 여기 위 모서리는 왼쪽 위 모서리처럼 보입니다

그래서 그것이하려는 것은 전체 구조를 이해하는 것입니다 에 기초한 시트 개별 세포와 그것이 생각하는 것이 모퉁이입니다 모든 세포에 대한 전체적인 관점처럼 이해되면 우리의 기술 Jura는 기본적으로 테이블을 찾을 수 있습니다 그들이 찾은 시트에있는 모든 테이블을 보여주기 때문에 그리고 여기서 볼 수있는 것은 이것이 테이블이라는 것을 이해한다는 것입니다 예를 들어,이 특정 부분은 주석 인 테이블 Jura는 테이블의 일부로 계산하지 않습니다

각주와 비슷하기 때문에 의미가 있습니다 여기서 보여 드린 것은 서로 다른 두 가지 기술입니다 두 가지 기술을 사용합니다 통계 분석과 신경 네트워크 스프레드 시트를 이해하고 궁극적으로 사용자가 신속하고 효과적으로 사용할 수 있도록 그들의 스프레드 시트와 올바른 결론 시간 내 주셔서 감사합니다

Unsupervised Machine Learning: Crash Course Statistics #37

안녕하세요, 저는 Adriene Hill입니다 Crash Course Statistics에 오신 것을 환영합니다

마지막 에피소드에서는 Machine Learning을 이미 가지고있는 데이터와 함께 사용하는 방법에 대해 이야기했습니다 우리가 예측하고 싶은 범주 이미지에 핫도그가 있는지 여부를 알리기 위해 컴퓨터를 가르치는 것과 같습니다 또는 건강 정보를 사용하여 당뇨병 여부를 예측할 수 있습니다 하지만 때로는 레이블이 없습니다

때로는 존재하지 않는 레이블을 만들고 싶습니다 우리가 시험 및 숙제 성적을 사용하여 3 명의 다른 그룹의 학생들을 만들고자하는 경우 귀하의 통계 코스 유사한 학생을 그룹으로 묶은 경우 특정 검토를 통해 각 그룹을 타겟팅 할 수 있습니다 세션이 필요합니다 더 나은 성적으로 이끌 기 바랍니다! 그룹이 이미 존재하지 않기 때문에, 우리는 이것을 감독되지 않은 기계 학습이라고 부릅니다 우리는 모델의 피드백이 옳은지 여부를 판단 할 수 없기 때문에 우리 그룹을 비교할 "진정한"카테고리는 없습니다

이미 존재하지 않는 그룹에 데이터를 넣는 것은 다소 이상하게 보일 수 있지만 오늘날 우리는 주요 유형의 감독되지 않은 기계 학습 : k-means 및 계층 적 클러스터링 그리고 우리는 새로운 그룹을 만드는 것이 실제로 우리에게 얼마나 큰 도움이되는지를 알게 될 것입니다 소개 피자 가게를 소유하고 있다고 가정 해 보겠습니다 고객의 피자 먹는 습관에 대한 데이터를 수집했습니다 사람이 일주일에 주문하는 피자 수

그리고 피자에 걸리는 토핑의 평균 수 새로운 쿠폰 프로그램을 시작하고 3 그룹의 고객을 만들고 싶습니다 그들의 필요를 표적으로하기 위하여 주문 쿠폰을 만드십시오 어쩌면 2 대 1의 5 개의 토핑 매체 피자 일지 모릅니다 일반 치즈 피자 20 % 할인

또는 무료 파인애플 토핑! 그래서 k-means를 사용하여 3 개의 고객 그룹을 만듭니다 먼저 데이터를 플롯합니다 지금 우리가 알고있는 것은 우리가 3 개의 분리 된 그룹을 원한다는 것입니다 그래서, k-means 알고리즘이하는 일은 그래프에서 임의의 3 점을 선택하는 것입니다 대개 이것들은 세트의 데이터 포인트이지만 꼭 그런 것은 아닙니다

그런 다음, 우리는이 임의의 점을 우리의 3 그룹의 중심으로 취급합니다 그래서 우리는 그것들을 "도심"이라고 부릅니다 각 데이터 포인트 (검정색 점)를 가장 가까운 중심점 그룹에 할당합니다 이 지점은 그린 센터에 가장 가깝습니다 그래서 우리는 이것을 녹색 그룹에 할당 할 것입니다

가장 가까운 그룹에 각 포인트를 할당하면 이제 세 개의 그룹 또는 클러스터가 생깁니다 각 그룹에 구성원이 있으므로 각 그룹의 현재 중심을 계산합니다 그리고 이제 우리는 새로운 중심을 가지고 있습니다 우리는 모든 점을 할당하는 과정을 반복 할 것입니다 가장 가까운 중심으로 이동 한 다음 새 중심선을 다시 계산합니다

centroids가 "수렴"될 때까지 컴퓨터는 이것을 반복해서 할 것입니다 여기에서 수렴한다는 것은 중도와 그룹이 계속 변하는 것을 의미합니다 이 단계를 반복합니다 수렴하면 3 개의 그룹 또는 클러스터가 생깁니다 그런 다음 클러스터를보고 어떤 쿠폰을 보낼지 결정할 수 있습니다

예를 들어이 그룹은 매주 많은 피자를 주문하지 않지만 주문할 때 주문합니다 많은 토핑 그래서 그들은 "3 토핑 구매하기 2 개 무료"쿠폰을 좋아할 것입니다 간단한 피자를 많이 주문하는이 그룹은 "20 % 할인 된 Medium-2 topping-Pizzas "쿠폰 (이것은 아마도 파인애플 그룹 일 것입니다

실제로, 많은 것들이 없습니다 그 쌍은 파인애플과 치즈와 잘 어울립니다) 당신이 과학자라면, 건강 결과의 차이점을 보길 원할 것입니다 3 피자 주문 그룹 사이 많은 피자를 주문한 그룹이 콜레스테롤 수치가 더 높은지 여부

3 대신에 5 클러스터의 데이터를보고 싶을 수도 있습니다 그리고 k- 수단이 당신을 도울 것입니다 또한 크래시 코스 뷰어 5 클러스터를 만들 수 있습니다 그들이 싸울 수 있다고 생각하는 너구리와 그들이 주장하는 피자 조각의 수 일주일에 먹는다 이것은 실제 조사 데이터입니다

K 평균 클러스터링은이 5 가지 그룹을 만들었습니다 우리는이 친환경 단체가 많은 싸움을 할 수 있다는 확신을 가지고 있음을 알 수 있습니다 너구리 하지만 100 너구리? 아니 반면에, 우리는 또한 밝은 파란색 그룹을 볼 수 있습니다

그들은 너구리 싸움 능력에 대해 아마도 더 합리적인 기대를 가지고 있습니다 또한 매주 많은 피자를 먹습니다 어느 쪽이 나를 궁금하게하는지 우리가 가면 피자 배달 사람들을 도울 수 있을까요? 너구리들과 전쟁 할까? 마지막으로 보았던 감독 학습 기계 학습과 달리 계산할 수 없습니다 비교할 진정한 그룹이나 레이블이 없기 때문에 결과의 "정확도" 그러나 우리는 완전히 잃어버린 것이 아닙니다 실루엣 점수라는 한 가지 방법으로 우리가 얼마나 잘 맞는 지 결정할 수 있습니다 클러스터는 기존 레이블이 없어도됩니다

대략적으로 말해서, 실루엣 점수는 "응집력과 이산성"을 측정합니다 그 클러스터에있는 데이터 포인트가 서로 가깝다는 것을 말하는 멋진 방법 일뿐입니다 그러나 다른 클러스터의 지점과는 거리가 멀다 다음은 높은 silhoutte 점수를 갖는 클러스터의 예입니다 그리고 여기에 실루엣 점수가 낮은 클러스터의 예가 있습니다

이상적인 세계에서는 높은 실루엣 점수를 선호합니다 그룹 간의 명확한 차이 예를 들어, 막대 사탕과 필레 미뇽의 데이터를 설탕, 지방 및 단백질 함량은 두 그룹이 서로 아주 멀리 떨어져있을 것이며, 오버랩 – 높은 실루엣 점수를 얻습니다 그러나 필레 미뇽과 뉴욕 스트립 스테이크의 데이터를 클러스터링하면 두 그룹이 서로 가깝기 때문에 실루엣 점수가 낮을 수 있습니다 아마도 더 겹칠 것이다

데이터를 그룹으로 묶는 것이 유용하지만 때로는 다음과 같은 구조에 대해 더 알고 싶습니다 우리 클러스터 하위 그룹 또는 하위 클러스터가 있는지 여부 실생활 에서처럼 두 가지 그룹을 볼 수있을 때처럼 : 고기를 먹는 사람들과 하지마 그룹의 건강이나 신념의 차이점은 흥미로울 수도 있지만 고기를 먹는 사람들은 사람들과 같이 더 작은 그룹으로 나눌 수 있다는 것을 알아야합니다 붉은 살을 먹지 마라

이러한 하위 그룹도 꽤 흥미로울 수 있습니다 계층 적 클러스터링이라고하는 다른 유형의 클러스터링을 사용하면 계층 적 클러스터링 이러한 그룹과 하위 그룹의 구조 예를 들어,이 사랑스러운 개들을보십시오 이 개들을 그룹으로 묶기 위해 계층 적 클러스터링을 사용할 수 있습니다 첫째, 각 개는 자체 그룹으로 시작합니다

그런 다음 클러스터가 얼마나 유사한 지에 따라 클러스터를 병합하기 시작합니다 예를 들어,이 두 개의 개를 하나의 클러스터로 구성하고이 두 개의 개를 함께 사용합니다 다른 것을 형성합니다 이 클러스터들 각각을 "리트리버 (Retrievers)"라고 부를 수 있으며이 하나는 "테리어 (Terriers)"라고 부를 수 있습니다 작은 클러스터로 구성됩니다

이제 2 개의 클러스터가 있으므로 병합하여 모든 개가 들어갈 수 있도록합니다 하나의 클러스터 다시 말하지만,이 클러스터는 그 자체로 만들어진 서브 클러스터들로 구성됩니다 더 작은 서브 클러스터의 업 그것은 거북이입니다 나는 클러스터를 의미합니다

클러스터가 서로 어떻게 관련되어 있는지에 대한이 그래프를 덴 드로 그램 (dendrogram)이라고합니다 두 개의 클러스터가 합류하는 맹점격도가 높을수록 그 유사도는 낮아집니다 골든 리트리버와 컬리 코트 리트리버는 골든 리트리버와 케언보다 연결이 낮습니다 테리어 계층 적 클러스터링의 한 가지 강력한 응용 프로그램은 사람들의 하위 그룹을 찾는 것입니다 자폐증 스펙트럼 장애 – 또는 ASD

이전에는 자폐증, 아스퍼거 (Aspergers), 소아기 붕괴 장애 (Childhood Disintegrative Disorder, CDD) 공통된 특성을 공유하고 있지만 별도의 진단으로 간주되었습니다 그러나 최신 버전의 정신 장애 진단 및 통계 매뉴얼 – 또는 DSM -이 질환은 이제 다양한 수준의 단일 장애로 분류됩니다 따라서 자폐증 스펙트럼 장애의 스펙트럼 부분 ASD는 이제 다양한 특징에 적용됩니다 ASD는 이러한 넓은 범위를 다루기 때문에, 자폐증을 더 잘 이해하고 더 많은 것을 제공하기 위해 유사한 사람들의 집단을 창출하십시오 표적으로하고 효과적인 치료

ASD 진단을받은 모든 사람이 동일한 종류와 강도의 혜택을 누릴 수있는 것은 아닙니다 치료법 채프먼 대학교 (Chapman University)의 한 그룹은 ASD를 가진 사람들의 집단을 더 자세하게 바라 보았습니다 그들은 ASD 진단을받은 여러 사람들을 대표하는 16 개의 프로파일로 시작했습니다 각 프로파일은 8 개의 다른 발달 영역에서 0과 1 사이의 점수를가집니다

이러한 도메인 중 하나의 점수가 낮 으면 개선이 필요할 수 있음을 의미합니다 단지 2 개의 측정 값을 가진 피자 예제와 달리 – 피자 토핑 횟수와 # 주당 주문 피자 – 이번에는 8 번 측정했습니다 이렇게하면 클러스터 간의 거리를 시각적으로 나타 내기가 어려울 수 있습니다 그러나 아이디어는 같습니다 1 또는 2 차원에서 두 지점이 서로 가깝게 될 수있는 것처럼 서로 가까이있을 수 있습니다

8 차원 연구자가 16 개의 프로파일을 살펴본 결과, 8 발달 영역 점수 이 경우 16 개의 프로파일을 모두 가져 와서 각각의 "클러스터"에 넣습니다 우리는 각각 16 개의 클러스터를 가지고 있으며 각각은 하나의 프로파일을 가지고 있습니다 그런 다음 서로 가까이있는 클러스터를 결합하기 시작합니다

그리고 우리는 그것들을 결합하고 모든 프로필이 하나의 큰 클러스터에 들어갈 때까지 계속 진행합니다 여기에 덴 드로 그램이 있습니다 우리는 5 개의 주요 클러스터가 있고, 각각 작은 클러스터로 구성되어 있음을 볼 수 있습니다 연구팀은 이와 같이 보이는 레이더 그래프를 사용하여 각 클러스터의 서클에서 8 개의 도메인 점수 낮은 점수는 중심 근처에 있으며 원 가장자리 근처에서 높은 점수를 얻습니다

Cluster E라고 불리는이 메인 클러스터는 고 기능성으로 간주됩니다 DSM을 변경하기 전에 클러스터의 개인이 다음과 같이 진단되었을 수 있습니다 아스퍼거 야 레이더 그래프는 6 개의 원래 데이터 포인트에 대한 점수를 표시합니다 클러스터 E

약간의 차이점이 있지만 전체적인 패턴이 비슷한 그래서 클러스터 E는 덜 집중적 인 치료 계획으로 혜택을 볼 수 있지만, 다른 클러스터는 낮은 클러스터 D와 마찬가지로 점수가 더 집중적 인 치료의 이점을 누릴 수 있습니다 비슷한 경우의 프로파일을 작성하면 의료 제공자가보다 효과적이고 목표를 정하게됩니다 치료는 ASD 진단을받은 사람들을보다 효과적으로 도울 수 있습니다 한 개인의 보험에만 적용되는 경우 일주일에 7 시간의 치료가 필요하다고 말하면 가능한 한 효과가 있는지 확인하십시오

또한 연구자와 치료사가 일부 사람들이 왜 잘 반응 하는지를 결정하는 데 도움을 줄 수 있습니다 치료법 및 다른 것들은 그렇지 않습니다 지금까지 우리가 해왔 던 계층 적 클러스터링의 유형을 Agglomerative라고 부릅니다 또는 상향식 클러스터링 모든 데이터 포인트가 자체 클러스터로 시작하여 함께 병합되기 때문입니다

때까지 종종 Google은 데이터의 일부로 구조화 된 그룹을 보유하지는 않지만 여전히 데이터를 생성하려고합니다 비슷한 사람들이나 데이터 포인트의 프로파일 감독되지 않은 기계 학습 (Unsupervised Machine Learning)이이를 수행 할 수 있습니다 그것은 우리가 관찰 한 것들을 사용할 수있게 해줍니다 – 테리어의 초소형, 너구리와의 싸움 자신감 – 그리고 개 그룹을 만들거나 서로 비슷한 사람을 만듭니다

우리가 항상 사람들을 분류하고 싶지는 않지만 그룹으로 묶어서 사람들을 분류하는 것이 도움이 될 수 있습니다 피자에 대한 더 나은 거래, 또는 책 또는 더 나은 의료 개입에 대한 더 나은 제안 그리고 기록을 위해, 나는 온건하게 자신감있는 너구리 싸우는 피자를 돕기 위해 항상 행복하다 먹는 사람은 너구리와 싸운다 그냥 전화 해

지켜봐 줘서 고마워 다음에 또 봐

Supervised Machine Learning: Crash Course Statistics #36

안녕하세요, 저는 Adriene Hill입니다 Crash Course Statistics에 오신 것을 환영합니다

우리는 매칭 쌍 t- 검정부터 선형 회귀 분석에 이르기까지 많은 통계 모델을 제공합니다 그리고 대부분 우리는 이미 우리가 가지고있는 데이터를 모델링하는데 사용하여 추론을 할 수 있습니다 그것에 대해 그러나 때로는 미래의 데이터를 예측하기를 원합니다 누군가가 할 것인지를 예측하는 모델

대출에 대한 불이행은 은행 직원에게 큰 도움이 될 수 있습니다 그들은 아마 사람들이 왜 대출 채무 불이행을하는지 과학 논문을 쓰지만, 누가 할 것인지를 예측한다 많은 유형의 기계 학습 (ML)이 바로 그 역할을합니다 미래 결과를 예측하기위한 모델을 구축하십시오 그리고이 분야는 지난 수십 년 동안 폭발적으로 증가했습니다

감독 된 기계 학습 "고양이"로 분류 된 이미지와 같이 이미 정답이있는 데이터 또는 "고양이가 아니거나"회사 CEO의 현재 급여를 예측하기 모델에 잘못이 무엇인지 말할 수 있기 때문에 감독하에 있습니다 엄격한 규칙과 지침을 따르는 대신 기계 학습이라고합니다 인간으로부터 컴퓨터 (또는 기계)는 데이터로부터 일을하는 법을 배웁니다 오늘은 몇 가지 유형의 감독 학습 기계 학습 모델 인 Logistic 회귀 분석, 선형 판별 분석 및 K 인접 이웃 소개 당신이 microloan 회사를 소유하고 있다고 가정 해보십시오

귀하의 목표는 단기, 저리의 대출을 제공하는 것입니다 전 세계 사람들에게 소규모 비즈니스에 투자 할 수 있습니다 너는 모든 사람을 가진다 연령, 성별, 연례 등을 지정하도록 요청하는 신청서를 작성하십시오 소득 및 사업에 종사 한 해의 수

microloan은 기부가 아니며 수령인은 기부금을 지불해야합니다 그래서 너는 ~해야 해 누가 그럴 가능성이 가장 높은지 파악하십시오 귀사 초기에는 각 애플리케이션을 손으로 검토 한 후 그 결정은 누가 대출금을 갚을 가능성이 있는지에 대한 개인적인 경험에 근거합니다 하지만 지금은 당신이 처리 할 수있는 것보다 많은 돈과 지원자가 있습니다

당신은 모델 또는 알고리즘을 사용하여 이러한 의사 결정을 효율적으로 수행 할 수 있습니다 로지스틱 회귀는 선형 회귀에 대한 간단한 비틀기입니다 그것은 사실로부터 그 이름을 얻는다 발생하는 이벤트의 로그 확률 (log odds)을 예측하는 회귀 (regression)입니다 로그 확률은 어려울 수 있지만 일단 우리가 계산하면 몇 가지 간단한 계산을 사용하여 확률을 높여서 작업하기가 훨씬 쉽습니다

우리는 이것을 사용할 수 있습니다 개인이 자신의 채무 불이행 여부를 예측할 확률 보통 컷오프는 50 %입니다 누군가가 대출금을 채무 불이행 가능성이 50 % 미만일 경우, 우리는 그들이 돈을 지불 할 것이라고 예측할 것입니다 그렇지 않으면, 우리는 그들이 대출을 갚아야한다

우리 모델이 결코 예측할 수없는 데이터를 예측할 수 있는지 테스트 할 수 있어야합니다 전에 본 데이터에 대한 정답이 없습니다 그래서 우리는 우리의 데이터는 우리가 결과를 알지 못하는 "미래"데이터입니다 한 가지 간단한 방법은 데이터를 두 부분으로 나누는 것입니다

훈련 세트라고 불리는 우리 데이터의 첫 번째 부분은 우리가 사용하는 데이터입니다 우리 모델을 만들거나 훈련시키는 것 테스트 세트라고하는 다른 부분은 데이터입니다 우리는 미래로부터 오는 척합니다 우리는 모델을 훈련시키는 데 사용하지 않습니다 대신 모델이 얼마나 잘 작동하는지 테스트하기 위해 테스트 세트의 결과를 보류합니다

그 모델은 누군가가 대출금을 상환했는지 여부를 모른다 예측하다 그런 다음 이전에 무시한 실제 결과와이를 비교할 수 있습니다 우리는 혼란 매트릭스 (Confusion Matrix)를 사용하여이를 수행 할 수 있습니다 혼란 매트릭스는 실제로 어떤 일이 일어난 것인가 – 사람이 대출을 갚았는지 여부 – 모델 예측했다

이 행렬의 대각선은 모델이 올바르게 된 시간입니다 모델이있는 경우 그 사람이 채무 불이행 사실을 정확하게 예측 한 것을 진정한 긍정이라고합니다 "참된" 그것이 옳았 기 때문에 그 사람이 채무 불이행을했기 때문에 "긍정적" 모형이 정확하게 사람이 대부금을 갚을 것이라는 점을 예언 한 경우는 불린다

진정한 부정적인면 올바른 예측을했기 때문에 다시 "참", "부정적인" 그 사람은 불이행을하지 않았기 때문입니다 모델이 잘못된 경우를 거짓 네거티브라고합니다 모델에서 모델이 기본값이라고 생각한다면 기본값을 설정하지 않거나 False Positives로 설정합니다 현재 데이터를 사용하고 그것이 미래의 데이터 인 척하는 것은이 모델이 어떻게 수행되었는지를 볼 수있게 해줍니다

이전에는 보지 못했던 데이터로 모델의 정확도를 측정하는 한 가지 간단한 방법은 정확도를 계산하는 것입니다 정확성 올바른 분류의 총 수 – 우리의 진정한 긍정과 진정한 부정적인 – 나누기 총 건수로 나타냅니다 우리 모델이 옳은 경우의 비율입니다 정확성이 중요합니다 그러나 또한 매우 단순합니다

그것은 고려하지 않는다 다른 상황에서 우리는 다른 사람들보다 실수에 더 신경을 써야한다는 사실 여기에 모델의 정확도를 측정하는 다른 방법은 다루지 않지만 중요한 것은 많은 상황에서 우리는 정보를 정확도 이상으로 원한다는 것을 인식합니다 백분율 로지스틱 회귀는 미래를 예측하는 유일한 방법은 아닙니다

또 다른 일반적인 모델은 Linear입니다 Discriminant Analysis 또는 LDA LDA는 Bayes의 정리를 사용하여 우리를 돕습니다 데이터에 대한 예측을하십시오 누군가가 우리 주립 대학에 입학 할 것인지를 예측하고 싶다고합시다

그들의 고등학교 GPA에 빨간색 점은 들어가서, 녹색은 사람들입니다 몇 가지 가정을하면 GPA 분포를 추정 할 수 있습니다 그랬고, 받아 들일 편지를받지 못했습니다 귀하가 거주하는 주립 학교에 입학 할 것인지를 알고 싶은 새로운 학생을 찾으면, 우리는 베이 즈 규칙 (Bayes Rule)과 이러한 분포를 사용하여 들어올 확률을 계산합니다 아닙니다 LDA는 "어떤 카테고리가 더 가능성이 있습니까?"라고 묻습니다

GPA에 수직선을 그리면, 그 라인에서 우리가 추측 할 수있는 그룹이 더 높은 가치를 지니고 있습니다 이 학생 인 Analisa는 32 평점을 받았으므로 그녀가 들어올 것이라는 것을 예측할 수 있습니다 그것은 "잡아 먹음 (get in)"배포 아래에있을 가능성이 더 큽니다 그러나 우리 모두는 GPA가 모든 것이 아니라는 것을 알고 있습니다

SAT 점수를 보는 것도 어떨까요? GPA 점수와 SAT 점수의 분포를 보면 좀 더 많은 것을 얻을 수 있습니다 복잡한 LDA가 정말 도움이되는 곳입니다 우리는 스코어를 만들고 싶습니다 스코어 X를 호출합니다

GPA 및 SAT 점수 이와 같은 것 : 우리 또는 오히려 컴퓨터가 그것을 만들고 싶어합니다 입학 한 학생의 점수 X 값이 가능한 한 다를 수 있습니다 인정되지 않은 사람들의 점수 X 값 변수를 결합하여 점수를 최대로 나누는 점수를 만드는 특별한 방법입니다

두 그룹이 LDA를 정말 특별하게 만드는 것입니다 따라서 점수 X는 학생의 진학 여부를 나타내는 좋은 지표입니다 GPA와 SAT 점수 대신에 우리가 추적해야하는 숫자 하나가 두 개가됩니다 이 샘플에서는 내 컴퓨터가 올바른 수식이라고 알려 줬습니다 즉 GPA와 SAT 점수의 산점도를 취하여 단지 점수 X의 1 차원 그래프

그런 다음 배포본을 플로팅하고 베이 즈 규칙을 사용하여 새로운 학생, 브래드,이 학교에 들어갈거야 브래드의 점수 X는 8이므로 점수가 X 인 8, 당신보다 더 당신이 들어올 것 같지 않습니다 점수 X와 같은 점수를 만들면 많은 것들을 단순화 할 수 있습니다 여기에서는 두 개의 변수를 살펴 보았습니다 우리는 쉽게 그래프로 나타낼 수있었습니다

그러나 우리가 100 개의 변수를 가지고 있다면 그렇지 않습니다 각 학생 저를 믿으십시오, 당신은 당신의 대학 입학 상담 교사가 입학을하고 싶지 않습니다 그런 그래프에 기반한 결정 더 적은 숫자를 사용한다는 것은 평균적으로 컴퓨터가보다 빠른 계산을 할 수 있음을 의미합니다

그래서 5 백만 명의 잠재 학생이 LDA를 사용하여 입학 여부를 예측하도록 요청하면 단순화하면 작업 속도가 빨라집니다 우리가 다루어야하는 변수의 수를 줄이는 것을 차원 저감 (Dimensionality Reduction)이라고 부릅니다 "빅 데이터"의 세계에서 정말로 중요합니다 수백만 명의 사람들과 일하게 만든다 가능한 수천 개의 변수가 포함 된 데이터 요소가 필요합니다

그것은 종종 구글과 아마존과 같은 회사들이 가지고있는 종류의 데이터입니다 우리가 이야기 할 마지막 기계 학습 모델은 K-Nearest Neighbors입니다 K-Nearest Neighbors 또는 KNN은 데이터 포인트가 유사 할 것이라는 아이디어에 의존합니다 근처에있는 다른 데이터 요소로 이동합니다 예를 들어 골든 리트리버 그룹의 키와 몸무게와 그룹을 그려 봅시다 허스키 : 누군가가 우리에게 체이스 (Chase)라는 개를 키와 몸무게로 말하면 우리가 품지 않는 품종 우리의 그래프에 그래프를 그릴 수 있습니다 체이스와 가장 가까운 네 점은 골든 리트리버인데, 그래서 우리는 그가 골든 인 것 같아요

리트리버 그것은 K-Nearest Neighbors의 기본 아이디어입니다! 어떤 카테고리 -이 경우에는 개 유형 -이 있습니다 새로운 데이터 포인트 근처의 데이터 포인트가 많을수록 우리가 선택하는 카테고리입니다 실제로 그것은 그것보다 조금 더 복잡합니다 우리가해야 할 한 가지는 얼마나 많은 "이웃"데이터 포인트가 보일 것인가

KNN의 K는 각각에 대해 살펴볼 이웃 수를 나타내는 변수입니다 포인트 – 개 – 우리는 분류하고 싶습니다 체이스가 허스키인지 골든 리트리버인지를 알고 싶을 때, 4 개의 가장 가까운 데이터 포인트 따라서 K는 4입니다 그러나 K를 임의의 숫자로 설정할 수 있습니다

우리는 가장 가까운 이웃을 볼 수 있습니다 또는 15 가까운 이웃 K가 변함에 따라 우리의 분류 바꿀 수있다 이 그래프는 그래프의 각 영역에있는 점들이 어떻게 분류되는지를 보여줍니다 사용할 k를 선택하는 방법은 여러 가지가 있습니다

한 가지 방법은 데이터를 두 그룹으로 분리하는 것입니다 훈련 세트 및 테스트 세트 나는 데이터의 20 %를 취해 무시할 것이다 지금 당장 그런 다음 다른 80 %의 데이터를 가져와 KNN 분류자를 교육하는 데 사용하겠습니다

분류기는 기본적으로 어떤 그룹이 있을지 예측합니다 그것 우리는 k = 5를 사용하여 그것을 만들 것입니다 그리고 우리는이 결과를 얻습니다 : 파란색은 골든 리트리버를 의미합니다 그리고 붉은 색은 허스키를 의미합니다

보시다시피, 클래스 간의 경계는 하나의 직선 일 필요는 없습니다 그게 KNN의 한 가지 이점 그것은 모든 종류의 데이터에 적합 할 수 있습니다 이제 데이터의 80 %를 사용하여 분류자를 학습 했으므로 이제는 기타 20 % 이 20 % 테스트에서 각 데이터 요소의 클래스를 예측하도록 요청할 것입니다

세트 그리고 다시 정확도 점수를 계산할 수 있습니다 이 모델의 정확도는 6625 %입니다 그러나 우리는 다른 K 's를 시도하고 가장 정확도가 좋은 것을 골라 낼 수 있습니다

그것은 50의 ak를 사용하는 것처럼 보인다 우리를위한 스위트 스팟 k가있는 모델은 50은 허스키 대 골든 리트리버를 가장 정확하게 예측합니다 우리가 원하면 미지의 개 품종을 예측하기 위해 KNN 분류자를 만들기 위해 K 50 모델 매개 변수 (다른 숫자 일 수있는 k와 같은 변수)를 선택하면됩니다

우리가 여기서 보여준 것보다 훨씬 더 복잡한 방법으로 특정 데이터 세트를 사용할 수 있습니다 우리는 대안적인 방법을 사용하지 않을 것입니다 하지만 실제 모델을 제작할 계획이라면 찾아야합니다 기계 학습은 예측에 많은 초점을두고 있습니다 우리의 최신 데이터를 예측하기 위해서는 미래의 데이터를 정확하게 예측해야합니다

그리고 요즘 데이터는 엄청납니다 한 번 예상하여 데이터 당 25 QUINTILLION 바이트의 데이터가 생성됩니다 일 그리고 감독 된 기계 학습은 우리가 그 데이터의 강점을 활용하는 데 도움이 될 수 있습니다

우리는 모델을 가르치거나 모델을 가장 잘 구별 할 수있는 방법을 가르쳐 줄 수 있습니다 같은 단체는 대출을 갚을 것이고 그렇지 않은 그룹은 갚을 것이다 또는 시청하는 것을 좋아할 사람 The Good Place의 새 시즌 '과 그렇지 않은 시즌 우리는 항상이 모델의 영향을받습니다 온라인 쇼핑에서 새로운 쇼 스트리밍 Hulu에서 Spotify에 대한 새로운 노래 추천에 이르기까지

기계 학습은 우리의 삶에 매일 영향을 미칩니다 그리고 항상 더 잘 해낼 수있는 것은 아닙니다 지켜봐 줘서 고마워 다음에 또 봐