SAS Tutorial | Interpreting Machine Learning Models in SAS

[음악 재생] 안녕하세요 저는 분석 교육 컨설턴트 인 Ari Zitin입니다 여기 SAS에서

오늘은 튜토리얼을하겠습니다 모델 해석 능력 도구 활성화 SAS Viya의 Model Studio에서 문제는 모델 해석이 무엇이며 왜 그것을 사용하고 싶습니까? 그래서 스스로에게 물어볼 수있는 몇 가지 질문 모델을 만들 때 다음과 같은 질문이 있습니다 모델이 작동 했습니까? 우리는 모델의 결과로 무엇을 할 것입니까? 모델이 공정 했습니까? 이 질문에 대한 답을 얻을 수 있습니다 모델 해석 도구로 모델이 작동 했습니까? 모델 해석 도구를 사용할 수 있습니다 모델이 어떻게 생각하는지에 대한 직관을 제공하기 위해 데이터에 대해, 어떤 종류의 입력 목표를 예측하는 데 사용하고 있습니다 그리고 그 입력으로 무엇을하고 있는지 확인이 가능합니다 직관을 확인하고 모델이해야 할 일 또는 어떤 종류의 입력을 사용해야하는지, 실제로하고있는 것과 모델로 무엇을 할 수 있는지 같은 질문 일부 모델은 해석 가능한 경우에만 유용합니다

예를 들어 시도하고 변경하기 위해 모델을 구축하는 경우 비즈니스 프로세스, 모델이 제안하는 것을 제안하는 이유를 알고 싶습니다 비즈니스 리더십을 설명 할 수 있습니다 변경해야하는 이유 반대로, 당신이 모델을 만들고 있다면 응답 할 가능성이 가장 높은 고객을 찾으려고 메일 캠페인에, 당신은하지 않을 수 있습니다 모델 해석 가능성에주의하십시오 저는 항상 모델로 무엇을하고 싶은지 생각합니다 모델이 작동하는지 여부 다른 쪽, 모델 해석의 다른 쪽 모델이 공정하고 표준에 부합합니까? 그 규제 기관이 당신을 위해 할당 한? 사람들에게 신용 점수를 줄 때 그들은 그들이 뭘 잘못했는지 알아낼 수 있어야합니다 또는 더 나은 신용 점수를 얻기 위해해야 ​​할 일 더 나은 대출을 받으십시오 따라서 규제 요건이 있습니다

모델을 설명하는 방법에 따라 고객과 규제 기관에 제대로하고 있는지 확인하십시오 공정성 측면에서, 물론, 보호 된 분류를 사용하는 모델입니까? 또는 사람들이 예측하려고 노력하는 것에 대한 특성? 귀하의 모델이 차별적이거나 편향되어 있습니까? 모델 해석 성은 이러한 질문에 대한 답변을 제공합니다 모델이 생각하고있는 것을 말함으로써 그래서 무엇의 세부 사항에 들어가기 위해 모델 해석 성은 실제로 몇 가지 모델을 살펴보고 이러한 모델을 해석합니다 그래서 우리는 고전적인 물류로 시작합니다 또는 선형 회귀

로지스틱 회귀 분석을 생각해 보겠습니다 LOGIT가 있다면- 이것은 일종의 공식입니다 p 모자의는 베타 0 + 베타 1 x1 + 베타 2 x2와 같습니다 이 LOGIT 점수는-우리의 확률입니다 확률을 예측하려고합니다 입력을 기반으로합니다

아이디어는이 모델을 해석 할 수 있다는 것입니다 이 계수들이 베타 1, 베타 2- LOGIT 점수를 어떻게 변경하는지 알려주십시오 본질적으로 확률의 로그 확률입니다 x1을 바꾸면서 x1을 1 단위 씩 늘리면 확률의 로그인 LOGIT 점수를 증가시킵니다 따라서 1-p 모자를 뺀 p 모자의 로그가됩니다

LOGIT 점수를 베타 1 양만큼 변경합니다 기본적으로 우리에게 말하는 것은 로지스틱 회귀를 해석 할 수 있다는 것입니다 이 추정치를 사용하여 우리의 확률을 이것이 예측 된 확률입니다 머신 러닝에서 예측하려는 모든 것 알고리즘-예측 확률이 어떻게 변하는가 입력을 변경하면 그래서 이것은 우리에게 무엇을 알려주기 때문에 해석 가능합니다 이 입력을 변경하면 발생합니다 맥락에서 저는 항상 생각하고 싶습니다

누군가 대출을 신청하고 있고 왜 대출을받지 못했습니까? 그리고 우리는 잘 말할 수 있습니다, 당신의 x1 보유한 연체 크레딧 한도 특정 임계 값을 초과했습니다 대출에 대한 채무 불이행 가능성을 의미 특정 임계 값을 초과 했으므로 대출이 거부되었습니다 그러나 여기서 결론은 기본적으로 로지스틱 회귀는 기본적으로 해석 가능합니다 모델 우리가 생각하는 다음 모델은 근본적으로 해석 가능한 모델은 의사 결정 트리입니다

우리가 결정 트리가 있다고 생각하면 여기 잎이 있습니다 여기에 루트 노드가 있고 분할됩니다 우리는 거기에 갈 x1이 5보다 작다고 가정 해 봅시다 그리고 이것은 그렇습니다, 그리고 이것은 그렇습니다

그리고 우리는 여기 x2가 06보다 작습니다 그리고 이것은 그렇습니다, 그리고 이것은 그렇습니다 그리고 나는 전체 결정 트리를 그리지 않을 것입니다 x1을 따르는 사람들이 0

5보다 작다고 가정 해 봅시다 x2가 06보다 작 으면이를 1로 분류합니다 그리고 우리는이 사람들을 0으로 분류합니다 이 확률이 70 %라고 가정 해 봅시다 이것은 60 %의 확률로, 우리는 그것을 1로 분류합니다

우리는 결국 설명을 얻을 수 있습니다 이 빈에-우리가 그것들을 1로 분류했다고 해봅시다 기본 데이터를 상상하고 있다고 가정 해 봅시다 그래서 우리는 그들이 가고 있다고 예측하고 있습니다 대출금을 불이행 할 때 그들은 왜 우리에게 x1의 가치를 말할 수 있는지 묻습니다 0

5 미만이었습니다 x2의 값이 06 미만입니다 공유 한 사람들의 60 %가 대출의 불이행으로 인해 그래서 당신은 그 쓰레기통에 빠지고, 우리는 예측합니다 당신은 대출을 기본으로합니다 당신이 그것을 바꾸고 싶다면, 우리는 시도하고 조정할 수 있습니다

x1 또는 x2의 가치 연체 신용 한도처럼 다시 한번,이 결정 트리 근본적으로 해석 가능한 모델입니다 이 규칙 목록에서 읽을 수 있기 때문에 왜 우리는 우리가 한 방식으로 누군가를 점수 이제 몇 가지에 대해 생각해 봅시다 의 기본적으로 해석 할 수없는 모델입니다 신경망에 대해 생각한다면 신경망은 방정식을 형성합니다

여기서는 약간의 신경망 다이어그램을 그릴 것입니다 x1과 x2, x1, x2라고합시다 그리고 세 개의 숨겨진 유닛이 있다고 가정 해 봅시다 x1과 x2는 모든 숨겨진 장치에 연결됩니다 숨겨진 레이어가 하나만 있다고 가정하겠습니다

여기서 문제는 여전히 x1의 값을 변경하면 여기이 숨겨진 유닛에 영향을 미칩니다 이 숨겨진 유닛은 여기에 있습니다 결과가 바뀌는 방식 x2의 순간 값에 따라 숨겨진 단위마다 tanh w0과 같은 공식이 있기 때문에 더하기 w1 x1 더하기 w2 x2 보시다시피이 탄의 출력은 여기서 x2의 가치에 따라 우리가 x1을 얼마나 많이 바꾸는가가 아니라 우리가 보는 것은 공식처럼 보이지만 로지스틱 회귀와 같이 개별적으로 독립적으로 각 개인의 효과를 격리 우리는 실제로 어떻게 변화하는지 해석 할 수 없습니다 변수가 결과를 바꿀 것입니다 하루가 끝나면 신경망 단지 큰 공식입니다 그리고 모든 입력을 공식에 ​​연결합니다

그리고 그것은 예측을합니다 그리고 당신이 묻는다면, 예측은 어떻게 될까요? x1을 05로 변경하면 알 수있는 유일한 방법은 x1을 05 씩 변경합니다 모델에 다시 연결하면 정말 해석이 아닙니다 우리는 단지 모델을 말하고 있습니다

이것이 모델이 말하는 것이기 때문입니다 따라서 기본적으로 해석 할 수없는 모델입니다 다음으로 생각하는 것은 숲과 그라디언트 부스팅입니다 나는 단지 작은 다이어그램을 그릴 것입니다 숲은 실제로 결정 트리의 모음 일뿐입니다

저는 여러 가지 결정 트리를 그리는 중입니다 여기에 그들은 막대기 사람들처럼 보입니다 숲과 그라디언트 모두 향상 의사 결정 트리의 통합을 포함합니다 각 트리마다 자체 목록이 있지만 우리가 해석 할 때 우리가 해석 할 수있는 규칙, 우리는 더 이상 그것을 해석 할 수 없습니다 규칙 목록의 일부 조합 실제로 규칙 요약 목록을 제공하지는 않습니다

오히려 우리는 모든 확률을 평균화하고 있습니다 나무에 의해 생성됩니다 따라서 하루가 끝나면 이러한 규칙 중 어느 것도 모델을 스코어링하는 데 사용할 실제 규칙입니다 그것들의 수치 평균 또는 합병입니다 우리는 실제로 평균적인 설명을 할 수 없습니다 갑자기 모든 변수가 결국 예측에 중요하다 우리가 찾고 있던 나무에 따라 목표 우리는 평균화를 할 때 본질적으로 다른 변수를보고있다 또는 다른 경로

따라서 고유 한 규칙 목록이 없습니다 이유를 예측하거나 설명하는 데 사용할 수있는 당신은 당신이 예측 한 것을 예측했습니다 계속해서 소프트웨어와 데이터를 살펴 보겠습니다 우리가 사용할 것입니다 그래서 우리는 타이타닉의 데이터를 사용할 것입니다

타이타닉이 침몰했을 때 살아 남았습니다 우리는 본질적으로 역사적 정보를 가지고 있습니다 승객에 대해, 그들이 어떤 오두막에 있었는지, 몇 살인지 그들의 성별이었습니다 그리고 우리는 그것을 사용하여 예측하고 시도 할 것입니다 타이타닉이 추락했을 때 생존 여부 가장 먼저 할 일은 소프트웨어로 이동하는 것입니다

Chrome을 열고 SAS Viya로갑니다 SAS Drive로 이동합니다 Viya 홈페이지 그리고 데이터에 대해 조금 더 이야기하겠습니다 소프트웨어에 데이터를로드하면 사용하고 있습니다 SAS Drive에서 왼쪽 상단에있는 햄버거 메뉴를 클릭하겠습니다 응용 프로그램 표시 메뉴라고도합니다

하지만 보편적 인 이름 인 햄버거 메뉴는 세 줄로 모델 작성으로갑니다 이를 통해 SAS Model Studio로 이동합니다 SAS Model Studio에서 새 프로젝트를 만들겠습니다 새 프로젝트를 클릭하겠습니다

이 타이타닉 모델 해석 가능성 데모 (Titanic Model Interpretability Demo)라고합니다 빈 템플릿을 사용하고 데이터를 선택하겠습니다 이것은 타이타닉 데이터가 될 것이므로 Import로갑니다 로컬 컴퓨터에서 로컬로 가져옵니다 데이터 D, 워크샵, SAS, UA19 이 자료는 유효하다

아래에 링크가 있으므로 이 데이터를 직접 찾을 수 있습니다 Import Item을 클릭하여 메모리에로드합니다 작은 데이터 세트이므로 매우 빠릅니다 오, 실제로 테이블이 이미있는 영역을 알려줍니다 존재합니다 난 그냥 좋은 측정을 위해 교체합니다

아마 그럴 필요는 없었을 것입니다 테이블이 이미 메모리에 있었기 때문에 그러나 나는 오늘 일찍 이것을로드했습니다 확인을 클릭하겠습니다 계속해서 저장을 클릭하십시오 타이타닉 데이터로 프로젝트를 빌드합니다

그리고 그것은 즉시 우리를 데리고 시작 Model Studio에서 데이터 탭이라고 부르는 방금로드 한 데이터에 대한 정보 입력 내용에 대해 이야기하겠습니다 내가 제거하는 과정을 겪을 때 사용하고 싶지 않습니다 먼저, 우리는 예측 모델링을하고 있습니다 "목표 역할을 가진 변수를 지정해야합니다" 우리는 목표가 필요합니다 우리는 사람들의 생존 여부를 예측하고 싶습니다 타이타닉이 추락했을 때 얼어 붙은 북대서양 물에 빠졌습니다

클릭은 살아 남았습니다 역할을 입력에서 대상으로 변경하겠습니다 이제 입력을 통해 목표를 시도하고 예측하려고합니다 타입별로 정렬하겠습니다 실례합니다

역할별로 정렬하겠습니다 입력인지 아닌지 걱정하기 때문입니다 우리가 남길 수있는 ID 변수 key_ID의 경우 이것을 ID에서 키로 변경하겠습니다 이 키를 참조 키로 사용하기 때문에 데이터의 개별 행

key_ID 아래에서 Key를 클릭하겠습니다 또한 일부 변수를 거부하고 싶습니다 저는 착수와 양피지를 선택하고 아래로 스크롤합니다 보트는 이미 거부되었습니다 그리고 저는이 두 가지를 거절 할 것입니다

입력 역할에서 거부 됨 역할로 전환하십시오 우리가 관심을 갖는 5 개의 입력 변수가 남습니다 그래서 나는 이것을 리조트 할 것입니다 우리는 그 다섯 개를 모두 볼 수 있습니다 전부

우리는 성관계를 가졌으니 그것은 남자 나 여자입니다 나이가 있습니다 나이는 몇 살인 지에 대한 숫자 변수입니다 아르 요금이 얼마인지에 대한 숫자 변수 인 운임이 있습니다 그들의 티켓을 지불했다 범주 형 변수 인 pclass가 있습니다

아, 그리고 그것은 수준이 명 목적이라는 것을 알고 있으므로 그것을 받아들입니다 일등석 객실은 1 등입니다 2 등석 객실은 2 등급, 3 등석 객실은 3 등급, 가장 싼 오두막 그리고 형제 자매와 배우자, sibsp, 형제 자매 및 / 또는 배우자 수 당신은 온보드했다 그래서 나는 항상 이것을 당신이 1을 가진 것처럼 해석합니다

아마 배우자 일 것입니다 당신이 1 이상을 가지고 있다면, 나는 많은 사람들을 생각하지 않습니다 타이타닉에서 두 명 이상의 배우자를 데리고 왔습니다 데이터가 준비되었으므로 이제 파이프 라인 탭으로 이동하여 파이프 라인을 클릭합니다 간단한 예측 모델링을 구축하는 것부터 시작하겠습니다 파이프 라인

데이터, 하위 노드 추가,지도 학습을 마우스 오른쪽 버튼으로 클릭하십시오 의사 결정 트리를 작성하겠습니다 또한 데이터를 마우스 오른쪽 버튼으로 클릭하고 추가합니다 하위 노드,지도 학습, 그라디언트 부스팅 해석 가능한 모델 인 의사 결정 트리가 있습니다

해석 할 수없는 모델 인 그라디언트 부스팅 모델 그라디언트 부스팅을 클릭하겠습니다 우리는 상당히 흥미로운 것을 발견 할 것입니다 모델 해석 기능을 켤 수 있다는 것을 알고 계셨습니까? 한 번의 클릭으로 우리는 단지 글로벌 통역 성을 열 것입니다 PD 도표를 클릭하여 모형 해석 성을 켭니다 실제로 몇 번 더 클릭하면 나머지 모델 해석 도구 PD 플롯을 클릭하면 아래로 스크롤합니다

현지 통역 가능성 ICE 플롯을 선택하겠습니다 LIME을 켜겠습니다 덧붙여 설명하겠습니다 우리가 실제로 할 때이 모든 것의 의미 결과를보십시오 그러나 당신은 당신이 정말로하지 않는 것을 알 수 있습니다 클릭하는 것의 의미를 알아야합니다 켜십시오

이 모든 설정을 기본값으로 두겠습니다 파이프 라인을 실행하십시오 그것이 실행되는 동안, 우리는 결정의 결과를 볼 것입니다 우리가 그것을 해석 할 수있는 방법을보기 위해 나무 그러나 궁극적으로 그래디언트 부스팅 모델은 조금 더 잘 수행합니다 약간 더 나은 모델입니다

사용할 수 있기를 원하지만 우리 만 우리가 이해한다면 받아 들일 수있어 모델이 어떻게 작동하고 해석하는지 그래서 우리는 다양한 모델 해석 도구를 켰습니다 의사 결정 트리의 결과를 살펴 보겠습니다 그런 다음이 개별 모델에 대해 이야기하겠습니다 해석 가능성 도표 결과를보고 실제로 시도하고 만들 수 있습니다 우리의 해석

의사 결정 트리를 마우스 오른쪽 버튼으로 클릭하고 결과를 선택합니다 의사 결정 트리를 해석 할 때 실제로 결정 트리 다이어그램은 이것이 바로 트리 다이어그램입니다 전체 화면으로 확대하고 확대 해 보겠습니다 그래서 우리는 즉시 봅니다 섹스를 기반으로 한 분할이 있습니다

여기는 수컷, 여기는 암컷입니다 우리는 생존이 1이고 죽는 것이 0이라는 것을 알 수 있습니다 그래서 우리는 여성이 훨씬 더 남성보다 타이타닉 침몰에서 살아남을 가능성이 높습니다 왼쪽의 남성 통로를 따라 가면 525 세 남성의 경우 기본적으로 5 살 이상입니다 약 82 %가 타이타닉이 침몰했을 때 죽었다

그래서 이것은 우리의 직감과 일치합니다 타이타닉에 대해 역사적으로 살펴보면 1800 년대 후반과 1900 년대 초에는이 철학이 있습니다 배가 가라 앉자 그들은 여자와 아이들을 먼저 구했습니다 이것은 당신이 여자가 아니고 아이가 아닌지를 나타냅니다 죽을 확률이 훨씬 높다 보트에있는 다른 사람들보다 따라서 전체 트리 다이어그램을 계속 해석 할 수 있습니다

그렇게하는 대신 결과로갑니다 Gradient Boosting 노드에서 실제로 의사 결정 트리 노드의 결과를 닫습니다 그라디언트 부스팅을 마우스 오른쪽 버튼으로 클릭하고 결과를 선택합니다 그래디언트 부스팅의 요약 결과를 얻습니다 모델이 실제로 얼마나 잘 수행했는지 알려줍니다 이 오류 그림과 같은 것들은 훈련 데이터, 검증 데이터 및 테스트를 보여줍니다 데이터

기본적으로 이러한 데이터의 평균 제곱 오차 나무 수의 함수로 모델에 나무를 더 추가 할 때 우리는 더 나은 성능을 얻습니다 그래디언트 부스팅 모델이 더 좋습니다 개별 의사 결정 트리보다 여기에 하나의 나무 그러나 더 이상 트리 다이어그램이 없습니다 이 모든 노드 결과를 스크롤하고 검색 할 수 있습니다

내 마음의 내용에, 나는 나무 다이어그램을 찾을 수 없습니다 존재하지 않기 때문입니다 이제 모델로 가야합니다 있던 해석 성 결과 이 모든 모델 해석 성을 켜면 생성됩니다 도구 모델 해석을 클릭합니다 부분 의존성 플롯으로갑니다 이제부터 살펴 보겠습니다 몇 가지 설명을 드리겠습니다

오른쪽에는 약간의 요약 설명이 있습니다 우리가 줄거리에서보고있는 것의 이것이 알림으로 유용하다고 생각합니다 하지만 때로는 이런 것들을 배울 때 이 자동 생성 텍스트는 약간 형식적입니다 그래서 나는 당신에게 방법에 대한 일종의 설명을 줄 것입니다 부분 의존도에 대해 생각합니다 그리고 우리는 그것들을 어떻게 만드는지 이야기 할 것입니다

우리가보고있는 것은 평균적으로 전체 데이터 세트에서 여성을 예측합니다 생존 확률 066 % 따라서 생존율이 66 %입니다 남성의 경우 평균 21 %의 생존 확률을 얻습니다 나이가 아닌 연속 변수 이산 변수, 우리는 지속적인 예측을 얻습니다 연령에 따른 다른 평균 예측에 대해 우리는 15 세 미만의 사람들에게 우리는 그들이 생존 할 가능성이 훨씬 높다 15 세 이상의 사람들보다 50 세 이상이면 차가운 북대서양에서 살아남을 수있는 기회 우리의 직관과 일치하는 꽤 내려갑니다 아이들을 먼저 구하고 특정 연령 이상의 사람들을 구했습니다 단순히 수영 능력이 없다 차가운 물에 아주 오랫동안

결과를 얻은 다음 질문을받습니다 이 결과를 어떻게 구성합니까? 실제로 이것을 생성하기 위해 무엇을 했습니까? 실제로 소프트웨어를 빨리 최소화하겠습니다 약간의 그림을하기 위해서 우리가하고있는 일을 설명하기 위해 잠깐만 나는 여기에 조금 엉켜있다 부분 의존도를 만들 때 전체 데이터 세트가 있다고 상상해보십시오 그리고 이것이 나이와 같은 입력이라고 가정 해 봅시다

그리고 이것들은 다른 모든 입력, 즉 섹스 등입니다 그리고 여기 우리가 될 것입니다 우리가하는 일은 예측하고 싶어 모든 원래 데이터 세트 이것들은 원래 숫자입니다 그런 다음 플러그인합니다 우리가 부분적으로 의존하고 싶다고 가정 해 봅시다 음모, 나이에 PD 음모

따라서 플러그인 연령은 1 인당 1입니다 우리는 상상하고 있습니다 타이타닉이라고 해봅시다 성인으로 채워지는 대신 우리는 1 세의 타이타닉을 보냈습니다 그러나 그들은 모두 같은 사람들이었습니다

그들은 모두 같은 특성을 가졌습니다 같은 섹스, 같은 클래스, 그들은 같은 돈을 보냈다 운임에 우리는 1 세인 모두에게 목표에 대한 예측 확률은 얼마입니까? 이 숫자를 모두 생성하므로 예측 열에 있습니다 여기에서 평균을 구합니다 모든 예측의 평균을 구합니다

이것이 부분 의존도의 요점이됩니다 저는 이것을 나이로 상상할 수 있습니다 그리고 이것은 평균 목표입니다 그리고 우리가 상상하는 것은 이제 우리는 나이 1의 가치를 얻었습니다 우리는 1을 가지고이 평균을 플러그인합니다

우리는 여기서 계산했습니다 이제이 과정을 반복하므로 지우개를 가져 와서 이 값을 지우십시오 이제 나이를 2로 바꿉니다 실수로 마우스 오른쪽 버튼을 클릭했습니다 실례합니다

그리고 또 다른 평균 예측을합니다 나이에 대한 결과는 2입니다 우리는 나이의 모든 다른 가치를 위해 이것을합니다 이제 소프트웨어로 돌아갑니다 실제로 우리는 줄거리를 볼 수 있습니다 아주 우연히 그려지지 않았습니다 결과를 모두 지우겠습니다

이제 부분 의존도를 살펴보면 우리는 이것을 기본적으로 산포처럼 본다 이 나이의 모든 다른 가치에 대한 음모 실제로 보시다시피 그들은 나이를 먹지 않았습니다 나이는 1, 나이는 2, 나이는 3입니다 그래서 우리는 모든 평균 예측을 얻습니다 목표 변수 이것이 우리에게 보여주는 것은 전체입니다 이 변수에 대한 모델의 생각 개별 효과를 씻어 내고 그러나 우리는 도움이되는 평균을 얻습니다 나이가 바뀌면 목표가 어떻게 변할 수 있는지 설명해주세요 예측

그래서 우리는 섹스를 위해 하나를 봅니다 이것은 여성이 남성보다 더 잘 생존한다는 것을 알려줍니다 나이가 들면서 젊은이들이 더 잘 살아남을 수 있습니다 나이든 사람들보다 이 모든 것은 여성을 구한 직관과 일치합니다 아이들이 먼저 운임을 보면 사람들을 볼 수 있습니다 운임이 더 비싼 사람 사람들보다 조금 더 잘 살아 남기 위해 요금을 더 낮게 지불 한 사람

내가 항상 생각하는 방식 더 많은 돈을 지불 한 사람들은 일류 오두막에 있었고 그래서 그들은 보트 위에있었습니다 가라 앉을 때, 그들은 훨씬 더 빨리 나왔습니다 바닥에 있던 사람들보다 아마도이 직선이 보입니다 운임에 100 달러 이상을 지불 한 한두 사람 만

이 사람은 기름 거물처럼 배 위에 집행 실이 있었어요 그래서 우리 모델은 실제로 알지 못합니다 그 사람들에 대해서만 예측하는 방법 한 가지 예가 있었으므로 기본적으로 일정한 예측을합니다 더 높은 요금 우리는 pclass를 볼 수 있으며 이것은 우리의 직감과 일치합니다 일등석은 생존율이 가장 높으며 두 번째 클래스는 낮고 세 번째 클래스는 가장 낮습니다 그리고 나는 형제 자매와 배우자가 해석하기 어렵다는 것을 알게됩니다

형제 자매 나 배우자가 세 명 이상인 경우 당신의 기회는 약간 낮았습니다 이 줄거리를 보면,이 변수를 알려줍니다 별로 중요하지 않습니다 목표 예측에 큰 영향을 미치지 않습니다 다른 변수로 이것이 부분 의존도입니다 그리고이 부분 의존도는 유용 할 수 있습니다

그러나 그들은 단지 우리에게 평균 정보를 보여줍니다 전체 데이터 세트에 대한 평균입니다 조금만 드릴 다운하려면 현지 정보가 많을수록 현지 통역이 필요합니다 도구 다음에 이야기 할 줄거리는 개별 조건부 기대 도표입니다 이 개별 조건부 기대 도표 부분 의존도와 매우 비슷한 일을하고 그러나 유사성에 따라 그룹으로 묶여 있습니다

결과에서 아래로 스크롤합니다 여기에 개별 조건부까지 기대 이제 클러스터 ID 1과 클러스터 ID 2의 두 클러스터가 있습니다 k는 클러스터링을 수행하여 이러한 클러스터를 생성했습니다 원래 입력 데이터에 대해 모든 유사성에 기반한 클러스터링 다른 입력 변수 그리고 우리는 본질적으로 부분 의존도는 무엇입니까? 그러나 이제는 클러스터 내에서 평균화되었습니다

아이디어는 클러스터 1에 대한 것입니다 우리는 평균 예측을 봅니다 클러스터 1의 모든 사람이 여성이라면 우리는 모든 사람을 평균화하기 위해 평균화를 수행합니다 클러스터 1 내 그리고 클러스터 1의 모든 사람이 남성이라면 우리는 클러스터 1 내에서 평균을냅니다 클러스터 2에 대해서도 동일한 작업을 수행합니다

여러면에서 우리는 같은 일을하고 있습니다 부분적 의존성으로 평균화하는 대신 전체 데이터 세트, 우리는 단지 평균입니다 데이터 집합의 하위 집합을 통해 이제 추상적으로 상상할 수 있습니다 개별 조건부 기대하기 클러스터를 사용하지 않고 각각의 개별 관찰 그리고이 줄거리에서- 숫자 플롯에서 조금 더 쉽습니다 우리가 나이를 보면 두 줄을 보지 않고 각 클러스터마다 1,309 개의 라인이 표시됩니다 타이타닉의 각 사람을 위해

물론 이것은 실제로 해석 할 수있는 음모가 아닙니다 더 높은 해상도로보기 위해 클러스터에서 수행합니다 또는 저해상도 뷰가 그것을 넣는 가장 좋은 방법이 되십시오 보다 높은 관점 각 개별 관찰을 확대했습니다 이것의 끝에서, 나는 그것을하는 데모를 줄 것이다 각각의 개별 관찰에 대해 한 번에 한 줄씩 보면 한 사람의 예측을 설명하는 방법

개별 조건부에서 중요한 부분 기대 도표는 이제 차이점을 볼 수 있다는 것입니다 클러스터 사이 우리가보고있는 것은 클러스터 2가 생존 확률 예측 일반적으로 클러스터 1보다 여성의 경우 089 대신 05입니다 남성의 경우 0

43 대신 02입니다 그러나 입력 간의 관계는 성별과 예측 확률의 관계 생존의 각 클러스터에 대해 동일합니다 클러스터 1 및 클러스터 2의 경우 여성 인 경우, 당신은 남자보다 살아남을 가능성이 더 큽니다 같은 관계가 보입니다

기본적으로 우리는 부분 의존성에서 본 것과 동일한 결과를보고 음모, 그것은 단지 두 개의 클러스터로 나뉩니다 이야기는 나이가 다릅니다 나이에 대한 부분 의존도를 살펴보면 우리는이 곡선, 기본적으로 금 곡선을 보았습니다 이는 클러스터 2에 해당합니다 우리는 보이는 곡선을 보지 못했습니다 씻겨 졌기 때문에 클러스터 1에서 이와 같이 우리가 평균했을 때

이것이 제안하는 것은 한 그룹의 고객- 이것은 단지 내 추측이지만, 이것들은 아마도 티켓에 대해 더 적은 돈을 지불 한 고객 세 번째 반에 있었는데 15 세 미만이라면 당신은 훨씬 더 살아남을 것입니다 그러나 다른 클러스터가 있었다 거의 모든 사람이 살아남을 수있는 고객 나는 이것을 아마도 우리의 부유 한 고객이라고 생각합니다 일류 오두막에있었습니다 클러스터 1의 사람들은 나이가 실제로없는 것 같습니다 예측 확률에 많은 영향을 미칩니다 생존의

그러나 클러스터 2의 경우 나이가 실제로 영향을 미칩니다 이것은 우리가하지 않을 정보의 종류입니다 부분 의존도에서 볼 수 있고 이 개별 조건을 사용해야합니다 그것을 밝히기 위해 기대 플롯 기본적으로 클러스터 1은 클러스터 2보다 작았습니다 우리가 평균화 할 때 씻겨 나옵니다 다른 것을 볼 수 있는지보고 싶습니다 이 음모의 나머지 부분에서

운임에 가면 클러스터 2가 클러스터 1보다 생존율이 훨씬 낮습니다 운임과 예측 확률의 관계 기본적으로 동일합니다 같은 모양의 곡선입니다 여기에 약간의 차이가 있습니다 하지만 약간 증가한 다음 레벨이 떨어집니다

운임을 위해, 우리는 같은 관계를 본다 부분 의존도에서 보았 듯이 pclass의 경우 다시 일치합니다 1 등석, 2 등석, 3 등석 서로 다른 두 개의 클러스터가있는 것 같습니다 클러스터 1, 1 등석과 2 등석은 매우 비슷합니다 클러스터 2에서 두 번째 클래스와 세 번째 클래스는 매우 비슷합니다 이 클러스터는 성별을 기반으로 한 것 같습니다

또는 그들이 보트에서 어디에 있었는지 실제로 이러한 클러스터로 드릴 다운해야합니다 그리고 소프트웨어는 점수 코드를 생성 할 수 있습니다 클러스터에서 원본 데이터를 클러스터에 할당 그들이 어디 있는지 봅니다 기본적으로 누가 어떤 클러스터에 있는지 확인하십시오 이제 부분 의존도에서와 같이 우리는 정말 흥미로운 것을 보지 못합니다 형제 자매와 배우자의 관계

우리는 다시 클러스터 2의 가능성이 훨씬 낮다는 것을 알았습니다 군집 1보다 생존율이 높지만 형제 자매와 배우자에게 어떤 영향을 미치는지 우리가 실제로 보지 못하는 생존율 흥미로운 관계 개별 조건부 결과를 닫을 것입니다 기대 도표 다음 모델 해석 가능성 결과는 로컬입니다 실례합니다

해석 가능한 지역 모델 해석 설명 이 지역 해석 가능한 모델 불가 지 설명 LIME 플롯 또는 LIME 모델입니다 E는 LIME에서 설명 용이기 때문입니다 기본적으로 로컬 선형 피팅을 수행합니다 사용하여 모델을 시도하고 설명하기 위해 국부적으로 선형 회귀

우리는 설명 할 수없는 모델을 가지고 있습니다 신경망이나 그래디언트 부스팅 모델처럼 우리는 그것을 사용하여 로컬로 설명하고 있습니다 기본적으로 데이터에만 로컬로 적합한 모델입니다 그래서 약간의 그림 그리기를 시작하겠습니다 여기에 단계를 설명하는 동안 잠시만

기본적으로 우리가하는 일은 해석 할 수없는 모델입니다 결정 경계를 그릴 것입니다 해석 할 수없는 모델 우리가 두 개의 축을 가지고 있다고 가정 해 봅시다 이것은 나이와 같은 것입니다 그건 그렇고, 나는이 그림을 만들고 있습니다 이것은 데이터가 아닙니다

이것은 단지 예시적인 도면입니다 나이와 요금이라는 두 개의 축이 있다고 가정 해 봅시다 원래 모델이므로 그라디언트 부스팅 모델입니다 해석 할 수없는 모델이이 결정을 생성 경계 파란색 영역의 포인트는 살아남을 사람들로서 적색 영역이 대응함에 따라 모델이 예측하는 사람들에게 죽을 것입니다

이것이 해석 불가능한 모델의 예측입니다 물론 이런 멋진 그림을 그릴 수 있다면 이것은 실제로 모델의 해석입니다 하지만 우리는 정상적으로 상상하고 있습니다 더 높은 차원이 될 것입니다 지금, 우리는 나이와 요금이 있습니다

실제 데이터에는 실제로 5 차원이 있습니다 내가 왜 그리지 않기로 선택했는지 알 것 같아 내가 할 수 없기 때문에 여기에 5 차원의 결정 경계가 있습니다 항상 2 차원 이상으로 시각화하기가 더 어렵습니다 그러나 여기서 해석 할 수없는 모델이 있습니다 검은 색 커서를 다시 잡겠습니다

우리가 바로 여기에있는 요점을 설명하고 싶다고합시다 우리는 왜이 점이 파란색으로 분류 되었는가? 이 사람은 왜 죽지 않고 살아 남았습니까? LIME 설명을 생성하기 위해 가장 먼저해야 할 일은 내가 전화해야 할 것 같아 저는 항상 LIME 다음에 무언가를 말하고 싶습니다 그러나 설명은 내장되어 있습니다 이 공간에서 데이터 포인트를 샘플링했습니다 기본적으로 나이와 공정한 가치를 선택합니다 샘플링 포인트에 불과합니다

여기에서 점을 선택하고 여기에서 점을 선택한다고 가정 해 보겠습니다 여기에서 점을 선택하고 여기에서 점을 선택합니다 여기서 포인트를 선택합니다 우리는 공간에서 몇 가지 점을 선택합니다 우리는이 점들을 적합하게 사용할 것입니다 로컬 선형 모델, 그리고 근처에 몇 점 더 있습니다

이 점을 선택하는 데 중요한 부분은 이것을 섭동 샘플이라고하겠습니다 관심 지점 근처에서 선택한 지점이 여기에 큰 X를 넣어야 할 것 같습니다 더 무겁게 가중 될 것입니다 우리의 관심 지점에 가까운 지점 더 커질 것입니다 그리고 멀리 떨어진 지점은 더 작아 질 것입니다

그리고 그것은 아마도 여기의 요점 일 것입니다 아주 작습니다 기본적으로 포인트를 선택하고 이 점을 사용하여 로컬 모델에 맞출 것입니다 관심있는 관찰에 더 가까운 점은 실제로 그들이 왜 살았는지 설명하고 싶은 사람입니다 그들이 죽었 기 때문에 더 커질 것입니다 로컬 선형 모델에서 더 많은 가중치를 부여 할 것입니다 우리가 그 지점을 생성하면 해석 할 수없는 원래의 점수를 사용하여 점수를 매길 것입니다 모델

이 지점은 파란색 영역에 있으므로 파란색이됩니다 이것은 파란색 영역에서 파란색입니다 이 지점은 빨간색 영역에서 빨간색이됩니다 이것은 적색 영역에서 더 큰 적색 점입니다 좀 더 크기 때문에 중간 크기의 정렬입니다

이것은 파란색 영역에서 큰 포인트입니다 파란색 영역에서 약간 작은 점일 수도 있고 파란색 영역에서 더 큰 점 그리고 우리가 그 포인트를 득점하면 해석 할 수없는 모델을 사용하여 이 샘플을 사용하여 국소 선형 회귀 분석을 시도하십시오 여기에 경계를 설명하십시오 그리고 이것은 기하학적 직관입니다 여기가 정말 가치 있다고 생각합니다

기본적으로 선형 근사를하고 있다는 것입니다 이 곡선에 이 파란색 곡선은 곡선 결정 경계입니다 우리는 실제로 설명 할 수 없으며 단지 그것에 선형 근사치를 생성 할 것입니다 강조하고 싶은 한 가지는 이 선형 근사법은 이 시점에서는 분명히 유효합니다 이 지역에서만 유효합니다 이 선형 근사도 이쪽의 결정 경계에 가깝게 접근하십시오

하지만 여기서 잘 작동합니다 이 선형 근사에는 계수가 있습니다 이 점이 왜이 큰 검은 색 x인지 설명하는 데 사용할 수 있습니다 끝이 아닌 경계의이 쪽에서 득점 이리 제가 강조하고 싶은 한 가지는 정말 건축에 도움이됩니다 직관은 우리의 관심 지점이라고합시다 실제로 여기에있었습니다 그런 다음 로컬 선형 모델은이 지역에 국한됩니다

우리는 이와 같은 것을 기대할 것입니다 그리고 물론 그것은 선이 아닙니다 죄송합니다 나는 그것을 다음과 같이 그려야했다 이것이 직선 인 척하자

나는 통치자가 아닙니다 그리고 여기 아이디어는 이런 종류의 수학은 Taylor 확장 또는 미적분에 익숙합니다 기본적으로 커브를 충분히 확대하면 직선처럼 보입니다 우리가이 지점들에 가깝게 확대하면 비선형에 가까운 선형 모델을 생성 할 수 있습니다 우리가 가진 결정 경계 그래서 그것은 많았습니다

우리는 소프트웨어로 돌아가서 이 선형 모델의 결과에서 우리가 그것들을 어떻게 해석 할 수 있는지보십시오 계속 진행하겠습니다 아래에 무엇이 있는지 볼 수 있습니다 시작하겠습니다 다음은 로컬 모델의 요약입니다

가장 먼저 눈에 띄는 것은 Cluster Centroid 1이라는 단어 따라서 각 점에 로컬 모델을 맞추는 대신 우리 데이터에서 1,309 포인트가됩니다 1,309 개의 현지 모델이 우리는 그것들을 클러스터에 맞 춥니 다 ICE를 할 때와 마찬가지로 클러스터링을했습니다 우리가 볼 필요가 없도록 분리 각각의 관찰에서 이 경우 클러스터를 구축하고 클러스터 중심을 우리가 주변의 포인트 역할을 로컬 모델 생성 제가 보여준 큰 검은 x 그것은 우리가 설명하려는 사람 일 수 있습니다

이 경우에는 클러스터의 중심이됩니다 그래서 우리는 서로 다른 두 가지 로컬 모델에 적합합니다 하나는 클러스터 중심 1 및 하나는 클러스터 중심 2, 모수 추정값을 볼 수 있습니다 각 클러스터 중심에 대해 그리고 이것은 로컬 선형 모델입니다 우리는 얼마나 잘했는지 평가할 수 있습니다

그 결과를 닫아서 플롯을 볼 수 있습니다 이것이 말하는 것은 Cluster Centroid 1에서 대부분의 관측은 여성의 성관계를 가졌으며 여성이라는 것이 생존 가능성을 높였습니다 클러스터 1에서 대부분의 사람들은 클래스 1을 가졌습니다 그들은 일류 오두막에 있었고 또한 생존율이 향상됩니다 여성보다 약간 적습니다

그리고 다시, 그것은 우리와 일치합니다 먼저 여자와 아이들을 구했습니다 그러나 일반적으로 예상대로 일류 오두막의 사람들은 아마도 더 나은 서비스를 받고 출구에 더 가깝습니다 그리고 우리는 형제 자매와 배우자가 목표를 예측하는 데 훨씬 덜 중요합니다 그래서 우리는 그것이 여성 인 것처럼 보입니다 일등석에서 정말 Cluster Centroid 1에서 관찰 한 대부분의 결과 살아남을 것으로 예상됩니다

Cluster Centroid 2로 가면 그들의 성별이 남성임을 알 수 있습니다 생존율을 낮추고 그리고 그들의 수업은 3 등입니다 또한 생존율을 낮 춥니 다 다시 한번, 형제 자매와 배우자가없는 타이타닉 승객 대부분이 일종의 생존 가능성이 약간 향상됩니다 그러나 3 등석과 남성에서의 상쇄는 아닙니다 이 결과를 닫고 같은 것을 봅니다 구간 변수의 경우

나이는 목표에 대한 부정적인 예측 인자입니다 나이가 많을수록 당신은 살아남 아야합니다 운임은 긍정적 인 예측 자입니다 더 많이 쓸수록 생존 할 확률이 높아집니다 이것은 나이가 예측에서 훨씬 더 중요하다는 것을 알려줍니다

운임보다 당신의 생존 Cluster Centroid 2를 살펴보면 동일한 관계가 나타납니다 그게 우리가 찾은 관계 야 부분 의존도에서 나이는 부정적인 예측 자, 운임입니다 생존 가능성에 대한 긍정적 인 예측 이 결과를 닫겠습니다 우리는 또한 지역 적합 통계를 볼 수 있습니다 모델이 얼마나 잘 수행했는지 확인합니다

로컬 모델은 실제로는 아닙니다 누가 살았고 누가 살았는지 예측하려고 누가 예측했는지 예측하려고합니다 그라디언트 부스팅 모델로 살아남거나 생존 할 수 있습니다 기본적으로 실제 목표를 예측하는 대신 예측을 모방하려고합니다 해석 할 수없는 비선형 모델의 기울기 원래 맞는 부스팅 모델

계속해서 결과를 닫을 게요 계속해서 개별 관찰에 대해 이야기하십시오 그래서 우리는 개별 조건부 ICE 플롯을했습니다 기대와 LIME– 지역 해석 가능 모델에 무관 한 설명 클러스터에서이 작업을 수행했습니다 이제 개별 관찰로 할 수 있습니다

그래디언트의 아래쪽으로 스크롤합니다 부스팅 지역 통역 성을 열겠습니다 아래로 끝까지 스크롤합니다 General ICE / LIME Options를 열겠습니다 다시 아래로 스크롤하십시오 설명 할 인스턴스 유형 클러스터 중심에서 전환하겠습니다 개별 관찰에

여기에 숫자가 필요했습니다 key_ID가됩니다 변수를 설정했을 때를 기억한다면 변수를 키로 설정했습니다 그것은 key_ID였습니다 그냥 1을 입력하겠습니다

이것은 우리의 데이터 세트에서 첫 번째 관찰입니다 데이터를 열어서 볼 수 있습니다 나는 이것이 엘리자베스 앨런 양이라고 생각합니다 그리고 그녀는 살아남은 29 세의 여성이었습니다 모델이 예측 한 이유를 설명하겠습니다

그녀를 위해 예측 한 것 일단이 변경을하면 파이프 라인을 다시 실행할 것입니다 개별 조건부 기대치를 생성합니다 지역 해석 가능한 모델 불가지론 적 설명 이 하나의 관찰에 대해서만 우리가 그 그림으로 되돌아 가면 기본적으로 LIME 플롯을 그렸습니다 이 x가 클러스터 센터가 아니라 x는 이제 Allen Allen입니다 그래서 그녀의 나이, 그녀의 운임, 그리고 그녀의 수업이 될 것입니다 그 모든 정보

그래디언트 부스팅을 마우스 오른쪽 버튼으로 클릭합니다 결과를 선택하겠습니다 Model Interpretability로갑니다 모델의 결과는 바뀌지 않아야합니다 변경된 것은 해석 가능한 결과입니다

이제 개별 조건을 전체 화면으로 보여 드리겠습니다 기대 우리는 그녀가 여자 였기 때문에 볼 수 있습니다 그녀의 생존 확률은 086 일 것으로 예상되었으므로 86 %입니다

그녀가 남성이라면 생존 가능성 약 40 %입니다 데이터에서 기억하는 그녀의 나이는 약 29 세였습니다 여기 어딘가에 그녀의 확률에 대한 예측은 다음과 같습니다 다른 연령대의 생존 그리고 이것은 우리에게 다소 예상치 못한 결과를줍니다

그녀가 더 어리면 우리는 실제로 그녀가 생존 할 가능성이 적을 것으로 예상합니다 그리고 그녀가 나이가 많으면 우리도 그녀가 생존 할 확률이 낮을 것으로 예상합니다 이것은 현재 평균화되지 않았 음을 기억하십시오 우리가 값을 변경한다면 이것은 단지 예측입니다 그녀의 모든 특성을 동일하게 유지합니다 그녀는 일등석에 있었고 여자였습니다 우리는 모델이 그녀를 어떻게 생각하는지 평가합니다 나이를 바꾸면 주목해야 할 것은 그녀가 항상 여자를 유지해 예상되는 생존 확률은 꽤 높으며 무엇이든 상관없이 0

75 이상이 될 것입니다 운임과 같은 다른 것을 볼 수 있습니다 우리는 같은 관계를 봅니다 pclass– 우리는 그녀가 1 등석인지 2 등석인지를보고 그녀는 같은 확률을 얻습니다 하지만 그녀가 3 등석에 빠졌다면 그녀의 생존 확률은 낮아질 것입니다

이런 종류의 직감과 일치 1 등석과 2 등석의 여성들이 꽤 높은 속도로 살아남을 수있었습니다 3 등석의 여성들은 그다지 살아남지 못했습니다 물론, 3 등석의 남성은 가장 잘 살아 남았습니다 일반적으로, 3 등석의 사람들은 일등석과 이등 석의 사람들만큼 많이 만드십시오 결과를 닫고 로컬 모델을 살펴 보겠습니다

이제이 로컬 모델은 그녀의 관찰에 따라 다릅니다 그녀의 근처 어딘가에 유효합니다 그리고 이것은 실제로 설명입니다 앨런 양을 생존자로 분류 한 이유는 죽은 사람에게 우리가 섹스를 보면 그녀는 여자 였고 생존 가능성을 극적으로 향상시킵니다 그녀는 일등석에 있었고, 또한 향상 그녀의 생존 가능성

형제 자매와 배우자와 같은 관계를 큰 영향을 미치지 않는 곳 우리는 또한 지역 설명을 봅니다 구간 변수의 경우 우리는 그녀의 나이가 실제로 감소한 것을 본 그녀의 생존 가능성 로컬 모델로 돌아가서 우리는 개별 조건부 기대에서 보았다 그러나 현지 설명은 아마도 더 유효한 설명이기 때문에 이 로컬 선형 모델에 적합합니다

그리고 우리는 그녀의 운임을 본다 그녀는 티켓에 211 달러를 썼기 때문에 꽤 비싼 티켓을 얻었습니다 아마도 그녀가 생존 할 가능성이 가장 높은 이유 일 것입니다 부유 한 귀족 이 결과를 닫겠습니다

다른 관찰을 위해이 과정을 거칠 수 있습니다 이 도구를 사용하는 방법은 누군가가 그들이 얻은 방식으로 왜 득점했는지 알고 싶어합니다 당신의 모델에서, 당신은 지역 관측을 끌어낼 수 있습니다 특정 개인 또는 관찰을 위해 데이터에서 주변 지역 모델을 만들 수 있습니다 그들이 왜 자신을 분류했는지 설명하고 설명하기 위해 했다 결과를 닫겠습니다

하루가 끝나면 이제 채점을합니다 그 모델을 사용하여 해석 할 수있는 부스팅 모델 해석 성 결과 물론 모델 해석 결과 입력을 해석 할 수있는 경우에만 의미가 있습니다 그리고 그것은이 토론에 대한 큰 메시지입니다 당신이 무슨 일을하든 상관없이 모델을 해석하려면 입력 내용을 이해하기 위해 실제로 모델 해석 성을 사용하려고합니다 이유에 대한 설명이나 이야기가 나오는 결과 당신의 예측은 그들이하는 방식입니다 입력을 기반으로합니다

모델 해석성에 대해 많이 배웠기를 바랍니다 모델 해석 도구 중 일부 우리는 SAS Viya에 있습니다 SAS Users 채널을 구독하려면 클릭하십시오 도움이되는 몇 가지 질문에 대답하려면 여기를 클릭하십시오 더 나은 비디오를 만들고 여기 아래에 일부는 데이터와 일부에 대한 링크 보다 자세하게 설명하거나 멋진 리프레쉬를 제공하는 논문 우리가 말한 것에 대한

Best Fit line – Machine Learning Tutorial with python

안녕하세요 여러분 테크 엔지니어링 채널에 오신 것을 환영합니다 이 비디오는 머신 러닝 튜토리얼 07입니다 회귀에 가장 적합한 라인에 관한 모든 것 우리는 주어진 회귀, 또는 가장 적합한 선을 계산하기 위해 노력하고 있습니다

파이썬의 데이터 셋 이전에는 경사를 모을 함수를 작성했습니다 이제 y 절편을 계산해야합니다 이 시점까지 우리의 코드 : 다시 말해, 최적 선의 y 절편에 대한 계산은 다음과 같습니다 b는 y 막대 광산과 같습니다

이것은 경사보다 약간 쉬울 것입니다 이것을 다른 라인에 통합하여 몇 줄을 절약 할 수 있습니다 기능 이름을 바꿉니다 best_fit_slope_and _intercept에 다음으로 b = mean (ys)-(m * mean (xs))를 입력하고 m과 b를 반환합니다 이제 우리는 다음과 같이 호출 할 수 있습니다 : m, b = best_fit_slope_and_intercept (xs, ys) 출력은 0

3 43이어야합니다 이제 데이터 라인을 만들어야합니다 y = mx + b라는 것을 상기하십시오 우리는 이것에 대한 기능을 만들 수 있습니다

고리: regression_line = [(xs의 x에 대한 (m * x) + b]] 위의 1-liner for 루프는 다음과 같습니다 x의 x에 대해 regression_line = [] : regression_lineappend ((m * x) + b) 대단한 노동의 결실을 거두자! 다음 가져 오기를 추가하십시오 matplotlib 가져 오기 스타일에서 plt로 matplotlibpyplot 가져 오기 style

use ( 'ggplot') 이것은 우리가 그래프를 만들고 그렇게 추악하지 않게 만들 수 있습니다 이제 끝 : pltscatter (xs, ys, color = '# 003F72') pltplot (xs, 회귀 _ 라인) pltshow () 먼저 기존 데이터의 산점도를 그린 다음 회귀선을 그래프로 표시합니다

마지막으로 보여주세요 따라서이 모델을 기반으로 실제로 예측하는 방법은 무엇입니까? 만든? 충분히 간단 하죠? 모델이 있고 x 만 입력하면됩니다 예를 들어, 몇 가지 점을 예측해 봅시다 predict_x = 7 우리는 입력 데이터, "기능"을 가지고 있습니다 라벨이 뭐야? predict_y = (m * predict_x) + b 인쇄 (predict_y) 출력 : 6

4 우리는 이제 우리 자신의 모델을 만드는 방법을 알고 있습니다 그러나 우리는 여전히 중요한 것을 놓치고 있습니다 : 얼마나 정확한지 우리 모델? 다음 튜토리얼에서 논의 할 주제입니다!

Exabyte.io Tutorial: Predict New Properties with Machine Learning

기계 학습 자습서를 사용하여 새 속성을 예측합니다 Jobs Designer 인터페이스에서 4 개의 실리콘 원자와 12 개의 게르마늄 원자로 구성된 재료를 선택하여 가져 오십시오

그런 다음 워크 플로우 탭으로 이동하여 실리콘과 게르마늄으로 구성된 전자 재료의 전자 갭을 예측하기 위해 이전에 훈련 된 머신 러닝 모델 워크 플로우를 선택하십시오 이제 '입력'계산 단위를 검사하겠습니다 훈련 된 모델에 의해 예측되는 특성은이 장치에서 틱된 대상 특성,이 경우 밴드 갭입니다 그런 다음 작업 이름을 설정하십시오 여기서는 Si4Ge12 Band Gap ML Predict라고합니다

다음으로 작업을 저장하십시오 그런 다음 실행을 위해 선택하여 계산 대기열에 제출할 수 있습니다 작업이 완료되면 열어 최종 결과를 검사하십시오 실리콘과 게르마늄의 조성에 대한 직간접적인 밴드 갭의 예측 된 값은 결과 페이지에서 찾을 수 있으며 실험 값과 잘 일치합니다 이것으로 본 튜토리얼을 마칩니다

Exabyte.io Tutorial: Train Machine Learning Model

기계 학습 모델 학습서 교육 작업 디자이너 페이지로 이동하여 시뮬레이션을 작성하십시오

그런 다음 훈련 세트를 구성하는 실리콘과 게르마늄으로 구성된 재료 세트를 선택하여 가져옵니다 그런 다음 Workflow (워크 플로) 탭으로 이동하여 Exabyte Machine Learning을 사용하여 실리콘과 게르마늄으로 구성된 재료의 전자 밴드 갭을 예측하기 위해 기계 학습 모델을 훈련하는 데 사용되는 'ML Train Model'워크 플로를 선택합니다 엔진 이제 '입력'계산 단위를 검사하겠습니다 훈련 된 모델에 의해 예측 될 속성은이 장치에서 틱된 대상 속성,이 경우 밴드 갭입니다

그런 다음 작업 이름을 설정하십시오 여기서는 SiGe Band Gap ML Train이라고합니다 다음으로 작업을 저장하십시오 그런 다음 실행을 위해 선택하여 계산 대기열에 제출할 수 있습니다 작업이 완료되면 작업을 열고 훈련 된 결과 모델 워크 플로우를 검사하십시오

이 훈련 된 워크 플로우의 '점수'단위를 열겠습니다 여기서 모델 계수와 중요도는 모델 정밀도의 표시와 함께 저장됩니다 이제 웹 인터페이스의 왼쪽 사이드 바를 통해 워크 플로우 콜렉션으로 돌아갑니다 따라서 훈련 된 모델을 포함하는 생성 된 워크 플로는 컬렉션 항목 중에서 검색 할 수 있습니다 이것으로 본 튜토리얼을 마칩니다

SAS Tutorial | Machine Learning Fundamentals

안녕하세요 나는 Ari Zitin이고, 나는 당신과 이야기 할 것입니다 오늘날 일부 기계 학습 기본 사항에 대해 우리는 약간의 세부 사항으로 갈 것입니다 일부 의사 결정 트리 모델과 일부 신경망 모델에서 그 일환으로 HMEQ Home Equity를 사용할 것입니다 이 모델에서 시도하고 자세히 설명하는 데이터 세트

우리가 데이터에 들어가기 전에 조금 이야기하겠습니다 머신 러닝에 대해 기계 학습의 아이디어는 컴퓨터를 자동화하고 싶다는 것입니다 무언가를 분류하는 작업 항상 할 수있는 쉬운 예 거의 모든 사람이 경험이 있다고 생각 ATM에 자동으로 수표를 입금하면 수표에 얼마의 돈이 있는지 알아냅니다 입력하지 않아도 믿을 수 없기 때문에 반드시 입력해야합니다 그것이하는 것은 수표 금액을 찍는 것입니다 기본적으로 과거 데이터로부터 학습 그 숫자가 실제로 무엇인지에 대해 주석을 달았습니다

이것이 이미지를 사용한 머신 러닝의 예입니다 우리가 할 일은 과거 데이터를 사용한 기계 학습입니다 은행 데이터, HMEQ 데이터 세트, 데이터 세트에 대한 링크가 있습니다 액세스하려면 아래를 클릭하십시오 공개적으로 사용 가능하며 따라갈 수 있습니다 동일한 데이터로 자신 만의 모델을 만들 수 있습니다

이 HMEQ 데이터 세트는 과거 데이터입니다 은행에서 고객에 대해 수집 한 우리가 예측하고 싶은 것은 그들은 대출을 기본으로합니다 이것이 우리의 목표가 될 것입니다 그들이 우리의 대출에 대한 채무 불이행 여부, 우리는 역사 정보를 사용합니다 시도하고 결정합니다 이전에 자동 확인으로 제공 한 예 스캔 할 때 대상은 검사의 숫자입니다 우리가 제공하는 정보는 실제로 사진입니다

머신 러닝에는 두 가지 다른 예가 있습니다 우리는 역사적인 은행 데이터를 사용하여 작업을 수행 할 것입니다 과거 은행 데이터에 대한 입력 대출 금액과 같은 것들입니다 요청한 담보 대출 금액 은행과의 소득 대비 부채 비율 연체 크레딧 한도 경멸 적 신용 보고서의 수 신용 한도, 직업 정보 대상은 이진 기본값 인 BAD입니다

하지만 나쁘기 때문에 BAD라고 생각합니다 당신이 대출에 불이행하는 경우 따라서 우리의 목표는 불이행 고객들에게는 1이 될 것입니다 대출에 대해서는 0이고 그렇지 않은 고객에게는 0입니다 우리는 사람들이 시도하고 예측하려고합니다 우리는 그들에게주는 것을 피할 수 있도록 대출에 대한 채무 불이행을 우리는 그들이 채무 불이행 될 것이라는 것을 알고 있습니다 이제 기계 학습의 예를 살펴 보겠습니다 알고리즘

우리는 의사 결정 트리로 시작합니다 알고리즘의 작동 방식을 파악한 다음 소프트웨어에서 알고리즘을 빌드하십시오 우리는 또한 신경망에 대해서도 같은 일을 할 것입니다 사진을 보면서 시작하겠습니다 어떤 종류의 데이터가 있는지 볼 수 있습니다 이 예에서는 데이터를 제한했습니다 2 차원으로

우리는 2 차원 데이터에서 파란색 점과 빨간색 점 우리는 논쟁을 위해 우리의 파란 점은-목표는 0입니다 그래서 그들은 그들의 대출을 불이행하지 않았습니다 우리의 빨간 점은 우리의 목표입니다 1은 대출에 대한 채무 불이행을 의미합니다 이 두 축은 입력 치수의 두 개일뿐입니다

그래서 나는 그들 중 몇 가지를 언급했습니다 이를 위해 x 축에서 우리는 연체 신용 한도를 가지고 있습니다 연체 크레딧 한도 고객이 보유한 y 축 우리는 그들이있는 집의 가치를 가지고 있습니다 신용을 빼려고 노력했습니다 그래서 우리는 고객에 대한 정보를 봅니다 보시다시피 클러스터링이 있습니다

파란색 포인트로 인해 대부분의 고객이 그들의 대출과 그룹을 기본으로하지 않았다 빨간색 포인트로 인해 대부분의 고객이 그들의 대출에 불이행했다 우리가하고 싶은 것은 노력하고 이 줄거리에 선을 그리는 방법으로 파란색 점을 빨간색 점과 분리합니다 의사 결정 트리의 경우 직선을 그리는 것 서로 수직입니다 예를 들어 직선 하나를 그리겠습니다 데이터에서 찾을 수있는 분리 점을 나타냅니다 빨간색 점 또는 사람에서 파란색 점을 분리 불이행 한 사람들로부터 불이행하지 않은 사람 이 데이터를 보면 바로 여기 선을 그릴 수 있다고 생각합니다

그리고 우리가 보면, 이것은 분할을 만듭니다 오른쪽에는 일종의 테이블이 있습니다 파란색 점 11 개와 빨간색 점 11 개가 있습니다 사무용 겉옷 이 분할 작업을 수행하면 서로 다른 두 그룹을 만듭니다

왼쪽의 그룹에는 1, 2, 3, 4, 5, 6, 7, 8 개의 파란색 점이 있습니다 그리고 하나의 빨간 점 오른쪽 그룹에는 파란색 점 3 개와 7 개 8 개의 빨간 점 우리가 볼 수있는 것은 우리가 잘한 일을 했어요 그 점은-빨간 점이 그리 웠습니다 우리는 파란색 점을 잘 나누었습니다 왼쪽의 빨간색 점에서, 오른쪽은 아닙니다

이제 우리는 상상할 수 있습니다 우리는 첫 번째 파티션을 완료했습니다 우리는 말할 수 있습니다 이것은 괜찮은 분리처럼 보입니다 스플릿을 더 추가하면 더 잘할 수 있습니다

다른 수직 직선을 그리겠습니다 빨간색 점을 오른쪽의 파란색 점과 분리합니다 여기에 수직선을 넣으십시오 그리고 우리는 왼쪽에 하나를 할 것입니다 이제 알 수 있습니다 우리는 정말 좋은 일을했습니다

하단의 파란색 점과 빨간색 점을 분리합니다 왼쪽 하단은 대부분 파란색이고 오른쪽 하단은 대부분 빨간색입니다 새로운 데이터를 볼 수 있다면 이 데이터에 대해 배웠지 만 우리는 이미 이러한 고객들이 불이행을 알고있었습니다 따라서 우리는 다음과 같은 데이터에서 잘 작동하는 모델을 원합니다 실례합니다

데이터에 잘 맞는 모델을 원합니다 이전에 보지 못했던 새로운 데이터에서 색깔이 무엇인지 모릅니다 우리는 미래에 볼 수 있습니다 왼쪽 하단에있는 대부분의 사람들이 그들이 기본값이 아니라고 예측하게 될 것입니다 오른쪽 하단에있는 대부분의 사람들이 반면 대출에 대출이 불이행 될 것으로 예측합니다 상단에 우리는 더 많은 분할을 원할 수도 있습니다

예를 들어 더 깊이 들어가고 싶을 수도 있습니다 더 많이 분리하기 위해 여기 저기 선을 그릴 수 있습니다 우리가 보게 될 것은 소프트웨어가 자동으로 시각적 해석을 바탕으로이 선을 그렸습니다 이 줄거리의, 그러나 우리는 정말로 알고리즘을 원합니다 그것은 우리를 위해 이것을 할 것입니다

언급하지 않은 것은 이것들이 단지 두 개의 입력이라는 것입니다 세 번째 입력 값이 있다면 세 개의 변수가 있다면 저는 이것을 부채 비율과 주택으로 언급했습니다 우리는 몇 년 동안 일할 수있는 또 다른 것을 가질 수 있습니다 그것은 3 차원이 될 것입니다 페이지에서 나옵니다 내가 두 개만 선택한 이유를 알 수 있으므로 시각화 할 수 있습니다

하지만 실제로 1, 2, 3, 4, 5, 6, 7, 8, 9, 10은 고객에 대해 수집 한 11 개의 입력 변수 머신 러닝을 할 때 수백 개의 입력 변수를 가질 수 있습니다 이 데이터 세트에서 우리는 11 차원 공간에 있습니다 11 차원을 시도하고 시각화 할 수 있습니다 그러나 잘 작동하지 않습니다 실제로 우리는 종종 일을합니다 수백 개의 차원으로

이 그림을 돌리는 것을 상상할 수 있습니다 당신은 모두와 100 차원 공간을보고 이 점들, 그리고 우리는 여전히 평면을 그리고 있습니다 이 경우에는 초평면이됩니다 점을 분리하기위한 100 차원 초평면 분명히 우리는 시각적으로 할 수 없습니다

우리는 컴퓨터가 우리를 위해 그것을하도록해야합니다 알고리즘 방식으로 소프트웨어를보고 결정이 어떻게 진행되는지 살펴 보겠습니다 트리는이 데이터를 기반으로합니다 Model Studio에서 약간의 파이프 라인을 만들었습니다 그리고 내가 만든 방법에 대한 몇 가지 예를보고 싶다면 이 파이프 라인과 Model Studio를 사용하고 시작하는 방법, 시작에 대한 비디오 링크가 아래에 있습니다 Model Studio에서 파이프 라인을 사용합니다

의사 결정 트리 기본값을 마우스 오른쪽 버튼으로 클릭합니다 노드에서 결과를 선택하십시오 의사 결정 트리의 결과를보고 있습니다 이 HMEQ 데이터 세트에 대해 교육했습니다 가장 먼저 살펴볼 것은 트리 다이어그램입니다 이 트리 다이어그램에는 의사 결정 트리의 그림이 있습니다 보시다시피 훨씬 더 깊은 의사 결정 트리입니다 내가 오른쪽에 그린 예보다

상단을 확대하면 우리는 3,000 명으로 시작합니다 실례합니다 3,000 개의 관측치와 약 20 %는 1과 80 %입니다 0입니다 이는 고객의 약 20 %가 불이행을 의미합니다 그들의 대출에

우리는 연체 크레딧 한도에 따라 분할합니다 연체 된 신용 한도가 많으면 그들은 거의 모두 대출에 대한 채무 불이행이 될 것입니다 그래서 우리는 그들이 대출에 대한 채무 불이행이 예상됩니다 12, 15, 7, 6 또는 8 개의 연체 크레딧 한도가있는 경우 그들이 그보다 적은 경우 5, 4, 0, 1, 2, 3 크레딧 한도 그들이 불이행 한 사람들의 일종 인 것 같습니다 불이행하지 않은 사람들은 거기에서 계속 쪼개기 위해 이 의사 결정 트리를 광범위하게 살펴보면 굵은 선이 나타내는 것을 볼 수 있습니다 대부분의 데이터가가는 곳과가는 선 소량의 데이터를 나타냅니다 하단의 상자는 최종 결정 상자입니다 보시다시피이 상자는 이 상자에 들어가서 그들이 따르는 특정한 길이 있습니다

그들은 적은 수의 연체 신용 한도를 가지고 있습니다 그러나 그들의 집의 가치는 $ 474,000 이상입니다 직장 생활은 26 세 미만입니다 우리는이 사람들의 대부분이 대출에 불이행 될 것으로 예상합니다 과거 데이터에서 이 의사 결정 트리에서 확인할 수있는 것 중 하나 내가 읽었던 것처럼 우리는 내가 오버 피팅이라고 부르는 것을 조금했습니다 우리는 훈련 데이터를 기억했습니다

연체 크레딧 한도가 많으면 나는 당신이 대출에 대한 채무 불이행을 말한다 하지만 실제로는 특정한 숫자입니다 12, 15, 7, 6 또는 8 그 숫자는 데이터의 일부입니다 우리는 의사 결정 트리를 배웠습니다 그래서 우리는 더 나은 것을 원할 수도 있습니다 새로운 고객에게 좀 더 나은 일반화를 제공합니다

이 트리 다이어그램을 닫고 결정을 닫습니다 트리 결과 및 다른 의사 결정 트리로 이동합니다 내가 구체적으로 만든 곳에서 만든 내가 생각하지 못한 리프 노드의 일부를 절단하려는 노력 중요했다 실제로 컴퓨터가 자동으로이 작업을 수행하도록했습니다 의사 결정 트리 다이어그램을 열어 보겠습니다 우리는 그것이 다른 나무라는 것을 알 수 있습니다

조금 다르게 훈련했습니다 내가 훈련했을 때 내가 한 일은 훈련 데이터를 암기하는 완전한 의사 결정 트리를 구축했습니다 다시 돌아 가면 우리가 고유하게 선택한 도면으로 돌아 가면 각 상자가 하나의 색상 만 선택하도록 파란색과 빨간색 점 포인트-그래서 그것은 훈련에서 100 % 권리를 얻는 나무입니다 데이터 이 나무를 만들면 다시 자르기 시작합니다 이전에는 본 적이없는 데이터를 살펴 봅니다 우리는이 모델이 결코 가지고 있지 않은 데이터를 봅니다 그것을 훈련시키는 데 사용되지 않았으며 우리는 그것이 어떻게 작동하는지 보았습니다 성능을 개선 할 때마다 줄일 때마다 우리는 계속 나무를 자르고 더 간단하고 간단합니다

결국 여기에서 새 데이터에 대한 성능이 향상됩니다 더 간단한 모델을 사용하는 것이 바람직합니다 여기를 보면,이 가지 치기 오류 도표 내가 논의했던 절차를 정확하게 보여줍니다 우리는 훈련 데이터, 즉 데이터 우리는 모델, 성능을 구축하는 데 사용 점점 더 많은 잎을 가지면서 계속 향상되고 더 복잡한 나무입니다 하지만 검증 데이터는 데이터입니다 나무는 전에 본 적이 없으며 실제로 악화됩니다

그래서 우리는 나무를 멈추고 가장 복잡한 나무를 만듭니다 우리는 훈련 데이터에 대해 나뭇잎을 자르기 시작합니다 실제로 잘 작동하는 것을 만들 수 있도록 유효성 검사 데이터에 어떤 시점에서 모델이 너무 단순하다면 유효성 검사 데이터의 성능이 좋지 않습니다 이것이 의사 결정 트리에 대한 우리의 토론이었습니다 몇 가지 평가 통계를 볼 수 있습니다 그러나 모든 모델을 비교할 때 마지막에 할 것입니다

우리는 결정 트리가 우리는 가지 치기를 만들었습니다 두 번째로 보여 드린 것은 실제로 이 데이터에 대해서는 첫 번째 데이터보다 조금 더 잘 작동합니다 다이어그램으로 돌아가서 이제 신경망을 만들고 있습니다 의사 결정 트리와 어떻게 다른지 생각합니다 다른 모델과 정말 인기있는 모델 요즘은 신경망입니다

그들은 특히 인기가 있기 때문에 보다 복잡한 형태의 기계에 사용 딥 러닝이라는 학습 이미지 처리와 관련이 있습니다 우리는 신경망을 사용하여 의사 결정 트리에서 수행 한 것과 동일한 작업 빨간색 점과 파란색 점을 분리하는 것입니다 가장 큰 차이점은 의사 결정 트리입니다 신경망은 실제로 임의의 비선형을 배우려고합니다 입력을 출력에 매핑하는 기능입니다

이 임의의 비선형 함수 플롯에서 원하는 모양을 취할 수 있습니다 따라서 우리의 경계가 반드시 그런 것은 아닙니다 직선이 될 것입니다 그래서 내가 상상할 수있는 것을 그릴 것입니다 신경망은 생각할 것입니다 보시다시피, 저는 임의의 곡선을 그리는 것입니다 그리고 유일한 요구 사항은 이러한 곡선이 기능이어야합니다- 함수에 의해 정의 될 수 있어야합니다

당신이 볼 수있는 것은 기본적으로 파란색 점을 선택하고 이상적인 결정을 내 렸습니다 경계 신경망은 항상 가장 좋은 모델이지만 단점은 우리는 훈련 데이터를 외우고 싶지 않다는 것입니다 모델을 새 데이터에 적용하려고합니다 그리고 당신은 내가 그린 원의 크기를 볼 수 있습니다 내가 그린 곡선의 크기 그것은 무엇과 매우 다를 수 있습니다 여전히 모든 파란색 점을 캡처하면서 빨간 점은 없습니다

제 개인적 드로잉에는 모호성이 많습니다 신경망이 학습 할 때 이 기능들은 여러 기능 중 하나를 찾습니다 이 작업을 수행 할 것이므로 반드시 유효성 검사 데이터에서 어느 것이 더 잘 작동하는지 알 수 있습니다 따라서 훈련 데이터를 약간 맞추기가 더 쉽습니다 신경망을 통해 다음 예제에서 신경망은 규칙 목록을 생성하지 않습니다 오른쪽에 다이어그램이 없습니다 이 선을 어떻게 그리는지 보여 드리기 위해 그러나 그들은 기능을 생성합니다 함수를 정의하는 숫자 모음입니다

실제로 모델링 할 수있는 방법이 있습니다 하지만 여기에 자세히 표시하지 않습니다 시각적 인 표현이 아니기 때문에 기본적으로 방정식 일뿐입니다 이것이 신경망 사이의 큰 차이점입니다 의사 결정 트리는 의사 결정 트리입니다 이 규칙 목록을 만듭니다 연체 크레딧이 7 개 이상인 경우 우리가 예측하는 것보다 당신의 대출에 대한 채무 불이행

그 이유를 누군가에게 설명해야하는 경우 매우 유용합니다 당신이 당신의 모델에서 한 일을했습니다 신경망과는 달리 장면 아래에 많은 숫자를 생성합니다 모든 숫자를 곱하면 예측 가능성을 알려줍니다 따라서 결과를 전혀 해석 할 수 없습니다 소프트웨어로 돌아갑니다

신경망 모델을 구축했습니다 신경망의 파이프 라인을 볼 수 있습니다 파이프 라인보다 조금 더 복잡합니다 의사 결정 트리 방금 데이터에서 의사 결정 트리로 바로 넘어갔습니다 신경망 노드의 경우 변수 관리 노드, 대치 노드, 및 변수 선택 노드 우리는해야합니다-변수를 관리해야합니다 대치에 대한 메타 데이터를 설정하려면 변수 선택

대치에서 우리는 교체해야합니다 데이터에 누락 된 값이 있습니다 의사 결정 트리는 결 측값이 어느 지점 에나 있습니다 따라서 선을 그리면 결 측값 줄의 어느 쪽이든 갈 수 있습니다 신경망은 방정식을 만들고 방정식에는 숫자가 필요합니다

결 측값은 숫자가 아니므로 교체해야합니다 우리는 그것들을 평균으로 대체 할 것입니다 우리가 결정 트리를 만들 때, 각 분할에서 분할 할 변수를 선택했습니다 예를 들어 첫 분할은 연체 신용 한도였습니다 연체 크레딧 한도 부채 대 소득 비율

신경망은 자동으로되지 않습니다 사용할 변수를 선택하십시오 대신에 그것들을 모두 방정식에 넣습니다 다시 말하지만 방정식이기 때문에 모든 변수 방정식의 숫자를 곱하십시오 변수 선택 노드를 사용합니다 신경망으로 들어가는 변수를 선택합니다 변수의 수를 제한하고 싶습니다 신경망으로 들어가서 유용한 변수를 사용하십시오

의사 결정 트리에서 모든 변수가 아님을 알았습니다 유용했습니다 신경망을 마우스 오른쪽 버튼으로 클릭하고 결과를 선택합니다 가장 먼저 강조 할 것은이 신경망 다이어그램입니다 나는 다양한 정통이기 때문에이 사진을 좋아합니다

이 사진이 마음에 들지 않아서 유용한 정보가 많지 않습니다 누군가를 보여주는 것은 좋은 사진입니다 신경망을 구축했다면 다음과 같습니다 가장 먼저 보는 것은 세 개의 입력 변수를 사용한다는 것입니다 11 개의 변수로 시작했습니다 하지만 우리는 그중 세 가지만 사용하기 때문에 변수 선택 내가 쓸모없는 것 이 점들의 크기는 숫자 가중치의 크기 방정식을 만드는 데 사용되지만 이미 당신은 정말 해석 할 수 없다고 그 방정식의 의미 또는 그 무게의 의미 정말 해석하기 쉽지 않습니다

이 도표는 당신에게 그림을 보여줍니다 나타내는 신경망의 방정식을 만드는 방법 신경망에 익숙하다면 이 다이어그램을보고 적어 둘 수 있습니다 방정식이 어떻게 보일지에 대한 모델 당신은 분명히 거기에 들어가는 모든 숫자가 빠졌을 것입니다 숫자를 뽑아야합니다 알다시피, 우리는 derog를 사용하고 있습니다

그것은 멸시 신용 보고서입니다; 연체 신용 한도 인 delinq; 목표 BAD를 시도하고 예측하기위한 부채 대 소득 비율 이 다이어그램을 닫고 신경의 결과를 닫습니다 네트워크 노드와 모델 비교로갑니다 우리가 다른 모델에서 어떻게했는지 보려고합니다 시각적 결과가 훨씬 적다는 것을 알 수 있습니다 사실에 연결되는 신경망을 위해 의사 결정 트리는 기본적으로 해석 가능합니다 신경망이 생성하는 반면 모델 백엔드에 많은 숫자

많은 결과는 숫자입니다 그 숫자 결과를 가져 와서 적용 할 수 있습니다 모델 비교 노드를 열고 오류가 줄어든 의사 결정 트리와 정리 한 사람 이니까 훈련 데이터에 큰 결정 트리를 구축 한 곳 그런 다음 잘라 내고 실제로 가장 잘 수행했습니다 오 분류 율 신경망의 오 분류 율 약 20 %였습니다 이는 신경망 모델이 실제로 관심있는 정보를 포착하지 못했습니다

설명하는 가장 쉬운 방법은 이것은 의사 결정 트리가 더 간단한 모델이라는 것입니다 이것은 더 간단한 데이터 세트입니다 이 데이터 세트의 한 가지 문제는 신경망을 손상시킬 수 있습니다 직업과 같은 범주 형 입력 변수입니다 우리는 다른 사람들의 직업 목록을 가지고 있습니다 신경망은이 변수들과 잘 어울리지 않습니다 의사 결정 트리로

신경망 모델은 우리가 관심있는 것을 포착하지 못했습니다 실제로이 데이터 세트에서 작동하지 않았습니다 그러나 우리는 결정의 차이점을 강조하고 싶었습니다 나무와 신경망 그리고 일반적으로 찾을 수있는 것 새로운 데이터를 다루면서 작업해야 할 모든 데이터, 일부 모델은 다른 모델보다 더 잘 작동합니다 데이터가 정말 단순하다면 의사 결정 트리 및 선형 회귀 모델을 찾을 수 있습니다

정말 잘 작동합니다 데이터가 정말 복잡하다면 제대로 작동하지 않으면 신경망이 더 나은 모델이라고 제안합니다 제가 말할 한 가지는 의사 결정 트리가 실제로 잘 작동한다는 것을 알았습니다 반드시 제안 할 필요는 없습니다 신경망이 제대로 작동하는지 확인하십시오

두 모델을 비교해 보는 것이 좋습니다 기계 학습에 대해 배우기 위해 함께 해 주셔서 감사합니다 기초 우리는 의사 결정 트리에 대해 조금 이야기했습니다 일부 신경망 모델 구독하고 더 많은 비디오를 확인하십시오

아래 링크를 확인하십시오 질문이 있으시면 의견에 자유롭게 넣으십시오 감사

YOLO Object Detection v2 (MATLAB Tutorial) using Deep Learning!

You Only Look Once-이 딥 러닝 객체 감지 알고리즘은 현재 R-CNN보다 성능이 뛰어난 최신 기술이며 그 변형입니다 몇 가지 다른 물체 감지 알고리즘을 살펴보고 왜 YOLO가 그렇게 잘 작동하는지, 어떻게 자동차를 분류하기 위해 로지스틱 회귀로 자체 YOLO 신경망을 구축 할 수 있을까요? 전체 코드와 패키지 목록은 여기에서 찾을 수 있으며 내 비디오와 함께 코드를 사용하여 30 분 이내에이 YOLO Detector를 작성하는 데 많은 도움이됩니다! https://www

mathworkscom/help/deeplearning/examples/object-detection-using-yolo-v2html Mathworks의 MATLAB r2019a를 사용하고 있습니다 최신 버전의 MATLAB에서이를 복제 할 수 있어야합니다 이 비디오는 Siraj Raval과 그의 YOLO Tensorflow 기술과 튜토리얼에서 영감을 받았습니다

나는 MATLAB을 위해 하나를 만들기로 결정했습니다! 구독하고 좋아요 댓글 어쩌면 공유? 이 중 하나라도 대단히 감사하겠습니다! 그것은 나의 일을 계속하고, 당신들을 위해 AI (인공 지능) 비디오를 계속 만들도록 격려합니다! YOLO 네트워크 Matlab 2019, 딥 러닝 신경 네트워크, CNN, 인공 지능을 만드는 방법 제 이름은 Rishabh Jain이며 오늘 Yolo 버전 2 딥 러닝 비디오에 오신 것을 환영합니다

물체 감지 및 MATLAB 2019 년 오늘 우리는 당신의 세계를 한 번만 살펴볼 것입니다 이 비디오 후에 완성 된 열차 Yolo 감지기를 만들 것입니다 모델이 어떻게 작동하는지 배울 것입니다 다양한 데이터 세트를 다운로드하여 모델을 학습시키고 마지막으로 모델을 감지하여 이 경우 자동차가 될 개체를 설명하십시오 먼저 개요로 Yolo가 무엇인지 살펴 보겠습니다 그런 다음 필요한 다운로드 자동차 이미지가 포함 된 사용 가능한 데이터 세트를로드하는 도구 상자 및 관련 라이브러리 Yolo 감지기를 훈련하고 마지막으로 모델을 평가하고 테스트하여 비디오 내에서 전체 요약을 제공합니다 우선 Yolo가 무엇입니까 Yolo는 한 번만 보이며 여러 단계가 있습니다

이러한 단계는 다음과 같이 먼저 전체 이미지에 신경망을 적용합니다 이미지를 그리드로 나누고 예측과 확률로 상자를 정의하십시오 다음으로 로지스틱 회귀 분석을 사용하여 각 그리드 내의 각 클래스에 대한 확률을 계산합니다 여러 클래스에 대해 서로 다른 회귀 모델을 사용합니다 예를 들어 다른 객체는 하나를 사용합니다 자동차 등을 훈련시키는 로지스틱 회귀 마지막으로 우리는 어떤 상자 또는 미니 그리드 사각형이 더 높은 확률을 갖는지를 결정합니다

로지스틱 회귀 모델을 훈련시키는 객체 또는 클래스는 우리 앞에 모범이 있으면 이해하십시오 예를 들어이 그리드에서 우리는 지구 전체를 볼 수 있으며 지구 내의 모든 국가는 우리가 찾으려고 노력하고 있다고 말합니다 특정 국가 (예 : 미국) 처음에 일어날 일은 먼저이 그리드의 그리드를 상자 전체에 배치하는 것입니다 기본적으로 이미지 전체에 신경망 적용 그럼 우리는 하나의 수업 만 가질 것이고 우리는 단지 예측하려고 노력하기 때문에 미국이라는 것이 있는지 여부 우리는 로지스틱 회귀를 넣을 것이고 우리는 하나의 모델을 가질 것입니다 우리는 미국인 클래스를 하나만 가지고 있으며 우리가 우리에게 가능성을 계산할 것입니다 각 그리드 박스에 있습니다 예를 들어, 왼쪽 상단에 0 0이 있고 그 사실을 알고있을 것입니다 우리를 데려 갈 확률도 05 % 예를 들어 2 3과 같은 상자가있는 동안 멕시코의 일부는 확률이 높을 수 있습니다 어떻게 든 더 가깝고 로지스틱 회귀 모델이 그것을 말할 수 있기 때문에 기본 박스만큼 높지 않기를 바랍니다

2 2에 위치하고 왼쪽은 다양한 이미지에서 신경 네트워크를 훈련시킵니다 예를 들어 훈련시킬 수 있습니다 여러 개의 지구본이 이미지와 같으며 모델에 그리드 선을 그려 확률을 계산할 수 있습니다 각 상자마다 결국, 우리는 어느 박스가 미국을 포함하는지 예측할 수있는 신경망을 보게 될 것입니다 정확하고 좋은 시간에 Yolo를 사용할 때 한 가지만 기억합시다 우리는 실제로 실시간 테스트 및 훈련 절차를 가지고 있습니다 로지스틱 회귀 분석을 사용하고 있기 때문에 상당히 빠른 평가 우리는 일반적으로 필요한만큼의 데이터를 필요로하지 않습니다 로지스틱 회귀 및 데이터 양은 사용중인 클래스에 따라 변경 될 수 있습니다

2 단계로 넘어 갑시다 MATLAB에서 라이브러리 및 도구 상자를 다운로드하는 것은 매우 간단하며 이미 몇 가지가 있어야한다고 가정합니다 전에 기계 학습 또는 딥 러닝 프로젝트를 수행 한 경우 도구 상자 따라서 컴퓨터 비전 툴박스 딥 러닝 툴박스와 병렬 컴퓨팅 툴박스가 필요합니다 선택적으로 네트워크를 직접 훈련시키고 사전 훈련을 필요로하지 않는 경우 작업 속도를 높이고 작업을 좀 더 호환성있게 만드는 NVIDIA GPU 그 외에는 매우 간단합니다 대부분이 이미 설치되어 있어야합니다

이미 딥 러닝 도구 상자가있는 경우 ResNet 50 네트워크에 대한 딥 러닝 툴박스 모델이 있어야합니다 하지만 일단 MATLAB에서 코드를로드하면 그것은 당신에게 경고하고 당신이 잃어버린 것과 우리가 모두 가지고 있기 때문에 지금 당신이 무엇을 필요로하는지 알려 주어야합니다 설치된 모듈 및 라이브러리 사전 훈련 된 검출기 다운로드를 시작하겠습니다 이 예는 사전 훈련 된 감지기를 사용하여 예없이 Train Yolo v2로 감지기를 훈련 시키려면 훈련이 완료 될 때까지 기다려야합니다 코드에서 볼 수 있듯이 객체 감지기 기능은 훈련 훈련 변수를 true로 설정합니다 그렇지 않으면이 코드를 사용하여 사전 훈련 된 검출기를 다운로드하십시오

다음으로 데이터 세트를로드합니다 이 예는 다음을 포함하는 소형 차량 데이터 세트를 사용합니다 각 이미지에 295 개의 이미지에는 하나 또는 두 개의 레이블이있는 차량 인스턴스가 포함되어 있습니다 작은 데이터 세트는 Yolo v2 교육 절차를 탐색하는 데 유용합니다 그러나 실제로 강력한 검출기를 훈련시키기 위해서는 더 많은 라벨링 된 이미지가 필요합니다 훈련 데이터는 테이블에 저장됩니다 첫 번째 열에는 이미지 파일의 경로가 포함되고 나머지 열에는 ROI가 포함됩니다 차량 라벨 다음으로 데이터 세트의 이미지 중 하나를 표시하여 포함 된 이미지 유형을 이해합니다 코드를 사용하여 화면의 오른쪽에 보이는 것처럼이 예제 이미지를 실제로 표시합니다 금후 탐지기를 훈련시키기위한 데이터 세트와 탐지기를 평가하기위한 테스트 세트로 데이터 세트를 분할합니다

교육용 데이터의 60 %를 선택하면 나머지는 평가 용으로 사용됩니다 먼저 이미지 입력 ​​크기와 클래스 수를 지정하십시오 이미지 입력 ​​크기는 훈련 이미지의 이미지 크기보다 커야합니다 이 예에서는 RGB 또는 3 가지 색상이 있으므로 이미지 또는 2 24 x 2 24 x 3 다음으로 앵커 박스의 크기를 지정하겠습니다 다음으로 사전 훈련 된 ResNet 50을로드합니다 피처 레이어를 지정하고 yolo 감지 네트워크 생성 마지막으로 Yolo 물체 탐지기를 훈련시킵니다 아래 설명에서 나머지 코드와 함께이 코드 섹션을 찾을 수 있습니다

화면의 공간이 부족하여 코드를 모두 표시 할 수 없기 때문에 코드의이 부분은 설명에 있습니다 기본적으로 테스트 세트에있는 다양한 이미지가 모두 포함 된 테이블을 만든 다음 실행합니다 각 이미지의 검출기는 평균 정밀도뿐만 아니라 로그 평균 미스율을 계산합니다 그래프를 작성하면 다음과 같은 것을 찾을 수 있습니다 이 예제는 딥 러닝을 사용하여 차량 감지기를 훈련시키는 방법을 보여줍니다

교통 표지판 탐지기를 훈련시키기 위해 비슷한 단계를 따를 수 있습니다 딥 러닝에 대해 더 배우기위한 보행자 또는 기타 대상 아래 설명을 확인하고이 비디오에서 다시 언급 한 다른 코드를 다운로드하거나 배우십시오 설명을 확인하십시오 시청 해주셔서 감사합니다 이 채널을 좋아하고 구독 해주세요 다음에 you겠습니다

Boosting Machine Learning Tutorial | Adaptive Boosting, Gradient Boosting, XGBoost | Edureka

헤아릴 수 없을만큼 많은 양의 데이터를 생성하고 있으므로 더 진보되고 복잡한 기계 학습 기술을 개발하십시오 부스팅 기계 학습은 복잡한 문제를 해결하는 데 사용할 수있는 기술 중 하나입니다

안녕하세요, 저는 모두 에드 레카 (Edureka)의 줄 라카이 (Zulaikha)입니다 이 세션에서 기계 학습을 향상시키는 것을 환영합니다 오늘 의제를 통해 우리가 세션을 시작할 것입니다 왜 부스팅이 사용되었는지 이해하면 정확히 무엇을 이해할 수 있을까요? 기계 학습의 수단을 강화하면 우리는 계속해서 알고리즘이 작동하고 마침내 다양한 ​​유형의 부스팅에 대해 논의 할 것입니다 적응 형 증폭, 그라디언트 증폭 및 XGBoost가 포함됩니다

파이썬에서 실제 구현을 살펴봄으로써 세션 기계 학습 알고리즘을 향상시키는 것이 어떻게 컴퓨터 학습 알고리즘을 향상시키는 데 사용될 수 있는지 이해합니다 모델의 정확성은 내가 더 이상 움직이지 않기 전에 당신이 구독하는지 확인하십시오 가장 인기있는 트렌드 이상으로 업데이트 된 상태를 유지하려면 Edureka youtube 채널로 기술은 이제 우리의 첫 번째 주제를 살펴 보겠습니다 내가 무엇인지 말해주기 전에 부스터 머신 학습 기술을 사용합니다 무엇이 기계 학습을 향상시켜야하는지 이해하도록하자

복잡한 첨단 기술을 필요로하는 복잡하고 복잡한 문제를 해결하십시오 이제 고양이와 개를 포함하는 이미지의 데이터 세트가 주어 졌다고 가정 해 봅시다 이러한 이미지를 분류 할 수있는 기계 학습 모델을 작성하도록 요청받습니다 다른 두 사람과 같은 두 개의 클래스로 나눠서 시작합니다 몇 가지 규칙을 사용하여 이미지를 식별하면 이미지에 포인트가 있다고 가정 해 봅시다

이미지에 포인트 귀가있는 경우 규칙이 적용됩니다 그렇다면 바로 고양이입니다 마찬가지로 이미지에 cat이라는 다른 규칙을 만들었다 고 가정 해 봅시다 다시 고양이를 의미하는 모양의 조명 이제 이미지가 더 큰 사지를 가지고 있다면 그것은 강아지이고 이미지가 있다면 날카롭게 한 발톱 그 때 심상에는 더 넓은 입이있는 경우에 유사하게 고양이이다 구조 다음에는 개들이 이제 우리가 정의하는 몇 가지 규칙입니다

이 규칙 중 하나를 사용하여 고양이인지 개인지를 식별하기 위해 그것을 이해하지 못하는 이미지를 분류하라 좋아, 고양이가 다른 품종과 그것보다 큰 다리가 있고 당신은 입력 이미지를주고 규칙은 이미지가 더 큰 팔다를 가지고 있다고보고있다 이미지에 개별적으로 적용되는 규칙은 당신에게 정확한 결과 바로이 모든 규칙을 적용하고 이미지가 제대로 표시되는지 확인해야합니다 이러한 모든 규칙을 통해 결과를 예측하여 규칙은 개별적으로 약한 학습자라고 부릅니다 고양이 나 개로 이미지를 분류 할만큼 충분히 강함

말하자면 이미지를 고양이 나 개로 분류하는 규칙을 하나만 사용하면 당신의 예측은 대부분 잘못 될 것입니다 고양이 나 개로 이미지를 분류하고 분류하여 확인하십시오 우리의 예측은 더 정확합니다 이 약한 학습자는 다수 규칙 또는 가중 평균을 사용하고 위의 예에서 강력한 학습자 모델이 무엇인지 정확히 알 수 있습니다 우리는 약한 학습자 5 명을 정의했으며 이러한 규칙의 대부분은 우리에게 우리의 최종 결과가 고양이 인 이유는 이미지가 고양이라는 예측입니다

바로 여기에서 세 가지 규칙이 이미지를 고양이로 분류한다는 것을 알 수 있습니다 두 마리가 개로 분류되어 대다수가 고양이라고 말합니다 우리는 고양이와 함께 갈 것입니다 이것은 강력한 학습자 모듈이 바로 그것입니다 모든 약한 학습자를 결합하여 더 정확하고 더 많은 것을 제공하십시오

정확한 예측이 이제 정확히 무엇이 부스트되고 있는지에 대한 질문을하게됩니다 부스팅 (boosting)은 기계 집합을 사용하는 예제 학습 기법입니다 약한 학습자를 강하게 변환하거나 결합하기 위해 학습 알고리즘 학습자는 모델의 정확성을 높이기 위해 그래서 부스트를 늘리는 것은 실제로 효과적인 방법입니다 위에서 본 대부분의 대회에서 모델의 효율성 Kaggle 또는 모든 기계 학습 경쟁 최대 승자가 일반적으로 컴퓨터를 보강하고 짐을 싣고 다니는 것을 알고 있습니다 또는 무엇이 모르는 당신을 위해 지금 다른 어떤 매춘부 학습 기술 초보자 학습은 걱정하지 않아도됩니다

다음 줄에서 다루겠습니다 우리가 얻은 결과물이나 예측을 결합하여 그림에서 볼 수 있습니다 강력한 학습자를 얻으려면 모든 차량 소유자 또는 우리의 규칙에서 그래서 이것은 지금 증폭의 기본 원리입니다 ensamble 학습은 Semba 학습은 기본적으로 모델 성능과 정확성을 높이십시오 이것이 바로 샘플 내에서의 이유입니다

방법은 Netflix와 같은 시장을 선도하는 경쟁에서 이기기 위해 사용됩니다 추천 경쟁 및 기타 Kaggle 대회는 최대 귀하의 승자는 항상 아래의 ensamble 학습 모델을 구현할 것입니다 ensamble 학습 우리는 순차적 인 두 가지 유형과 기호와 병렬을 가지고있다 당신이 혼란에 빠지기 전에 남자들이 기호를 사용하여 배가 부 풀리기 및 배깅을 학습하는 형식의 두 가지 유형입니다 당신이 ensamble 학습을 수행 할 수 있도록 첫 번째 유형의 모델이 순차적 인 ensamble 모델은 여기에서 boosting으로 널리 알려져있다

약한 학습자는 훈련 단계에서 순차적으로 생산된다 모델의 성능은 이전 베타에 더 높은 베타를 할당함으로써 향상됩니다 샘플을 잘못 분류하면 부스팅의 예가 적응 형입니다 증폭 및 샘플링 알고리즘에서 증폭 알고리즘 전체 데이터를 알고리즘에 설정하면 알고리즘이 예측을 통해 알고리즘이 일부 데이터를 잘못 분류했다고 가정 해 봅시다 당신이 잘못 분류 된 데이터에 더 많은 관심을 기울이는 것이죠

포인트는 당신이 우리의 대기 시간을 늘려서 그러므로 당신이 그것을 많이 지적한 것입니다 이 일을 계속하는 잘못 분류 된 값에 더 많은 중요성이 부여됩니다 잘못 예측 한 샘플이나 잘못 분류 된 샘플이 올 때까지 예측 된 권리는 모델의 효율성을 높이는 방법입니다 평행 학습으로 알려진 무언가를 가지며 또한 표본 추출법을 포기라고도합니다 귀하의 주 학습자는 평행하게 산출됩니다 교육 단계에서 모델의 성능은 다음과 같이 될 수 있습니다

부트 스트랩 된 데이터에 대해 약한 학습자를 평행하게 교육하여 증가 배깅의 예를 설정하면 무작위로 포리스트 알고리즘을 사용할 수 있습니다 백킹 작업은 데이터 세트를 다른 부트 스트랩 데이터 세트로 나누는 것입니다 당신은 약한 학습자 또는 각 데이터 집합에 알고리즘을 실행하고 있습니다 귀하의 외륜이 내가이 모든 일을하는 반면 순차적으로 잘못 분류 된 것에 따라 가중치를 업데이트하는 것과 함께이 작업을 수행합니다 샘플이 맞습니다

이것은 정확히 ensamble 학습이 무엇인지에 대한 것입니다 정확히 짐 챙기기와 부스팅이 옳다는 것과 명확한 구별이 있습니다 이 둘 사이에는 실제로 가장 자주 묻는 질문 중 하나입니다 기계 학습에 대한 인터뷰를 위해 항상 질문을합니다 배깅과 부스팅이 정확히 무엇인지 물어 본다

그래서 두 사람의 차이점을 이해했는지 확인하십시오 계속 나아가 내가 언급 한 것처럼 부스팅 알고리즘이 어떻게 작동하는지 이해합니다 기본 원칙은 여러 주 학습자를 생성하고 예측이 하나의 강력한 규칙을 형성하게 된 지금이 큰 학습자는 서로 다른 분포의 기본 기계 학습 알고리즘 적용 데이터 세트는 이제 기본 학습 알고리즘이 일반적으로 결정 트리입니다 부스팅 알고리즘에서 기본값이므로이 학습자가하는 일은 생성됩니다 각 반복마다 약한 규칙이 있으므로 반복 횟수가 많으면 약한 학습자 결합되어 더 많은 것을 예측할 수있는 강력한 학습자를 형성합니다

정확한 결과 그래서 당신이 데이터에 대해 이것을 고려하여 단계적으로 설명하게합시다 여기에 두 가지 유형의 데이터가 있습니다 서클을 가지고 있으므로 기본적으로 최종 목표는 두 가지 다른 유형으로 분류하는 것입니다 수업이 이제 정확히 당신이하는 방법입니다 그래서 시작하는 방법은 기본입니다 알고리즘은 데이터를 읽고 모든 데이터에 동일한 임금을 할당합니다 그래서 우리는 데이터를 분석하려고 노력할 것입니다 결정 그루터기 결정 그루터기는 기본적으로 단일 데이터 포인트를 이후에 분류하려고하는 레벨 결정 트리 시도 할 클래스의 모든 점에 동일한 가중치를 지정합니다

결정 그루터기를 그릴 수있는 첫 번째 이미지에서 바로 그루터기를 그립니다 그 다음에는 거짓 예측을 확인하고 다음 단계는 다음과 같습니다 기본 학습자는 그렇게 한 모든 잘못된 예측을 식별합니다 다음 반복은 당신이하는 일은 이들에게 더 높은 체중 연령을 할당하는 것입니다 첫 번째 이미지에서 잘못 분류 된 샘플이 두 이미지를 성공적으로 분리했습니다

맞다 그러나 다른쪽에는 세 개의 다른 사각형이있다 이 세 사각형을 잘못 분류 했으므로 다음 반복에서 이미지를 보면 세 개의 사각형에 높은 베타 jazzing이 있음을 보여줍니다 이미지의 크기를 늘리면 bhadiya 다음 수화 페이지가 증가합니다 마찬가지로 잘못 분류 된 샘플에서 기본적으로 당신은 더 많은 것을 지불 할 것입니다

잘못 분류 된 샘플에주의를 기울여서 대기 시간을 늘려야합니다 그 샘플이 정확하게 분류되어 있는지 확인해야합니다 다음 반복 너무 말했듯이 당신은 두 단계를 반복합니다 모든 잘못 될 때까지 잘못 분류 된 샘플의 무게 연령을 증가시킵니다 샘플은 정확하게 분류되어 있으므로 여기의 다이어그램을 살펴보십시오

올바르게 분류되어 있습니다 우리는 원 세트가있는 사각형 세트를 가지고 있습니다 그래서 정확히 부스팅 알고리즘이 작동하는 방식입니다 부스트 유형에는 주로 3 가지 부양책이 있습니다 그래디언트 boosting과 xg boost를 향상 시켜서 각각에 대해 논의 할 것입니다

브리핑이 내가 이전 선에서 당신에게 설명했던 것입니다 몇 명의 약자를 하나의 강점으로 결합하여 구현됩니다 이 적응 부스팅 알고리즘이 적응하는 두 단계 모든 데이터 포인트에 동일한 웨이트 엣지를 지정하여 부스팅이 시작됩니다 다음 단계는 단일 입력 기능에 대한 결정 그루터기를 그립니다 첫 번째 결정 그루터기에서 얻은 결과가 분석되고, 관측치가 잘못 분류되면 더 높은 가중치가 정확하게 할당됩니다

이전 슬라이드에도 설명되어 있으므로 새로운 결정 그루터기는 높은 가중치를 가진 관측치를 더 중요한 데이터 포인트가 오 분류 되었더라도 다음 단계에서 더 높은 가중치를 주면 다른 결정 그루터기가 그려집니다 데이터 포인트를 더 중요하게 분류하여 데이터 포인트를 분류 잘못 분류 된 관측치가 있으면 체중 연령이 다시 높아진다 그들은 더 높은 무게가 주어지고이 과정은 계속 될 것입니다 모든 관찰이 올바른 수업에 들어갈 때까지 반복을 계속한다 그래서 끝이다 목표는 모든 데이터 요소가 올바른 클래스 적응 형 부스팅 또는 부스트 추가 또한 회귀에 사용될 수 있습니다

문제는 분류에만 국한되지 않고 분류와 회귀는 모두 그렇지만 더 일반적으로 분류 문제가 있었으므로 이제는 적응 부스팅에 대한 간단한 설명을 드리겠습니다 그래디언트 부스팅을 이해하면 그래디언트 부스팅도 순차를 기반으로합니다 여기서 모델을 학습하는 기호는 기본 학습자가 현재의 학습자가 항상 존재하는 방식으로 순차적으로 e를 생성했다 이전 모델보다 효과적입니다 기본적으로 전체 모델이 향상됩니다

순차 e를 반복 할 때마다이 유형의 부스팅의 차이점은 다음과 같습니다 잘못 분류 된 결과에 대한 가중치가 증가하지 않는 경우 잘못 분류 된 결과에 가중치를 그라디언트를 높이는 것은 당신이하는 일의 손실 기능을 최적화하려고 시도하는 것입니다 약한 학습자를 추가하는 새로운 적응 모델을 추가하여 이전 학습자 손실 함수를 줄이기 위해 여기에서 주요 아이디어는 이전 학습자의 예측에서 오류가 발생했습니다 이제 이러한 유형의 부스팅이 있습니다 세 가지 주요 구성 요소는 손실 함수 손실 함수 최적화되어야하는 것을 의미합니다

오류 다른 요소는 약한 학습자가 컴퓨팅에 필요하다는 것입니다 예측을하고 강력한 학습자를 형성하면 추가 모델이 필요합니다 손실 기능을 규칙 화하여 손실을 수정하려고합니다 또는 지난 주 학습자의 오류 맞아요 그래서 당신은 손실 함수를 정규화 할 모델을 계속 추가합니다

이전의 학습자는 적응 형 부스트 그라디언트 증폭과 마찬가지로 분류와 회귀 문제 모두에 대해서도 사용하자 XG 부스트는 이제 XG 부스트의 마지막 유형입니다 말 그대로 그라디언트를 높이는 고급 버전은 극단적 인 그라디언트를 의미합니다 XG 부스팅이 실제로 분산 된 범주에 속하는 경우 기계 학습 커뮤니티 괜찮아요 그라데이션의 고급 버전입니다

부스팅 방법이 알고리즘의 주요 목표는 속도를 높이고 경쟁에서의 효율성을 높이고 모델에서 벗어나십시오 성능 때문에이 모델이 도입 된 이유는 그라디언트 부스팅 알고리즘은 출력을 매우 느린 속도로 계산하고있었습니다 데이터 세트를 순차적으로 분석하면 시간이 오래 걸립니다 그것이 XG boost가 도입 된 이유입니다 모델의 성능이 SG 부스트로 인해 주로 속도에 집중할 것입니다

그리고 당신의 모델 효율을 위해서는 몇 가지 기능이 있습니다 Parallelly Decision Tree를 생성하여 병렬 처리를 지원합니다 순차적 모델링은 이것으로 구현됩니다 크고 복잡한 모든 것을 평가하기위한 분산 컴퓨팅 방법 모듈은 또한 거대한 컴퓨팅을 분석하기 위해 코어 컴퓨팅을 사용합니다 최적의 사용을 위해 kashchei 최적화를 구현하는 다양한 데이터 세트 하드웨어와 리소스에 대한 전반적인 정보가 여러 가지 유형의 부스팅 알고리즘이 이제 상황을 조금만 만듭니다 더 재미있는 전에 실용적인 구현 짧은 면책 조항을 실행하자 데모를 시작하려면 Python을 사용하여 데모를 실행하십시오

if 당신은 파이썬을 모릅니다 설명 상자에 두 개의 링크를 남깁니다 당신은 그 링크를 통해 가서 어쩌면 다시 와서이 비디오를 볼 수 있습니다 이제이 데모에서 정확히 무엇을 할 것인지 이해해 보겠습니다 진술은 버섯 데이터를 연구하고 버섯을 독성 또는 식용으로 분류하여 버섯의 특징에 따라 버섯 데이터 세트가 주어집니다

해야 할 일은이 버섯 중 어느 것이 식용인지 이해해야한다는 것입니다 그것은 유독하다 그래서이 데이터 세트는 기본적으로 23 가지 다른 버섯을 가지고있다 종과 한 종은 식용 버섯 또는 비 식용으로 분류됩니다 먹을 수있는 것들 말이 맞아요

그래서 여기 다시 논리는 기계를 만드는 것입니다 부스팅 알고리즘 중 하나를 사용하여 모델을 예측하여 예측 버섯이 먹을 수 있는지 여부에 관계없이 코드를 빨리 열어 보겠습니다 모두들 모두 콘솔을 볼 수 있기를 바랍니다 그래서 우리는 그때까지만 실행이 기다릴 것입니다 다른 데모와 마찬가지로 코드를 작성하면 필요한 것을 가져 오기 시작합니다

패키지는 이제 파이썬에서 가장 좋은 점은 inbuilt 패키지와 라이브러리를 사용하면 복잡한 프로세스를 구현할 수 있습니다 이 라이브러리를 가져와야 만 제가 여기서하고있는 일을 정확히 수행 할 수 있습니다 그 후 데이터 집합으로 알려진 변수에 데이터 집합을로드하는 중입니다 기본적으로 이것은 내 데이터 집합입니다이 위치에 저장됩니다

나는 그것을 읽고 그것을 수행 할 것이고이 변수에 그것을 저장하고있다 여기서 데이터 처리는 우리의 데이터 세트에서 열 이름을 정의 할 것입니다 열 이름이 정의되어 있지 않으며 여기에 모든 열 이름을 정의하고 있습니다 그런 다음 실행중인 데이터 세트에 이러한 열 이름을 할당합니다 이 인쇄 데이터는 우리의 모든 기능을 볼 수 있도록 정보를 설정하므로이 데이터가 우리의 데이터입니다

열에는 23 개의 변수가 있습니다 어느 변수가 당신의 목표 변수인지에 따라 목표 변수가 우리가 예측하려고하는 출력 변수와 나머지 변수들 bruce의 모자 색 캡 표면은 모두 예측 변수입니다 우리는 데이터로부터이 목표 변수를 떨어 뜨릴 것입니다 우리가 이것을 예측하려고하기 때문에 우리는 가치를 예측하려고 노력하고 있습니다 이 타겟 변수의 값을 반환합니다

그 차량을 예측하기 위해 우리의 Y는 우리의 목표 변수를 포함 할 것입니다 이제 목표 변수를 포함하지 않습니다 Y는 기본적으로 모델 사람들이 내가이 모든 것이 옳다는 것을 모두 알고 있기를 바랍니다 나는 가지 않습니다 이것이 기본 기계 학습이기 때문에 이것에 심층적 인 연구가 필요합니다 당신은 기계 학습에 대해 좋은 생각을 가지고있을 것입니다

머신 학습은 데이터 스 플라이 싱 (data splicing)으로 알려진 것을 수행하고 있습니다 기본적으로 데이터 세트를 교육 및 테스트 데이터 세트로 분할합니다 이 변수는 테스트 데이터 세트의 크기를 정의하므로 30 %가 할당됩니다 테스트를 위해 여기에 70 %가 훈련을 위해 할당되었습니다 결정 트리 분류기를 기초 추정기 권한으로 사용하여 모델 기본 추정기는 기본적으로 당신의 약한 법칙이고 여기서 우리는 엔트로피 방법을 사용하고 있습니다

경로 차량에 가장 적합한 속성을 찾기 위해 이 함수 adaboost 분류자를 호출하기위한 의사 결정 트리는 다음과 같습니다 기본적으로 똑같은 일을 할 수있는 inbuilt 함수는 boostising 분류가해야하고 세 가지 중요한 매개 변수는 당신이 이 함수 기반 추정기를 통해 n 개의 추정기 및 학습률 귀하의 기본 견적가는 기본적으로 당신은 약한 학습자이며, 기본적으로 약한 학습자는 항상 의사 결정 나무입니다 그래서 우리가하고있는 것은 다음과 같습니다 결정 트리를 저장 한 모델에서 변수 모델을 여기에 전달합니다 분류 자 다음에 n 개의 추정자를 강조하므로이 필드는 우리가 바로 사용하려고하는 기반 학습자의 수 우리 모델에 우리가 가지고있는 주 학습자 수는 400 명입니다

다음으로 우리는 학습률을 학습 속도로 지정합니다 우리는 하나의 기본값으로 설정 한 코스 다음에 필요하지 않은 라인을 지우겠습니다 우리 모델을 평가하고 여기에 우리의 모델을 테스트 데이터를 다음에 제공 할 때 값을 예측하는 방법 우리가 예측치를 실제 가치와 비교했을 때 100 %의 정확도를 얻으면 여기서 정확도가 100 %임을 알 수 있습니다 부스팅 머신을 사용할 때 이것이 예상된다는 것을 알고 있기 때문에 완벽합니다 시도 할 경우 학습 기계를 사용하는 대신 학습 알고리즘을 배우십시오

의사 결정 나무와 같은 약한 학습자 모델을 사용하면 정확도가 향상됩니다 백 퍼센트가되지 마라 항상 다른 문제가있다 특히 의사 결정 트리가 넘치는 상황이 발생할 수 있으므로 귀하의 모델이 정확성을 높이기 위해 부스터 기계 학습을 사용하는 것입니다 정확히 내가 알고 싶었던 알고리즘은 기술을 사용하면 모델의 정확성을 높이고 우리는 오늘 회의가 끝날 때까지이 문제에 관해 의문이 생기면 세션을 누른 다음 댓글 섹션에 남겨 둘 수 있습니다

그리고 다음 번에 행복하게 배울 때까지 나는 이 비디오를 듣고 즐거웠 으면 좋겠다 의심과 검색어에 대해 의견을 말할 수 있으며 가장 초기의 플레이어는 우리의 재생 목록에서 더 많은 동영상을 찾아보고 Edureka를 구독합니다 채널을 통해 더 많은 것을 배우고 행복하게 배울 수 있습니다

Data sets for Data Science and Machine Learning | Data Science Tutorial | ZaranTech

헤이 안녕 얘들 아 안녕하세요, 당신이 내 말을들을 수 있기를 바랍니다 화면 이 끝내는 알았어

이 세션에서 우리는 이야기 할거야 기계 학습 및 데이터 과학에 대한 데이터 세트에 대해 모두 괜찮은 vinod 네가 할 수없는 모든 사람들에게 똑같은 말을들을 수 없다고한다 내 말을 들으면 내가 뭘 알 겠어? 감사합니다 음 데이터 세트를 보시라

데이터 과학 및 기계에 관해서 정말 정말로 중요합니다 실제로 특정 데이터 과학을 찾기 란 매우 어렵습니다 실험이나 실험을 할 수있는 다양한 기계 학습 문제에 사용 하나의 데이터 세트를 가져올 수 없으며 모든 분류 플러스 스트링과 회귀는 매우 어렵 기 때문에 일부 데이터 세트를 제공하지 않았습니다 실험을위한 데이터 세트 만 포함되었을뿐 아니라 종류의 설명 사용 예를 알고 있고 코드를 사용하지 않았습니다 여기에 우리는이 데이터 세트가 할 수없는 것에 대한 설명을주었습니다

기계 학습에서 연습하는 동안 데이터 세트를 선택하는 것은 실제로 중요한 사람들은 네가 어떤 데이터 세트라도 가질 수 있다는 것을 알지 못한다 너 자신을 위해 너를 위해 할 일이 무엇인지에 대한 지식을 너는 알지 좋아, 온라인에서 사용할 수있는 많은 공개 데이터 세트를 얻을 수 있으며 데이터의 아이디어를 형성하는 동안 실제로 무엇을하는지에 달려 있습니다 과학 프로젝트 아마도 알고리즘의 변형을 꿈꿔 왔을 것입니다 예측을 논의하는 모델 수행 훈련 데이터를 추정 동료들과 더 많은 결과를 얻을 수 있지만 모든 일을 시작하기 전에 당신은 올바른 데이터를 가져야 할뿐만 아니라 그것이 맞는지 확인해야합니다

귀하의 작업에 따라 분류되었거나 사용하지 않은 데이터에 키스 특정 데이터를 수집 할 필요가 없더라도 프로젝트에 가장 적합한 데이터 세트를 찾는 시간대 프로젝트를 선택하기 전에 프로젝트를 선택해야합니다 귀하의 비즈니스 유스 케이스에 적합한 데이터 세트가 있으므로 확인하지 않으셔도됩니다 항상 가능하지 않은 실시간 데이터를 수집하십시오 특정 데이터를 수집 할 필요가 없습니다 좋은 덩어리를 보낼 수 있습니다

시간은 온라인에서 약간의 시간을 할애 할 수 있습니다 당신은 당신이 가지고있는 블록이나 사람들을 읽어야 만합니다 스택 오버플로에서 특정 질문에 대한 답변이 많았습니다 질문과 답변이 Quora에서 발생하므로 소셜 네트워킹 적절한 데이터 과학자가 사용해야 만하는 것들 아주 좋은 Python이있는 모든 온라인 소스에서 도움을 받으십시오

서로 도움이 될 수있는 커뮤니티 데이터 과학 커뮤니티 다양한 주제에 대해 수천 개의 공개 데이터 세트를 보유하고있는 것처럼 다른 휘트니스 긴장 및 당신은 조리법의 모든 종류에서에조차 알고있다 살충제 중독 비율은 모든 것이 온라인으로 사용 가능합니다 올바른 데이터 세트를 검색 할 때 시간이 필요합니다 원하는 데이터 세트를 찾아야합니다 귀하의 검색은 매우 오래 당신이 데이터 세트를 찾을 수 없다는 것을 알고 있기 때문에 너는 github Kaggle Stack을 가지고 있다고 확신한다 오버플로 펜타 무어에는 당신이 구독해야하는 모든 것들을 계정을 유지하면 정기적으로 업데이트를받을 수있을뿐만 아니라 그것은 당신이 항상 모든 시간을 업데이트하도록 유지할 것이므로 우리는 연구원은 리서치 게이트 (Research Gate)라고 불리는 것을 가지고 있습니다

버몬트에서 매일 업데이트되었지만 매번 조금씩 날짜가 변경되었습니다 데이터 세트가 업데이트되어 계속 유지해야하는 업계입니다 네가 이해할 때까지 너는 적어도 약간의 시간 동안 너는 알았다 조금이라도 암캐가있어서 우리는 이 주제를 생각해 내고 모든 초보자가 쉽게 찾을 수 있도록하십시오 기계 학습 프로젝트 및 데이터에 대해 공개적으로 사용 가능한 최상의 데이터 세트 과학 이니만큼이 바다의 바다로 깊이 들어가 보자

탐색 데이터 분석을위한 우리의 유스 케이스 일반적인 기계 학습 목적 깊은 학습 자연어 처리 클라우드 기반 기계 학습 시계열 추천 장치 숙박 엔진 특정 산업 스트리밍 데이터 현재의 인간을 폐기하는 것으로 알았습니다 이것들이 데이터의 주된 소스임을 알았습니다 과학 저널에 이미 UCI라고 부르는 것을 가지고 있습니다 캘리포니아 대학에 대해 우리의 승리에 대해 그들이 당신과 함께 올라오고 있습니다 4 백 30 삼 가지 다른 도메인에 대해 내가 말하는거야 데이터가 다른 opine 의료 세트는 오 doine mine okay입니다

은행 업무는 나의 것과 금융 분야가 나의 것이기 때문에 궁금합니다 거의 네 가지와 세 가지의 서로 다른 세 가지 영역을 좋아합니다 다른 부분을 kaggle 그것은 당신이 뭔가를 가지고 재정적으로 가면 볼 수있어 quand elle comm이라고 불리는이 프로그램은 그것이 Google에 의해하게되는 이래로 흐름 tangles는 유일한 경쟁이 아니다 최대 도달 범위 다른 데이터 감지 분석 저장소 우리는 다른 평행선을 달리는 경연 대회는 괜찮아요 그렇게 말할 수 있어요

당신은 자신의 데이터를 만들고 기부 할 수 있습니다 여기서 가장 좋은 점은 코드를 가지고있는 커널을 가지고 있다는 것입니다 당신과 이야기 할 수있는 토론 포럼, 의심스러운 점이 있으면 클라우드에있는 AWS Amazon Web Services 당신은 아마존 현자 메이커라고 불리는 것을 제품의 종류 또는 아마존의 서비스는 당신이 그냥 가서 기계를 만들 수 있다는 것을 알 수 있습니다 모델 학습 열차 테스트 클라우드 자체에서 모델을 배포 할 수 있습니다 당신은 당신이 그것을 할 수있는 휴대 전화에서 할 수있는 URL에서 할 수있는 배치 웹 응용 프로그램 그게 괜찮은 옵션을 많이하고 그들은 가지 마세요

단지 당신이 도넛 고 고트 (donot Godot) 인도 나는 인도 정부조차도 그것을 제공합니다 Excel 추격 및 XML PDF 데이터 과학자가 필요로하는 대부분의 유형 특정 GPS 및 jeebies 걸릴하지 마십시오 시작하려고하면 데이터 세트를 알고 KB와 함께 그리고 데이터의 일종이되고 다음에서에서 데이터를 뭉크하려고합니다 시작 단계로 진행되므로 이러한 데이터가 어떻게 세트는 문제의 다양한 다양한 사용되었습니다 그래서 당신이나 당신 중 얼마나 많은 사람들이 당신의 종류를 배우고있는 전문가인지 알고 있습니다 자체 시동기 방식으로 프로젝트를 진행하는 것은 그 일을하는 사람입니다

이 그룹의 우리는 적어도 당신의 손을 들어 올릴 수 있습니까? 그냥 뒤집어 씌우고있어 네가 아는 것처럼 내가 말하는 이름에 말하는게 아니야 참가자 또는 화재 참가자는 채팅 상자에 넣을 수 있습니다 나는 그걸 잘 이해할 것이다 World Bank data set you have 538 github repo의 데이터 세트 여기에 얼마나 많은 github 계정이 있는지 당신을 깊이 탐구해라

github을 알아야한다 github repo를 만드는 방법을 알아야한다 저장소 및 다른 사람들에게 보여줄 수있는 방법을 묻는 것입니다 github repo를 사용하는 사람은 기본적으로 제출 방법 작성 방법을 알고 있습니다 그것을 마스터하는 방법을 강요하는 방법을 DevOps의 기본 형태입니다

ok github 당신이 DevOps를 배우기를 원한다면 DevOps의 기본 양식입니다 개발과 운영에 들어가야합니다 당신이해야 할 첫 번째 일은 github과 함께하는 것입니다 우리가 당신에 대해 이야기하고있는 Emnes 데이터 세트가 이번이 현대적이라는 것을 알았습니다 국립 기술원과 내가 할 수있는 말은 60,000에 가깝다

이 훈련 데이터 세트의 6 만 건과 필자가이 손을 쓸 때 쓰는 숫자를 테스트해라 다른 인간이 당신에게 편지를 썼음을 의미합니다 내가 다른 방식으로 글을 쓰는 다른 방법 그래서 여기서 일어나는 일은 인스턴스를 말할 때 데이터 포인트이거나 하나의 관찰입니다 x 축에서 y 축의 일련 번호를 아는 것에 관해서는 이름이 있습니다

나이 성별 소득 모든 것 그래서 내가 말할 때 일련 번호를 하나의 존 전체 열은 하나의 데이터 포인트 또는 하나의 인스턴스 또는 하나의 관찰입니다 Joran과 같이 하나의 열만 따로 가져 가야합니다 우리가 사용하는 변수는 항상 인스턴스와 데이터 포인트를 확인합니다 하나의 완전한 관찰이 똑같습니다 예리한 74,000 문자 인식을위한 데이터 집합 Google bigquery public 데이터 세트가 많은 YouTube 데이터 세트가있는 데이터 세트 공개적으로 온라인으로 사용 가능하므로 알 수있는 특정 사항이 없습니다

당신이 갈 수있는 특별한 방법이 없습니다 알고리즘의 유스 케이스와 같은 도메인이 기계의 여부 배움이나 동물 배움에 대한 깊은 지식은 한 가지 더 있습니다 UCI가있는 경우 대부분의 데이터가 초기 단계에 있다는 것을 이해해야합니다 그리고 초보자를위한 충분한 양초는이 두 사람이 정말로 있습니다 데이터와 논쟁하기에 충분하다

예, 그것은 당신이 우리가 모든 것을 온라인에서 사용할 수있는 데이터 세트 및 사용 방법 다양한 주제에 관한 데이터를 수집하는 별도의 사진을 찾을 수 있습니다 대용량 데이터는 보통 당신이 알고있는 척탄병과 카탈로그를 설정합니다 그들은 두 가지 일을 할 것입니다 하나는 다른 특정 데이터 포털에 대한 링크를 제공한다는 것입니다 일부 서비스는 직접 데이터에 대한 액세스를 제공하지 않고 사용자가지도의 데이터 세트에있는 기존 포털을 탐색 한 다음 해당 포털을 사용합니다

포털을 열고 원하는 데이터 세트를 드릴 다운하여 마치 다양한 제공자의 데이터 세트를 집계하는 것과 같습니다 예를 들면 보건 인구 에너지 교육 및 더 많은 데이터 세트에 대한 데이터 세트 제공 한 곳에서 오픈 소스 제공 업체가 편리합니다 UCI는 약 400 명을 제공한다고 말할 때 당신은하지 않습니다 33 개의 도메인으로 구성된 왜 당신은 왜 다른 것을 위해 가고 싶습니까? 특정 데이터 세트가있는 경우 검색하려면 해당 데이터 세트 또는 그렇지 않으면 괜찮을 필요가 없으므로 데이터 포털이라고도하는 항목이 있습니다 524 개의 데이터 포털이있는 메타 데이터 기반이지만 큰 것은 아닙니다

발견하기가 어렵지만 데이터를 가져 오는 것이 확실해야합니다 귀하의 사용 사례는 귀하의 이해와 모든 것을 알고 당 datagov 미국에 2 천 3 천 7 천 세트가있다 정부 데이터만으로도 괜찮아요 너무 방대하고 Google은 최근에 도구 상자를 실행하면 Google 도구 상자 데이터에서 Google을 얻을 수 있습니다

전 세계 모든 곳에서 사용할 수 있으며 모든 형식으로 다운로드 할 수 있습니다 너는 이전에 이것들을 좋아했으면 좋았어 우리가 할 수있는 이유는 공개적으로 주어지지 않았다 기계 학습 및 데이터 감각은 데이터 가용성 및 데이터 접근성은 첫 번째 요점은 계산력입니다 충분한 계산 능력을 가지며 사용 가능한 데이터가 더 많으며 우리는 우리가 기계 학습을 할 수있는 데이터에 액세스 할 수 있거나 데이터 과학이나 인공 지능은 여전히 ​​연구 개발 연구소에 속할 것입니다

20 30 년 전에 어떻게 돌아 왔는지 바로 전에 EDA를 배우기를 원한다면 알고 계세요? 당신은 완전한 기계 학습을 이해하기를 원합니다이 모든 것이 모든 데이터입니다 우리가 도메인을 물어 보지 않고 데이터의 사용 사례를 묻도록 설정했습니다 과학 및 기계 괜찮아요 그래, 누구든지 데이터를 시작하는 사람 과학은 탐색 데이터의 전체 절차를 알고 있다는 것을 이해해야합니다 탐색 적 데이터 분석없이 분석하면 프로세스 탐색 데이터 분석은 데이터 과학자 괜찮아요

그래서 한 가지 더 있습니다 데이터 탐색기에 대한 바로 가기 okay 데이터 탐색 분석 탐색 분석은 바로 가기가없는 것과 마음의 상태가있는 것과 같은 것입니다 그 기계 학습은 모든 폭풍우에서 너를 멀리 항해 할 수있어 괜찮지 않을거야 라이브러리 프레임 워크가 여러분에게 매우 도움이 될 수 있음을 이해하십시오

지도에 대한 귀하의 이해를 알고리즘에 대한 최소한의 지식 당신이 깨닫게되는 어떤 시점을 지나서도 괜찮아 질 것입니다 모델 정확성을 향상시키기 위해 고심하고있는 이유는 수학에없는 프레임 워크의 라이브러리에 완전히 의존합니다 모든 상황에서 데이터를 이해하시기 바랍니다 탐사 기술이 당신의 구조에 올 것입니다 당신은 아주 훌륭하게 살아야합니다

데이터 탐색은 무엇에 관한 것인지 완전히 이해하고 있습니다 네가 가치 치료를 놓치고있는 세 가지로 분리 할 수 ​​있다고 말하십시오 또 다른 하나는 특이 치를 탐지 할 수있는 몇 가지 기술이 있다는 것입니다 치료 및 미래 엔지니어링 예술은 모든 미래를 변화시키는 방법을 가지고있는 모든 변수들 변수는 어떻게 특징 변수 생성을 할 것인가? 당신이해야 할 많은 일들이 좋아지기 때문에 우선 우리는 항상 시작합니다 우리가 데이터를 준비하는 데이터 탐색 단계 입력 품질이 출력 품질을 결정한다는 것을 기억하십시오

좋아,이 기계를 배우는 것은 선교사가 그 자체가 명시 적으로 프로그래밍되지 않고 이해합니다 귀하의 의견은 매우 명확해야하므로 출력을 얻으십시오 귀하의 비즈니스 사례 또는 도메인 또는 귀하의 비즈니스 가설 준비 지식 당신이 그것을 오케이라고 부르는 것은 무엇이든간에 그것은 많은 시간을 보내는 것이 합리적입니다 많은 시간을 할애하면 EB에서 많은 시간과 노력이 필요합니다 좋아, 그건 내 개인적인 경험이고 심지어 업계도 느낀다

같은 데이터 탐색 청소 및 데이터 준비가 걸립니다 귀하의 프로젝트 총 시간의 70-80 % 이상을 차지하는 것이 아니라 귀하의 하이 엔드 텐서 루션 PI Taj 또는 귀하의 도서관에서 행해지는 것이 없습니다 당신에 의해 당신은 좋은 수학과 통계학을 가지고 있어야합니다 설명 통계에 대한 지식 또는 그것이 무엇이든지간에 데이터 사용법을 이해하라 지출하는 시간의 80 %는 스스로 해결할 수 있습니다 UI 및 UX 사용자 인터페이스 및 사용자 경험은 가지고있는 내용이지만 모든 것이 당신에게 달려 있습니다

나머지 20 ~ 30 % 그렇습니다 이게 80과 같은 경우 20 20에서 무엇을 하든지 80이 20에 해당합니다 당신이 제대로하지 않으면 20 명이 당신이있는 단계에서 떨어지지 않습니다 여기서 데이터 세트를 테스트하고 데이터 세트를 그 치료법은 80 %가 좋지 않다면 효과가 없을 것입니다 당신은 건물을 짓기위한 데이터를 청소하고 준비하는 것을 이해해야합니다

모델링 될 수있는 예측 일 수있는 모델 좋아요, 이것들은 우리가 이변 양을 적절하게하는 데 아주 조금만 있습니다 단 변량 분석 범주 별 선택 사각형 테스트 누락 된 값은 모든 중복 된 값과 누락 된 값을 어떻게 처리합니까? 데이터가 중복되는 경우 어떻게 추출합니까? 5 개 이상이 될 수없는 경우에는 어떻게 삭제합니까? 전체 데이터 중 일부는 평균 중간 모드를 찾아야한다고 말했습니다 누락 된 값을 채우는 대체 방법을 호출합니다 추정 된 사람들은 괜찮아요 그래서이 대체 방법은 당신이 할 일이 많아서요

혼자서해야만하고 특이점에 대해 이야기해야합니다 특이점은 일반적으로 사용됩니다 필요한 모든 데이터 과학자 또는 데이터 분석 전문가의 용어 주의 다른 경우 예를 들어 데이터 세트가 잘못 추정 될 수 있습니다 4 센트 소득 범위 90 % 90 ~ 95 % 또는 2 명 사이 3 명의 lakhs에 5 명의 사람들은 25 명의 lakhs에 있고 나의 사람들은 나의 이상 치이다 당신은 외계인처럼 말하면서 간단히 대우합니까? 멀리 떨어져서 샘플의 전반적인 패턴과 완전히 다르게됩니다

매우 멀리있는 어딘가에 누워있을 수있는 단 변성 일 수 있습니다 다 변수가되어 인공물이나 자연 또는 물건 때문에 데이터 입력 오류가 될 수 있습니다 실험 오류가 될 측정 오류가 될 수 있습니다 그것은 모든 유형이 될 수 있습니다 좋아요, 그렇게되면 모델에 충격을 줄 수 있습니다 감지하고 제거해야합니다

관찰을 삭제해야합니다 당신에 대한 보상은 별도로 처리해야하며 모든 일을해야합니다 그러면 미래의 공학 미래 엔지니어링에 와서 나는 그것이 기존 데이터에서 더 많은 정보를 추출하는 기술 자체 기본 원칙 및 개념 그리고 기존 데이터의 일부 정보를 추가하지 않은 경우 새로운 데이터를 만들었지 만 실제로 이미 가지고있는 데이터를 만들고 있습니다 유용한 데이터가 있는데 더 이상 아무것도 추가하지 않을 것이지만 그곳에있는 모든 것들이 무엇인지 알아라 데이터를 이해하려고하면 예를 들어 보겠습니다

음식을 예측하거나 당신은 mmm을 알 수 있습니다 당신은 당신이 예측할 것이라고 예측합니다 날짜를 기반으로하는 쇼핑몰의 어떤 것에서 만료 날짜가 나옵니다 직접 시도하고 사용하면 아무런 문제가 없습니다 의미있는 통찰력을 데이터에서 추출 할 수 있습니다

이는 데이터가 낮과 밤의 영향을 덜받는 곳이 요일까지입니다 요일에 대한 정보는 데이터에 약간 암시 적이므로 그것을 가져와 새로운 모델을 더 잘 만들어야한다 좋아요 알려진 데이터에서 정보를 가져 오는이 운동은 미래의 공학이라고 불리는 사람은 누가 미래 공학 이해하기 네가 어떤 복용량인지 알 수있는 의심이 있다면 괜찮아 미래 공학 모든면에서 괜찮다고 느끼면 기본적인 강점을 지닌다

나는 단지 연습해야만한다 나는 단지 우리가 계획하고있는 정보가 아니다 방갈로르에서 ML bootcamp를 수행 할 것입니다 아마 여러분 모두가 그 사실에 관심이 있다면 그 이메일을 받으십시오 너는 그저 걸어 들어가서 그 bootcamp를 할 수 있다는 것을 알고있다

그래서 여기서 일어나는 일은 인기있는 TV 시리즈 인 왕좌의이 게임입니다 요금 시대에 맞춰 정치적 풍경 문자로 설정된 데이터입니다 전투가 열리기 때문에 여기에서 많은 것을 만들 필요가 있습니다 미래 공학의 가치 처리를 기각하는 에다 (eda)의 가정 모든 것이 정돈되어 있으므로 솔직히 많이 배울 수 있습니다 당신이 누락 된 값을 알고있는 것처럼 특이 치 검출 기능은 실제로 엔지니어링입니다

중요한 데이터를 위해서 중요합니다 그렇다면 우리는 수집기로 올 것입니다 당신이 아는 어떤 것입니다 당신이 아는 어떤 것입니다 나는 그것이 전부라고 말할 것입니다

이 데이터 세트에 포함 된 도시 랭킹의 공급자 종류 3 개의 글로벌 대학 순위 IMDB International Movie Database 5000 영화 데이터가 도착하기 전에 좋아하는 영화 인기를 설정 할리우드가 많은 AI를 사용하여 그들의 영화는 맨 위에 그들은 특히 많은 돈을 투자하고 있습니다 어떤 볼리우드 나 다른 것에 대해서 이야기하지만 할리우드는 주로 AI 알아 내거나 아무도이 영화가 어떻게 있어야 하는지를 알지 못한다 이 영화를 좋아하는 사람들의 구체적인 패턴과 어떻게 시장에 내놓는 지 그것들에 대응하기 위해 사용자는 추천 엔진 사용자를 사용합니다 콘텐츠 협업 필터링을 이해하기 위해 계속 진행되는 많은 작업이 있습니다 사용자가 많은 이익을 창출 할 수 있는지 확인하려고합니다

데이터 세트와 우리의 데이터 세트는 reddit 커뮤니티는 항상 아주 좋은 reddit입니다 커뮤니티와 코라는 당신이 croire를 많이 읽었다는 것을 알고 싶다면 아주 좋습니다 질문 및 답변 및 또한 스택 오버플로 metamour 또는 당신은 기계 학습 커뮤니티가 어떻게 도움이되는지 이해할 것입니다 데이터 세트 발행 또는 파일 업로드 또는 다운로드의 경우에는 서로 모든 것은 항상 그들과 함께 계정을 가지고 더 나은 다음 또한 당신이 가지고 그 후에 만 ​​구독하면 무슨 일이 일어나고 있는지 이해할 수 있습니다 백 엔드에 좋아, 선교 학습을위한 괜찮은 데이터 세트 선교 학습이 의미하는 바는 소프트웨어의 초기 시대를 본다

엔지니어링을 코딩하면 출력물을 얻을 수 있지만 기계에 입력됩니다 당신이 어떤 코드도주지 않는다는 것을 배우면, 이전 산출물을 입력으로 준다 우리의 모델로 우리의 시스템에 넣고 모델을 사용할 수있는 모델을 만들 수 있습니다 예측 또는 분류 또는 클러스터링을 위해 너는 뭔가를 건축하고 있을지도 모른다 새로운 건축물에서 고귀한 전에 선교 사업을하지 않았으므로 그 자체가 명시 적으로 프로그래밍되지 않으면 당신은 각자를 프로그램하지 않을 것입니다

선이 좋다면 레이는 이것입니다 당신이하는 일은 당신이하는 일이 아닙니다 당신 스스로 그것을 배우기 위해 시스템에 묻는다 기계 학습 알고리즘이란 무엇인가? 수학 당신은 따옴표로 쓰여진 수학 논리를 알고 있습니다 당신이 좋은 제품을 가지고 있다면 어떤 데이터 세트에서 어떤 활동이나 작업을 처리 할 수 ​​있습니다 지식 또는 데이터 과학에 대한 지식과 모든 것을 알고 항상 알아볼 수 있습니다

회귀 분류와 같은 기계 학습 개념으로 누구나 할 수있다 회귀의 의미가 무엇인지 말해주십시오 회귀 평원에 대한 어떤 생각이든 간단한 영어 기술 전문 용어는 누구나 영어로 간단하게 말할 수 있습니다 두 변수 사이의 관계는 입력 변수가 독립 변수이다 변수 하나는 종속 변수입니다

두 개의 변수가 있습니다 매개 변수가 무엇인지를 변수가 의미하는 바를 이해하는 것 어떤 것이 무엇을 독립적으로 출력합니까? 기본에서만 다음 당신은 이해할 수있을 것입니다 정상에있는 모든 것, 그렇지 않으면 혼란스러워 질 것입니다 당신이 원한다면 당신이 아무것도 얻지 못한다는 걸 알듯이 처음으로 아는 비트 야 그것에서 무언가를 얻는 것은 아주 기본적인 것에서 시작할 수 있습니다 그래, 할 수 있어요

또는 우리는 회귀 신용 카드 불이행을 위해 와인 품질을 선택했습니다 그 사람이 지불할지 여부를 결정할 수 있습니다 그가 지불 할 확률은 얼마입니까? 아니면 지불하지 않을 것입니까? 0 & 1 당신은 클러스터링을위한 분산 또는 센서스 데이터 이후이고 협회는 당신을 각각 세분화하고 있습니다 인구 통계학 아하 북쪽 해안이나 일종의 해안 서해안 북동쪽을 알고있다 각 차례와 당신이 단지 세그먼트를 기반으로 일종의 물건을 여기있는 인구 통계를 통해 학습 한 기계를 볼 수 있습니다

저장소 대부분의 데이터 세트에는 사용할 수있는 학술 논문이 링크되어 있습니다 벤치마킹은 프로세스와 하나 이상의 정보를 알고 싶다면 것은 기계 학습과 깊은 학습에서 많은 것을 읽어야한다는 것입니다 연구 논문은 좋은 모델을 만들고 싶다면 당신은 학문을 말할 때 연구 논문을 이해하고 싶습니다 논문은 기본적으로 모든 연구 논문이므로 이해해야합니다 아키텍처가 어떻게 진행되는지 알기 위해 여러 가지 방법이 있습니다

연구 논문도 마찬가지입니다 그건 완전히 다른 개념입니다 당신이 아는 사람들은 다음 달 또는 미래에 그것을 깊이 탐구 할 것입니다 괜찮 았으면 몇 달 후에 어떻게 읽어야하는지 이해해야합니다 아직 시작하지 않은 문제에 접근한다

나는 깊이 들어가기를 권하지 않는다 만약 당신이 있다면 그들은 데이터 과학 기계에 대해 매우 많이 생각하고 있습니다 학습 개념 네 언제든지 자유롭게 깊은 학습을 할 수 있습니다 그래서 멀리 보이는 한 가지 일은 캐나다 인스티튜트를위한 safar의 약자입니다 고급 연구 M은 현대 기술 연구소의 safar를 의미합니다

그것은 인간의 개를 스캔 한 이미지를 포함하고 있습니다 모든 것이 safar 100 데이터 세트를 사용하려는 경우 또는 방귀 기능을 사용하는 경우 25 55 60이라면 여기에 많은 데이터가 있으므로 괜찮습니다 고화질 이미지가 제공되며 교육을 원한다면 GPU가 있어야합니다 Linux를 사용해야하는 이유는 최고급 루트 시스템입니다 알고리즘의 최적화에 대한 매우 강력한 지식을 가지고있다

적분 미적분과 미적분학이 올바른 것이 아닙니다 그래, 그렇긴하지만 M NIST는 다른 한편으로 CPU에서 돌아갈 수있다 오, 우리는 또한 자습서를 가지고 있습니다 만약 당신이 우리에게 핑을 걸 수있는 깊은 학습에 대한 사면을하기위한 튜토리얼을 줄 것입니다 괜찮아 네, 수백만 YouTube를 제공합니다

비디오 ID와 모든 것 그리고 당신은 완전 차용 이미지를 사용할 수 있습니다 길쌈 신경망 CNN을 알고 있지만 테라 바이트 급의 저장 장치를 사용할 수 있음 그것은 사실입니다 그래서 얼마나 많은 사람들이 신경망을 훈련했고 당신은 각각의 모든 코드 행을 이해할 수있는 사람이 있습니다 전에 신경 네트워크를 훈련하거나 적어도 당신은 괜찮아요 그것을 시도 괜찮 았어 신경망이 다시 바다 인 것을 본다 나는 깊숙이 들어갈 누군가를 제안하지 않는다

이 시점에서 학습하면 사람들은 당신이 알고있는 것처럼 생각합니다 신경망을 훈련하는 것은 쉬운 일임을 알고 있습니다 아니 다시는 생각하기가 쉽지 않아 괜찮아 구글 두뇌 연구 또는 구글의 팀은 구글 두뇌는 많은 제안 과제를 수행 할 수있는 신경망 구조의 방법 어떤 명백한 체중 훈련도없이 우리에게는 당신이 가진 편견이있다 활성화 기능을 사용하면 뉴런 노드가 전파 되감거나 전파 그라디언트 디자인 당신은 깊은 학습에서 배울 많은 것들이 있습니다

당신이 직접 손에 가지고 있다면, 그것은 실제로 모든 사람의 차 안에 있지 않습니다 기계 학습 및 데이터 과학 예, 당신은 깊은 학습에 들어갈 수 있습니다 모든 방법은 괜찮아요, 이것에 대해서는 자신의 찬반 양론이 괜찮습니다 깊은 학습은 두 번째이기 때문에 많이 배우게됩니다 시간 그래, 당신은 깊이 배울 수있는 모든 것을 여기에서 찾을 수 있습니다

J dot org에서 고품질 데이터의 최신 목록 깊은 학습에 도움이 될 때 당신은 항상 당신을 의미합니다 R 및 D에 있습니다 연구 및 개발 모드입니다 간단합니다 우리가 그녀의 엔론 데이터 세트를 주거나 엔론이 그것을하는 것처럼 생각합니다

더 공정한 방법으로 축소 된 모든 사기성 전자 메일을 알 수 있습니다 이 시점에서 온라인으로 이용할 수있는 5 백만 건의 이메일 거래 당신은 긍정적 인 부정 여부 또는 모든 아마존 리뷰를 사용할 수 있습니다 중립적 인 것, 모든것 괜찮아 그래, NLP는 좋았어 또한 당신은 annotated corpora core bra의 답변 목록을 가지고 있습니다 샘플 데이터는 당신이 코퍼스를 가지고 있다고 말한 샘플입니다 클라우드 머신 학습은 내 지식에 익숙해 질 수있는 날짜를 참조하십시오

그것은 이것이 클라우드를위한 것이 아니라 내 서버를 통해 사용할 수 있습니다 클라우드 기반의 모든 기능을 제공합니다 모든 데이터를 전송한다는 사실을 알고 있습니다 온 프레미스 또는 데스크톱을 통해 클라우드에 연결 한 경우 그냥 업로드하려고하지만 당신은 뭔가있는 것을 알고 있습니다 당신에게는 많은 클라우드 서비스가 있지만, 상위 3 개는 AWS Amazon Web Services입니다

구글 클라우드 마이크로 소프트 Azure도 IBM은 클라우드 서비스를 많이 가지고있다 클라우드 서비스 플랫폼과 매우 드물게 일부 데이터 세트는 호환되지 않습니다 하지만 네가 항상 극단적 인 학대를한다고 믿을 수있는 이유는 약 15 년 동안 시장에 내놓을 수 있으며 가동 중단 시간은 적습니다 ec2 Elastic Compute에서 s3 bucket EMR elastic까지 다양한 제품을 보유하고 있습니다 MapReduce 그리고 세이지 메이커가 있습니다

특히 데이터 용입니다 저장 데이터 조작 데이터 처리 및 기계 가동 학습 모델과 모든 것을 좋아할 수 있습니다 항상 거기에 갈 수 있습니다 AWS 또는 클라우드에있는 사용자이므로 클라우드에서 작동하는 모든 사람은 여기 기술자가 아니어야합니다 당신은 주식 가격 Zillow 부동산 연구 결국 괜찮아요 글로벌 교육 통계는 모두 데이터 세트입니다

이 모든 것들은 데이터입니다 여기에 모든 하이퍼 링크가 있지만 공유 할 수는 없습니다 여기에 그 하이퍼 링크가 있지만 프로젝트를 시작할 경우 강한 이해력을 가지고 있고, 당신이 알고 싶다면 당신의 독립적 인 프로젝트를 다운로드하고 데이터 세트를 다운로드하는 데 문제가 있거나 첫 번째 공간에서 데이터 세트를 가져 오면 언제든지 연락하여 연락하십시오 우리는 도망 검사를 통해 우리를 도와 줄 것입니다 Quan DeLand volban이 재무 기록의 대부분을 포함하기 전에 내가 말했던 것처럼 당신이 가진 것들 이 질문에 대한 의문이 생기면 실제로 어떤 기분이 드십니까? 도움이 필요한 것 또는 도움이 필요할 것 같은 도움 예 또는 아니오라고 말하면 안됩니다

하지만 언제든지 확인할 수 있습니다 당신의 비디오 것들이 가능할지 여부에 관계없이 시도해 보겠습니다 당신이 어떤 종류의지지를 필요로하거나 당신이 느끼는 것과 같은 다른 질문은 뭔가해야 할 일이있다 당신 예를 들면 나는 당신이 만약에 느끼지 못한다면 파이썬으로 철저히 철저히 조사해야합니다 당신은 항상 우리가 우리가 당신을 도와 줄 수있는 곳에 있음을 알 수 있습니다

항상 사람들이 한 달 만에 너무 흥분해지고, 프로젝트에 몰려 들었지만 믿을 수 없다 모든 데이터 과학 인터뷰 전환율은 7 점이 아닙니다 인터뷰 기준에 대한 퍼센트는 괜찮습니다 우리는 많은 인터뷰를했습니다 TS 신청자가 시스템을 추적하고 있다는 것을 알고 있습니다

그러면 우리는 가지 않습니다 와 함께 또는 그들은 LinkedIn과 함께 가지 않는 크림 괴물과 함께 가지 않습니다 github repo 프로젝트를보고 나서 게이트 키퍼 첫 번째 레벨 기술적 인 역할을 처음부터 수행하게 될 것입니다 깊이있는 2 개의 수학 깊이있는 매트와 나는 그 중 90 %가 그 말을 듣지 않을 것이라고 말할 것입니다 10 %는 그것을 지우고 코딩에 들어가고 코딩은 아마도 약 5 % 해당 코딩 수준을 지우고 할당이 주어진 것입니다

백 또는 그들은 거의 하나도 내 지식에 하나조차하지 않습니다 47 명은 50 명 중 1 명, 1 명 또는 2 명은 기본 사항을 향상시키는 유일한 방법입니다 데이터 감각은 수학은 확률 통계 선형 대수학 미적분을 배우다 기계 학습 알고리즘을 사용하면 Python으로 건너 뜁니다 당신이 지출 할 수있는 독자의 정기적 인 세척은 최소 3 ~ 4 개월 2 ~ 3 시간 만에 정기적으로 3 ~ 4 시간 정도 몇 개월 후에 프로젝트와 모든 것을 시작합니다 그렇게 할 수 있다면 6 개월을 완료하십시오 나는 그것이 근면 한 일다는 것을 알고있다 그렇습니다 그 때 당신은 할 수있다 일자리를 찾거나 인턴쉽이나 산업계에 아무도 귀찮지 않다는 것을 아십시오 인증에 관해서 우리는 당신이받는 사람에게 어떤 종류의 인증도 요청하지 않습니다

하루 종일 문제가되지 않는 Google이나 Microsoft의 당신이 중요하다고 생각하는 지식은 어떤 종류의 프로젝트입니까? 어떤 종류의 데이터입니까? 왜이 알고리즘을 어떻게 매개 변수와 모든 선택합니까 말했다 데이터에 대한 심층적 인 이해 또는 이해는 사용자가 수학과 알고리즘 논리에 대한 이해가 강해서 항상 말합니다 사람들은 좋은 데이터 과학자가되기를 원한다면 수학과 사랑에 빠지게됩니다 네가 할 수있는 유일한 방법은 그 모든 도서관이 도울 수있는 다른 방법이 없다는 것이다 너는 어느 정도는 그렇지만 너를 향상 시키는데 너를 도울 수는 없다 정확한 모델을 찾는 매개 변수의 정확성 또는 최적화 또는 그것을 할 수없는 모델 선택 예

그게 프레임 워크 또는 라이브러리 괜찮아 할 수있는 능력이 아닙니다 예 추천 시스템 그렇습니다 모두가 아마존을 사용하기 전에 말했죠 그런 다음 제품을 선택하면 구입 한 사람들에게 얼마나 많은 사람들이 저것을 샀을 까? 추천 엔진 우리는 두 개 또는 두 개의 알고리즘을 만들었습니다 두드러지게 사용되는 것은 공동 작업입니다 다른 필터링은 컨텐츠 기반입니다

하나는 사용자의 의도이고 다른 하나는 제품의 의도와 제품의 의도입니다 이 알고리즘이 권장 사항 엔진인지 확인하는 알고리즘은 다음과 같습니다 적절한 방법으로 Pixar 동영상 렌즈로 백만 곡 데이터를 얻을 수 있습니다 당신은 단어를 많이 입력하고 당신은 넷플 릭스가 많은 것들을 가지고 설정 특정 산업 또는 공개 데이터를 선호합니다 공개 또는 공개를 선호합니다

멋진 공개 데이터가 데이터를 전송할뿐만 아니라 Google 도구 상자에도 표시됩니다 약물 관련 산업에 종사하기를 원하거나 원하는 경우 일부 별의 또는 화성과 목성의 기록을 여기에서 볼 수 있습니다 Twitter 스트리밍을 스트리밍 할 수있는 Twitter API가 있습니다 주식 트위스트 응용 프로그램 프로그래밍 인터페이스는 당신이 알고있는 것과 같습니다 방금 전하는 통신중인 응용 프로그램에 연결하고 데이터는 양방향 AP에 초점을 맞 춥니 다

낮은 대기 시간으로 스트리밍 라이브 데이터를 연결하여 무료로 낮은 대기 시간 및 if 높은 품질의 데이터를 원할 경우 비용을 지불해야합니다 저것을 폐지하는 웹 이것은 조금 중요하다 너는 웹 사이트가있는 어디에서부터 정보를 가져 가야하는지 알았지 만 반드시해야합니다 조심 웹 사이트를 위반하는 모든 웹 사이트의 용어는 자신의 조건을 가지고 서비스를 복사하여 붙여 넣기 만하면 안되며 모든 작업을 완료해야합니다 괜찮은 웹 스크러빙은 NLP에서 정말로 중요합니다 이 기사는 당신이 지불해야하는 사람마다 데모 웹 쓰레기 폐기입니다 이 허구의 서점은 예 5:38의 BuzzFeed 뉴스를 제공합니다

현재 이벤트 Times에서 모든 데이터를 스크랩하고 싶습니다 인도의 어린이들을위한 마사 (masa) 국가가 인도 타임즈 (Times of India) 약 30 년 동안 웹 스크랩을 원할 때 기록을 보유하고있을 수 있습니다 내가 말하는 모든 차 왜 인도의 시간은 차분하거나 웹 페이지에 점으로 찍힌다 그래서 토아 닷컴 닷컴 (Toa dot-com hog)은 이전 버전이 많은 아카이브를 확보했습니다 그래서 거기에서 나는 소아마비와 관련된 모든 정보를 추출해야한다

인도에서 예방 접종을 실시하여 소아마비 백신 접종을 위해 출판 된 곳 저 서류는 나의 분석 목적을 위해 저 기사가 추출되어야한다 그래서 내가 무엇을 할 것인가 내가 웹 스크랩을 할 때 나는 웹 스크랩을 할 것이다 거기에 아름다운 도서관처럼 많은 도서관이있다 URL 라이브러리 요청에 의해 스크랩합니다 사용 된 라이브러리가 많이 있습니다 괜찮아

살아있는 데이터 야 네가 살아 있다면 괜찮아 질문이 있으시면 알려주세요 이 시점에서 의심의 여지가 없다면 당신 그래, 네, 미안해 너에게 알려주는 걸 잊어 버렸어

잠깐만 시간을내어 주시겠습니까? 누군가가 실수로 입력 한 것처럼 생각합니다 잠시 시간을 내 시어이 세션에 대한 의견을 제출해주십시오 데이터 세트와 내일 세션에서 나는 다음 세션처럼 우리가 될 것이라고 생각한다 데이터 과학 분야에서 경력을 시작할 때 실수를 피하십시오 사람들과 몇 가지 실수가 있습니다

우리는 이것을 공유하고 있습니다 우리가이 단계를 겪었 기 때문에 우리가 정보를 다른 사람들은 모든 사람에게 이런 일이 발생하지 않도록 확실히하기 위해 질문이 없으면 리뷰를 제출하십시오 우리는 하루 만 부를 수 있고 다음 세션에서 만날거야 알았어 너의 리뷰를 줘라

오케이 고마워요 많은 분들, 다음 세션에서 만나 뵙겠습니다 감사합니다 모두 가입

Artificial Intelligence Tutorial [2018] | What is Artificial Intelligence | What is Deep Learning

안녕 얘들 아, Intellipaat의 또 다른 흥미로운 세션에 오신 것을 환영합니다 우리는 인공 지능이 정확히 무엇인지 이해함으로써 시작합니다

그러면 우리는 인공 지능의 일부 응용 프로그램에서, 우리는 다른 인공 지능을 구현하는 언어, 더 나아가 우리는 깊은 학습과 마침내 우리는 Tensor Flow와 함께 일할 것입니다 그래서, 우리 여행을 시작합시다 !!! 이것은 "Artificial Intelligence"와 같은 용어를 우연히 목격 한 Jake입니다 "Deep Learning"과 "Neural Networks"를 통해 "AI"가 정확히 무엇인지 궁금해지기 시작했습니다 그는 인공 지능을 잘 이해하기 위해 인공 지능 전문가 인 Charlie 삼촌에게갑니다 이제 찰리 삼촌은 흥미로운 질문을 던졌습니다

"인간을 현명하게 만드는 것은 무엇입니까?" 정말 흥미로운 질문이 아닌가? 그래서, 그것은 무엇입니까, 그것이 우리를 현명하게 만듭니다 Jake는 잠시 동안 생각하고, 우리 인간은 생각하고 배우고 만들 수 있다고 말합니다 의사 결정은 우리를 현명하게 만드는 것입니다 그리고 제이크는 절대적으로 옳습니다 !! 이제, 삼촌 찰리는 묻습니다 "기계가 인간의 지능을 보여줄 수 있습니까?" 인간처럼 생각하고 배울 수있는 기계는 놀랍지 않습니까? 그리고 이것은 인공 지능의 기본 개념입니다

간단히 말하면 인공 지능은 컴퓨터를 개발할 수있는 분야입니다 인간의 지능을 요구하는 작업을 수행합니다 자, 우리는 인공 지능이 정확히 무엇인지 이해했습니다 일부는 응용 프로그램입니다 인공 지능은 항공 산업에서 광범위하게 사용됩니다

NASA는 손상된 항공기가 비행을 계속할 수있게 해주는 AI 기반 소프트웨어를 제작했습니다 안전한 착륙 지점에 도달 할 때까지 이 소프트웨어는 손상되지 않은 구성 요소에 의존하여 모든 손상된 구성 요소를 보완합니다 AI는 금융 분야에서도 다양한 응용 분야를 보유하고 있습니다 복잡한 AI 시스템은 수십 배의 속도로 거래 의사 결정을 내리는 데 사용됩니다 어떤 인간보다 능력 있고 이것은 하루에 수백만 개의 거래를하는 데 도움이됩니다

인간 개입없이 AI 시스템이 예술적으로도 창조 할 수 있다고 말하면 당신은 나를 믿을까요? 이미지와 충만한 음악? 네, 들었 죠 원래 "AARON"이라는 컴퓨터 프로그램이 있습니다 예술적 이미지 그리고 "AARON"과 유사하게, "Amper"는 인위적으로 지적인 음악 작곡가이며, 제작자 및 출연자로 구성되며 전체를 작곡하고 제작하는 것은 최초의 인공 지능입니다

음악 앨범 이제는 인공 지능을 구현하기위한 몇 가지 주요 언어를 살펴볼 차례입니다 파이썬은 단순성으로 인해 AI 관련 프로젝트의 첫 번째 장소로 간주됩니다 거대한 공동체 파이썬은 또한 AI와 기계 학습을위한 많은 프레임 워크를 제공합니다 -> Tensor-Flow Theano Scikit-learn & Keras 다음 줄에는 R

R이 분석을위한 매우 효과적인 언어입니다 및 조작 데이터 그것은 튜링 컴플리트 (Turing Complete) 언어입니다 즉 튜링 기계가 구현할 수있는 모든 것을 의미합니다 할 수있다

R은 거대한 커뮤니티를 자랑하며 10,000 개 이상의 패키지를 제공합니다 그런 다음 우리는 LISP를가집니다 Lisp은 인공 지능 개발에서 가장 오래되고 가장 적합한 언어 중 하나입니다 그것은 1958 년 Art Intelligence의 아버지 인 John McCarthy에 의해 만들어졌습니다 Lisp은 기호 정보를 아주 효과적으로 처리 할 수 ​​있습니다

우수한 프로토 타이핑 기능과 쉬운 동적 생성으로도 유명합니다 자동 가비지 수집 기능이있는 객체 자, 머리를 숙이고 딥 러닝 (Deep Learning)이 정확히 무엇인지 이해합시다! 딥 러닝은 우리가 인간의 뇌를 모방하거나 간단하게 알고리즘을 구현하는 분야입니다 우리는 컴퓨터에 배울 방법을 가르칩니다 이 예제를 통해 자세히 배우자

나는 세 가지 물체의 집합, 차를 보여 줄 것이다 꽃과 새 그리고 이들 중 어느 것이 새인지를 물어보십시오 이 세 가지 객체에서 새를 식별하는 것은 매우 쉽습니다 그것? 왜 그런가요? 왜냐하면 시간이 지남에 따라 수천 마리의 새들을 보았을 것이기 때문입니다 그리고 당신은 모든 새가 그것과 관련된 몇 가지 공통적 인 특징들을 가지고 있다는 것을 알고 있습니다, 그것은 날개가있다 그것은 부리가있다

한 쌍의 눈 등등 그리고 당신의 두뇌는이 모든 기능을 배웠습니다 예를 들어 비슷한 기능을 가진 항목을 발견하면 쉽게 식별 할 수 있습니다 그것은 새처럼 !!!! 이것이 우리의 두뇌 기능입니다

그러나 기계는 어떨까요? 동일한 3 개의 객체 세트를 하나의 머신에 공급하면 어떻게 될까요? 이들 중 어느 것이 새인지 식별 ​​할 수 있습니까? 그래서, 여기에서 깊은 학습이 이루어집니다 조류의 수많은 이미지가 컴퓨터에 전송되어 모든 기능을 학습합니다 이것은 새와 관련이 있으며 모범으로 학습하는 것입니다 따라서, 새 새의 이미지가 컴퓨터에 입력되면 그것이 한 모든 학습에 기초한 새 그리고 이것은 깊은 학습이 어떻게 작동 하는지를 보여줍니다

자, 신경 네트워크를 배울 시간입니다 !! 우리는 이미 깊은 학습이 우리가 모방하는 알고리즘을 구현하는 분야라는 것을 알고 있습니다 인간의 뇌 이제 발생하는 질문은 "우리는 어떻게 인간의 뇌를 모방합니까?"입니다 그 대답을하기 위해, "우리의 두뇌는 무엇으로 구성되어 있습니까?"라는 또 다른 질문을하겠습니다 우리의 뇌는 주로 뉴런으로 구성되어 있습니다

그렇죠? 그리고이 뉴런들은 전기 화학 신호를 송수신합니다 그래서, 인간의 뇌를 모방하기 위해서 우리가해야 할 일은 인공적인 뉴런을 만드는 것입니다 뉴런은 생물학적 뉴런과 같은 방식으로 작동합니다 이제, 이러한 생물학적 뉴런은 하나의 뉴런에서 전기 화학 신호를 전달합니다 뇌에 신경 네트워크를 구축하는 또 다른 방법

마찬가지로 여러 개의 인공 뉴런을 결합하면 인공 신경이 생깁니다 회로망 Tensor-Flow를 배우자 Tensor-Flow는 Google에서 개발 한 오픈 소스 라이브러리로 Deep Neural을 구축하는 데 도움이됩니다 네트워크

그리고 Tensor-Flow에서 데이터는 텐서 (tensors) 형태로 표현됩니다 이러한 텐서는 기본적으로 신경망에 입력으로 공급되는 다차원 배열입니다 그러면 우리는 텐서 순위를가집니다 모든 텐서에는 그와 관련된 등급이 있습니다 그래서, 만약 텐서에 하나의 원소가 있다면

또는 다른 말로하면, 규모가 크고 방향이 없다면 순위는 제로 텐서가 한 평면에 크기와 방향을 가지고 있다면, 랭크는 하나가됩니다 유사하게, 텐서가 두 평면에서 크기와 방향을 가지고 있다면, 랭크는 2가 될 것입니다 이것은 주문을 높이 올리는 것입니다 이제 Tensor-Flow라는 이름이 붙여지면서 "Tensor"와 " "흐름" 여기서 데이터는 텐서로 저장되지만 실행은 그래프의 형태로 수행됩니다

이 계산 그래프에서 모든 수학 연산은 노드 내부에 표시되며 모든 텐서는에 표현된다 가장자리

Keras Tutorial TensorFlow | Deep Learning with Keras | Building Models with Keras | Edureka

모두들 시작하겠습니다 Keras에 대해 몇 가지 논의 할 것입니다

의제는 매우 간단하고 매우 높은 수준이 될 것이지만 4 가지가 있습니다 토론 할 포인트와 랩퍼에 대한 정보가 많으면 많을 것입니다 실전 연습과 데이터의 뉘앙스도 포함 시켰습니다 구현 또는 영웅을 사용하여 모델 구현을 보았으므로 Keras 란 무엇인가? Keras 란 무엇인가? 유스 케이스에서 다양한 기능과 혼란을 이해하고 내가 한 일은 세 가지 사용 사례를 만들었습니다 이미 사용한 사례 중 하나입니다

우리가 논의한 길쌈 신경 네트워크 (convolutional neural network) 이전 논의에서 우리가 토론했을 때 모델을 훈련하는 방법과 모델을 작동시키는 방법에 대한 관점 까지 갈비 신경 네트워크 작업하지만 기본적으로 우리가 논의하지 않았다 그들의 세부 사항은 어떻게 우리가 우리가 포함 할 수있는 것들이 우리의 이미지를 준비 하는가? 당신이 왜곡 할 수 있다고 얘기 한 것처럼 우리의 이미지를 더욱 강하게 만들어줍니다 이미지를 약간 뒤집어서 이미지를 뒤집을 수 있습니다 마지막으로 말했을 때 어떻게합니까? 매우 간단하지만 오늘은 코드 흐름을 포함 시켰습니다 일부 예제는 철저한 목록이 아닙니다 이미지와 함께해라

그러나 나는 약간을 포함했다 그래서 당신은 힌트를 얻는다 그것은 어떻게 끝났고 얼마나 쉬운 일인지 그리고 혼돈을 바라 보았습니다 문서를 개선하기 위해 더 많은 것들을 포함시킬 수 있습니다 내가 키라에 대해 토론하기 시작하기 전에, Kira의 주어진 래퍼가 tensorflow 위에서 작동 할 수 있습니다

theano의 일하는 정상은 C NT K의 꼭대기에서 일할 수 있습니다 당신이 혼돈을 설치 한 학습 소프트웨어는 그것의 백엔드를 취할 것입니다 특정 백엔드에서 자동으로 작업을 시작하므로 세미 기계가 tensorflow를 가지고 있음을 입는다 키라를 설치할 때 핵심을 실행할 때 나에게 줄 것이다 tensorflow의 상단에서 실행 중이지만 Theano가 있다고 가정하십시오 뿐만 아니라 tensorflow를 사용하면 어떤 백엔드를 명시 적으로 변경할 필요가 있습니다

실행하고 싶을 때 여기에 설치하면 JSON 파일이 C에 저장됩니다 드라이브 또는 문서 폴더와 이동해야하는 추적 및 파일 및 명시 적으로 말하자면 만약 당신이 텐서 흐름이라고하자 JSON 파일에서 편집 가능한 항목을 지정할 수 있도록 기본값이어야합니다 어떤 복잡한 문제라도 직면하면 매우 복잡한 응급실 크기가 아닙니다 웹 사이트이며 모든 유형의 운영 체제에 대한 충분한 지원을 제공합니다

그래서 Kiera 's는 래퍼 일 뿐이며 비슷한 방식으로 우리는 TF는 이것을 다시 주어진 텐서 흐름의 상단에있는 래퍼입니다 래퍼에 대해 논의 할 것이므로 이해를 시작하십시오 그래서 우리가 논의한 아키텍처로 돌아갈 것입니다 이미 보았거나 혼돈이 무엇인지, 그래서 카오스는 tensorflow thean 또는 c NT k의 위에 랩퍼입니다 사람들은 CN이 H 걸릴 몰라요 Microsoft의 깊은 학습 아키텍처 깊은 학습 라이브러리 인식 툴킷 내가 실수하지 않고 어떤 종류의 것을 만들고있다면 C와 TK가 정말 좋은 깊이있는 학습 아키텍처가 될 것입니다

하지만 솔직히 말해서 나는 그것을 사용하지 않았고 어떤 구현도하지 않았다 테 아노에서 일했고 나는 tensorflow에서 일했습니다 제 생각에는 tensorflow가 IANA보다 앞서 가고 있습니다 새 기능과 같은 기능적 건강이 예를 들어 시퀀스로 올라갑니다 시퀀스하기 위해서는 테아 노가 있지만 tensorflow에서 해결책을 찾아내는 데 시간이 좀 걸렸습니다

사용할 수있는 도움이 많이 있지만 계산 시간에 관한 한 차별화가별로 비슷하지 않은 이유는 우리가 이미 CNN 모델을 언급했을 때 Kiera의 것을 사용했습니다 세 가지 주요 이유 중 하나는 당신이 정말로 쉽고 빠르게 프로토 타입을 어떻게 그것이 우리가 명시 적으로 지정해야 할 많은 일을 하는가? 당신이 텐서 흐름 코드를 작성할 때 그들은 치료에서 디폴트되고있다 선은 매우 이해하기 쉽습니다 일들이 기본값으로되어 있고 세션 중 일부는 시작할 필요가 있습니다 강렬한 흐름과 변수를 초기화해야합니다

따옴표를 쓰는 데 필요한 집중적 인 흐름 당신은 할 필요가 없습니다 이런 것들은 이미 혼란에 빠졌습니다 더 적은 수의 코드를 작성할 때 모델을 시작하면 순차적 모델을 작성하는 측면에서 여러분이하고있는 것을 이미 알고 있습니다 특정 모델의 여부를 확인하는 측면에서 시간을 많이 절약합니다 일할 것인가, 아니면 실제로 어떻게 작동 할 것인가? 궁금해서 혼돈에 빠지면 모든 코드를 다룰 수 있고 더 깨끗한 코드와 이해하기 쉬운 왜 나는 텐서 흐름 종류가 필요한가? 하나의 이유가 무엇인지, 그래서 어떻게 할 것인가? 실제로 실전에서 일하는 것은 누군가가 아이디어로 당신에게 올 때입니다

매니저가 내일 당신에게 와서 당신이 말할 수 있다고 말하려합니다 우리가 감정 모델을 만들 수 있는지 아니면 매일 우리 고객으로부터받는 이메일 당신은 이메일을받으며, 그들이 할 수있는 어떤 방법으로 분류 할 수 있습니다 이제는 상담원들 사이에서 이러한 이메일을 더 잘 배포합니다 무슨 일이 일어나고 있는지는 메일이 나에게 오면 전송률은 약 20 % 다 그 한 사람은 그가해야 할 일을 이해하지 못하고 다음 중 하나는 관리자에게이 문제에 대해 SME가 누구인지 컨설팅을하는 것입니다

그래서 어떤 식 으로든 그렇게 말하게 해줘 나는 가능하다고 생각한다 나에게 몇 가지 카테고리가 할당 된 이메일을 3,000 개에서 3,000 개까지 할당 할 수 있습니다 만들거나 창문을 보여줘서 내가줬으면 좋겠어 알았어

너에게 데이터를 줄게 내일 당신은 당신이 가지고있는 데이터를 3,000 가지의 이메일로 얻습니다 매우 조잡한 모델이며, 그에게 보여주고 괜찮다고 나는 가능하다고 생각한다 나는 그렇지 않다 큰 정확도를 얻지 만 60-70 %의 정확도를 얻고 있습니다

아마 우리는 우리가 원했던대로 할 수있을 것입니다 더 큰 데이터 세트이므로 프로토 타이핑에 유용합니다 이러한 구현을 통해 매우 빠르게 두 번째는 tensorflow와 비교하여 문법적으로 집중적이다 나 같은 프로그래밍 배경에서 오지 않는 사람들은 많이하지 않았다 프로그래밍 나는 C 나 C ++을 모른다

내가 일하면서 파이썬을 배울 것이다 항상 코드 라인이 적은 구현을 찾고 있으며 Cara 's 정말로 거기에서이기는 이유는 누군가가 사용하고 싶어하는 몇 가지 이유입니다 Cara 's 그러나 한계는 예를 들어 당신이 원하는 몇몇 플랫폼 API를 배포하거나 앱을 배포해야하는 앱 모바일 앱을 만들고 싶습니다 모델을 Android 애플리케이션에 적용하면 이러한 경우에 어려움이있을 수 있습니다 귀하의 플랫폼이 Cara의 모델 객체를 지원하지 않을 수 있습니다

좋은 생각이 될 것입니다 정상적으로 수행되는 방법은 그 프로토 타입이나 POC를 당신의 비즈니스에 선보였습니다 감각은 더 큰 데이터에서 그렇게합니다 사람들이하는 일은 시작하는 것입니다 tensorflow와 tensorflow에서 동일하거나 유사한 모델을 구축하는 것은 다른 플랫폼에서의 수용 가능성이 매우 높습니다

프로토 타입을 만드는 방법과 Cara의 쇼케이스를 빠르게 프로젝트가 팔리면 tensorflow로 돌아와서 모델을 처음부터 다시 시작하면 일반적인 모델 배포가 어떻게 작동하는지 알 수 있습니다 카오스 집중적 인 흐름 모두가 아키텍처의 대부분을 지원합니다 우리는 n + CN + r / n을 논의했고, 실제로 그것을 보여줄 것입니다 앞에서 언급했듯이이 두 가지의 조합도 지원하는 유스 케이스가 있습니다 모델이되고 장소가 아닐지라도 더 높은 유형의 복잡성이 있습니다

그것에 대해 토론하기 위해 나는 다른 유형의 순차적 모델을 보여 주려고 노력할 것입니다 이미 혼돈 속에서 정의 할 수있는 모델이 한 가지 더 있다는 것을 이미 알았습니다 하지만 모든 중요한 아키텍처 3m LPC와 nrnl 그들은 사용할 수 있으며 매우 깔끔하고 깨끗하게 우리는 매우 적은 수의 코드로 코드를 작성할 수 있습니다 코드를 사용하고 하나 이상의 모델을 결합하여 예측 및 혼돈에 대한 가장 중요한 세 번째 요소는 두 가지 모두에서 실행될 수 있다는 것입니다 CPU와 GPU를 사용하면 정말 복잡한 작업을 수행 할 필요가 없습니다

혼돈 모델은 GPU 시스템 중 하나에서 실행됩니다 예를 들어 GCP 또는 AWS에 tensorflow가 있으면 쉽게 사용할 수 있습니다 영웅과 당신은 더 복잡한 요구 사항을 실행할 필요가 없습니다 혼란 때문에 그 관점에서 볼 때 매우 쉽습니다 그래서이 혼란이 어떻게 도움이 될 수 있는지 이해한다면, 시도하고 보자 서로 다른 섹션에는 집중적 인 흐름이 두 가지 유형이 있습니다

카오스에서 설정할 수있는 모델을 순차 모델 및 순차라고합니다 우리가 이미 본 모델은 우리가 수행하는 작업이 모델을 레이어의 순서 내가 올 것이다 기능성 구성의 또 다른 유형이 있습니다 잠시 후에 지금은 세부 사항을 언급 할 필요가 없습니다 일부 API가 기능면에서 관련되어 있기 때문에 도움이됩니다 작곡과 당신은 Kira 's에서이 api 's를 처음 보는 모양이라고 부를 수있다 순차적 인 모델과 우리는 이미 약간의 논의가있다 순차적 인 모델은 레이어를 다른 레이어 위에 쌓아 놓기 때문에 이동하면됩니다 순차적 모델이라고하는 혼돈 웹 사이트 선형 스택에 불과하지만 실제 의미는 무엇입니까? 입력 레이어를 가져 와서 숨겨진 레이어에 연결하면 이러한 가중치 계산 된 제 1 은닉 층에 대한 입력으로부터 오는 노드 값은이 활성화 기능이이 계층 이후에 계산 된 것입니다

다음 레이어를위한 입력과 우리가하는 모든 작업은 다음 레이어를 넣을 것입니다 다른 모델과 모델의 상단이 계산되므로 이러한 종류의 모델과 우리가 논의한 세 가지 모델은 모두 조밀하게 연결되어 있으며 MLP는 컨볼 루션 계층 다시 순차 모델이고 rln이고 다시 a 순차 모델은 이러한 모델의 방향성 때문입니다 입력에서 시작하고 감독자에게 주어진 몇 가지 예언 이 모델의 특성을 학습하면 순차적 합성 기능이라고 부릅니다 구성은 혼돈의 또 다른 유형의 구성이며, 더 복잡한 모델을 만드는 데 사용되며 복잡한 말을 할 때 당신은 당신의 모델들 사이에 입력을 가져와야합니다 에디션을 보여 주면 웹 사이트로 가서 무엇을하는지 보여줍니다 정말로 여기에서 실제로 일어나고있는 것이 당신이 거짓말을했다는 것을 의미합니다

일단이 모델을 순차적으로 시작하면 composition 이것은 모델에서 전달 될 유일한 입력이며 모든 예상 기능은 입력 기능을 통해 이루어 지지만 원한다면 상상해보십시오 약간의 개입은 당신이 어떤 특징이 배운 그리고 당신 중 일부는 아주 직관적으로 알지 못할 수도 있지만 당신은 정서 분석을위한 모델과 당신이 만든 모든 정보를 만들었습니다 정서가 긍정적인지 또는 부정적인지를 말하면서 사람들이 작성한 문장과 모델을 만들었지 만 개입하고 싶거나 시간에 대한 정보를 섭취하고 싶다고 말합니다 나중에이 모델의이 단계에서 이메일을 보내고 가능하거나 순차적이지 않으므로 이것이 구조이기 때문에 대답은 아니오입니다 이미 말했지만 키 에라의 기능적인 구성은 자유를 주었다

데이터 과학자들에게는 모델을 만들어서 우리가 입력 한 것과 나중에 입력 한 것의 일부를 계산합니다 전자 메일이 수신되는 시간 또는 어떤 국가와 같은 정보를 결합하고 싶습니다 당신이 그런 종류의 것을 들여오고 싶다면 그것은 어떤 언어에서 왔는지에 달려 있습니다 메타 데이터 정보라면 기능적 API를 사용할 수있을 것입니다 예를 들어 Karis의 아주 훌륭한 설명은 이것이 하나라는 것입니다

여기에 이것이 우리가 사용할 수있는 방법을 코드화하려는 예제이고 이것은 당신이 감정 분석을하고 있다고 가정 해 보겠습니다 실제로 M 베어링과 함께 lsdm을 사용하여 M 베어링에 대해 논의 할 것입니다 당신이 할 수있는 것은 여기서 당신이 이메일이나 트윗의 텍스트 또는 설문 조사 데이터 당신이 삽입 할 수있는 아키텍처의 한 종류를 만들었습니다 정보를 제공하지만이 시간이 트윗이므로이 두 가지 정보를 입력 할 수 있습니다 그런 다음 두 모델을 기반으로 모델을 만들 수 있습니다

텍스트뿐만 아니라 다른 정보를 가리키며 이것은 매우 여러분 중 일부가 spss에서 작업 한 것처럼 이미 spss에서 본 것과 비슷합니다 다른 노드와 노드에서 작업 한 사람들을 만드는 측면에서 모델러 기반 모델이나 소프트웨어에 의해 그들이 할 수있는 점에서 매우 간단하다 노드가 데이터를 가져 오면이 노드는이 노드가 데이터를 정리합니다 모델을 만들고 여기서 또 다른 기능을 모델에 포함시킬 수 있습니다 이런 종류의 건축물 Kiera 's는 당신이 가져올 수있는 곳을 제공합니다

이미 다른 기능을 구축하기 시작한 후에 다른 기능의 정보 다른 정보가있는 모델을 사용하면 모델을 완성하면 lsdm에서만 출력됩니다 시간과 텍스트의 정보를 결합한 다음 다른 정보를 만들 수 있습니다 모델은 두 정보 점을 기반으로하며 프로세스는 약간입니다 당신이 그것을 훈련시킬 필요가있는 다른 것이지만, 연결은 우리가 다른 소프트웨어에서 가지고있는 어셈블리와 비슷한 방식으로 작동합니다 하나의 정보 스트림 또는 한 스트림의 정보를 연결시킬 수 있습니다

사용 가능한 다른 정보 스트림을 사용하는 모델이 출시 될 예정입니다 순차적 인 모델의 관점에서만 상세한 설명을 통해 두 종류의 모델 이었지만 지금은 밀도가 높은 레이어를 시작하기 때문에 기본적으로 완전히 연결된 레이어이며 우리의 다중 레이어를위한 레이어입니다 퍼셉트론 (perceptron) 종류의 아키텍처가 다중 계층 구조가되도록 퍼셉트론 아키텍처와이 아키텍처는 밀도가 높습니다 카라의 반복적 인 신경 회로망에 연결된 층 또는 조밀 한 층 lsdm 셀을 사용하여 반복적 인 신경망을 수행하는 방법 유사한 작업 회선 신경 네트워크 및 풀링 계층 우리는 그것을 보았지만 나는 당신에게 어떤 차별화를 보여줄 것인가? 데이터 증가와 나는 이것이 정말로 의미하는 바를 설명 할 것이지만 우리는 모델 개선을 위해 혼돈을 어떻게 사용할 수 있는지에 대해 논의합니다 당신의 훈련 데이터를 가지고 노는 것이 카오스가있는 네 가지입니다

정말 도움이되고 우리는 토론에서이 모든 것을 구현하려고 노력할 것입니다 앞으로 우리가 가기 전에 먼저 정규화가 무엇인지 이해하자 정규화 계층은 먼저 정규화가 무엇인지 이해하므로 우리 중 일부는 우리 모두가 지금 얼마나 잘 알고 있는지 어떻게 알 수 있습니까? 모델은 정확성 측면에서하고 있습니다 그래서 우리가 로지스틱 모델을 가지고 있다고 가정 해 봅시다 우리가 원하는 것은 이것이 우리가 매개 변수에 대해 가지고있는 데이터라고 가정 해 봅시다

두 개의 피쳐에 대한 데이터가 x1과 x2로 주어 졌다고 가정하면 나는이 두 클래스를 하나의 클래스로 분리하거나 구분하기위한 예제를 가지고있다 이 두 가지 특징을 기반으로 한 학습 과정에서 또 하나의 방법은 우리가 아주 간단한 모델에 적합 할 수 있다면, 물류 모델을 선형 분류자를 사용하고, 오히려 차라리 이런 식으로 라인을 설정합니다 좋은 모델 나는 좋은 모델을 원하지 않는다 나는 조금 나쁘게 지키고 싶다 모델이 라인에 맞는다면 바로 직선이라는 것을 알 수 있습니다

우리에게이 점에 대한 분류가 잘못되어 있습니다 잘못 분류 된 점들은 오 분류되고 있으며 우리는 이것을 높은 점수라고 부릅니다 모델이 클래스를 분류 할 수 없었기 때문에 바이어스 문제 정확하게 설정되어있는 가설은 상당히 기본이며 모델의 미스 분류가 많고 높은 바이어스 문제가 나타납니다 모델에서는 교육 데이터 세트 및 테스트 데이터 세트를 말하면 이런 종류의 모델은 일반적으로 이와 같은 결과를 출력합니다 정확도가 0

65로 매우 좋지는 않지만 테스트 정확도는 63 회 정도는하지만 훈련에 대한 정확성을 말하고자합니다 데이터가 아주 좋지는 않을 것이며 분명히 테스트는 다른 유형의 예 또는 다른 유형의 가설은 당신에게 2 차 다항식에 관한 데이터가 있고 그것들을 사용한다고 해봅시다 한 줄을 맞추고이 종류의 포물선 또는 두 번째 다차원 가설은 100 % 정확하지는 않지만 이런 분류가 잘못 분류 된 것은이 문이 잘못 분류 된 것입니다 그러나 전반적으로 그 일을하고 있으며, 우리는이 유형의 적합을 바로 비록 위대한 이름은 아니지만 그게 대부분의 텍스트가 그것을 부르는 방법입니다 단지 올바른 구현이며 출력은 일반적으로 뭔가가 될 것입니다 이렇게하면 훈련 데이터 세트에 대해 90 % 정확하다는 것을 알 수 있습니다

아주 가까운 곳에서 89 점 또는 88 %의 정확도를 테스트 중 하나에 지정하십시오 이 종류의 출력을 설정하면 알 수있는 종류의 표시입니다 모델은 교육 데이터 세트에서 좋은 성과를 거두었으며 테스트 데이터 세트와 만약 당신이 아마 이런 종류의 상황에 빠지면 훌륭한 작업과 모델이 정말 좋습니다 한 가지 더 많은 방법이있을 수 있습니다 더 높은 차수의 다항식을 많이 포함하면 모델이 될 수 있습니다

그것과 비슷한 것은 매우 복잡한 회선에 적합합니다 흐리게 보였습니다 그러나 당신은 직감을 얻었습니다 매우 높은 차수의 다항식은이 행을 그렇게 많이 변경시킬 수 있습니다 비록 내가 언급하고 있지만 100 % 정확하거나 매우 높은 이것을하고있다

대부분의 시간이 100 %는 아니지만 정말 높은 정확도를 보이고 있습니다 08 09 정확도는 백분율이지만 테스트 데이터를 보면 정확도를 08 0

7이며 이것은 차별화와 이런 종류의 차트입니다 모델이 얼마나 좋은지 또는 나쁜지를 파악하는 데 정말로 도움이됩니다 모델 배포와 관련이없는 아키텍처와 관련이 없습니다 당신이 실제로 도달 한 곳을 어떻게 이런 종류의 문제는 높은 분산이라 불리우거나 과핑 (overfitting)과 왜 너무 많이 또는 너무 깔끔하게 맞춰져있는 오버 피팅 (overfitting)인지 데이터 집합을 훈련시키고 유사한 예측이나 유사한 유형을하지 않는 것 테스트의 정확성은 모델의 일반화 문제라고도합니다 새로운 데이터 포인트를 일반화하지는 못합니다

포인트는 교육 시간에 사용할 수 있었고 귀하의 모델은 그것이 한 것입니다 정말 정말 당신의 데이터를 암기하고 100 % 또는 훈련 데이터 세트에 대해 매우 높은 정확도를 보였지만 테스트를 할 때 훈련 시간에 사용할 수 없었던 라인은 왜냐하면 이제는 이런 종류의 문제가 일반화되지 않았기 때문입니다 오버 피팅 (overfitting)이라고 부르며 오버 피팅 (overfitting)을 피하기 위해 다음과 같은 몇 가지 단계가 있습니다 우리는 당신이 이런 종류의 모델을 설정했다면 우리가 그것을 적합하게 만들 수 있습니다 우리 모델이 비교적 좋은 예측을 할뿐만 아니라 테스트 데이터 세트 나 데이터에 대해서도 저널링을 실시했다

보지 않았거나 새로운 데이터가 언제든지 전화를 걸 때마다 설정합니다 우리는이 특정한 상황에 도달하면 우리가 증가하려고 노력한다는 것을 깨닫습니다 레이어와 노드의 수를 늘리고 복잡하게 만들지 만 사용자가 만든 것으로 상상해보십시오 복잡한 데이터는 교육 데이터 자체를 외운 다음 필요한 것입니다 네가 알기에 네가 그런 식으로 만들 수있는 몇 가지 방법을 알아 내야 해

교육뿐만 아니라 테스트를 위해 더 나은 예측을 할 수 있다는 이 작업을 수행하는 프로세스는 모델을 일반화하는 것을 알고 있습니다 잘 정규화의 범주에 속하는 몇 가지 방법이 있습니다 그 중 몇 가지를 논의 할 것이고 남은 것은 이미 있습니다 때로는 모델에 구현되어있어 실제로 모델을 수행 할 때 가장 일반적인 작업 중 하나입니다 우리가 보았던 마지막 7 개의 수업에서 지금까지 우리는 우리가 가지고있는 미세 조정 영역에 들어 가지 않은 모델에 적합합니다 당신이 가치를 선택하는 방법을 알고 있지만 우리가하지 않은 몇 가지 비트를 논의 이 섹션을 만졌고 이것들은 정말 편리 할 몇 가지 트릭입니다

당신이 당신의 모델을 개발할 때입니다 그래서 당신이 당신의 모델에서 문제를 지나치게 보았을 때 당신이 할 수있는 방법은 무엇인가? 그것을 피하거나 그것을 제거 할 수 있습니다 나는 정규화에 대해 이야기 할 것입니다 기술을 사용하지만 우선 문제를 해결하거나 직관적으로 생각하면 더 많은 데이터와 해결 방법 더 많은 데이터가 있다면 문제를 너무 많이 풀 수 있습니다 모델이 훈련을 암기 할 때 overfitting 문제를 갖게됩니다

데이터 집합을 만들지 만 교육 데이터 집합을 늘리면 처음에는 당신은 수천 가지의 훈련 예를 가지고 일하고 있으며 다섯 가지 예를 들어 봅시다 두 클래스에 대해 각각 백 개를 사용하고 모델에 적합하면 천 포인트는 그들이 떨어지는 곳과 많이 사용했기 때문에 나타났습니다 많은 노드와 기능 중에서 각 데이터 요소의 위치를 ​​식별 할 수있는 기능이 있습니다 그리고 더 많은 데이터를 얻었을 때 줄을 적절하게 조정하면 귀하의 모델에 대해 100,000 개의 데이터 포인트가 있으면 매우 어려울 것입니다 이 특별한 방법으로 모든 데이터 포인트를 기억할 때마다 모델은 일종의 전쟁 피팅 문제를 일으키고 있습니다

더 많은 데이터 세트를 가져 와서 데이터가 비교적 새로운 것이라면 내가 의미하는 바는 테스트와 테스트를 거친 것입니다 이 천 개의 행을 100 번 복제하면 안됩니다 내가 똑같은 것에서 더 많은 데이터를 얻으면 배포 또는 유사한 배포를 시도하고 테스트 한 것은 귀하의 모델은 어떤 종류의 수정이나 정규화를 가지지 않기 때문에 새로운 데이터를 얻는 것이 항상 그런 것은 아니라는 것을 우리 모두가 알고있는 데이터 세트를 암기 할 수 있습니다 쉬운 작업이므로 데이터 증가라고 불리는 프로세스가 있습니다 Kira 's 및 tensor flow에서 사용할 수 있습니다

이미지는 데이터 보강이 새로운 데이터를 생성하는 과정입니다 기존 데이터를 볼 수 있다면이 고양이는 우리와 함께 이미지를 사용할 수 있지만 만약 내가 뒤집어 말하면 거울 이미지 만 받아 들일 수 있으면 새로운 것을 만들었 어 이미지와 당신 중 일부는 그것이 당신이 알지 못하는 새로운 이미지가 아니라고 주장 할 수 있습니다 새로운 기능을 캡처하고 당신은 절대적으로 정확합니다 증강 된 데이터는 많은 자유 또는 많은 제거를 제공하지 않을 수 있습니다

새 데이터 세트로 overfitting하면되지만 일부 값을 추가하므로 일부 데이터를 보유 할 수 있습니다 이미지를 플립하면 플립 할 수 있습니다 플립 플립을 할 수 있습니다 그래서 당신이 그것을 거꾸로 만들거나 당신이 어떤 섹션의 줌을 할 수 있다고 가정 해 봅시다 이미지의 확대 / 축소가 필요하므로 확대해야한다고 가정 해 봅시다

확대 / 축소는 카오스의 데이터 증가에 대한 매우 간단한 연습입니다 텐서 흐름뿐만 아니라 이미지의 20 %를 확대하여 귀하의 이미지가 다르게 보일 수 있으므로 데이터 보강은 다음 중 한 가지 방법이 될 수 있습니다 우리가 간략하게 논의한 또 다른 방법을 과도하게 다루는 것은 우리가 드롭 아웃 (dropout)이라고 불리는 신경 네트워크에 대해 논의 중이 었으며 그 방울이 실제로 방금 내가 말한 직감에서 작동한다는 것을 의미합니다 모델이 모든 점을 암기하도록하지 마십시오 어떻게 작동합니까? 내가 그것을 설명하게해라

그것은 깊은 곳에서 왔던 매우 흥미있는 점이다 학습 시점 및 대부분의 경우 드롭 아웃 레이어를 사용할 것입니다 우리가 갈 모든 세 가지 아키텍처에서 한 가지 방법 또는 다른 방법 토론하고 내가 가진다면 그것이 어떻게 작동하는지 직감을 보자 4 개의 입력 특징 및 이들 3 개의 각각에 4 개의 숨겨진 노드를 갖는다 레이어라고 가정하고 이것이 H1이라고 가정합시다 이것은 H2이고 이것은 H3입니다

무작위로 일부 노드를 끄는 동안 모델 교육 및 내가 실제로 내 코드에서 힙 Rob를 언급 할 확률을 만들었습니다 그리고 당신이 가질 수있는 모든 3 개의 레이어를 Rob에서 생성했다고 가정 해 봅시다 다른 레이어의 다른 주요 확률이지만 예를 들어 첫 번째 슈트의 두 레이어에 대해 05의 확률과 05이고 세 번째는 0

75의 핵심 확률을 유지한다고 가정 해 봅시다 정말로 그렇습니다 그리고 당신이 알고있는 것처럼 우리는 다른 수의 에포크들을위한 모델을 실행합니다 이 팝이 어떻게 생기는지 보게 될 것이고, 내가 3 상자 만 모델로 만드세요이 모델은 당신이 설정 한 모델입니다

첫 번째 시대에 처음으로 실행되기 때문에 상자에 대한 모델에서 그러니 먼저 POC가 임의로 동전을 버리고이 노드에 대해 말하려합니다 이 노드는 스위치가 켜져 있어야하고 나머지는 계속 유지해야합니다 그것은 두 번째로 열립니다 왜냐하면 이것은 무작위적인 과정이기 때문에 왔습니다 이들은 꺼졌으며 P 확률이 0

75이므로 내 노트의 75 %를 열어 두거나 모델과 그 중 하나에 보관해야합니다 그들 중 어느 하나를 무작위로 꺼야 할 필요가있다 스위치를 끄고 기본적으로 스위치를 끄면 이 특정 노드의 출력이 이제 0으로 변환되었습니다 이 특정 노드의 모델 출력은 이들을 기반으로 계산됩니다 이 두 노드와 두 노드가 출력되고 출력됩니다

당신은이 가중치를 각각 배우기 위해 몇 가지 역 전파를 수행 할 것입니다 예측은 첫 번째 단계에서 이루어지며 가중치는 이 프로세스를 수행 할 때 업데이트 된 다음 두 번째 단계에서 두 번째 기점을 다시 확인하고 이번에는이 두 노드가 스위치를 끈다 고 가정 해 보겠습니다 이 두 게이츠가 꺼지고이 스위치가 스위치를 끈 다음 남은 열린 자에 대한 예측이 수행 된 후 예측은 이루어지고 세 번째 시대는 같은 무작위로 노드와 모델은 각각의 시대마다 예측을 할 수 있습니다 실제로하고있는 일은 모델에 얼마나 많은 양의 특정 노드가 기여하고 강제로 예측을합니다 나머지 노드는 우리가 l1과 l2 정규화와 같은 방식으로 작동합니다

우리가 간략하게 언급 한 l1과 l2 정규화를 사용할 수 있습니다 하지만 실제로 작업을 중단하면 구현이 쉽고 초과 피팅 문제를 가장 잘 해결할 수있는 방법을 보여 드리겠습니다 정규화 정규화 및 일괄 정규화는 이 표준화가 어떻게 일어날 지에 대한 관점 일괄 정규화 측면에서 추가 된 몇 가지 있지만 멀리까지 이 프로세스가 어떻게 수행되었는지는 정규화와 배치에서 동일합니다 정상화 그래서 먼저 정상화가 실제로 어떻게되는지 이해하고 시도하십시오 나는 당신이 당신의 데이터를 정상화시켜야한다고 옹호 해왔다

0과 1 사이의 같은 데이터를 조정하거나 데이터를 표준화합니다 평균이 0이고 표준 편차가 1이고 우리는 공식을 보았습니다 표준화와 그것이 정말로 도움이되는 방법 만약 내가 직관적으로 이것이 실제로있는 실제 데이터라고 말하고 싶다면 X 1과 X 2와이 두 값의 스케일이 다른 것을 보면 여기에 X 2의 가치에는 변화가 거의 없지만 거대한 X1의 값의 분산과 이것이 다른 가늠자는이 가치가 1 2 & 3다는 것을 밝힌다 이 값은 100 200과 몇 가지 더 큰 값과 같습니다 이런 종류의 가치를 지녔지 만 이러한 의미를 제거하면 가치는 원산지와 중간에있을 것입니다 그러면 당신이하는 것은 당신입니다 평균을 빼서 표준화하고 표준 편차로 나눈다

이제 귀하의 데이터는 일종의 무작위이며 그것은 다음과 같은면에서 도움이 될 것입니다 당신의 모델을 배우고 당신 중 일부는이 질문을 할 수 있습니다 정말로 당신은 당신이 일종의 일을했다는 것과 데이터가 동일하다는 것을 알게됩니다 변형 모델 교육 측면에서 어떻게 도움이 되는가? 몇 가지 그래프의 직감과 그것이 실제로 도움이되는지 확인하십시오 모델을 정말 빨리 만들 수 있습니다

따라서이 그래프 중 일부를 보시면 먼저 방정식에서이 방정식은 비용 함수의 방정식입니다 당신이이 특정한 것을 취하면 차이는 M 합계로 1이됩니다 섹션을 교차 엔트로피로 사용하면 실제 가치와 예상 확률은 얼마이며 비용은 얼마입니까? 계산되어 객관적인 또는 최적화 과정이 필요합니다 W와 B의 방법을 찾으려면 더 많은 매개 변수가 있다면 이 데이터를 3 차원으로 플롯하면이 손실이 최소화됩니다 우리가 WB와 J를 가지고 있다고 가정 해보고 싶다면이 값들이 어떻게 그것이 비정규 화 된 데이터이고 W와 B와 J를 가졌다면 같은 것이 아닐 것입니다 척도는 다를 수 있으며 이해할 수있는 값이 될 수 있습니다

또한 당신이 다른 비늘을 가지고있는 것과 같은 방식으로 생각합니다 W 2 이것은 w1이며 두 가지 기능이 서로 다른 규모이기 때문에 이것과 당신의 비용 함수를위한 다른 가늠자는 복잡하게 될 것입니다 다른 방향으로 다른 공간이있을 것입니다 윤곽선을 보면이 타원형이 될 것입니다 교육이 일어날 때 실제로 일어납니다 많은 가치를 바꿀 것입니다

수평 방향으로 보면 스케일은 높고 값은 작습니다 비늘이 어떤 모델보다 적기 때문에 더 작은 값을 변경해야합니다 훈련은 실제로 이렇게 일어난 비늘이었고 당신은 비용 함수가 더 많은 모델에서 당신의 피쳐를 표준화 할 수 있습니다 덜 대칭 적이며 모델이 시작하는 프로세스를 더 쉽게 수행합니다 어디서나 그리고 나서 당신은 직감이 있었기 때문에 세계 최소치에 도달했습니다

노드에 똑같은 직관이 적용되었습니다 그래서 제가 돌아 가면 내 기능이 켜져 있다면 우리가 이해하고있는 것을 보여주고 같은 척도는 모델이 배우고 수렴하는 것이 더 쉽다 당신이 여기의 건축물을 본다면 더 좋지만 지금은 다중 레이어 퍼셉트론 아키텍처는 실제로 이들 입력 노드가 입력되는 이들 상이한 층 (h1, h2 및 h3)에서 발생한다 첫 번째 숨겨진 레이어로 이동하여 실제로 그렇게하는 것처럼 호출한다고 가정 해 봅시다 이것이 w1이고 이것이 w2이고 이것이 w3 일뿐입니다 이 특정 노드에서 두 가지를 먼저 Z라고하고 Z를 점수라고합시다

나는 그것을 레이어 1이라고 부른다 나는 단지 윗면을 1로 지정할 것이다 이것은 레이어 1이고 하단은 노드 값이므로 스코어의 값 우리는 점수 또는 출력이라고 부르며 W 1 X 1 + W 2 X 2 더하기 W 3 X 3과 비슷하게 Z 1/2를 계산할 수 있습니다 이 노드와 z1 3은 이것이 알려지면 계산 될 것이다 당신의 무게와 각 입력의 일부 제품이 될 것입니다 이 세 가지 모두가 서로 다른 가중치와 이것들은 입력이고 이것들은 크기가 조정되지 않을 수도 있습니다

나는 의도적으로하지 않았습니다 당신이이 단계에서 점수를 계산하면 다른 단계에 대해 이야기했습니다 각 노드에서 활성화 함수를 적용하여 a1이라고 부르겠습니다 활성화 함수 G를 적용한 후이 특정 노드의 출력 이 하나와 G는 당신이나 Sigmoid 또는 십대 무엇이든 될 수 있습니다 활성화 함수를 사용하고 싶었지만이 두 값은 다음과 같이 계산되었습니다

각 노드는 먼저 자신의 점수를 계산 한 다음 활성화를 사용합니다 함수를 사용하여 그림을 얻고이 값을 1 또는 1 2 A 1 3 다른 가늠자에 있고 지금 여기에서 가치가 무엇 이건간에 1 1 a 1 2 또는 1 3 이제 이들은 내 다음 계층에 대한 입력입니다 이 값들은 우리가 입력 한 것과 같은 성질이 아닐 수도 있습니다 우리의 의견이 현대적인 최적화에 미치는 영향을 물류의 경우에 우리가 보아 왔듯이 정규 분포 또는 정규화 우리가 어떤 종류의 일을 할 때 무게로 곱한 무게를 가진 회귀 이것이 내 입력이며 정규화되지 않았거나 정상적으로 배포되었거나 그렇지 않은 경우 모두 0 또는 1로 확장되지 않음 표준화 내가 입력 한 내용이 간단한 네트워크와 내가 말한 의미는 X 1 X 2와 X 3 퍼셉트론 (perceptron)과 같은 매우 간단한 모델을 가지고 출력을 만들고 이것들은 나의 가중치 였고, 당신은 이것이 근본적으로 물류 모델이라는 것을 기억합니다 노드가 입력되고 정규화되지 않았거나 나는 최적화 측면에서 동일한 문제에 직면하게 될 것이다 정규화는 나오는 값을 정규화하는 과정입니다

이 레이어의 각 노드에서 노드를 사용하면 이러한 레이어의 출력을 피드 할 때 노드를 다음 레이어로 이동 시키면 모든 값이 정규화됩니다 우리의 입력 레이어에 대해서는 이것들이 이미 언급 한 기능들입니다 한 가지는 남아 있고 나는 의도적으로 말하지 않았다 왜냐하면 내가 말했듯이 나는 두 개의 높은 매개 변수 또는 세 개의 새로운 새로운 매개 변수에 대해 이야기 할 것입니다 수업 시간에 우리는이 질문을 통해 우리가 어떻게 우리를 정상화시킬 수 있는지에 대해 논의했습니다 값을 0으로 정규화한다는 것을 알았습니다

항상 도움이되는 것은 아니지만 이러한 평균화 된 값이 어떤 평균과 귀하의 모델이 실제 과정에서 배울 수있는 표준 편차 도움이 될 수있는 방법과 실제로 할 수있는 방법 두 가지 더 많은 하이퍼 매개 변수를 소개 할 수 있습니다 그것은 훈련 할 수 있고 여기서 표준화 된 값은 0과 같다고 말합니다 평균 및 표준 편차가 하나이지만 다시 zi를 할 수 있습니다 다시 정규화되었습니다 값이 한 개 개선되었으며 감마 하이퍼 매개 변수를 곱한 값으로 할 수 있습니다 제로 평균 및 표준 편차 표준화 값 및 플러스 베타 가치는 학습 과정에서 우리와 같은 방식으로 배울 것입니다

감마 값을 배우는 것과 같은 방식으로 가중치를 배웁니다 처음에는 임의의 값으로 시작하지만 과정에서 우리는 W와 B 또는 B 1과 같은 다른 모든 것들에 대해 배운 것과 같은 방법을 배웁니다 W 1 W 2 및이 기능은 동일하게 유지되고 체인 규칙을 통해 배우고 있지만 사실 우리는 이것을 기억할 필요가 없으며 얻고 싶지 않습니다 응용 프로그램에 어떻게 그것이 하루의 끝을 실행합니까 당신이 할 일은 대부분의 tensorflow 및 Kira 's의 응용 프로그램이 이미이 작업을 처리합니다 프로세스에서 노드의 정규화 된 값은 기본적으로 제로 평균이 아닙니다

그리고 단어 표준 편차는 몇 가지 평균과 어떤 표준 편차와 그 평균과 표준 편차 값은 모델이 WS와 동일한 방식으로 학습 과정을 통해 식별됩니다 B의 이것은 churn에 대한 예입니다 여기는 고객에 관한 데이터 세트입니다 우리는 성 (姓)과 성 (姓)이있는 고객 ID를 가지고 있습니다 신용 점수가 무엇인지 여부는 지리학이란 무엇인가? 고객에 대한 나이 및 기타 정보 및 그가 퇴사했는지 여부 또는 휘젓다 그렇지 않으면 우리가 가지고있는 정보이고 우리는 모델을 만들고 싶다

특히 MLP는 다중 레이어 퍼셉트론 또는 인공 신경망 아키텍처를 통해 고객이 어떤 고객인지를 어떻게 예측할 수 있는지 예측할 수 있습니다 휘젓다거나 앞으로 가지 않을 것입니다 그래서이 두 칼럼 지리 성별은 중요하고 가변적이지만 범주 형으로 분류됩니다 가치 그래서 우리가 할 수있는 일을 기억한다면 우리가하는 일은 뜨거운 인코딩을 통해서입니다 그것들을 0 또는 1로 만들면 대부분 이진이므로 우리는 0 1과 나머지를 만들 수 있습니다

필드는 숫자이므로 이미 걱정할 필요가 없습니다 목표는이 데이터를 사용하여 누군가가 갈 것인지를 예측하는 것입니다 churn 또는 not와 내가하기 전에 당신이 쉽게 혼란을 피할 수있는 지 보자 당신은 당신의 시스템에 윈도우즈와 맥 모두에서 사용하지 않았습니다 여기서 내가 제시하는 것은 내가 그것을 들려주게하고 만약에 단지 몇 분이 걸린다면 당신은 핍을 사용하고 당신이 설치할 수있는 핍을 통해 작동하지 않는 경우 웹 및 작동하지 않는 경우 Exe 파일에서 거기에서 설치하지만 내 경우에는 시간이 많이 걸렸고 두 대의 노트북이 이미 설치되어 있고 채찍이 일할 때마다 일했다

라이브러리 numpy matplotlib 그리고 이것들은 데이터 준비를위한 것입니다 이것은 데이터입니다 CSV 형식으로되어 있으므로 팬더 소스를 읽을 수 있습니다 CSV X는 3입니다 ~ 13은 고객 ID와 같았다면 처음 세 개의 열을 의미합니다

그래서 우리는 네 번째에서 입력을 시작하고 있습니다 색인은 0이고 우리는 X가 필요하고 12 번째 열은 13 번째 열이 우리의 Y입니다 우리는 그것을 만들었습니다 x1은 두 번째 열이 성 (gender)이었던 것을 의미합니다 위치 및 세 번째 기능은 성별이므로 우리는 하나의 핫 인코딩 이 값들의 수치 적 표현을 만드는 관점에서 열차와 시험을 위해 데이터를 나누어서 80 %를 훈련시켜 20 %를 훈련 시켜라

우리는 표준 스칼라를 사용하여 모든 값을 변환합니다 X의 모든 기능에 대한 모든 기능을 모든 값으로 변환합니다 0 & 1 사이에서 우리는 기차로의 운송에 적합하고 같은 것을 사용하고 있습니다 동일한 값을 갖는 테스트를 위해 동일한 값으로 변환하는 프로세스 또는 동일한 값 우리는 지금까지 사용 해왔지만 이제는 두 번째 부분은 어떻게하면 인공 신경망 그래서 우리는 단지 두 가지를 필요로합니다 이것은 Kara에서 가져온 것이므로 순차 모델을 사용하여 Kara 's VR을 가져와야합니다

왜냐하면 우리가 한 층을 다른 층 위에 선형으로 놓는 것을 상기한다면 패션과 모든 슬라이드 또는 모든 레이어가 조밀하게 될 것입니다 연결되어 있고 MLP가 그 층들 모두가 조밀하게 연결되어있어서 시작했습니다 순차적 모델로서의 나의 분류 자다 조밀 한 레이어 유닛 6을 추가하고있다 레이어 커널 이니셜 라이저에서 6 개의 숨겨진 노드를 어떤 종류로 초기화할까요? 입력 레이어와 숨겨진 레이어 사이의 연결 가중치 가중치를 초기화 할 수 있도록 초기화해야합니다

0에서 1 사이에는 임의의 n과 같은 다른 메소드도 있습니다 평균이 0이고 표준 편차가 1 인 가중치 truncated mean하지만 이러한 모든 프로세스는 우리가 가중치를 초기화합니다 reloj 활성화 함수를 사용하면 숫자가 11이므로 숫자가됩니다 입력 기능의 11은 우리가 명시 적으로 말하고있는 것인가? 당신은 조금 이것이 11 개의 노드를 가진 우리 입력 레이어이고 우리는 첫 번째 레이어가 있습니다 숨겨진 레이어는 6 개의 노드가 몇 개 있고이 모든 것을 초기화했습니다

균일 한 분포의 가중치를 사용하여 이 레이어의 각 노드의 맨 위에는 reloj 활성화 함수가 사용됩니다 이 후에 다른 레이어를 추가하면 밀도가 높은 다른 레이어가 추가됩니다 다시 6 개의 노드가있는 연결된 계층 잠깐 내가 활성화 함수를 일률적으로 초기화하고있다 레이 루 그리고 마지막으로 출력 레이어는 내가 할 수있는 바이너리 분류이기 때문에 내가하는 일은 0과 1을 사용하여 출력 확률을 계산하면 같은 단위를 더할 수 있습니다 무게와 활성화는 나에게 사건의 확률을주는 시그 모이 드이다 일단 우리는 두 개의 숨겨진 레이어로 아키텍처를 설정하고 하나의 출력 노드는 우리가 분류 한 모델을 컴파일 할 수 있으므로 옵티 마이저 Adam 우리가 원했던 바이너리 크로스 엔트로피와 메트릭으로 손실이 있습니다

측정은 예측값과 실제 값 사이의 정확도이므로 실행했습니다 매우 단순한 모델 분류 복장 열차로 X 열차 10 및 팩 크기 10을 받고 85 %의 출력을 주었고 새로운 항목을 예측해야하는 경우 여기서 X 테스트를 위해 분류 할 필요가 있는데, 나는 예측 함수를 사용하여 그것을 할 수있다 우리는 또한 여러분이 지리와 같은 모든 가치를 가지고있는 예를 보았습니다 프랑스이고 성별은 남성 신용 점수가 600이고 모든 정보 사용할 수있는 값의 배열을 만들고 동일한 예측을 사용할 수 있습니다 모델의 정확성이 모델의 정확성을 확인하는 함수입니다 그 사람이 의자에 앉을 것인지 말 것인지를 예측하는 사람은이 종류의 특정 데이터를 호출 할 때 CRM 및 고객에서 데이터가 사용되었습니다

연락처 센터에서 귀하의 정보를 데이터 세트에서 사용할 수 있습니다 귀하의 정보를 훈련 된 모델과 귀하의 산출물에 대해 평가 해 줄 것을 요청하십시오 당신이 갈아 타기를하든하지 않든간에 우리가 혼란 행렬 그래서 테스트와 예측이 사실이다 이것이 거짓이다 진실한 부정적이고 이들은 거짓 긍정이고 틀린 부정적이다 나는 어떻게해서 좋은가? 사용법과 하나의 값을 많이 테스트 할 수있는 방법은 내 모델이 다른 하이퍼 매개 변수의 가장 좋은 조합은 무엇입니까? 당신이 조정할 필요가있는 매개 변수는 얼마나 많은 베쓰 크기를 얼마나 많이 공기 상자 당신은 어느 옵티 마이저를 사용해야 하는지를 실행한다

atom rmsprop 또는 그라디언트 강하 또는 얼마나 많은 학습 속도를 사용해야 하는지를 결정해야합니다 그리드 검색은 여러 조합을 테스트 할 수있는 방법입니다 그것은 scikit에서 오는 것입니다 실제로 그것이하는 일은 실제로 다른 것을 만듭니다 조합이 2 인 경우 이것은 2이고 이것은 2의 조합입니다

have 2 2 2 우리가 만들 수있는 8 가지 조합을 의미합니다 8 당신의 모델이 이렇게 될 것입니다 일괄 처리로 25 시도 Airpark and atom 다음에 25라고 말할 것입니다 2 rmsprop 25 all to all 귀하의 모델이 시도 할 수있는 가능한 조합은 무엇 이었습니까? 정확성과 인공 지능을 정의하는 더 쉬운 방법 기능으로 신경 네트워크 그래서 나는 빌트인 분류자를 wilted했고 나는 내 함수의 입력 중 하나로서 옵티 마이저를 제공하고 내가 결정할 것입니다 나중에이 모델에 적합하면이 코드는 모두 동일하지만 모두 사용자 정의 함수 내에서이 코드를 빌드 한 것입니다 빌드 분류자를 좋아하거나 이름을 부여 할 수 있습니다 특정 함수 카오스 분류기 및 빌드 함수는 가지고있는 함수입니다

여기에 내장 된 당신은 매개 변수의 사전을 만들고 나는 아주 간단한 것들로 그것을 시도 배치 크기는이 공기 상자는 이러한 및 최적화 도구는이 두 가지입니다 다른 것을 시도해 볼 수도 있습니다 교차 엔트로피 또는 MSC의 다른 손실 함수를 시험해보십시오 방금 다른 옵션을 제공하지만 지금은 세 가지를 시도했습니다 미터를 데이터 과학자로 선택하여 코드를 실행할 수 있습니다

그리드 검색 CV 및 분류자를 호출했습니다 이것은 분류 자이며 매개 변수는 이것의 사전이며 득점은 정확도와 CV Denis입니다 십자가 유효성 검사 10 그래서 inbuilt 교차 유효성 검사와 같은 것이고 이 코드를 실행하면 실제로이 함수가 실행될 것입니다 모든 8 개의 조합과 8 개의 내장 된 분류기는 두 가지와 같습니다 2 개의 자작 나무에서 2 개의 조합이 Époque에서 2 개, 최적화에서 2 개이므로 사용할 수있는 8 가지 조합이 모두 실행되며 X 기차에서 기차를 타면 열차가 최고의 기차를 타는 이유는 정말 절약입니다

내가이 두 가지에 대한 가장 정확한 정확도를 준 매개 변수 그것에 관심이있어서 그는 모든 조합을 위해 그것을 실행할 것입니다 내가 그 하나의 Apoc을 주었던이 세 가지 조합의 최상의 매개 변수 25의 침대 크기를 가진 Adam 최적화 도구가 나에게 최고의 정확도를 제공합니다 이 특정 모델에 대한 79 점 6 점 콤비네이션에는 25 가지가 있고 아담은이 모델에 가장 적합한 조합입니다 비슷한 방식으로 다른 하이퍼 매개 변수를 사용해 볼 수도 있습니다 균일 한 무게를 사용하는 대신에 시도하고 싶다

무작위 초기화를 시도하고 일반 종류를 잘라내려고합니다 어떤 무게로 더 좋은 결과를 얻었는지 확인하고 이 조합을 하나씩 실행할 수 있음을 보여 드렸습니다 실제로 나는 20에서 30으로 시작했지만 시간이 많이 걸렸습니다 사실 추락해서 방금 한 두 개를 사용했습니다 일러스트레이션 목적 예는 우리가 고양이와 개 이미지를 가지고 있다는 것입니다

우리가 만든 모델을 통해 고양이와 개로 분류하고 싶다 우리가 시작하는 MLP와 같은 순차적 모델이기 때문에 순차적 모델 32 개의 필터를 가진 컨볼 루션 레이어 3 x 3 입력 폼 64 x 64의 이미지를 Ray Lu를 적용한 다음 2 x 2 매트릭스의 최대 풀링을 수행 그 후 또 다른 컨볼 루션과 최대 풀링 레이어를 추가했습니다 평평하게하고 최종 숨겨진 레이어는 밀도가 높습니다 128 유닛으로 연결된 레이어와 마지막으로 바이너리 분류입니다 Sigmoid 활성화와 함께 하나의 고밀도 레이어를 사용하고 Adam으로 컴파일 이진 크로스 엔트로피는 데이터 때문에 논의하고 싶은 중요한 것 보강은 복잡한 데이터 세트의 종류를 만드는 것을 알기에 좋은 것은 아닙니다

하지만 미래에 모델을 실제로 도울 수 있습니다 매우 명확하지 않은 이미지에 대한 올바른 예측을 했으므로 클릭 한 것으로 가정 해 봅시다 개와 그의 얼굴 사진이 반 밖에 없습니다 아주 크게 확대되었거나 약간의 노이즈가 있거나 화질이 좋지 않습니다 매우 청결하고 깨끗한 그림으로 모델을 훈련 한 경우 매우 좋습니다

당신의 모델이 올바르지 않을 수도있는 가능성이 있습니다 우리가 일반적으로 그런 문제를 극복하기 위해하는 일이 무엇인지를 이미지에 문제가 있거나 이미지에 왜곡이나 노이즈가 있습니다 이 경우에도 모델은 정확한 예측을 할 것입니다 우리는 이미지 생성 (image generation)이라고 불리는 것을 가지고 있으며 그것은 이미지 아래에 있습니다 cara의 전처리 이미지 섹션의 데이터 생성기 섹션과 당신이 가지고 놀 필요가 많은 가치가 많이 나는 단지 하나 둘로 놀고 있습니다

세 가지 세 가지 가치가 있지만 나와 함께 할 수있는 모든 것들을 보여 드리겠습니다 이미지를 사용하면 모든 이미지 데이터 생성기를 사용할 수 있으며 수행 할 수있는 작업을 수행 할 수 있습니다 당신은 그것이 할 수있는 모든 것들을 읽을 수 있습니까? 값을 회전하여 이미지를 어느 정도 회전시키고 일부 이미지를 확대 / 축소합니다 값 깨끗한 시프트 이미지 비누하지만 이들은 모두 이러한 것들과 같습니다 image 우리가 현재 사용하고있는 확대 / 축소 개념은 확대 / 축소에 있습니다 이미지를 깎아서 수평 이미지가 왜곡되게 만듭니다

우리가 고양이 이미지를 위해 한 변화의 종류를 알고 그래서 우리는 그 이미지를 뒤집었다 이미지의 20 %는 이미지의 20 %를 확대합니다 rescale은 모든 픽셀 값을 0에서 1로 변환하는 것을 의미하며 우리는 교육 데이터 세트를 통해서만 모델이 훈련 된 후에도 왜곡되고 매우 복잡한 사진들로 실제 좋은 힘을 얻었습니다 테스트 데이터 세트에서 사진을 깨끗하게 처리합니다 일반적으로 이러한 작업을 수행하지 않습니다

모델이 이러한 변경 사항에 대해 좋은 작업을하고 있는지 확인하고 싶습니다 교육 데이터 세트 및 일단 그것이 완료되면 우리는 단지 크기 조정 된 것을 보려고합니다 사진을보고 열차 테스트 이미지에서 효과가 있는지, 왜 우리가하는지 확인하십시오 왜냐하면 우리가 새로운 이미지를 위해 그것을 할 때 우리는이 모든 것을하기를 원하지 않기 때문입니다 우리가 20 %의 힘을 기울이고 줌을하고 있기 때문에 모든 것이 아닌 이미지가 가정되었지만 많은 옵션이 있으며 이 모든 일들이 무엇을하고 있는지 읽을 수 있다면 격려해 줄 것입니다 특히 매우 강력한 이미지 분류 프로그램을 개발하려는 경우 특히 모든 조건이나 조명 조건에서 작동하는지 확인하려고합니다

당신이 얼굴의 반을 알고 있든, 반 몸이 거기에 있는지 동물과 당신의 모델이 여전히 작동하고있어 이러한 기능 중 일부는 견고한 모델을 만드는 데 정말로 도움이되지만,이 특정 섹션은 많은 기능이 실제로 모델의 용량과 성능을 향상시킬 수 있습니다 더 나은 예측 조건은 여기에서 마지막 구현으로 넘어갑니다 우리가 한 일은 정서 분석을위한 유스 케이스를 구현했기 때문에 우리는 lsdm을 사용하여 NS 반복적 인 신경 네트워크를 사용하여 구현을 완료했습니다 세포 그래서 먼저 당신이 레이어를 가져올 데이터 세트 내가 DBAs 영화 데이터베이스입니다 영화에 대한 리뷰를 가지고 있고 그것이 좋은 움직임인지 검토했다 당신이 영화와 같은 것을 아는 누군가 또는 영화에 대한 감정이 무엇이 아닌가

우리가 MLP를 위해 조밀하게 연결된 계층을 사용하고있는 순차적 모델 아키텍처 LST M은 L STM 임베딩을위한 임베딩 및 전처리 해 주셔서 감사합니다 이 비디오를 듣는 것을 즐겼습니다 친절하게도 좋아하십시오 의심과 의문에 대해 의견을 말하면 가장 빠른 시일 내에 답변 해 드리겠습니다 우리의 재생 목록에서 더 많은 동영상을 찾아보고 Eddie Rica에 가입하십시오

더 행복한 학습을위한 채널