From The Brain To AI (Neural Networks | What Is Deep Learning | Deep Learning Basics)

이 시리즈의 마지막 비디오에서 깊은 차이점을 논의 학습 및 기계 학습, 방법 및 방법 딥 러닝 분야는 공식적으로 태어나고 주류 인기 이것의 초점 비디오는 인공 신경에있을 것입니다 더 구체적으로-네트워크 구조

독수리, 전투기 동안 이 두 별개의 실체는 모두 수행 동일한 작업, 비행, 그들이 달성하는 방식 매우 다릅니다 전투기 매우 전문적이고 공학적입니다 매우 구체적인 기계 작업과 그 작업을 극도로 실행 잘 독수리, 생물 시스템 확실히 훨씬 더 복잡합니다 다양한 방법으로 가능 일반화 된 작업 이 비유는 차이점과 많은 유사점 우리의 두뇌와 딥 러닝 시스템

그들은 둘 다 임무를 수행 할 수 있지만 패턴 인식의 두뇌는 매우 복잡한 일반 시스템 다양한 작업을 수행 할 수 있습니다 딥 러닝 시스템은 설계되었지만 매우 구체적인 작업에서 탁월합니다 에 딥 러닝을 더 잘 이해하고 이 비유와 인라인 유지 비행, 기본으로 돌아가 봅시다 에 대한 한 시스템의 기본 원칙 이해하기가 훨씬 쉽다 더 높은 수준의 이해 그 응용 프로그램 및 기능 상기 시스템 우리가 비디오에서 논의했듯이 과거에 딥 러닝은 연결 분야, 부족 목표가있는 머신 러닝 뇌를 디지털 방식으로 재구성합니다

이제 우리가 반드시해야하는 두뇌를 디지털 방식으로 재구성 먼저 가장 간단한 디지털 재구성 뇌의 구성 요소, 뉴런 이것은 뉴런의 예술적 표현, 다극 뉴런이 정확해야합니다 있다 뉴런의 세 가지 주요 구성 요소 : 1) 소마, 이것은 '뇌'* 메타 *입니다 정보 처리 센터를 말하십시오 세포체로 구성된 뉴런의 그리고 핵 2) 축색 제, 이것은 길다 전달하는 뉴런의 꼬리 세포체와의 정보

3) 수상 돌기, 이것들은 뉴런에서 분기 팔 다른 뉴런에 연결하십시오 우리가 논의한대로 Neuromorphic에 대한 이전 비디오에서 계산에 따르면 뇌는 천억이 넘습니다 100 조 이상의 시냅스를 가진 뉴런 시냅스와 연결 다른 뉴런 우리가 생각한다면 극도로 감소하는 관점, 우리 두뇌를 하나로 간주 할 수 있습니다 거대한 신경망 점점 더 많은 것을 알지 못합니다! 따라서 왜 연결 주의자들은 시도에 너무 단단합니다 뇌를 재구성하고 긴급 속성이 등장합니다! 이제 물러서서 개별 뉴런, 이것은 우리 중 하나입니다 뉴런의 첫 사진 안으로 그려지다 19 세기 후반 스페인의 해부학자에 의해 산티아고 라몬이 카할 그는 소개 될 수있는 얼룩을 사용했습니다 조직에 현미경을 사용하여 그가 본 것을 그립니다

이제 당신은 여기에 무엇을 볼 우리가 방금 논의한 것은 세포체, 긴 꼬리와 수상 돌기 서로 이제이 그림을 뒤집어 봅시다 거꾸로하고 추상적으로 매핑 오른쪽에있는 뉴런의 구성 요소 측면 먼저 우리는 소마를 원으로 표시 한 다음 긴 줄이 오는 축삭 뉴런에서 마지막으로 여러 줄로 표현되는 수상 돌기 뉴런으로 연결됩니다 보시다시피 여기, 우리는 기본적인 방법을 목격하고 있습니다 딥 러닝 신경의 구조 89 00 : 02 : 52,670-> 00 : 02 : 56,360 그물이되었습니다! 에 대한 토론을 시작하려면 뉴런이 작동하는 방식으로 수상 돌기는 입력으로 간주 우리의 뉴런에 몸에서 수상 돌기 그들의 전기 활동을 찾으십시오 끝 그것이 다른 것에서 오는지 여부 뉴런, 감각 또는 다른 활동 그 신호를 세포체로 보내십시오

그만큼 그런 다음 soma는 이러한 신호를 받아 시작합니다 그들을 축적하고 특정 신호 임계 값, 축삭은 활성화, 시스템의 출력 본질적으로 매우 간단한 방법으로 뉴런의 정보 처리는 그냥 물건을 추가하십시오 그리고 그것을 바탕으로 하나 수상 돌기 활동을 축삭 활동의 수준 다시 말해, 더 많은 수상 돌기 더 자주 그들은 축삭이 얼마나 자주 활성화되었습니다 이제 우리는 기능의 추상적 이해 뉴런의 시스템에 더 추가합시다 신경망을 형성하기 시작합니다

같이 앞에서 언급 한 바와 같이 뉴런을 시냅스라고합니다 수상 돌기, 하나의 입력 뉴런은 축삭에 붙어 있습니다 다른 사람의 출력 라몬으로 돌아 가기 카잘의 첫 번째 뉴런 그림 당신은 그가 보고이 작은 것을 볼 수 있습니다 수상 돌기의 마비 여기가 다른 뉴런의 축색 돌기는 현재 뉴런의 수상 돌기 측면에서 우리의 추상적 인 그림의 우리는 이 연결을 원형으로 나타냅니다 마디 축색 돌기는 수상 돌기에 연결될 수 있습니다

강하게, 약하게 또는 그 사이의 어떤 것 지금, 우리는의 크기를 사용합니다 연결 노드를 나타내는 연결 강도, 연결 입력이 얼마나 활발한가 뉴런 연결은 출력 뉴런 수상 돌기 우리는 또한 이 연결 강도에 값을 할당하십시오 0과 1 사이, 1은 매우 강하고 0에 가까워지고 있습니다 앞으로 확장 될이 가치 비디오 참조 연결 무게로 보시다시피 우리는 더 많은 뉴런을 추가하기 시작합니다 많은 다른 입력으로 흥미로운 뉴런은 수상 돌기에 연결될 수 있습니다 각각 하나의 출력 뉴런 연결 강도가 다릅니다

이제 연결되지 않은 모든 것을 제거합시다 수상 돌기 및 또한 노드를 제거 우리는 연결을 나타내야했다 강도, 단순히 두께를 보여 무게를 나타내는 선의 그 연결 이제 뒤집어 가로로 다이어그램을 보면 현대 딥 러닝의 시작 신경망 아키텍처 이후 이 비디오의 시작, 우리는 우리에서 갔다 수조의 엄청나게 복잡한 뇌 연결과 미묘한 운영과 상호 연결성 신경망을 이해하기 간단 모델 우리 시스템은 여기 바로 그 모델입니다 그

뇌에서 신경으로 네트워크는 매우 축소 과정입니다 그리고 사이의 진정한 관계 생물학적 시스템과 신경 네트워크 은유적이고 영감을줍니다 우리의 두뇌, 제한된 이해 우리는 그들 중 엄청나게 복잡하다 수조 개의 연결과 많은 다른 유형의 뉴런 및 기타 병행하여 작동하지 않는 조직 그냥 같은 인접 레이어에 연결 신경망 주제에 다시 돌아와 우리가 사용하는 용어 이 네트워크를 설명하십시오, 그것은 사실입니다 그들은 여전히 ​​매우 유용합니다 큰 표현을 도출 마지막에 언급 한 데이터 양 이 시리즈의 비디오 그리고 지금 우리는 이것들의 구조가 어떻게 보 였는지 네트워크가 개발되었습니다 이 표현은 층

출력 노드를 생각하는 방법 그들이 노드의 합이라는 것입니다 그들을 강하게 활성화시키는 가장 강한 무게의 연결 예를 들어 5 개의 입력이 있다고 가정 해 봅시다 문자를 정의하는 노드 : A, B, C, D 그리고 E이 경우 출력 노드는 ACE에 의해 정의됩니다 여기 있습니다 저급에서 목격 표현, 개별 문자 높은 수준의 표현 단어를 포괄하고 계속 가면 에, 문장 등-이 단순한 예는 자연어의 기초이다 가공

편지를 넘어서 방법론은 모든 유형의 이미지의 픽셀 값에서 입력 오디오의 이미지 인식 연설을위한 연설의 빈도 더 복잡하고 추상적 인 인식 영양 정보와 같은 입력 의료 병력은 예를 들어 암의 가능성 지금 우리가 앞서 기 전에 더 높은 수준의 예측으로 확대 더 복잡한 초록의 능력 딥 러닝 시스템의 응용 이 다음 동영상 세트에서 시리즈, 우리는 포괄적 인 과정을 거칠 것입니다 예를 들어, 많은 새로운 것을 소개합니다 직관적 인 방법으로 용어와 개념 노드 네트워크의 이해를 돕기 위해 작업 그러나 이것이 당신이 가지고 있다는 것을 의미하지는 않습니다 더 배우기를 기다립니다! 원한다면 딥 러닝에 대해 더 배우고 실제로 현장에 대해 배우는 것을 의미합니다 이러한 인공 학습 알고리즘 뇌에서 영감을 얻어 기초 빌딩 블록 퍼셉트론, 멀티 레이어 확장 네트워크, 다른 유형의 네트워크 컨볼 루션 네트워크, 재발과 같은 네트워크와 훨씬 더 많은 다음 화려한

org는 당신이 갈 곳입니다! 안에 자동화를 통한 세계 알고리즘이 점차 대체 될 것입니다 더 많은 직업, 그것은 개인으로서 우리에게 달려 있습니다 우리의 뇌를 날카롭게 유지하고 여러 분야에 대한 창의적인 솔루션 문제와 화려한 플랫폼입니다 그렇게 할 수 있습니다 예를 들어 매일 매일 도전이 있습니다 다양한 코스를 다룰 수 있습니다 STEM 도메인 이러한 도전은 그들이 그리는 방식으로 제작 당신은 다음 새로운 것을 배울 수 있도록 직관적 인 개념 설명 특이점을 지원하려면 번영과 더 많은 것을 배우십시오 Brilliant, brilliant

org/로 이동하십시오 특이! 또한 처음 200 그 링크에가는 사람들은 20 %를 얻을 것입니다 연간 보험료 할인 혜택! 이 시점에서 비디오는 결론, 감사합니다 그것을 볼 시간을내어! 만약 너라면 그것을 즐겼다, 나를지지하는 것을 고려해라 Patreon 또는 YouTube 회원 자격 유지 이 도전이 커지고 있습니다! 우리를 확인 자세한 내용은 웹 사이트를 참조하십시오 더 많은 콘텐츠를 구독 한 입 크기에 대한 우리의 페이스 북 페이지 내용의 덩어리 안쿠 르였습니다 당신은 특이점을보고있다 번영과 곧 다시 ll겠습니다! [음악]

Neural Networks and Deep Learning: Crash Course AI #3

안녕하세요, Jabril입니다 CrashCourse AI에 오신 것을 환영합니다! 지도 학습 과정에서 John Green-bot에게 퍼셉트론을 사용하여 배우도록 가르쳤습니다

하나의 뉴런을 모방하는 프로그램 그러나 우리의 뇌는 1 조 개의 뉴런으로 의사 결정을합니다 그들 사이에! 여러 퍼셉트론을 함께 연결하면 실제로 AI로 더 많은 것을 할 수 있습니다 인공 신경 네트워크라는 것을 만듭니다 신경망은 이미지 인식과 같은 특정 작업에 대해 다른 방법보다 낫습니다

그들의 성공 비결은 숨겨진 층이며, 수학적으로 매우 우아한 이 두 가지 이유 때문에 신경망이 가장 지배적 인 머신 러닝 중 하나 인 이유 오늘날 사용되는 기술 [INTRO] 얼마 전까지 만해도 AI의 큰 과제는 인식과 같은 실제 이미지 인식이었습니다 고양이의 개, 보트의 비행기의 차 우리가 매일 그렇게해도 컴퓨터에는 정말 어려운 일입니다

컴퓨터가 0과 1을 일치시키는 것과 같은 문자 비교를 잘하기 때문입니다 한 번에 컴퓨터는 픽셀을 일치시켜 이러한 이미지가 동일하다는 것을 쉽게 알 수 있습니다 그러나 AI 이전에는 컴퓨터에서 이러한 이미지가 같은 개라는 것을 알 수 없었습니다 서로 다른 이미지가 모두 개라고 말할 희망이 없었습니다

그래서 Fei-Fei Li라는 교수와 다른 머신 러닝 및 컴퓨터 비전 그룹 연구원들은 연구 커뮤니티가 이미지를 인식 할 수있는 AI를 개발하도록 돕고 싶었습니다 첫 번째 단계는 실제 사진으로 분류 된 거대한 공개 데이터 세트를 만드는 것이 었습니다 이렇게하면 전 세계의 컴퓨터 과학자들이 다른 알고리즘을 고안하고 테스트 할 수 있습니다 이 데이터 세트를 ImageNet이라고했습니다 3,300 만 개의 레이블이있는 이미지가 있으며 5,247 개의 중첩 된 명사 범주로 분류됩니다

예를 들어, "개"레이블은 "국내 동물"아래에 중첩되어 있으며 "동물" 데이터를 안정적으로 라벨링하는 데있어서 인간은 최고입니다 그러나 한 사람이이 라벨을 모두 수행 한 경우, 수면 또는 간식은 1 년 이상 걸릴 것입니다! 따라서 ImageNet은 크라우드 소싱을 사용하고 인터넷의 힘을 활용하여 저렴하게 보급했습니다 수천 명의 사람들 사이의 일 데이터가 완성되면 연구원들은 2010 년에 연례 경쟁을 시작하여 이미지 인식에 최고의 솔루션을 제공합니다

토론토 대학교 (University of Toronto)의 대학원생 인 Alex Krizhevsky를 입력하십시오 2012 년에 그는 비슷한 솔루션이지만 신경망을 ImageNet에 적용하기로 결정했습니다 과거에는 성공하지 못했습니다 AlexNet이라고하는 그의 신경망에는이를 차별화하는 몇 가지 혁신이있었습니다 그는 숨겨진 레이어를 많이 사용했는데 잠시 후에 도착할 것입니다

또한 신경망이 수행하는 모든 수학을 처리하기 위해 더 빠른 계산 하드웨어를 사용했습니다 AlexNet은 차기 최고의 접근 방식을 10 % 이상 능가했습니다 20 개의 이미지 중 3 개만 잘못되었습니다 학년으로 볼 때, B는 견고했고 다른 기술은 기음 2012 년 이후, 신경망 솔루션은 연간 경쟁을 극복했으며 결과는 계속 나아지고 있습니다

또한 AlexNet은 신경망에 대한 폭발적인 연구를 시작했습니다 이미지 인식 이상의 많은 것들에 적용됩니다 신경망이 이러한 분류 문제에 어떻게 사용될 수 있는지 이해하기 위해 먼저 아키텍처를 이해합니다 모든 신경망은 입력 레이어, 출력 레이어 및 사이에 숨겨진 레이어 여러 가지 배열이 있지만 클래식 다층 퍼셉트론을 사용합니다 예로서

입력 계층은 신경망이 숫자로 표현 된 데이터를 수신하는 곳입니다 각 입력 뉴런은 데이터의 일부 특성 인 단일 기능을 나타냅니다 이미 많은 숫자에 대해 이야기하고 있다면 기능은 간단합니다 도넛에 설탕 그램처럼 그러나 실제로는 거의 모든 것이 숫자로 변환 될 수 있습니다

소리는 음파의 진폭으로 표현 될 수 있습니다 따라서 각 기능에는 순간의 진폭을 나타내는 숫자가 있습니다 단락의 단어는 각 단어가 몇 번 나타나는지 나타낼 수 있습니다 따라서 각 기능은 한 단어의 빈도를 갖습니다 또는 강아지의 이미지에 라벨을 지정하려는 경우 각 지형지 물은 정보를 나타냅니다

약 픽셀 따라서 회색조 이미지의 경우 각 기능에는 픽셀의 밝기를 나타내는 숫자가 있습니다 입니다 그러나 컬러 이미지의 경우 각 픽셀을 빨간색의 양, 녹색과 파란색으로 결합되어 컴퓨터 화면의 모든 색상을 만들 수 있습니다 지형지 물에 데이터가 있으면 각 계층은 다음 계층의 모든 뉴런에 해당 번호를 보냅니다

숨겨진 레이어라고합니다 그런 다음 각 숨겨진 레이어 뉴런은 얻는 모든 숫자를 수학적으로 결합합니다 목표는 입력 데이터에 특정 구성 요소가 있는지 여부를 측정하는 것입니다 이미지 인식 문제의 경우 이러한 구성 요소는 중앙의 특정 색상, 곡선 일 수 있습니다 상단 또는 이미지에 눈, 귀 또는 털이 포함되어 있는지 여부

이전 에피소드의 간단한 퍼셉트론처럼 각각 예 또는 아니오로 대답하는 대신 숨겨진 레이어의 뉴런은 약간 더 복잡한 수학을 수행하고 숫자를 출력합니다 그런 다음 각 뉴런은 다음 레이어의 모든 뉴런에 번호를 보냅니다 다른 숨겨진 레이어 또는 출력 레이어 일 수 있습니다 출력 레이어는 최종 숨겨진 레이어 출력이 수학적으로 결합되는 곳입니다 문제에 대답하기 위해

이미지를 개로 라벨링하려고한다고 가정 해 보겠습니다 단일 답변을 나타내는 단일 출력 뉴런이있을 수 있습니다 이미지는 개의 이미지입니다 또는 아닙니다 그러나 많은 이미지에 라벨을 붙이는 등의 답변이 많을 경우 많은 출력 뉴런이 필요합니다 각 출력 뉴런은 각 레이블의 확률에 해당합니다 (예 : 개, 자동차, 스파게티 등

그리고 우리는 가장 높은 확률로 답을 선택할 수 있습니다 신경망, 그리고 실제로 모든 AI의 핵심은 수학입니다 그리고 나는 그것을 얻는다 신경망은 일종의 블랙 박스처럼 보이고 수학을하고 답을 내뱉습니다 중간 레이어는 숨겨진 레이어라고도합니다! 그러나 우리는 모범을 통해 일이 일어나고있는 요점을 이해할 수 있습니다

오 존 그린 봇? John Green-bot에게 훈련 된 신경망을 갖춘 프로그램을 제공합시다 회색조 사진에서 개를 인식합니다 이 사진을 먼저 보여 주면 모든 기능에 0과 1 사이의 숫자가 포함됩니다 한 픽셀의 밝기로 그리고이 정보를 숨겨진 레이어로 전달합니다 이제 하나의 숨겨진 레이어 뉴런에 초점을 맞추겠습니다

신경망이 이미 훈련되었으므로이 뉴런은 다음과 같은 수학 공식을 갖습니다 중앙의 특정 곡선과 같이 이미지의 특정 구성 요소를 찾습니다 코 상단의 곡선 이 뉴런이이 특정 모양과 반점에 초점을 둔다면 실제로 신경 쓰지 않을 것입니다 다른 곳에서 일어나고 있습니다 따라서 대부분의 피쳐의 픽셀 값에 0을 곱하거나 칭량합니다 0 여기에서 밝은 픽셀을 찾고 있기 때문에이 픽셀 값에 긍정적 인 무게

그러나이 곡선은 아래의 어두운 부분으로 정의됩니다 뉴런은이 픽셀 값에 음의 가중치를 곱합니다 이 숨겨진 뉴런은 입력 뉴런과 스 퀴시의 모든 가중치 픽셀 값을 추가합니다 결과는 0과 1 사이입니다 마지막 숫자는 기본적으로이 뉴런 사고의 추측을 나타냅니다

개 코라고 불리는 곡선이 이미지에 나타납니다 다른 숨겨진 뉴런은 다른 성분과 같은 다른 성분을 찾고 있습니다 이미지의 다른 부분에서 커브 또는 퍼지 텍스처 이러한 뉴런이 모두 추정치를 다음 숨겨진 레이어로 전달하면 해당 뉴런 더 복잡한 구성 요소를 찾도록 교육받을 수 있습니다 마찬가지로, 하나의 숨겨진 뉴런은 개 코가 될 수있는 모양이 있는지 확인할 수 있습니다

모피 텍스처를 찾은 이전 레이어의 데이터에는 신경 쓰지 않을 것입니다 따라서 0에 가까워 지거나 0에 가까워집니다 그러나“코의 꼭대기”와“하단을 찾은 뉴런에 대해 실제로 신경을 쓸 수 있습니다 코의 "와"콧 구멍 " 그것은 큰 양수로 가중치를 부여합니다

다시, 그것은 이전 레이어 뉴런의 모든 가중치를 합산합니다 값을 0에서 1 사이로 설정하고이 값을 다음 레이어로 전달하십시오 그것은 수학의 요지이지만 우리는 조금 단순화하고 있습니다 신경망은 실제로 "코"와 같은 아이디어를 이해하지 못한다는 것을 아는 것이 중요합니다 또는 "눈꺼풀" 각 뉴런은 주어진 데이터를 계산하고 특정 플래그를 지정합니다 빛과 어둠의 패턴

몇 개의 숨겨진 레이어가 추가되면 하나의 뉴런으로 출력 레이어에 도달합니다! 따라서 이전 레이어의 데이터를 한 번 더 가중 한 후 이 이미지가 개라면 출력 뉴런, 네트워크는 좋은 추정을해야합니다 즉, John Green-bot은 결정을 내려야합니다 John Green-bot : 출력 뉴런 값 : 093 이것이 개일 확률 : 93 %! John Green Bot 안녕하세요! 신경망이 하나의 이미지 만 처리하는 방법을 생각하면 왜 더 명확 해집니다 AI에는 빠른 컴퓨터가 필요합니다

앞에서 언급했듯이 컬러 이미지의 각 픽셀은 3 개의 숫자로 표시됩니다 빨강, 초록, 파랑이 많이 있습니다 따라서 1000 x 1000 픽셀 이미지를 처리하려면 작은 3 x 3 인치입니다 사진, 신경망은 3 백만 가지 기능을 볼 필요가 있습니다! AlexNet은이를 달성하기 위해 6 천만 개 이상의 뉴런이 필요했습니다 계산하는 데 많은 시간이 걸릴 수 있습니다

문제를 해결하기 위해 신경망을 설계 할 때 명심해야 할 사항입니다 사람들은 더 깊은 네트워크 인 더 깊은 네트워크를 사용하는 것에 정말 흥분합니다 숨겨진 레이어, 딥 러닝을 수행합니다 딥 네트워크는 입력 데이터를 더 복잡한 방식으로 결합하여 더 복잡한 구성 요소를 찾을 수 있습니다 까다로운 문제를 해결하십시오

그러나 숨겨진 계층이 많을수록 10 억 개의 계층과 같은 모든 네트워크를 만들 수는 없습니다 더 많은 수학은 우리가 더 빠른 컴퓨터가 필요하다는 것을 의미합니다 또한 네트워크가 깊어 질수록 네트워크가 제공하는 이유를 이해하기가 더 어려워집니다 그것이하는 대답 첫 번째 숨겨진 레이어의 각 뉴런은 입력 데이터의 특정 구성 요소를 찾고 있습니다 그러나 더 깊은 계층에서 이러한 구성 요소는 인간이 묘사하는 방식에서 더 추상적입니다

같은 데이터 자, 이것은 큰 일처럼 보이지는 않지만 신경망이 우리의 대출을 거부하는 데 사용된다면 예를 들어, 우리는 이유를 알고 싶습니다 어떤 기능이 차이를 만들어 냈습니까? 그들은 최종 답변을 어떻게 평가 했습니까? 많은 국가에서 이러한 종류의 결정이 왜 필요한지 이해할 수있는 법적 권리가 있습니다 만들어졌다 그리고 신경망은 우리 삶에 대한 점점 더 많은 결정을 내리는 데 사용되고 있습니다 예를 들어 대부분의 은행은 신경망을 사용하여 사기를 감지하고 방지합니다

자궁 경부암에 대한 Pap 테스트와 같은 많은 암 테스트는 신경망을 사용하여 현미경으로 세포의 이미지, 암의 위험이 있는지 여부를 결정합니다 신경망은 Alexa가 어떤 노래를 연주하고 싶은지 이해하고 Facebook에서 사진 태그를 제안하는 방법 이 모든 일이 어떻게 일어나는지 이해하는 것이 세상에서 인간이되는 데 정말로 중요합니다 지금, 당신은 당신의 자신의 신경 네트워크를 구축할지 여부 그래서 이것은 많은 큰 그림 자료 였지만, 우리가 John Green-bot에게 준 프로그램은 이미 개를 인식하도록 훈련되었습니다 뉴런은 이미 입력에 가중치를 부여하는 알고리즘을 가지고있었습니다

다음에는 신경망에서 사용되는 학습 과정에 대해 이야기하겠습니다 모든 뉴런에 적절한 가중치를 부여하고 왜 제대로 작동하기 위해 많은 데이터가 필요한지 Crash Course Ai는 PBS Digital Studios와 연계하여 제작됩니다 모든 크래시 코스를 모든 사람에게 무료로 제공하려면 영원히 참여하십시오 Patreon의 커뮤니티

신경망 뒤의 수학에 대해 더 자세히 알고 싶다면이 비디오를 확인하십시오 충돌 코스 통계에서 그들에 대해

Learn Deep Learning with Python, Keras and TensorFlow with Applications of Deep Neural Networks.

깊은 신경 네트워크를 환상적인 기술로 만드는 것은 그들은 거의 모든 형식으로 입력을 받아 들일 수 있습니다 그들은 표 형식의 데이터를 취할 수 있으며, 이미지, 텍스트 및 심지어 오디오까지

그런 다음이 정보를 처리하고 그런 종류의 수학적 마술은 결정이나 숫자를 출력합니다 등급을 부여하지만 동일한 유형의 데이터를 많이 출력 할 수도 있습니다 표 형식의 데이터, 이미지, 텍스트 또는 오디오를 출력 할 수 있습니다 내 수업에서는 응용 프로그램 딥 뉴럴 네트워크 (Deep Neural Networks)에 대해,이 신경망을 일상적인 문제 Jupyter Notebooks를 사용하여이 코스의 모든 것을 가르칩니다

및 Python 보시다시피, 코드와 정보를 섞어 볼 수 있습니다 내 과정에서 귀하의 프로그램에서 실제 결과를 볼 수 있습니다 그들 이제 비디오 게임을 만드는 응용 프로그램 중 일부는 비디오가 필요합니다

그래서, 우리는 그것들을 실제로 Jupyter 바깥에서 움직일 것입니다 노트북과 파이썬에서 직접 모든 것은 양립성이 보장된다 Google CoLab을 사용하면 필요에 따라 무료 GPU로 실행할 수 있습니다 GPU, 나를 믿으십시오, 당신의 훈련 시간에 시간을 절약 할 수 있습니다

나는 너에게 많은 것을 보여주지 그래픽 및 기타 멋진 것들을이 비디오에서 볼 수 있습니다 모든 것은 우리가 비디오 마술이 없도록 수업을 들으십시오 자, 나를 넣어 조금은 필요가있다 녹색 화면 마술의,하지만 신경 네트워크는 그런 처리가 필요해 날 믿어 멋지게 보입니다

GAN은 우리가 살펴볼 신경 네트워크의 한 유형입니다 이번 코스 GAN은 Generative Adversarial Neural Network의 약자입니다 GAN은 일반적으로 얼굴을 생성하는 데 사용되지만, 그들이 훈련받은 "가짜 데이터" GAN은 두 개의 신경망을 가짐으로써 작동합니다

그만큼 첫 번째 신경 네트워크는 발전기입니다 본질적으로 난수와 얼굴을 생성합니다 두 번째 신경망은 판별 자입니다 그것 본질적으로 발전기가 정확한 얼굴을 생산하는지 여부를 알려줍니다 이 두 사람 적대적 전쟁을 앞뒤로하고왔다

(충돌) 일단 그들이 당신을 끝내면 정말 다른 난수를 많이 가질 수있는 제너레이터가 있어야합니다 꽤 현실적인 얼굴을 계속 생성합니다 보강 학습, 특히 깊은 학습을 통해 적용하면 매우 강력합니다 Google AlphaZero가 Stockfish를 이기고 본질적으로 마스터가되는 기술 짧은 시간에 모든 체스 이 과정에서 우리는 인공 지능 체육관을 사용하고 배울 수있는 보강 프로그램을 만드는 아타리 비디오 게임 실제 비디오 이미지를보고이 게임을하는 법 게임에서 그리고 어떤 경우에는 실제 비디오 게임의 RAM 상태에서 진행됩니다

앉아라 앉아라 누가 착한 소년이야 히코리 강화 학습을 사용할 때 애완 동물을 훈련하는 것처럼 좋은 일을하거나 뭔가를하는 신경망에 대한 보상 그것은 유리한 결과로 이어집니다

신경망도 매우 훌륭합니다 광고를위한 잠재 의식 메시지를 생성 좋아, 잘 시도해 죄송합니다

신경망이 모든 유형의 입력을 받아 들일 수 있다고 말했던 때를 기억하십니까? 글쎄요 그들은 동시에 여러 유형의 입력을 수용 할 수 있습니다 이것은 어떻게 이미지 캡션이 작동합니다 글을 쓸 수있는 신경망을 만들려면 이미지 캡션, 당신이 할 일은 두 가지를 수용하는 신경망을 만드는 것입니다 서로 다른 유형의 입력, 사진, 그리고 그 순서가 그 순서입니다

끊임없이 성장하는 단어들의 집합 먼저 빈 배열로 전달하면됩니다 토큰을 시작한 다음 그림이 무엇인지 설명하는 단어를 추가합니다 되려고 요로, "너는 한번만 봐

" 이것은 당신이 볼 수있는 놀라운 기술입니다 주위를 도망 다니고 있어요 그것은 객체, 여러 객체를 분류하고 그것을하고 있습니다 매우 효율적입니다 한 번만보아야하기 때문입니다

우리는 당신이 어떻게 할 수 있는지 보게 될 것입니다 이 기술을 파이썬 프로그램으로 옮기고 실제 좌표 및 분류에 대한 정보를 제공합니다 요로 수 있습니다 어리석은, 여기 내 강아지와 박제의 차이를 말할 수 없다 동물 광고판을 말하는 데 어려움이 있습니다

사람들이 그것에 대해 생각하고 그들이 사람들이라고 생각하는 것들 이 간판 그것이 자기가 생각하는자가 운전 차에 관해서는 매우 넓어지기 그러나 기다려라 더있다 이 동영상은 이 코스의 하이라이트 만 보여줄 수 있습니다

전체 목록은 다음과 같습니다 우리가 다루는 다른 주제에 대해서도 설명합니다 이 비디오를 시청 해 주셔서 감사 드리며,이 코스에 대해 질문이 있으시면 그냥 코멘트에 뭔가를 남겨주세요 이 채널을 구독하여 이 코스에 새로운 비디오가 추가 될 때마다 업데이트됩니다 모든 정보 재생 목록 및 GitHub에서 사용할 수 있습니다

How to Obtain and Run Light and Efficient Deep Learning Networks

>> 좋아 시작하자

제 이름은 Jay Liu입니다 MSR에서의 오랜 역사, 이제 저는 AI 지각의 Visual Intelligence 팀에 있습니다 오늘, 내게 큰 기쁨 듀크 대학 (Duke University)의 Yiran Chen 교수를 소개합니다 Yiran은 2005 년 Purdue 대학을 졸업했습니다 >> 네

>> 조교수 겸 부교수 피츠버그 대에서 2007 년까지, 그가 듀크로 옮기기 전에 자, 학업 이외에, 그는 또한 NSF 산업 대학 공동 연구 센터, 대안 적 지속 가능 및 지능형 컴퓨팅 그는 함께 노력하고 있습니다 그래서 더 이상 고민하지 않고 환영합니다,이란 >> 고마워요, 제이

괜찮아 그래서 나는 큰 영광입니다 여기에 우리의 연구 작업을 소개합니다 그래서 내가 여기 오기 전에, 나는 제이에게 내가 무엇을 주어야하는지에 대해 이야기했다 왜냐하면, 우리는 확실히 많은 것들에 대해 이야기 할 것입니다, 알았습니다

내 그룹에서 우리는 실제로 내 아내가 또한 듀크 (Duke)의 같은학과에있는 교수진입니다 그래서 우리는 실제로 상당히 큰 그룹을 가지고 있습니다 우리는 약 30 명의 PhD 학생 (들리지 않음) 직원이 있습니다 우리는 그들이 디자인 한 칩에서부터 일부 적용까지하고 있습니다 결국, 우리는 주제를 주기로 결정합니다

우리가 어떻게 구할 수 있는지에 관한 일부 가볍고 효율적인 딥 학습 네트워크, 몇 시간 내에 어떻게 네트워크를 운영 할 수 있을지 좋아요, 아마도 그게 아마도 MSR 이것이 개요입니다 나는 가상 소개를 할 것이다 왜 우리가이 주제를 선택하기를 원합니까? 왜 이것이 자원에 대한 우리의 주요한 노력이 될 수 없는지에 대한 것입니다 우리 모두는 이것을 확실히 알고 있습니다

그런 다음 세 가지 주요 내용에 대해 이야기하겠습니다 우리가 어떻게 양자화를 할 수 있는지, 약간의 가지 치기, 약간의 압축 컴퓨팅 플랫폼의 여러 수준 하나는 칩에, 하나는 실제로 하나의 머신을 실행하고 있고, 하나는 배포판에 적용됩니다 괜찮아 그것은 당신에게 약간의 아이디어를 준다 그런 다음 우리는 우리의 아이디어와 그 것들에 대한 관점을 공유합니다

좋아, 사람들은 실제로 그것들을 잘 알고있다 우리는 실제로 신경망 연구에서 위아래로 경험합니다 사실, 우리가 여기서하는 모든 일은, 우리가 몇 년 전에 발명 한 것과 다르지 않습니다 그 당시에, 사람들이 길쌈 신경망을 발명 했어, 알았지? 그러나 우리에게는 세 가지 이유가 있습니다 실제 시나리오에서 이들을 적용 할 수있는 것은 무엇입니까? 이제 우리는 그 등급을 압니다

때문에 사라지는 그라디언트가 포함되어 있습니다 이 사라지는 그라데이션 우리는 우리의 신경망을 효율적으로 재교육 할 수는 없습니다 이제 우리는 그들을해야한다고 알고 있습니다 누가 너의 이중 흐르는 점이 있니? 먼저 그렇게하기 위해 두 번 강수량이 필요합니다 그 당시 우리는 관찰하지 않았다

더 많은 레이어를 추가하여 이제 우리는 충분한 층을 추가 할 필요가 있기 때문에 그것을 압니다 그래서, 그때까지, 우리는 어떤 4 개의 층에 대해서 이야기했습니다, 그것은 그 깊은 신경망이 될 것입니다 이제 우리는 네트워크에서 남부에 대해 이야기하고, 물론 우리에게는 고성능 컴퓨팅 장치가 없습니다 이제는 단일 칩의 영구적 인 힘입니다 백만에서 1,000 만 이상 우리가 20 년 전에 사용했던 것보다 그래서 그것은 리듬이 될 것입니다

물론 모든 사람들을 발명 한 후에 할 수있는 기술 신경망의 응용을 지원하고, 지금 당장 이상한 방법이 없다 이 신경 네트워크의 르네상스를 가져라 2006 년부터 시작하여 [들리지 않음]으로 [들리지 않는] 모든 것을 가진 GPU에 관한 논문 따라서 기계 학습은 학계에서 뜨거운 주제입니다 나는 실제로 약간의 뉴스에서 매우 흥미있는 약간의 숫자를 부여 잡는다

그들의 측면에 게시 번호와 로그인 번호가 표시됩니다 다른 나라의 학계에서의 더 깊은 학습, 너는 그것들의 수를 본다 전파는 지난 몇 년 동안 기하 급수적으로 증가하고 있으며, 그래서 그것은 단지 2015 년이지만, 하지만 점점 더 많아지고 있다고 믿습니다 실제로 중국과 미국은 이러한 추세를 주도하고 있습니다 또한 님프의 복원에 대해서도 이야기했습니다

실제 복원 번호가 증가합니다 재정적 인 [들리지 않음] A20을 사용하십시오 알았어 그래서 그들은 오직 등록 만했다 불과 몇 년 전만해도 몇 백 개 였지만, 하지만 지금은 찾을 수 있습니다

티켓 권리 올해 때문에, 빨간색은 전체 등록이 사라졌습니다 약 12 분 후에 저는 믿습니다 그래서 많은 사람들이 이것에 대해 배우기 위해 왔습니다 그러나 운 좋게 우리는 내가 들어올만한 타입의 종이를 가지고있다 그래서 나는 하나를 얻었고 나는 저자이기 때문에 복원을 알았지 만, 그것은 무언가가된다

실제로 여기에 나와 있지 않은 다른 그림이있을 것입니다 당신이 그 추세를 따르는 것과 같습니다 등록 번호를 표시하지 않으면, 2030 년, 2040 년, 등록 수 제발, 우리가 실제로 볼거야 총 인구는 이것에 관해서는 이것으로 충분합니다 나는 종종 사람들이 생각하는 방법에 대해 많은 사람들에게 질문을 받았다

기계 학습의 미래에 대한 확신 연구가 끝나면 어디에서 펙을 경험하고 있습니까? 그래서이 질문에 답하기 위해, 예측을 보여주는 차트가 또 있습니다 기본적으로 기술 채택에 관한 시장에 의해 그리고 나는 또한 처음에 보았다 차트에 주식 가격이 표시됩니다 이 새로운 기술 산업은 과거에, 약 20 년 후에 당신은 PC, 미래의 전화, 스마트 폰, AI 첫 번째, 그래서 배열에서 위아래를 볼 수 있습니다

천천히 자라고 절정에 이르면 빨리 떨어집니다 그러나 그들이 할 수있는 사이클은, 3 년 또는 7 년 또는 8 년 만큼은 확실합니다 그래서 우리가 지난 몇 년을 보면, 우리는 실제로 모두 막 벗겨졌고 지금은, 우리가 차트를보고 약 2 년 전인지를 확인하면, 우리는 절정에 있지 않다 그래서 아마 1 년 더있을 것입니다 우리는 절정에 이르거나 어쩌면 2 년이 흘렀기 때문에 우리는 그 방울이 잘 보이는지 알게 될 것입니다

그래서, 그것은 투자 측면에서의 예측입니다 시장 가치의 예측도 포함됩니다 어쨌든, 요점은, 그 후에 우리는이 기술의 완성도를 보게 될 것이며, 우리는 그 이후로 위험을 감수하기 전에 무엇인가 할 수 있습니다 이 기술을 다른 산업에 적용하기 시작할 것입니다 그렇다면 왜 지금 깊은 학습 목표와 너무나 덥다고 생각하십니까? 확실히 어떤 말을 타는 말이 있습니다

그래서 우리는 큰 데이터를 가지고 있었고, 알고리즘을 가지고 있었고, 우리는 계산 능력을 가지고 있으며 이것에 대해 평균을내는 모든 숫자를 나열해야합니다 이상적인 키노에서 우리는 실제로 두 배로 증가시키는 관련 연구를하고있다 일부 회사와 보도 인도 이미지 세분화 같은 것에, 물론 컴퓨팅 측면에서, 또한 약간의 프라이버시, 첫 번째 피연산자 허벅지의 강건 함 주로 일하고있다 신경 네트워크를위한 가속 기술 그래서 나를 잘못 이해하지 마라

나는 정말로 죽지 않는다 인공 지능 녀석, 나는 더 좋아 이러한 위험을 감수하거나 컴퓨팅 측면에서 그 말은 내가 향상 시키려고한다는 뜻이야 이러한 기술의 컴퓨팅 효율성

또한 Honda 하워드 측 우리는이다 우리가 만질 수있는 거의 아일랜드어 일을하고, 컴퓨팅 psi 그러나 주로 컴퓨팅에서 플랫폼, 그래서 밑에있는 칩은 어디에서 했습니까? 그렇다면 GPU 또는 CPU 최적화의 종류는 무엇입니까? 우리는 분산 컴퓨팅을 연구하고 있으며, 나는 나중에 보일 것이다 특히 수소 예 컨테스트에서 괜찮아 괜찮아

이제 네 번째 주제로 넘어 갑시다 그래서, 나는 생각하고 있었다 내 이야기를 전달하는 좋은 순서가 무엇이겠습니까? 하향식에서 또는 상향식에서 그렇다면 나는 상향식에서 결정했다 그래서, 그들에게 어쩌면 더 가깝게 그리고 가까이있게해라

IMSR의 주요 초점에, 하지만 나는 그 시간을 피하려고 노력한다 나는 내가 할 수있는 한 많이 할 수있다 마이크로 소프트에서 이야기하는 거지? 하지만 어쨌든 학생이주는 걸 깨달았 어 너는 무엇에 대한 배경을 우리가 달릴 때 우리의 염려입니다 하드웨어 플랫폼에있는 것들

그래서 우리가 시작하기로 결정한 이유입니다 우리가 칩에서 최적화하고있는 것 그래서, 그것은 우리에게 몇 가지 기본적인 생각을주었습니다 우리가 양자화를 할 수있는 방법 신경 네트워크 또는 우리가 하워드에서 몇 가지 제약이 있다면 그래서 한 가지 예가 IBM TrueNorth 칩입니다

그 중 하나를 골랐어 양자화를위한 거대한 꿈의 사례 그러나 우리는 또한 많은 다른 작품을 가지고 있습니다 기존의 기본 디자인 또는 GPO를 우선 고려해야합니다 그러나 나는 오늘의 이야기에서 이것을 만지지 않을 것입니다

이제 IBM TrueNorth 칩에 대해 이야기 해 보겠습니다 그래서이 프로젝트는 2008 년에 시작되었습니다 그것은 약 10 년 전입니다 실제로는 가장 오래된 하드웨어 덤퍼 프로젝트 현대 신경 네트워크에 나는 깊은 신경망에 대해서 말하고있는 것이 아닙니다 그러나 신경 네트워크 응용 프로그램

그래서, TrueNorth 이후의 한 칩 4,000 명을 신경 신경 세포학 과정이라고 부르고 하나의 코어는 256 x 256 노드로 구성됩니다 우리는 하나를 시냅스라고 부를 것입니다 그래서 하나의 코어는 약 256 개, 입력 신경 및 뉴런 이상, 그래서 하나의 단일 칩에 완전히, 우리는 약 백만 개의 신경 세포를 가지고 있습니다 256 억 개의 시냅스가 그 열쇠입니다 또한 어레이 데이터는 전체 칩에 걸쳐 스파이크로 표현되며, 스파이크가 아주 낮은 빈도로 그런 식으로 발견 된 코스, 약 1K 헤르츠

우리는 1 시간 내에 모든 코어를 연결할 수 있습니다 우리의 단일 뉴런은 실제로 해상도가 낮거나 프레젠테이션이 매우 낮다 즉, 그들은 단지 세 가지 수준을 나타낼 수 있다는 것을 의미합니다 음수 1, 0, 양수 1, 다른 것은 없습니다 그래서 그게 내가 꿈결 사건으로 사용할 수있는 전화인데, 일종의 세타와 함께, 그것은 INTA 다

GPO에 의해 지원되므로 처음에는 따라서이 TrueNorth 칩의 모든 기능은 매우 낮습니다 약 6 ~ 5 밀리 와트 정도이고, 실시간 계산 중 GPU를 고려하면 200, 그들이 바이러스 성으로 갈 때 GPO 300 와트 그렇다면이 칩을 어떻게 사용할 수 있습니까? 그래서 우리는 새로운 데이터베이스를 가지고 있습니다

다른 픽셀은 원시 픽셀의 장르와 함께, 그리고 나서 카페에 넣거나 신경 네트워크를 훈련시키는 다른 프레임 워크, 그것은 우리가 통상적 인 업무에서하고있는 물과 같을 것입니다 그 후에 우리는 CPE라고 부르는 것을 거치게 될 것입니다 그들은 프로그래밍 환경과 신경을 훈련 시키십시오 지금은 TrueNorth 칩을 사용하고 있습니다 우리가이 일을 할 때, 우리는 기본적으로 시냅스 가중치의 낮은 프리 스테이션 (prestation) 표현, 또한 입력, 나중에 표시됩니다

그러면 우리는 정확도 저하를 겪을 것입니다 그 후, 우리는 픽셀을 흡수 할 것입니다 과제와 우리는 생성 할 스파이크 인코더 모든 TrueNorth 칩 입력의 바이너리 스파이크, 계산을하기 위해 셀로 보내고 있습니다 그리고 우리는 산출물을받습니다 처음에는 정확성이나 분류가되었습니다

자, 이제 우리가 어떻게 우리는이 신경망을이 시간에 매핑 할 것입니다 그래서 우리는 우리가 여기서 보여준 신경망을 가지고 있습니다, 그래서 나는 그들 중 하나를 y 바이어스와 함께 w 배 x 플러스 b, b와 같습니다 x는 입력이되며, w는 가중치이고 z는 y의 함수와 같습니다 그래서, h는 활성화 함수가 될 것이고, 그리고 그들은 결과물이 될 것입니다 TrueNorth 칩에 이러한 것들을 매핑 할 때, 입력 x는 스파이크를 나타냅니다

그리고 서쪽 w, 여기에 표시 될 크로스바에 매핑됩니다 언제나 아우 프라임이 있었을 때 더블 프라임의 해상도라는 것을 기억하십시오 단 3 개의 거짓말 수준입니다 1, 0, 긍정적 인 것을 키워라

그리고 우리는 y 프라임 출력을 생성합니다 그리고 우리는 몇 개의 CMOS 회로들을 통과합니다, 우리는 z 프라임에서 연산을 생성합니다 z 프라임은 기본적으로 매우 단순한 시냅스입니다 메카 색 붙여 넣기 신경 모델, 출력물에 표시되는 기본 사례입니다 그래서 우리가 입력을 어떻게이 맵핑 할 수 있었는지, TrueNorth 칩에 입력을 적용 할 수 있습니다

MNIST 애플리케이션으로 하나의 예를 들어 봅시다 우리는 28 x 28 픽셀의 그림을 가지고 있습니다 그런 다음 최대 개수가 입력 값은 256이됩니다 어떤 의미에서, 우리는 두 개의 수확량을 가지고 있습니다 하나의 MNIST 사진의 전체 영역을 커버하기 위해 여기에 보여 드리겠습니다

좋아, 일부 중복 될 수 있습니다 괜찮습니다 그러면 16×16 픽셀이 입력에 256이 매핑되어 있습니다 그리고 중앙 하나 코어 그래서 우리는 모든 것을 계산하기 위해 4 개의 코어가 필요한 것입니다

이것이 IBM에서 제안한 공개 작업입니다 그래서 왜 우리가 전개 일 정확도로 진정, 그러한 매핑에서, 우리는 부동 소수점 값을 정수로 매핑 할 필요가있다 또는 TrueNorth 칩의 세 가지 수준의 표현까지 포함 할 수 있습니다 예를 들어, 우리가 입력을 가지고 있다면, 075입니다

그래서 우리는 한 프레임 안에 4 번째 스파크가 있어야합니다 우리는 적어도 3 개의 주사위를 자주 주사합니다 그래서 우리는 075를 나타낼 수 있습니다 우리가 0

2를 가졌다면, 025 또는 0만을 나타낼 수 있기 때문에 문제가 발생할 것입니다 그래서, 그것은 우리가 가질 수있는 양자화를 잃어버린 것입니다 또한, 우리가 보면, 나중에 잘 작동하지 않는다 부동 소수점 가중치가있는 경우, 0

8 인 경우, 우리는이 크로스바 5 개를 가질 수 있습니다 그리고 나서 우리는 그들 중 네 명이 하나가되게합니다 하나는 0으로, 그래서 상각 된 값은 08이 될 것입니다 예, 부탁합니다

>> 우리는 신경망을 훈련 시켰고, 당신은 그 제약 조건을 가지고 있습니까? >> 나는하지 않는다 >> 그래서, 이것은 다음과 같이 훈련 받았다 부동 소수점 또는 신경망 당신은 그것을 개조하려하고 있습니까? >> 그게 핵심이야 그들은 실제로이 손실로 고통 받고있다 우리가 해결하려고하는 것입니다

나중에 보여 드리겠습니다 그래서, 우리가 그런 핀을 만들면, 우리는 우리가해야하기 때문에 더 긴 계산 시간 부동 소수점 값을 나타내는 스파이크가있다 또는 하드웨어 비용이 더 많이 든다 여러 장이 필요할 것입니다 무게를 켜고 끄십시오

그 후에 우리는 수학적으로 증명할 수 있습니다 우리가 충분한 수의 불꽃과 사본을 가지고 있다면, 다음은 출력의 수학적 사용 인수 분해입니다 어떤 y 소수 였는지, y에게 전화 할 것이다 스파이크 아래에 충분한 수의 사본이있는 경우, 그리고 그것은 우리가 정말로 무한한, 그것은 스파이크의 숫자이고 그것은 칼 복사본, 손실로 고통을 것입니다 예를 들어, 원래 트렌드의 경우 MNIST 정확도는 카페지도에서 95 %가 보입니다

크로스바 한 장으로 트루 노스에 이르기까지, 그것은 시냅스 과정이라고하는 뉴런인데, 그리고 다른 하나의 스파이크 친구, 이는 바이너리 입력이 있음을 의미합니다 정확도는 90 %로 떨어집니다 내가 스파크의 수를 늘리면 친구 또는 하드웨어 사본 수를 늘리거나, 기본적으로 최대 정확도를 복원 할 수 있습니다 지불로 92 % 또는 94 % 더 긴 경쟁 톤 또는 더 큰 하드웨어 비용, 그리고 이것은 당신이 거래하게 될 것입니다, 알았습니다 수표를 받았을 때 우리는 몇 군대의 힘을 가졌어 – 네? >> [들리지 않음]? >> 미안해? >> 추가하는 것이 더 쌉니다

16 개의 신경망 또는 하나의 정밀도를 가져야한다고 생각하십니까? >> 그래서 여러 사본을 가지고 있다면, 런타임은 동일 할 것이고, 병렬로 실행 중인지 여부와 관계없이 동시에 실행됩니다 그러나 스파이크가 여러 개인 경우, 그럼 당신은 될 수있는 여러 스파이크를 입력해야합니다 비례 적으로 완료 시간을 늘립니다 예 >> 90 % 정확도 손실, 5 %의 정확도 손실, 그것은 재교육을 전혀 필요로하지 않거나 물질적으로 순수하게 재교육해야 하는가? >> 순수하게 마음에 그게 실제로 이 손실로 고통받는 속도 리듬입니다

따라서 우리는 훈련 과정에서 뭔가를하는 것이 좋습니다 우리가 왜 우리가 할 것인지에 대한 아이디어를 개발하기 시작합니다 다음 슬라이드에서 보여 드리겠습니다 그래서, 우리가 2014 년에이 시보레를 받았을 때, 그건 4 년 전의 일입니다 그래서 우리는 네 번째였습니다

몇몇 그룹은 세계에있는 Chevy를 받는다 PDK가 아닌 소프트웨어이고, 그 DK, 그래서 처음에는, 하지만 칩은 너무 왜냐하면 우리가 의미있는 것을 실행하기를 원한다면, 더 많은 수의 [들리지 않음]이 필요합니다 그래서 그것은 넘어서고 놓치게되는 것을 매우 어렵게 만듭니다 그래서 우리는 그것을 좋아하지 않습니다 그러나 모든 일에는 25,000 달러가 들었습니다 확실히 세계 국가를위한 엄청난 돈입니다

너희들에게 좋은 돈이 아닐지도 몰라 우리가 할 수 있는지 알아보기 위해 노력 중입니다 하드웨어 비용을 최소화하기위한 최적화, 내가 알고 있기 때문에 런타임 또한 그것은 교환입니다 그래서, 우리는 무엇을합니까? 우리가 델타 Y를 알아 내려고 노력 중이거나, Y 프라임의 차이점은 무엇입니까? Y를 계산합니다 Y 프라임은 우리가 칩에서받는 것입니다

Y는 교육에 가치있는 유동적 인 포인트가 될 것입니다 우리는 델타 Y의 기대가 0이 될 것임을 알았습니다 우리는 이미 증명했다 이것은 숫자가 그렇게 크고 동일 할 것이기 때문입니다 그러나 델타 Y의 분산은 0이 아니며, 기본적으로 시그마의 W_i 프라임 타임 X_i 프라임의 분산

X_i 소수는 양자화 된 입력이 될 것이고, W_i 소수는 가중치의 양자화가됩니다 그건 0이 아니야 그러나 우리는 실제로 제어 할 수 없습니다 입력은 처음에 응용 프로그램에 따라 다르기 때문에 입력 이제 우리의 목표는 [들리지 않는] 프라임의 분산을 최소화하려고하는 것입니다

그것이 바로 아이디어입니다 그래서 우리는 아주 간단한 수학을합니다 그래서 이것은 매우 단순한 것입니다 W_i의 분산은 비용이 많이 든다 W_i 프라임 스퀘어의 기대 W_i 소수의 기대치의 제곱을 뺀 것

그래서, W_i 소수는 0이 될 수 있고, 1, 음수 1 그래서 이것은 0 사이에서 정규화 될 수 있습니다 기본적으로 우리는 0과 1의 가중치를 켜고 끌 수있는 확률 P_i 그리고이 값 P_i 시간 1 – P_i가됩니다 확률로 P_i, 우리는 하나의 비트를 끄고, 이걸 보면 그러면 우리 모두는 무엇을 할 것인가? P_i와 1 – P_i 사이의 최소 생산물을 얻는다

하나의 P_i는 0입니다 이 제품의 최대 가치는 얼마입니까? P_i가 05이고 값이 025 일 때 이것은 사실 우리가 초등 학교의 앞을 배웠습니다

수학은 필요 없어 이에 그럼, 그게 무슨 뜻 이죠? 즉, 만약 당신이 온화한 조명 피부를 다시 생성합니다 여덟 번째 정규화 또는 훈련 폭 그것은 0과 1 사이이고 그것은 내 핑크 변종 약 05 0

25 인 가장 큰 것입니다 20 값이 실제로 정규화되지 않은 값은 실제로 0과 1이며, 분산은 0이됩니다 이것은 매우 간단합니다 왜냐하면 우리가 너비를 표준화하면, 우리가 알고있는 너비가 하드웨어에서 0과 1을 나타냅니다 그래서 너비보다 연수생이라면 존이 될거야

하나는이 폭을 0과 1로 완벽하게 매핑 할 것이고, 우리가 우리의 05 인 무언가를 훈련 받았다면, 우리가 선택할 수있는 것은 001 또는 1입니까? 어느 쪽이 우리에게 가장 큰 분산을 줄 것인가? 여기에 아주 간단한 생각 괜찮아 이제 질문은 우리가 우리 신경 네트워크를 훈련 시켜서 너비 또는 너비의 대다수가 0이고 1 우리의 새로운 지금은 당신과 다른 것입니다 – 다른 말로하면, 이진 신경망에 가깝다

알았지? 손실 함수가 어떻게 생성되는지 아직도 기억하고 있다면, 기본적으로 차이를 줄이려고합니다 목표 출력과 수신 된 출력 사이에 우리가 미친 짓을하지 않으면 훈련은 바다가 될 것입니다 우리는 여전히 [들리지 않음]과 0과 1을 볼 것이며, 그러나 만약 당신이 균등하게된다면 다른 어떤 것도 노멀 라이저 렌트 대 자기 소유의 렌트에 걸쳐 분배됩니다 그래서 만약이지도가 서쪽은 튜너까지 내려갈 것입니다 그래서 더 밝은 색은 많은 것을 의미합니다

실제로 볼 수있는 변형 우리가 튜너에게 그 소리를 들려 줄 때 많은 폭력이 일어났습니다 하지만 패널 광고 부서에 질문하면 그래서 기본적으로 페널티 기능을 생성합니다 우리가 신경 네트워크를 훈련 할 때 가장 큰 벌칙은, 너비가 약 05 인 것을 알고있다 큰 페널티는 0

5이고 가장 낮은 페널티는 0이됩니다 우리는 기본적으로 폭의 훈련을 0에서 1로 밀어 넣으려고합니다 좋습니다 05로 떨어지는 것을 피하십시오

그것은 매우 간단한 패널티 아웃 방법입니다 손실 함수와 결과는 다음과 같습니다 따라서 너비 추세의 분포는 0에 더 가깝습니다 1은 우물의 최소 수는 여전히 약 05입니다

괜찮아 그렇다면 당신의 추세는 무엇입니까? 너는 무엇을 얻을 수 있을까? [들리지 않음] 나는 이것을 생각한다 의미하는 완전히 눈이 먼 사람 어디 분노에 대한 구름과 또는 triennial 나쁜 실제로 우리는 단지 변경합니다 IBM이 우리에게 보낸 한 줄의 코드

그래서 한 줄 결과를 살펴 보겠습니다 따라서 빨간색은 IBM IST PDK에서 직접 파생 된 결과입니다 노란색은 우리가 중요해, 알았지? 따라서 사례를 추가 할 때, 매수에서 프레임 당 스파이크 수는 이 제품과 같은 IBM 제품의 기준선을 능가하거나, 하나의 문제를 한 줄 기억하십시오 그리고 만약 내가 speedup 달성을 보면 우리는 6

5 배의 속도를 선택할 수없는 동일한 정확도 우리가 전화 번호를 극적으로 줄이려고하기 때문에 아니 스파이크의 [들리지 않는] 또는 우리가 할 수 하드웨어 비용 인 코어 점유를 2/3 줄이고, 우리는 이것의 3 분의 1 만 필요로합니다 그리고 우리는 매우 일관성있게 보입니다 스파이크 사이의 관계 코어 감소에 대한 프레임 등등, 등등, 첫 번째 등등 괜찮아 계약 때문에 2016 또는 '15 년까지이 문제를 게시 할 수 없습니다

그들은 우리 대중을 1 년 이상 붙잡습니다 그들은 다른 것들을 거기에 보관할 수 있습니다 우리의 최신 SDK에서 실제로 이러한 문제가 발생했습니다 학계뿐만 아니라 그들의 의류 costumers 그러나 이것의 단점은, 그들은 우리가 더 이상 코드를 건드릴 수 없다고 생각합니다

그들은 방금 모든 코드에 대한 금지 명령을 내렸다 유엔, 우리 코드에 손대지 마라 그래서 더 이상 나는 그것을 말하고 싶습니다 그래서 우리에게 Y를 줄 수있는 두 번째 것은 우리의 초점을 단일 기계 수준에 칩 수준 예를 들어, 우리가 어떻게 할 수 있는지 신경망을 단순화 한 다음 홍보하십시오

그것은 신경 네트워크 어디 핵심 우리의 깊은 신경 네트워크의 구조적 스파링 [들리지 않는] 그래서 보시다시피, 아시다시피, 그것은 신경 네트워크의 추세이고 우리는 점점 더 많은 매개 변수가 실행 중입니다 우리가 세면해야 할 모든 매개 변수들 컴파일 된 그것은 경쟁 비용을 의미합니다 그래서 거의 숫자에 비례합니다 우리가 신경망에 가지고있는 매개 변수들, 맞죠? 그래서 줄이는 방법 심 신경 네트워크에서 매개 변수의 수 에서 전체 초점이되고있다 신경망의 축하와 사람들이 시도하고 많은, 여러 가지 방법론을 사용하여 분류 정확도를 희생한다 [들리지 않는다]

그래서 2015 년에 어떤 사람들은 방법론을 제안합니다 L1- 룰의 정규화를 시도하는 중입니다 기본 아이디어는 방법과 매우 유사합니다 진실한 북쪽, 칩에있는 수확량 그들은 기본적으로 벌칙을 주었다

서쪽은 아주 큽니다 알았어요 그리고 그들은 서쪽의 배포를 밀고하려고합니다 0으로, 안전하지 못하기 때문에 그것이라고 가정하여 서쪽을 제거하십시오 작은 서구는 산출물에 막대한 영향을 미치지 않을 것입니다

그것은 우리가 고려한다면 일반적으로 합리적인 가정이 될 것입니다 입력은 매우 거칠 것입니다 – 그래서 그들의 어깨 그들이 그렇게 할 수 있도록 괜찮다고 말하다 가장 높은 막대를 제거하여 서쪽 90 % 이상이나 여전히 좋은 정확도를 달성하고 있으며, 이론적 인 속도 향상 열 배 이상으로 매우 커질 것입니다 기억하십시오, 나는 세미 – 라디칼 스피드 업에 대해 이야기하고 있습니다 괜찮아

그리고 송한 (Song Han) 그들은 실제로 그 동안 이웃을 모두 25 명으로 제안했습니다 [들리지 않음] 앞을 향하는 경향이 있는지 전체 연결 계층에 대한 길쌈 계층 (convolutional layer) 나는 그 길에서 봉사하도록 요청 받았다 그것들은 내가 여기서 보여줄 매우 유사한 결과를 성취했다 하지만 이걸 보면 여기에는 [들리지 않음]이 있습니다

우리가 정말로 취한다면 유용합니다 그들의 코드는 GPU- 이제 많은 레이어의 실제 속도 향상에 들어갑니다 그럼, 우리가 보여준 결과입니다 우리가 비용을 낼 때, 알았지? 우리는 GPU를 사용하고 있습니다 그래서 다른 GPU에서

속도 향상이 1보다 클 때, 그 기초는 긍정적 인 가속을 보였다 속도가 1보다 작은 경우, 그것은 음수가 될 것입니다 계산 속도를 늦추십시오 레이어에서 다른 색상을 보면, 너는 각 층을 발견하지 못할 것이다 긍정적 인 스피드 업을 우리에게 줄 것이다

많은 사람들이 부정적인 태도를 취할 것이며, 즉, 속도를 늦추 게됩니다 다른 GPU 또는 플랫폼에서의 계산 왜? 매년의 출현으로 인해 매우 간단합니다 너비가 임계 값보다 작 으면 표시됩니다 신경 네트워크의 무작위 위치에서 내가 이것을 실행하는 사람들을 데리러 그 단어들을 제거한다면, 그들은 무작위 희소성을 발생시켜 우리가 우리가 그 단어들을 기억에 저장할 때 전체적으로

그러면 불규칙한 메모리 액세스가 발생합니다 우리가 존중하고있는 폭 하나를 읽는다 가장 좋은 데이터는 단방향 단어 일 것입니다 전문 스태프가 캐시 미스가있는 동안 이것을 기록 할 것입니다 그런 다음, 가질 필요가 갔다

너가 가난한 시렁 지방질 디스크에 최소 메모리를 통과하거나 다른 메모리를 확보해야합니다 우리가 그 물건을 계속하고있어, 네? >> 적용한 푸시 메시지에도 적용됩니까? 완전히 연결된 레이어 또는 다른 길쌈 레이어? 둘 다 둘 다? >> 두 번째 것, 만약 내가 단지 초점에서 시각 매개 변수를 제거하고, 그러나 초점 전체를 제거합니까? >> 단방향 웨이브가 제안되었습니다 예, 당신은 단방향 제안에 대해 말하고 있습니다 >> 좋아, 그게 다야

>> 그게 바로 구조적인 것입니다 글쎄, 농담이야 그러나, 나는 내가 빨아 들일지 모르는 말을하는 것을 좋아하지 않는다 너희들은 대답을 안다 그래서, 내게는 [들리지 않는], 농담이 아닙니다

어쨌든 사람들은 실제로 열심히 노력하고 있습니다 코드에는 소스 코드에 0이 아닌 가중치가 있습니다 좋아, 그건 매우 비효율적 인 아이디어 야 또는 하드웨어를 사용자 정의 할 수 있습니다 그들은 작업을 수행하기 위해 더 낮은 설치 작업을 수행하지만, 그게 내게 아주 바보 같은 생각이야, 알았지? 하지만 Michelle은 방금 언급 한 것과 같습니다

문제를 해결하는 더 쉬운 방법이 있습니다 즉, 이러한 가중치를 무작위로 제거 할 필요는 없습니다 우리는 그러한 것들을 구조적인 방식으로 제거해야합니다 우리는 전체 줄, 전체 줄, 전체 블록 우리는 여전히 캐시의 지역성을 유지하고 있습니다 처음에 접근 했지, 그렇지? 그런 다음, 우리는 좋은 속도로 전환 할 것입니다

그래서 실제로이 이론적 인 침을 바꾸십시오 입자 속도 향상, 즉 열쇠입니다 자, 문제는 어떻게 우리가 그것을 할 수 있는지, 다시 말하면, 우리가 읽을 수있는 세분화 된 수준에서, 우리는 이것을 할 수 있습니다 그래서 우리는 그룹 법이라고 불리는 활주로를 제안 했으므로 새로운 것은 아닙니다 이런 식으로 집어 넣어 줘

그룹 올가미가 너의 몸무게에 있지 않아 우리는 [들리지 않는] 사건을하지 않았다 그러나 기본적인 생각은, 목표 출력 그룹 올가미 (Group Lasso)라고하는 또 다른 용어를 생성 할 것입니다 우리가 여기서 람다 g 번을 본 RG가 첫 번째입니다 이 항목은 다른 그룹의 가중치를 이것의 그룹 안에서 특별한 연관성이나 지역성, 알 겠어? 따라서 전체 블록을 안전하게 제거 할 수 있습니다

여전히 모든 캐시의 위치를 ​​유지합니다 이런 예가 하나 있습니다 세 단어가 있다고 가정 해 봅시다 따라서, W0, W1, W2, 우리는 W0과 W1이 실제로 같은 블록에 머물러 있다는 것을 압니다 그래서 우리는 기본적으로 세 가지 낭비를 두 그룹과 당신은 이 그룹을 최소화하거나 그룹을 최소화하십시오

우리는 그 중 하나 또는 둘 모두를 안전하게 제거 할 수 있습니다 괜찮아? 그래서, 그것은 큰 사건입니다 그러나 W0과 W1 중 하나를 개별적으로 제거하지는 않습니다 수학적으로, 우리는 그것이 기본적으로 그것을 증명할 수 있습니다 우리가 부과한다는 것을 의미합니다

이 같은 제약 파란 공간 쇼 여기에서 그리고 이것이 최적화 소스면이 될 것입니다 우리는 결국 두 사람을 찾아 내고자합니다 최적화 포인트가 될거야, 알았지? 따라서 신경망의 시각화로 이동하십시오 그래서 우리는 기본적으로 채널을 필터링하는 것이 중요합니다 우리는 우리 모두를 제거 할 수 있습니다

실제로 각 필터의 ​​해당 위치를 알 수 있습니다 우리는 실제로 그러한 위치를 제거합니다 전체 열을 저장하면 주 메모리에서 행을 호출합니다 우리는 실제로 전체 레이어를 제거 할 수 있습니다 출력에 대한 입력을 바이 패스해야합니다

나는 여기에 보여 줬어 필터를 현명한 필터라고 부릅니다 채널 현명한, 모양 현명한 또는 깊이 현명한 서로 다른 구조 사이에 많은 미친 상관 관계가 있습니다 우리가 완전히 끝났어, 알았지? 각자 그룹을 키운 그룹을 그룹화 할 필요가 없습니다

그럼 레이더를 살펴 봅시다 둘이 혼자가되기를 원하지 않는다면 나는 천부적이다 알았지? 따라서 우리는 09 %의 오차를 보일 것입니다 그래서 우리는 필터의 번호를 가지고 있습니다

다른 레이어의 경우 20-50이됩니다 채널 번호는 1-20입니다 이것이 원래 기준이 될 것입니다 비슷한 오류율을 08로 유지하고 싶다면 필터의 수는 5 ~ 9919 개로 줄어들며, 채널 번호는 1에서 4까지이며 우리는 슬리퍼 수를 25 ~ 7

6 % 줄입니다 그것은 하나입니다 속도 향상은 현재 4 ~ 10 회와 같습니다 우리가 GPU를 사용한다면, 16 배나 5 배가 될 것입니다

그리고 그것은 정말로 빠른 속도입니다 우리가 01 퍼센트의 정확도를 완화시키는 것을 용인 할 수 있다면, 우리는 필터의 숫자가 3-12까지 내려갈 것입니다 채널 번호 1-3, 우리는 심지어 더 적은 수의 플립을 생성 할 것입니다 따라서 로거 속도가 빨라집니다

필터 필드를 시각화하는 방법을 살펴보면, 당신은 soma와 다른 것을 가지고 있습니다 그러나 실제로, 당신은 이미 주요 기능을 지시했습니다, 매닝이 아직 유지되고 중요한 기능의 대부분은 여기에 있습니다 그래서 그게 핵심입니다 그래서, 우리는 많은 여분을 가지고 있습니다, 우리가 정말로 안전하게 할 수있는, 학습 분야 또는 공유에 관해서는, 우리는 일종의 파이 (Phi)에서 원래의 피 (Phi)를 제거해야합니다 두 사람은 21 세까지, 심지어 saven

유사한 정확성을 유지함으로써, 거기에 5 % 또는 한 사람당 하나 로비 또는 유사한 배열 레이더 우리가 그들을 모아서 모으거나 전체 행과 전체 열을 제거 할 수 있습니다 아직 그 기능을 제대로 유지할 수는 없을 것입니다 오류율은 약 1 %입니다 계엄령 또는 신경망, 너 희소성이 낮아

우리가 여기서 당기는 결장 희박이 있습니다 그럼 속도 향상을 얻을 수있어, 알았지? 그래서, 그것은 그러한 지식의 결합입니다 그래서이게 더 좋아, 알았지? 기본적으로 전체 열을 제거합니다 우리는 CPU와 CPU에 대해 배웠거나 여기서 보여줄 것입니다 그래서, 하가나가 이걸 선물했는지 보여 드리죠, 알았죠? 따라서 이것은 더 높은 요구 사항입니다

거짓말 정확도 또는 오류율 그래서, 당신은 그것을 볼 것입니다 당신은 르완다 희귀성에 사람들이 사용하는 L1 규범, 너는 실제로 많은 층들이있어 그것이 적극적으로 뱉어 낸다 쇼는 우리 모두를 긍정적 인 것으로 채울 수 있습니다

그래서, 그것이 핵심입니다 그리고 여러분이 용납하기 위해 길을 잃었다면 약 2 % 정확도 손실 어떤 사람들은 처음에 훈련을 시험하기를 좋아하기 때문에, 우리는 심지어 가을의 속도를 밀어주고, 아버지로부터 떨어지며, 그리고 L1은 우리가 등급을 매겨 야합니다 어떤 경우에는 여전히 능동적 인 속도 향상을주었습니다 사실, 당신은 GPU와 비교해 보았고 CPU는 이상하게 여깁니다 GPO가 더 민감하다는 것을 알 수 있습니다

구조 데이터 저장소에 저장합니다 그래서, 르완다의 바를 의미하고 실제로는 아닙니다 GPU 플랫폼이 선호하는 CPU 경로가 더 많기 때문에 그러한 것들에 민감한 사회, 우리가 우리의 표적과 비교하여 더 높은 개선을 달성 할 수 있다면 CPU 때문에 어쨌든 나쁘고 기준선 주변에있을 것입니다 아무도 그렇게 민감하지 않을 것입니다

배우는 두 번째 편도 많은 사람들이 채택한 바깥 지식으로서, 확실하게 나는 모른다, 왜 부분적으로 우리가 레이어를 제거 할 수 있습니다 사람들은 실제로 새로운 것이 아닙니다 사람들은 꽤 오랫동안 이것을 해왔습니다 그래서 매우 독창적이고 마지막에는 20 또는 32, 우리는 끊임없이 레이어 수를 줄일 수 있습니다

IRR을 희생시키지 않으면 서도 14 및도 18에 도시 된 바와 같이, 그 레이어를 제거하는 추세를 보면, 그들은 실제로 또 다른 단조로 에러율을 감소시킨다 그래서, 내가 보는 최고, 18에 관해서는 최적의 숫자가되고 그 후에, 레이어 수를 줄이면, 영역이 증가합니다 그러나 그 전에는, 당신은 보지 않을 것입니다 거기에 위아래로 있기 때문에 monolical 추세 세부 분석을 통해 우리가 어떤 계층인지 알 수 있습니다

제거는 실제로 중간 계층입니다, 알았죠? 왜냐하면 처음에는 너에게 기본적으로 데이터를 처리하고 그 이후에 강사 먼저 기능을 누른 다음 메서드를 감아 너를 정말로주지 않는다 다른 레이어를 추가하는 것과 비교하면 많은 도움이됩니다 예? >> 선생님, 이런 종류의 관찰이나 인센티브가 변화하다 다른 데이터 과학 또는 다른 작업? 이유는, 나는 이것이 몇 10 개를 위해 공명 한 것을 본다, 그렇지? [들리지 않는다면? >> 비슷한 추세를 보았습니다 그러나 약간 변이가있다 DMV에서 네트워크를 찾습니다

네 >> 제 질문은 여기에 있습니다 그래서, 마치 우리가 망치고있는 것처럼 미리 훈련 된이 네트워크 이 부분은 어디에서 분리되어 있고 [들리지 않음] 어디입니까? 당신이하는 일의 양은 매우 다릅니다 하나는 더 작은 상수이고 훨씬 더 평평한 원인입니다

그 책의 구조를 더 자세히 말하는 거지? 얼마나 일반적인 제너럴일까요? 너는 Cooney를 위해 있니? 당신이 목표로하고있는 실제 집에 달려 있습니까? >> 나는 이해한다 불행하게도, 급진적 인 동시 발생이 있습니다 당신이 다른 구조를 가진 다른 신경망을 가지고 있다면 가지 치기가 얼마나 잘 적용될 수 있습니까? 그것은 단지 시도였습니다 >> 알았어

>> 우리는 지금 약간의 연구를하고 있습니다 다른 레이어가 기능을 처리하는 방법을 이해하려고 시도하고, 이 정보가 어떻게 전달되는지 다른 작업과 다른 출력 그래서 해석 가능한 신경망과 관련이 있습니다 맞습니까? 그래서, 우리는 이것에 관해 어떤 결과를 생각했습니다 우리가 추세를 보면, 우리는 상층 신경 네트워크의 영향을 봅니다

기본적으로이 곡선 우리는 처음부터 시작합니다 [들리지 않는] 후에 표류가 있습니다 글쎄, 나는 어떤 데이터가 오프라인일지도 모른다 그러나 우리는 여전히 그 이유가 무엇인지 수학적으로 입증하지 못했습니다

그러나 우리의 소원은, 실제로이 층의 중간에 몇 개의 층이 있었는데, 하나의 연결에 대해서조차도 그렇지 않다 이 가지 치기에서 결과물에 많은 영향을줍니다 그러나이 계층은 우리가 전송 학습 신경망을 설계하십시오 이것은 실제로 매우 흥미 롭습니다 우리는 왜 그런지 이해하지 못합니다

꽤 확신 하네, 알았지? 그러나 이전 학습은 우리에게 다른 것을 보여줍니다 나중에 결과를 보여줄 수 있습니다 예 너는 뭔가 원한다? >> 나는 Trent Stevens 박사입니다 >> 네

네가 일하는 곳 >> 우리의 업무는 더욱 공격적입니다 따라서, 그것을 [들리지 않음]으로 게시하십시오 >> 그럼, 아주 좋은 질문입니다 그러나 우리에게는 수학적 증거가 없습니다

우리는 일부 중재자에게 다시 폭기를가합니다 네 그래서, 지난 한 주제, 나는 약 10 분이있다 TernGrad에 관해서 우리가 가지고있을거야 그래서, 실제로 이것은 작년에 우리가 털어 놓았던 이야기입니다

다행히도이 작업은 작년 한 해 동안 구술 이야기 중 하나였습니다 이것은 후자의 틈에서 나온 그림들입니다 나는 잘 모르겠다 이걸 볼 수 있니? 그곳에는 약 5,000 명의 사람들이 있습니다 그래서 남자 답게 그것에 대해 서두르십시오

꼭지점은 기본적으로 화면을 볼 필요가 있습니다 괜찮아 그래서 본질적으로 우리의 빛이 위로 올라 가기 때문에 분산 된 깊은 학습 그래서 네가 확신 해 처음에는 매개 변수 소스에 대해 잘 알고 있었습니까? 그래서, 당신은 더 나은 위치에 있고 당신은 신경망입니다

각 노드의 데이터의 새로운 위치 귀하의 가입자 부담금은 모든 사람들이 모델과 이후 약간의 훈련과 당신은 근본적으로 보낸다 이 정보는 매개 변수 서버에 처음에는 갑작스러운 가방에 동기화 그래서 우리가 그 것들을보고 있다면 병목 현상을 찾아 낼 것이다 매개 변수 서버와 노드 사이의 통신이어야합니다

그래서 후자는, 몇 년을 말하면,이 시나리오는 더욱 심각해질 것입니다 그래서 우리가 이것을 볼 때, 우리는 매우 익숙합니다 압축 및 양자화 가속화 시도 우리가 의사 소통을 최소화하기 위해 뭔가 할 수 있는지 알아보기 위해 노드와 매개 변수 사이의 우리 서버와 우리는 물론 알아 낸다 사실, 우리는 그 데이터를 실제로 보내지 않을 것입니다 당신은 3 단계 아래에 있습니다 : 부정적인면, 긍정적 인 1과 0

당신은 두 가지를 보낼 수 있습니다 : 부정적인 것, 긍정적 인 것이지만 그것은 수렴하지 않을 것입니다 그래서, 나중에 왜 보여 드릴까요? 그래서, 우리는 그것을 ternarized 그라디언트라고 부릅니다 이 세 가지 값을 표 형식으로 보낼 수 있다면 값을 늘리거나 또는 값을 줄이거 나 동일하게 유지하십시오 권리? 그게 바로 사물입니다 그리고 그렇게함으로써, 당신은 의사 소통을 극적으로 줄일 수 있습니다

먼저 부동 소수점 값이나 부호를 보내야합니다 이제 질문은 기본적으로 그라데이션을 나타냅니다 그 사이에 기본 소스 서버의 흔적이 없습니다 정확성을 희생하지 않고도 그렇습니까? 그래서, 우리가 이것을하기 전에, 우리는 실제로 수학을해야합니다 하지만, 나는 모든 세부 사항에 가지 않을거야

걱정마 나는 이것을하지 않을 것이다 하지만 기본 아이디어는 수년 전 또는 실제로 20 년 전 누군가는 우리가 평가할 수 있다면 어떤 범위 내에서 그러한 훈련 과정의 융합을 보장 할 수있다 심지어 우리는 그런 구성 된 정보를 발송합니다

그러나 정확성에 대한 보장은 없습니다 그것은 단지 컨버전스에 관한 것이지만 충분하지 않습니다 괜찮아 그럼 우리가 얘기 할게, 우리가 어떻게 할 수 있는지 그래디언트의 좋은 표현을 찾아야합니다 괜찮아

우리가 한 일을보세요 우리는 범위와 아무 그라디언트도없이 HB 바다에서 시작했습니다 통신 이론에 대해 생각해 봅시다 의 조립을 전송하는 가장 좋은 방법은 신호는 넘어지지 않는 신호를 전송하지 않습니다 매개 변수를 전송하려고합니다

이 신호의 분포를 설명합니다 그리고이 기울기의 분포는, HB 바다의 일부 유형을 따르십시오 괜찮아? 그래서 이것을 바탕으로, 우리는 방금 설명하는 몇 가지 매개 변수를 제공했습니다 이 HB 바다 정면은 다른 끝으로 갔다

이 값을 다른 끝에서 복원 할 수 있습니다 평균처럼 그들을 보낼 수 있습니다 또는 시그마 또는 사우나 먼저 그리고 또한 하나, 음수 1, 0을 모두 조정합니다 그러나 당신이 이것을하기 전에, 당신은 제약 조건을 클리핑해야 할 것입니다 컨버전스를 보장하기 위해 어떤 범위의 값

그것은 우리가 수학에서 배운 것입니다 괜찮아 우리에게는 독창적 인 것이 있습니다, 우리는 클리핑을한다 우리는 값을 세제 화합니다 추측하자면, 그들은 다음과 같다

보내진 일부 배포본 또 다른 끝과 우리는 모든 것을 복원 할 것입니다 그리고 결과를 봅시다 그것은 우리가 연구를 의사 소통 할 때 사용하는 매우 흔한 트랙입니다 그들은 꽤 좋다 TernGrad 슬롯

최고의 정확성과 반복성을 제공합니다 알다시피, 반복의 증가는 감소합니다 기준선을 볼 수 있으며 TernGrad 선입니다 정확성은 기준선에 매우 가깝습니다 그리고 훈련 손실을 보면 반복에 비해 매우 좋습니다

그래서 그것은베이스 라인보다 빨리 일치합니다 AlexNet의 경우, 우리가 2 명, 4 명, 8 명으로 구성된 직원을 고용하고 있다면 기본적으로보고 싶지만, 미니 배치 크기 및 방법으로 증분 반복 횟수를 줄이고, 부동 소수점에 대한 모든 결과를 살펴보십시오 그것은 TernGrad의 원래 기준선입니다 따라서 정확도는 매우 유사합니다 괜찮아

그것은 단지 아주 약간의 저하입니다 우리가 도약을 뛰어 넘지 않으면, 정확도는 2 %입니다 그게 변환기라고 그래서 당신이 보았던 것을 의미합니다 의 문제가됩니다 그래서 여기에서 클리핑 할 때 이유가 있습니다

괜찮아 그래서, 당신에게 알려주는 것입니다 후자 들어, 신경 네트워크, 우리에게는 비슷한 말이 있습니다 물론 정확도 손실은 더 커질 것입니다 그것은 1 년의 스펙트럼입니다

그러나 아직도, 당신은 알다시피, 좋은 독특한 범위 그래서 성능 모델을 만들었고 그 모델은 페이팔에 따라 Manning에서 사용 마치 내가 갖고있는 것과 비슷한 도구 매개 변수 서버와 매개 변수 사이의 다른 대역폭 그들 모두를위한 노드 이더넷 및 PCI 스위치 또는 Infiniband 및 NVlink 그러나 우리의 방법론은 성능에 영향을 미칠 것입니다 너는 더 큰 대역폭을 발견 할 것이다 우리의 방법론을 덜 효과적으로 만듭니다

네가 이해하지 못했기 때문에 이것을 이해한다 정말 큰 바이너리가 필요합니다 그러나 우리는 여전히 달성 할 수 있습니다 약 2 ~ 3 배 성능 향상 사실 HP Lab 우리가 달릴 때 그들과 협력하고, 우리는 실제로 그들의 환경에서 이러한 것들을 확인했습니다

좋아, 또 다른 끝 괜찮아 우리는 신문에 대해 이야기 할 것이고, 과거 신문, 예, NIPS와 소원 그러나 저는 실제 산업에 미치는 영향에 대해 더 많은 관심을 가지고 있습니다 결과는 다음과 같습니다

우리의 한 레벨 양자화 방법은, 방금 전에 PDK를 인코딩하는 것에 대해 이야기했습니다 IBM TrueNorth 칩의 ISTK 괜찮아 우리의 구조적 가지 치기 기술은 도서관에서 지원 Intel Nervana Neural Network 프로세서 실제로이 라이브러리를 Zoom에서 다운로드 할 수 있습니다 그리고 인텔의 최신 NLP는이 기술을 사용하기 때문에 기본적으로 컨볼 루션되고 완전히 이해할 수없는 것은 RSTM에있다

그래서, 그들은 이것을지지 할 것이고, 내 마이크로 프로세서의 타이밍에서 중국의 [비공개] ISAT 기술은 실제로 가장 큰 것입니다 2 시간 성능 향상 그들의 하드웨어를 바꾸지 않고, 데이터 센터의 인프라 우리가하는 일은 우리가하는 일이 아니야 그냥 훈련을위한 프레임 워크를 다시 작성합니다 TernGrad 기술이 Facebook Caffe2에서 지원되며 다운로드 할 수 있습니다 HP 매개 변수 서버 제품에는 이미 제품에 인코딩되어 있습니다

그래서 그것은 진짜 제품입니다 너는 갈 수도 있고 살 수도있어 그것은 그것들을 지원할 것입니다 괜찮아 우리의 시각을 공유하기 위해, 나는 끝나기 가깝다

따라서 AI가 주류가 될 것입니다 더 많은 사람들이 그것에 뛰어 드는 것도 놀랄 일이 아닙니다 대량 클라우드 및 에지에서 큰 잠재력을 보여줍니다 그러나 제한과 인프라, 항상 쉬워진다 우리는 항상 준비가되어 있기 때문에 회사의 컴퓨팅 능력 때문에 처음에는 알았어

그래서 당신이 얼마나 많은데, 우리는 그들을 굴릴 것입니다 그리고 미래, 예 더 친숙해질 것입니다 보다 자동화되고 비용 효율적입니다 그것은 우리가하려고하는 것입니다

정확성이 항상 주요 목표는 아니며 AI 시스템의 매트릭스에 많은 트레이드 오프가 존재합니다 효율성 기업 효율성뿐만 아니라, 정확성뿐만 아니라 프라이버시, 정확성 우리의 프라이버시가 저장됩니다 그리고 모든 종류의 것들 괜찮아

그래서 나는 그것이 우리 센터에서 돈을받는 것이라고 생각합니다 오늘 어디서, 나는 감독이고 나는 당신이 가질 수있는 질문이 있으시면 열어주십시오 예 고맙습니다 예

>> 그럼, 최적화의 일부 CPU에 특수 최적화 코드를 제공 할 수 있는지 궁금합니다 또는 GPU를 사용하고, 비슷한 데이터를 누적 할 수 있습니까? 네 그것은 아주 좋은 질문입니다 한 줄로 된 간단한 H는 속도를 향상 시키지만 충분하지는 않습니다

괜찮아 그래서 더 좋은 방법은, 정말로 제어 할 수 있다면 낮추는 과정은 기본적으로 당신이 할 수있는 것을 의미합니다 데이터 매핑 절차를 조작한다 컴퓨팅 인프라 스트럭처에 이르기까지, 당신은 더 나은 결과를 얻을 수 있습니다 우리는 아마 실제로 또 다른 논문을 가지고 있는데, 나는 2017이나 16을 생각한다

나는 잊었다 당신은 이것에 대해 이야기합니다 기본적으로, 우리는 인텔 CPU 또는 달성하는 과정을 낮추기 copular 상단에 추가 속도 향상 그래, 네 네가 할 수 있다면 그래

데이터에 대한 자세한 정보를 알고있는 경우 메모리에 저장되고, 로드되는 방법, 그러면 당신은 더 많은 개선을 이룰 것입니다 >> 왜냐하면 사람들은 모바일 플랫폼에 더 많은 관심을 가지고 있기 때문입니다 특히 고효율 입력 예를 들어, 모델 최적화 작업과 같이, 어느 것이 더 나은 성능 향상을 줄 수 있는가? 모바일 플랫폼에서 Google의 일부 또는 접근법없이 >> 실제로 모든 것을 시도 할 것입니다, 짐 내 말은, 너 알 잖아

사실, 나는 속성을 조직하고있다 저전력 패턴 인식 과제 괜찮아 그래서 우리는 매 경기마다 매년 CAPRI에서 워크샵을 가질 예정입니다 기본적으로 우리 참가자들은 모든 것을 최적화합니다 그들은 심지어이 추가, 모든 단일 레이어, 라이브러리를 최적화하거나 심지어 데이터를 가져 오는 프로토콜 처음부터 서버 속도가 빨라야한다는 것을 알고 있습니다

같은 플랫폼에서, 지난 3 년 동안 TS2처럼, 우리 계산의 최고 성능은 다음과 같이 향상되었습니다 동일한 하드웨어 플랫폼에서 12 번만 사용할 수 있습니다 당신이 그것을 가져올 수있는 극적인 역할이 있지만, 당신은 매우 신중하게 사용자 정의해야합니다 모든 당신 한 조각 예 >> 그래서, 나는 또한 질문이있다

구조 희소성 및 이론적 인 것에서 선택하십시오 어쩌면 당신은 슬라이드 중 하나에 돌아갈 수 있습니다 그게 – 속도를 높이는 것과 같은 걸 봤어 내 오른쪽에 – 그래, 바로 여기 계속가

네, 맞아요 여기 스피드 업에서, 이 이론적 인 숫자 나 서버 번호는 무엇입니까? >> 아니 진짜 숫자 야 >> 실수? 네 그러나 이것에 대해서는 약간 까다 롭습니다

그래서 우리는 데이터 비율을 낮추는 것을 실제로 고려하지 않습니다 기본적으로 계산 부분 만 >> 알았어 네 따라서이 번호를 보는 것은 약간 까다 롭습니다

계산의 머리와 꼬리를 모두 고려해보십시오 null과 방대한 [들리지 않음]이있을 것입니다 괜찮아 그건 의미가 있습니다 예

>> 네, 내 질문에 답할 것 같았습니다 같은 두 x 사이의 차이가 같기 때문에 – >> 아니 그래서 내가 열 번이나보고한다면, 내가 정말로 [들리지 않는] 기술과 같이 일한다면, 우리가 얻을 수있는 기준은 두 번입니다 이론적으로, 당신은 8처럼 될 수 있습니다 또는 16 번하지만 그건 알 잖아요

>> 그리고 SF 기술과 같은 때 같은 종류의 구현이 방법은? 네가 배웠던 교훈이 있었 니? >> 많은 교훈이 있습니다 제 생각에 그건 사실이라고 생각합니다 한 학생이 실제로 거기에갔습니다 3 개월 동안 그들과 일했습니다 전체 인프라를 최적화합니다

많은 것들이 있습니다 지역 목표는 속도가 8 배가 될 것입니다 3 개월까지 우리는 두 번까지 당신을 드릴 수 있지만 그들이 실제 시나리오에 있다고하는 그들의 주요 관심사 네 >> 너에게 갇혀있는 그런 예가 있니? 당신이 편안하게 공유하거나 >> 나는 이것에 관한 논문을 쓸 것이라고 생각한다

그래, 그래 매우 정직하고, 너무 많은 것들이 있습니다 그러나 나는 이것에 대해 뭔가를 쓸 것이라고 생각합니다 네 >> 좋아

감사

Gradient descent, how neural networks learn | Chapter 2, deep learning

내가 신경망의 구조를 설명하는 비디오에 먼저, 빨리 정리해 보자 이 비디오 섹션에서 우리는 두 가지 목표는 첫째 그라데이션 하강의 개념을 도입해야 그것은뿐만 아니라 신경 네트워크 작업의 기초 많은 다른 기계 학습 방법에 대한 또한 기초 그럼 우리는 어떻게이 특정 네트워크가 작동 살펴 보자 그리고이 숨겨진 레이어 뉴런 정확히 찾을 것이다 무엇 여기에서 우리는 검토와 같은 고전적인 예를 참조 – 필기 숫자 인식 "안녕하세요"신경 네트워크의 분야에서 0과 1 사이의 각 격자 계조 값에 해당하는 28 (28)에 의해 픽셀 그리드에 기록이 숫자 이 회색 값 뉴럴 네트워크 입력 레이어 신경 활성을 결정 784 각 뉴런 활성 값 이후의 각 층이 이전 층에 기초하여 가중되고 이는 편차를 얻기 위해 공지 된 상수로 첨가 그럼 당신은 그와 같은 squishification 추가와 같은 다른 기능을 아니면 내가 이전 섹션, 비디오 ReLu에서 언급 결론적으로, 우리는 임의의 16 개의 각 신경망 뉴런의 두 개의 층을 갖는 줄 갖는다 중량 및 편차의 값을 조정할 수 13000 방법 신경망 작업을 결정하는 이들 값이며 그래서 무엇을 의미 하는가 "네트워크는 숫자 등급을 부여 할 수 있습니다" 디지털 즉 마지막 층 (10)은 그 숫자를 입력 숫자를 점등한다 우리가 목적으로,이 계층 구조를 사용, 기억 아마도, 제 2 층은 디지털로 이루어지는 제 3 층 및 상기 와이어 코일을 구별 할 수있다 상기 디지털 라인의 특징에서 식별 될 수있다 마지막 층이 디지털 입력의 모든 기능을 식별하기 위해 함께 결합 될 수있다 그래서 여기에 우리가 학습하는 방법을 신경망을 배우게됩니다 우리가 원하는 것은이 알고리즘 신경망을 훈련 많은 양의 데이터를 표시하는 방법입니다 다음은 훈련 데이터의 많은 필기 디지털 이미지를 많이 의미하고, 결국이에 디지털 이미지를 식별하는 몇 가지 라벨입니다입니다 그것은 이러한 훈련을 통해 데이터를 할 수있다 13,000 중량 조절 값과 편차 뉴럴 네트워크의 성능 향상을 목적을 달성하기 위해서 우리는이 계층 구조를 배울 수 있다는 기대 훈련 데이터의 범위를 넘어 이미지를 확인 우리는 방법이 네트워크에 대한 교육을 완료 할 때이다 테스트 이미지를 표시 할 때 그 결정의 정확성에 대한 관측, 그것은 본 적이 것을 다행히도, 우리는 일반적으로 교육을 시작 MNIST베이스에서 데이터를 사용할 수 있습니다 좋은 사람들이 손으로 쓴 레이블 디지털 이미지의 수천의 컬렉션의 MNIST 기본 당신이 정말로 그것을 작동 방식을 이해하면, 당신은 기계 학습 과정을 설명하기 위해 찾을 것은 매우 어려운 일이다 그것은 어떤 미친 공상 과학 소설이 아니라 더 미적분 운동처럼처럼되지 않습니다 즉 기본적으로 특정 함수의 최소값을 찾을 수 있습니다 개념적으로, 우리는 각각의 신경 세포가 이전 계층의 모든 뉴런에 연결되어 있다고 생각한다는 점에 유의하십시오 유사한 정의에 가중치를 가중 가산 계산 신경 기준 소자 강도 사이에 접속되고 편차는 특정 뉴런 활성화하거나 활성화하고 닫기를하지 않는 경향이 나타냅니다 우리는 모든 중량 값을 넣어 편차 값은 의심 할 여지없이 임의의 숫자로 초기화되어있는 경우,이 신경 네트워크는 혼란을 보여줍니다 이미지를 입력 할 때 예를 설명한다 3 출력 층은 엉망 보인다 그래서, 당신은 컴퓨터를 알려줄 수있는 비용 함수를 정의하기 만하면,하지 않습니다! 당신이 잘못! 올바른 출력은 0의 신경 세포 활성화 값의 대부분을해야하지만,이 신경 세포에 대한, 당신은 내게 그 쓰레기를 줄 수학적인 언어로 설명하기 위해, 당신은 당신이 차이의 제곱의 출력을 수정하려는 각 [] 및 []에 대한 쓰레기 출력을 넣을 필요가있다 [합] 이것은 하나의 훈련 예 비용이다 네트워크가 매우 정확하게 이미지를 식별 할 수있는 경우이 아주 작은 않습니다 이 값이 보여 큰 경우, 신경망은 가하에서 그것을 알고하지 않았다 당신이해야 할 그래서 당신이를 처리 할 수있는 학습 사례의 수만의 평균 비용을 고려하는 것입니다 성과의 평균 비용은 좋다 또는 나쁘다는 신경 네트워크의 가치 측정 이 신경망의 기능은 본질적으로 기억 디지털 픽셀 출력으로서 디지털 입력 (10)으로 784 값들 이 무게와 편견에 의해 감지는 매개 변수화 그러나 가장 중요한 성능의 비용 함수의 복잡성은 그것에 대해 만삼천 무게와 바이어스 값 입력 등이다 그리고이 무게와 편견의 품질을 반영하는 디지털 출력 수천 배는 신경망 훈련에 의해 결정 후에는 성능을 통해 정의된다 에 대해 생각 많이있다 그러나 단지 도움이되지 않았다 얼마나 나쁜 작동하고, 컴퓨터를 말해 당신이 알고 싶어 당신이 만드는 순서대로 무게와 편견을 조정할 수있는 방법입니다 그것을 조금 더 나은 성능 우리는 예시하는 간단한 예를 사용하여 (13000 입출력 기능하지 힘든 사고) 우리는 하나 개의 입력과 하나 개의 출력을 가지고 같은 간단한 기능을 상상 함수의 입력 값의 최소값을 찾는 방법 배운 미적분 학생들은 때때로 쉽게 함수의 최소값을 지적 할 수있어 그러나 일부 매우 복잡한 기능을 위해, 그것은 가능하지 않을 수도 있습니다 물론, 비용 함수를 포함하여 우리는 13000 슈퍼 복잡한 인수를 그 더 유연한 접근법은, 임의의 입력에서 시작 찾는 것이 그 값이 작은 방향의 함수 특히, 어떤 점에서 기울기는 당신이 기능을 알고있는 경우 기울기가 긍정적 인 경우 다음으로, 좌측은 상기 기울기가 음수 인 경우에는 우측 방향으로 작은 출력 기능하게 찾을 수 당신은 지속적으로 적절한 단계를 검사에게 기울기의 모든 지점을 반복하는 경우 당신은 방정식의 지역 최소 찾을 수 있습니다 당신은 볼이 뇌에서 언덕 아래로 굴러 같은 사진을 상상할 수 심지어 이러한 간단한 단일 입력 식에서, 여전히 많은 골짜기 합해서있을 수 있음을 주목할 만하다 사용자의 입력 값을 무작위로 선택을 시작하면, 로컬 최소 찾기 우리는 전체 함수의 최소값 보장 할 수 없습니다 우리의 신경 네트워크의 방정식의 경우, 같은 상황 또한주의 당신은 크기와 기울기에 비례 단계 경우 그런 경우 최소값에 가까운, 더 적은 당신의 단계, 이것은 당신이 너무 멀리 찾고 방지하는 데 도움이됩니다 확장 무엇을 상상, 두 개의 독립 변수의 함수 종속 변수가있는 경우 당신은 입력 인수가 공간 XY 평면과 비용 함수는 표면 위에 떠있다, 상상할 수있는 이제 함수의 기울기를 고려하지만, 상기 입력 단계 공간 방향으로보고되어서는 안된다 즉, 출력의 기능이 어떤 방향으로하는 것이 가장 빠른 아래로 감소하자? 마찬가지로, 우리는 언덕 아래로 구르는 공을 상상 친숙한 다 변수 미적분 사람들은 그라데이션 기능은 당신에게 가파른 상승 방향의 대부분을 줄 것이다 알 가장 빠른 감소 방향의 함수에 상당하는 방향이다 당연히, 음의 기울기 방향 기능이 가장 빠른 감소를 찾을 수 또한, 그라데이션 벡터의 길이가 실제로 얼마나 가파른 가파른 경사의 지표이다 당신은 다 변수 미적분학에 익숙하지 않은 경우 그리고이 장에 칸 아카데미의 콘텐츠를 볼 수 있습니다이 지역에 대해 자세히 알아 보려면 사실, 우리를 위해 가장 중요한 것은 원칙적으로,이 벡터가 계산 될 수있다 그것은 당신에게 가파른 아래로 방향을 말할 것이며, 이러한 특정 세부 사항은 중요하지 알고 충분한 지식보다 더있을 것 당신은 당신이 할 수있는 그라데이션 방향을 계산하여 작은 함수 값의 방향을 찾아 언덕 아래 첫 번째 단계를 취할 것을 알고 있다면 때문에 그럼 당신은이 과정을 반복 할 수 있습니다 방정식에 적용된다 또한이 원칙은 인수의 13,000을 가지고 큰 벡터에 신경 네트워크의 13,000 무게와 편견을 상상 비용 함수의 기울기는 음의 간단한 벡터이고 그것은 매우 큰 입력 변수 공간의 방향 당신을 말할 것이다 가장 빠른 작은 비용 함수 방법 물론, 우리는 특별히 측면에서 비용 함수를 위해 설계 가중치와 바이어스를 변경한다는 것은 매우 트레이닝 데이터 출력의 각 세트를위한 신경망 임의의 열 개 숫자처럼 보이지만 사실 우리는 출력을하지 않는다는 이 비용 방정식은 훈련 데이터의 각 세트의 평균 효과, 알고 이 값을 줄일 경우에 따라서 기능이 향상되는 것을 의미 있도록 샘플의 성능 이것의 핵심은 신경망의 학습 확산라고되어보다 효율적으로 그라데이션 계산 알고리즘을 할 수 있습니다 이것은 내가 다음 영상의 초점을 말하고 싶은 것입니다 나는 매우에 대해 이야기하는 시간을 할 무슨 일이 있었는지 결국 무게와 편견의 각 교육 특정 데이터 세트의 우리는 관련 미적분 및 수식에 추가하여 직관적 인 느낌을주기 위해 노력 그리고 지금, 나는 당신이 구현 세부 사항은 알고 싶어 우리가 말할 때 그것이 무엇을 의미하는지 결국 "신경망 학습은 비용 방정식을 줄이는 것입니다" 그 결과, 비용 방정식을 만드는 것입니다 참고가 부드러운 출력은 매우 중요하다 그래서 우리는 작은 단계로 로컬 최소 찾을 수 있습니다 그런데,이 이유 인공 신경 세포는 신경 세포로 자연이 아닌 지속적인 활성화 동작을 간단한을 활성화 또는 진 상태를 비활성화 이 프로세스는 입력 기능의 배수로 반복 될 입력 음 구배 구배 하강 칭한다 이는 비용 함수의 로컬 최소값을 허용하는 방법이 계곡 따라 낙하도 수렴 과정이다 여기에 나는 아직도 사용하는 두 개의 차원 기능입니다 때문에 13,000 차원 기능은 우리의 두뇌에 대한 상상하기 어려운 경우 그러나 사실이 문제에 대해 생각하는 비 그래픽 방법이있다 그라데이션의 각 부분은 우리에게 두 가지를 알려줍니다 물론 기울기의 표시는, 상기 입력 벡터의 대응하는 부분이 상하 방향이며,이 중요하다는 것을 말해 준다 진폭 관련의 모든 부분 나는 변경하는 것이 더 중요하다 당신을 말할 것이다 당신은 발견, 신경 네트워크에서, 비용 함수에 큰 영향이 무거운 무게의 일부의 값을 변경합니다 비용 함수에 대한 권리의 가중치를 변경하는 효과는 미미 단지 훈련 데이터와의 관계의 일부 그래서, 당신은 비용 함수의이 거대한 그라데이션 벡터 생각할 수 가중치 및 바이어스의 각각의 상대적 중요성을 인코딩 그것은 당신을 위해 가장 큰 영향을 가져올 것이다 이러한 변화이다 이것은 참으로 문제의 방향을 생각하는 또 다른 방법입니다 다음은 간단한 밤나무 이차원 함수가된다 당신은 (3,1) 지점을 계산 그라데이션 이 시점에 서 때, 한편으로이 프로세스입니다 번역 할 수 있습니다 당신은 그라데이션 방향에서 가장 빠르게 증가 할 수있다 이미지 함수, 이는 빠른 벡터 직접 오르막 방향 그러나 다른 한편으로는, 당신은 말할 수 세 번 이상 입력의 근방에서 제 2 가변의 함수에 변수의 변화의 효과는 그러한 인 x의 값을 변경하는 효과는 훨씬 큰 이제 정리해 올 하나 신경망 자체 (784)의 입력 및 출력 기능 (10)을 갖는다 무게와 소유권의 형태로 정의 비용 함수의 복잡성을 반영 또한 입력의 출력 레벨과 13,000 중량 및 편차를 갖는 좋고 트레이닝 케이스의 값에 기초하여 불량 비용 함수의 기울기 및 복잡성의 층 그것은 가장 빠른 작은 비용 함수를 할 수 있도록 이러한 값을 가중치를 변경하고 값을 상쇄하는 방법을 우리에게 알려줍니다 무엇보다 체중 변화로 또한 번역 될 수 그래서 당신은 무게를 초기화하고 바이어스 값은 그라데이션 하강 과정을 몇 가지 조정을 그 기반으로, 임의의 값을 사용하는 경우 이 이미지 A는 한 번도 본 적이 방법을 보여줍니다? 난 그냥 눈에 더 기쁘게이 그림 아무것도 볼

그것은 16 이유에 두 개의 숨겨진 레이어 (16 개) 뉴런, 각 레이어를 여기 설명입니다 새로운 이미지의 경우, 매우 좋은 96 %의 올바른 인식 속도를 가지고 당신은 몇 가지 예를 보면 솔직히, 당신이 정말 무력 사람을 느낄 것이다 엉망 당신은 숨겨진 층 구조를 사용하여 몇 가지 조정을하면 당신은 98 %의 정확한 비율이 상대적 바있다 얻을 수 있습니다! 물론 당신은 지금보다 더 나은 네트워크 성능을 달성하기 위해 더 복잡한 네트워크를 사용할 수 있습니다 첫 번째 작업의 거대 함을 고려하면, 정말 생각 놀랍게도 좋은 이미지 전에 보지 못한 사람들을 위해 신경 네트워크 성능 우리는 특히 우리가 스타일을 찾고 무엇을 말하지 않을 경우 이 구조의 목적을 위해, 첫째, 우리는 단지 원하는 줄 두 번째 층은 작은 단편의 성분을 취출 할 수있다 제 3 층은 디지털 이러한 소자 스티치 선분과 긴 세그먼트 식별 포인트 다음 최종 인식 할 수있다 그래서, 우리의 네트워크는 정말 같은 작품? 현재, 예를 들어 적어도 그것은하지 않습니다! 우리가 동영상을 보는 방법을 기억하는 방법 첫 번째 레이어 위안에서 모든 신경을 연결하는 제 2 층의 중량 소정 뉴런 오른쪽 뉴런의 두번째 층은 화소 촬영 모드로 주어지고 그것은 가시화 될 수있다 우리가 정말 전환과 관련된 이전의 레이어와 다시 레이어 중량 값을 계산하면 독립을 선택하는 것은 아니지만 여기에 완전히 무작위 작은 세그먼트가 나타납니다 그냥 몇 가지 매우 느슨한 스타일 수 바로 큰 마법 13,000 차원 공간 및 무게 편차 위해 우리는 스스로가 지역의 최소의 완벽한 네트워크입니다 찾기 올바르게 대부분의 이미지를 식별 할 수 있지만, 우리는 스타일을 원하지 무엇을하더라도 당신은 실제로 당신이 임의의 이미지를 입력하면 관찰을 실행할 때의 반사를 할 것입니다 시스템이 똑똑하면, 10 개 출력 뉴런의 활성화하지 않을 수 있습니다, 결과는 불확실 것을 발견 할 것이다 또한 균등하게 활성화 할 수 그러나 그것은 확실히 것처럼이 임의의 신호를 5라고는 자신있게, 당신에게 의미없는 대답을한다 정말 확인 된 경우 그 중 하나는 동일한 이미지를했다 (5) 즉, 아무리 높은 자사의 식별 번호의 정확성, 여전히 디지털 쓰기하지 않습니다 그것은 교육의 매우 제한적인 집합입니다 때문에 크게 난 당신이 신경 네트워크의 관점에 서 있다면, 당신은 우주 전체는 것을 발견 할 것이다, 의미 숫자와 비용 센터 변경 기능의 작은 격자 그리고 우리는 자신의 판단을 위해 전체 자신감을 가지고 이 이미지는 두 번째 레이어 인 경우 그래서, 정말로 당신은 내가 몇 조각 모양을 추출 할 수있다 신경망을 소개합니다 이유에 호기심이 될 것입니다 즉, 할 수있는 마지막 일이 아니다 네, 그것은 우리의 궁극적 인 목표지만, 출발점이 될 것입니다 것을 의미하지 않는다 솔직히,이 이전 기술이다 그것은 1980 년대와 1990 년대 연구 뭔가 당신은 몇 가지 현대적인 변형을 이해하기 전에, 당신은 몇 가지 흥미로운 문제를 해결할 수는 매우 명확 것을 이해하는 것이 필요합니까 하지만 결국이 일에 더 깊은 숨겨진 발굴 층, 지능의 정도를 낮출 것 일시적으로 집중하는 방법을 배울 어떻게 학습하고 신경망에 대해 전환 당신은 발생 관련 자료를 처리 할 의욕있는 경우에만 난 당신이 일시적으로 중단 제안 및 깊이에 대한 생각 당신은 시스템을 변경할 수있는 방법 당신은 그것을 같은 라인으로 더 나은 추출을,이 인식되어야하는 이미지와 같은 요소를 형성하려면 그러나 더 나은 등의 자료를 처리 할 수있는 진정한 방법은 나는 강력 마이클 닐슨 깊이 학습과 신경 네트워크에 대한 책을 읽어 보는 것이 좋습니다 이 책에서는 코드와 데이터, 다운로드를 찾아 연관된 인스턴스를 실행할 수 있습니다 이 책은 당신에게 코드의 의미 단계의 설명에 의해 단계를 줄 것이다 즙이,이 책은 자유 공모입니다 그래서 만약 당신이 정말로 뭔가에서 얻을, 나는 닐슨 기부와 노력을 고려 내가 좋아 자원의 일부 링크가 크리스 올라의 충격과 매우 세련되고 아름다운 블로그 기사를 포함 지난 몇 분 나는 나를 인터뷰하고 다시 가서 레이 샤 리의 일부 당신은 학습의 깊이에 그녀의 박사 연구 작업하는 동안 그녀의 비디오 섹션에서 기억할 그 인터뷰 세그먼트에서, 그녀는 심도 결국 이미지 인식 신경망의 현재 필드의 연구 문제는 그것이 작동하는 방법이고, 두 최근 논문에 대해 이야기 우리의 토론 주제를 결정하는 첫 번째 논문은, 그것은 가장 깊이있는 신경 네트워크의 하나 소개 그것은 매우 정확하게 할 이미지를 인식 할 수 있습니다 만, 정확한 식별 데이터를 통해 설정할 수 없습니다와 수 그러나 훈련 데이터와 모든 태그를 화나게 라벨 자체가 혼란 때문에 물론, 테스트의 정확도는 임의의 결과보다 훨씬 더 가지 않을 것이다 하지만 당신은 여전히 ​​같은 인식 정확도를 달성 할 수있는 올바른 태그 데이터 세트를 사용하면 기본적으로, 그 임의의 데이터 값을 기억하기에 충분한 무거운 수백만 신경망이 특정 권리 이 문제는 정말 구조의 모든 유형이 제시하는 방법은이 비용 함수 해당 이미지를 최소화? 어쩌면, 그냥 당신이 알고 제대로 전체 데이터 세트를 분류 기억 올해 ICML 논문을 반박하지 않았나요, 일부 짧게 논문을 언급 당신이 곡선의 정확도를 보면 사실이 신경 네트워크는 똑똑 할 당신은 임의의 훈련 데이터 집합 경우 이 곡선은 아주 아주 느린 감소 거의 선형 될 것입니다 그래서 당신은 로컬 최소값을 찾기 위해 정말 열심히 할 수있다 만큼 당신이 올바른 태그 구조화 된 데이터 집합을 사용할 때 올바른 무게는 당신이 특정 정밀도를 얻을 수있게된다 처음에는 바이올린 수도 있지만, 곧 정확성이 정도의 빠른 하락 그래서 어느 정도는 지역 최대를 찾기 위해 여전히 매우 간단합니다 몇 년 전 또 다른 논문은 또한 관심을 불러 일으켰다 그것은 크게 간소화 신경망 층 당신이 장면 최적화를 보면, 지역의 최소 경향 신경망의 학습이 실제로 효과가 같은 이유 결론 중 하나는,에 대해 이야기 데이터 세트가 구성되어 경우에 따라서 어느 정도에서, 당신은 아주 쉽게 찾을 것을 알게한다 난 항상 Patreon을 지원하는 사람들에게 감사 내가 전에 말한 Patreon 게임 체인저의 일종이다,하지만 당신은이 동영상을 만들 불가능하지 않은 경우 그러나 이런 동영상 시리즈 VC의 파트너 인 지원도 특별한 감사 그들은 기계 학습 및 AI 회사의 초기 단계에 초점 나는이 가능성을 확신합니다 : 여러분 중 일부는 사람들이 비디오를보고 심지어 가능성의 일부는 같은 회사의 초기 단계에있다 누구인지 사람들은 기업가를 듣고 싶어 증폭 그들은 심지어 특별한 사서함을 설정, 당신은 3blue1brown에 의해 자신의 웹 사이트에 연결할 수 있습니다 amplifypartnerscom