From The Brain To AI (Neural Networks | What Is Deep Learning | Deep Learning Basics)

이 시리즈의 마지막 비디오에서 깊은 차이점을 논의 학습 및 기계 학습, 방법 및 방법 딥 러닝 분야는 공식적으로 태어나고 주류 인기 이것의 초점 비디오는 인공 신경에있을 것입니다 더 구체적으로-네트워크 구조

독수리, 전투기 동안 이 두 별개의 실체는 모두 수행 동일한 작업, 비행, 그들이 달성하는 방식 매우 다릅니다 전투기 매우 전문적이고 공학적입니다 매우 구체적인 기계 작업과 그 작업을 극도로 실행 잘 독수리, 생물 시스템 확실히 훨씬 더 복잡합니다 다양한 방법으로 가능 일반화 된 작업 이 비유는 차이점과 많은 유사점 우리의 두뇌와 딥 러닝 시스템

그들은 둘 다 임무를 수행 할 수 있지만 패턴 인식의 두뇌는 매우 복잡한 일반 시스템 다양한 작업을 수행 할 수 있습니다 딥 러닝 시스템은 설계되었지만 매우 구체적인 작업에서 탁월합니다 에 딥 러닝을 더 잘 이해하고 이 비유와 인라인 유지 비행, 기본으로 돌아가 봅시다 에 대한 한 시스템의 기본 원칙 이해하기가 훨씬 쉽다 더 높은 수준의 이해 그 응용 프로그램 및 기능 상기 시스템 우리가 비디오에서 논의했듯이 과거에 딥 러닝은 연결 분야, 부족 목표가있는 머신 러닝 뇌를 디지털 방식으로 재구성합니다

이제 우리가 반드시해야하는 두뇌를 디지털 방식으로 재구성 먼저 가장 간단한 디지털 재구성 뇌의 구성 요소, 뉴런 이것은 뉴런의 예술적 표현, 다극 뉴런이 정확해야합니다 있다 뉴런의 세 가지 주요 구성 요소 : 1) 소마, 이것은 '뇌'* 메타 *입니다 정보 처리 센터를 말하십시오 세포체로 구성된 뉴런의 그리고 핵 2) 축색 제, 이것은 길다 전달하는 뉴런의 꼬리 세포체와의 정보

3) 수상 돌기, 이것들은 뉴런에서 분기 팔 다른 뉴런에 연결하십시오 우리가 논의한대로 Neuromorphic에 대한 이전 비디오에서 계산에 따르면 뇌는 천억이 넘습니다 100 조 이상의 시냅스를 가진 뉴런 시냅스와 연결 다른 뉴런 우리가 생각한다면 극도로 감소하는 관점, 우리 두뇌를 하나로 간주 할 수 있습니다 거대한 신경망 점점 더 많은 것을 알지 못합니다! 따라서 왜 연결 주의자들은 시도에 너무 단단합니다 뇌를 재구성하고 긴급 속성이 등장합니다! 이제 물러서서 개별 뉴런, 이것은 우리 중 하나입니다 뉴런의 첫 사진 안으로 그려지다 19 세기 후반 스페인의 해부학자에 의해 산티아고 라몬이 카할 그는 소개 될 수있는 얼룩을 사용했습니다 조직에 현미경을 사용하여 그가 본 것을 그립니다

이제 당신은 여기에 무엇을 볼 우리가 방금 논의한 것은 세포체, 긴 꼬리와 수상 돌기 서로 이제이 그림을 뒤집어 봅시다 거꾸로하고 추상적으로 매핑 오른쪽에있는 뉴런의 구성 요소 측면 먼저 우리는 소마를 원으로 표시 한 다음 긴 줄이 오는 축삭 뉴런에서 마지막으로 여러 줄로 표현되는 수상 돌기 뉴런으로 연결됩니다 보시다시피 여기, 우리는 기본적인 방법을 목격하고 있습니다 딥 러닝 신경의 구조 89 00 : 02 : 52,670-> 00 : 02 : 56,360 그물이되었습니다! 에 대한 토론을 시작하려면 뉴런이 작동하는 방식으로 수상 돌기는 입력으로 간주 우리의 뉴런에 몸에서 수상 돌기 그들의 전기 활동을 찾으십시오 끝 그것이 다른 것에서 오는지 여부 뉴런, 감각 또는 다른 활동 그 신호를 세포체로 보내십시오

그만큼 그런 다음 soma는 이러한 신호를 받아 시작합니다 그들을 축적하고 특정 신호 임계 값, 축삭은 활성화, 시스템의 출력 본질적으로 매우 간단한 방법으로 뉴런의 정보 처리는 그냥 물건을 추가하십시오 그리고 그것을 바탕으로 하나 수상 돌기 활동을 축삭 활동의 수준 다시 말해, 더 많은 수상 돌기 더 자주 그들은 축삭이 얼마나 자주 활성화되었습니다 이제 우리는 기능의 추상적 이해 뉴런의 시스템에 더 추가합시다 신경망을 형성하기 시작합니다

같이 앞에서 언급 한 바와 같이 뉴런을 시냅스라고합니다 수상 돌기, 하나의 입력 뉴런은 축삭에 붙어 있습니다 다른 사람의 출력 라몬으로 돌아 가기 카잘의 첫 번째 뉴런 그림 당신은 그가 보고이 작은 것을 볼 수 있습니다 수상 돌기의 마비 여기가 다른 뉴런의 축색 돌기는 현재 뉴런의 수상 돌기 측면에서 우리의 추상적 인 그림의 우리는 이 연결을 원형으로 나타냅니다 마디 축색 돌기는 수상 돌기에 연결될 수 있습니다

강하게, 약하게 또는 그 사이의 어떤 것 지금, 우리는의 크기를 사용합니다 연결 노드를 나타내는 연결 강도, 연결 입력이 얼마나 활발한가 뉴런 연결은 출력 뉴런 수상 돌기 우리는 또한 이 연결 강도에 값을 할당하십시오 0과 1 사이, 1은 매우 강하고 0에 가까워지고 있습니다 앞으로 확장 될이 가치 비디오 참조 연결 무게로 보시다시피 우리는 더 많은 뉴런을 추가하기 시작합니다 많은 다른 입력으로 흥미로운 뉴런은 수상 돌기에 연결될 수 있습니다 각각 하나의 출력 뉴런 연결 강도가 다릅니다

이제 연결되지 않은 모든 것을 제거합시다 수상 돌기 및 또한 노드를 제거 우리는 연결을 나타내야했다 강도, 단순히 두께를 보여 무게를 나타내는 선의 그 연결 이제 뒤집어 가로로 다이어그램을 보면 현대 딥 러닝의 시작 신경망 아키텍처 이후 이 비디오의 시작, 우리는 우리에서 갔다 수조의 엄청나게 복잡한 뇌 연결과 미묘한 운영과 상호 연결성 신경망을 이해하기 간단 모델 우리 시스템은 여기 바로 그 모델입니다 그

뇌에서 신경으로 네트워크는 매우 축소 과정입니다 그리고 사이의 진정한 관계 생물학적 시스템과 신경 네트워크 은유적이고 영감을줍니다 우리의 두뇌, 제한된 이해 우리는 그들 중 엄청나게 복잡하다 수조 개의 연결과 많은 다른 유형의 뉴런 및 기타 병행하여 작동하지 않는 조직 그냥 같은 인접 레이어에 연결 신경망 주제에 다시 돌아와 우리가 사용하는 용어 이 네트워크를 설명하십시오, 그것은 사실입니다 그들은 여전히 ​​매우 유용합니다 큰 표현을 도출 마지막에 언급 한 데이터 양 이 시리즈의 비디오 그리고 지금 우리는 이것들의 구조가 어떻게 보 였는지 네트워크가 개발되었습니다 이 표현은 층

출력 노드를 생각하는 방법 그들이 노드의 합이라는 것입니다 그들을 강하게 활성화시키는 가장 강한 무게의 연결 예를 들어 5 개의 입력이 있다고 가정 해 봅시다 문자를 정의하는 노드 : A, B, C, D 그리고 E이 경우 출력 노드는 ACE에 의해 정의됩니다 여기 있습니다 저급에서 목격 표현, 개별 문자 높은 수준의 표현 단어를 포괄하고 계속 가면 에, 문장 등-이 단순한 예는 자연어의 기초이다 가공

편지를 넘어서 방법론은 모든 유형의 이미지의 픽셀 값에서 입력 오디오의 이미지 인식 연설을위한 연설의 빈도 더 복잡하고 추상적 인 인식 영양 정보와 같은 입력 의료 병력은 예를 들어 암의 가능성 지금 우리가 앞서 기 전에 더 높은 수준의 예측으로 확대 더 복잡한 초록의 능력 딥 러닝 시스템의 응용 이 다음 동영상 세트에서 시리즈, 우리는 포괄적 인 과정을 거칠 것입니다 예를 들어, 많은 새로운 것을 소개합니다 직관적 인 방법으로 용어와 개념 노드 네트워크의 이해를 돕기 위해 작업 그러나 이것이 당신이 가지고 있다는 것을 의미하지는 않습니다 더 배우기를 기다립니다! 원한다면 딥 러닝에 대해 더 배우고 실제로 현장에 대해 배우는 것을 의미합니다 이러한 인공 학습 알고리즘 뇌에서 영감을 얻어 기초 빌딩 블록 퍼셉트론, 멀티 레이어 확장 네트워크, 다른 유형의 네트워크 컨볼 루션 네트워크, 재발과 같은 네트워크와 훨씬 더 많은 다음 화려한

org는 당신이 갈 곳입니다! 안에 자동화를 통한 세계 알고리즘이 점차 대체 될 것입니다 더 많은 직업, 그것은 개인으로서 우리에게 달려 있습니다 우리의 뇌를 날카롭게 유지하고 여러 분야에 대한 창의적인 솔루션 문제와 화려한 플랫폼입니다 그렇게 할 수 있습니다 예를 들어 매일 매일 도전이 있습니다 다양한 코스를 다룰 수 있습니다 STEM 도메인 이러한 도전은 그들이 그리는 방식으로 제작 당신은 다음 새로운 것을 배울 수 있도록 직관적 인 개념 설명 특이점을 지원하려면 번영과 더 많은 것을 배우십시오 Brilliant, brilliant

org/로 이동하십시오 특이! 또한 처음 200 그 링크에가는 사람들은 20 %를 얻을 것입니다 연간 보험료 할인 혜택! 이 시점에서 비디오는 결론, 감사합니다 그것을 볼 시간을내어! 만약 너라면 그것을 즐겼다, 나를지지하는 것을 고려해라 Patreon 또는 YouTube 회원 자격 유지 이 도전이 커지고 있습니다! 우리를 확인 자세한 내용은 웹 사이트를 참조하십시오 더 많은 콘텐츠를 구독 한 입 크기에 대한 우리의 페이스 북 페이지 내용의 덩어리 안쿠 르였습니다 당신은 특이점을보고있다 번영과 곧 다시 ll겠습니다! [음악]

Neural Networks and Deep Learning: Crash Course AI #3

안녕하세요, Jabril입니다 CrashCourse AI에 오신 것을 환영합니다! 지도 학습 과정에서 John Green-bot에게 퍼셉트론을 사용하여 배우도록 가르쳤습니다

하나의 뉴런을 모방하는 프로그램 그러나 우리의 뇌는 1 조 개의 뉴런으로 의사 결정을합니다 그들 사이에! 여러 퍼셉트론을 함께 연결하면 실제로 AI로 더 많은 것을 할 수 있습니다 인공 신경 네트워크라는 것을 만듭니다 신경망은 이미지 인식과 같은 특정 작업에 대해 다른 방법보다 낫습니다

그들의 성공 비결은 숨겨진 층이며, 수학적으로 매우 우아한 이 두 가지 이유 때문에 신경망이 가장 지배적 인 머신 러닝 중 하나 인 이유 오늘날 사용되는 기술 [INTRO] 얼마 전까지 만해도 AI의 큰 과제는 인식과 같은 실제 이미지 인식이었습니다 고양이의 개, 보트의 비행기의 차 우리가 매일 그렇게해도 컴퓨터에는 정말 어려운 일입니다

컴퓨터가 0과 1을 일치시키는 것과 같은 문자 비교를 잘하기 때문입니다 한 번에 컴퓨터는 픽셀을 일치시켜 이러한 이미지가 동일하다는 것을 쉽게 알 수 있습니다 그러나 AI 이전에는 컴퓨터에서 이러한 이미지가 같은 개라는 것을 알 수 없었습니다 서로 다른 이미지가 모두 개라고 말할 희망이 없었습니다

그래서 Fei-Fei Li라는 교수와 다른 머신 러닝 및 컴퓨터 비전 그룹 연구원들은 연구 커뮤니티가 이미지를 인식 할 수있는 AI를 개발하도록 돕고 싶었습니다 첫 번째 단계는 실제 사진으로 분류 된 거대한 공개 데이터 세트를 만드는 것이 었습니다 이렇게하면 전 세계의 컴퓨터 과학자들이 다른 알고리즘을 고안하고 테스트 할 수 있습니다 이 데이터 세트를 ImageNet이라고했습니다 3,300 만 개의 레이블이있는 이미지가 있으며 5,247 개의 중첩 된 명사 범주로 분류됩니다

예를 들어, "개"레이블은 "국내 동물"아래에 중첩되어 있으며 "동물" 데이터를 안정적으로 라벨링하는 데있어서 인간은 최고입니다 그러나 한 사람이이 라벨을 모두 수행 한 경우, 수면 또는 간식은 1 년 이상 걸릴 것입니다! 따라서 ImageNet은 크라우드 소싱을 사용하고 인터넷의 힘을 활용하여 저렴하게 보급했습니다 수천 명의 사람들 사이의 일 데이터가 완성되면 연구원들은 2010 년에 연례 경쟁을 시작하여 이미지 인식에 최고의 솔루션을 제공합니다

토론토 대학교 (University of Toronto)의 대학원생 인 Alex Krizhevsky를 입력하십시오 2012 년에 그는 비슷한 솔루션이지만 신경망을 ImageNet에 적용하기로 결정했습니다 과거에는 성공하지 못했습니다 AlexNet이라고하는 그의 신경망에는이를 차별화하는 몇 가지 혁신이있었습니다 그는 숨겨진 레이어를 많이 사용했는데 잠시 후에 도착할 것입니다

또한 신경망이 수행하는 모든 수학을 처리하기 위해 더 빠른 계산 하드웨어를 사용했습니다 AlexNet은 차기 최고의 접근 방식을 10 % 이상 능가했습니다 20 개의 이미지 중 3 개만 잘못되었습니다 학년으로 볼 때, B는 견고했고 다른 기술은 기음 2012 년 이후, 신경망 솔루션은 연간 경쟁을 극복했으며 결과는 계속 나아지고 있습니다

또한 AlexNet은 신경망에 대한 폭발적인 연구를 시작했습니다 이미지 인식 이상의 많은 것들에 적용됩니다 신경망이 이러한 분류 문제에 어떻게 사용될 수 있는지 이해하기 위해 먼저 아키텍처를 이해합니다 모든 신경망은 입력 레이어, 출력 레이어 및 사이에 숨겨진 레이어 여러 가지 배열이 있지만 클래식 다층 퍼셉트론을 사용합니다 예로서

입력 계층은 신경망이 숫자로 표현 된 데이터를 수신하는 곳입니다 각 입력 뉴런은 데이터의 일부 특성 인 단일 기능을 나타냅니다 이미 많은 숫자에 대해 이야기하고 있다면 기능은 간단합니다 도넛에 설탕 그램처럼 그러나 실제로는 거의 모든 것이 숫자로 변환 될 수 있습니다

소리는 음파의 진폭으로 표현 될 수 있습니다 따라서 각 기능에는 순간의 진폭을 나타내는 숫자가 있습니다 단락의 단어는 각 단어가 몇 번 나타나는지 나타낼 수 있습니다 따라서 각 기능은 한 단어의 빈도를 갖습니다 또는 강아지의 이미지에 라벨을 지정하려는 경우 각 지형지 물은 정보를 나타냅니다

약 픽셀 따라서 회색조 이미지의 경우 각 기능에는 픽셀의 밝기를 나타내는 숫자가 있습니다 입니다 그러나 컬러 이미지의 경우 각 픽셀을 빨간색의 양, 녹색과 파란색으로 결합되어 컴퓨터 화면의 모든 색상을 만들 수 있습니다 지형지 물에 데이터가 있으면 각 계층은 다음 계층의 모든 뉴런에 해당 번호를 보냅니다

숨겨진 레이어라고합니다 그런 다음 각 숨겨진 레이어 뉴런은 얻는 모든 숫자를 수학적으로 결합합니다 목표는 입력 데이터에 특정 구성 요소가 있는지 여부를 측정하는 것입니다 이미지 인식 문제의 경우 이러한 구성 요소는 중앙의 특정 색상, 곡선 일 수 있습니다 상단 또는 이미지에 눈, 귀 또는 털이 포함되어 있는지 여부

이전 에피소드의 간단한 퍼셉트론처럼 각각 예 또는 아니오로 대답하는 대신 숨겨진 레이어의 뉴런은 약간 더 복잡한 수학을 수행하고 숫자를 출력합니다 그런 다음 각 뉴런은 다음 레이어의 모든 뉴런에 번호를 보냅니다 다른 숨겨진 레이어 또는 출력 레이어 일 수 있습니다 출력 레이어는 최종 숨겨진 레이어 출력이 수학적으로 결합되는 곳입니다 문제에 대답하기 위해

이미지를 개로 라벨링하려고한다고 가정 해 보겠습니다 단일 답변을 나타내는 단일 출력 뉴런이있을 수 있습니다 이미지는 개의 이미지입니다 또는 아닙니다 그러나 많은 이미지에 라벨을 붙이는 등의 답변이 많을 경우 많은 출력 뉴런이 필요합니다 각 출력 뉴런은 각 레이블의 확률에 해당합니다 (예 : 개, 자동차, 스파게티 등

그리고 우리는 가장 높은 확률로 답을 선택할 수 있습니다 신경망, 그리고 실제로 모든 AI의 핵심은 수학입니다 그리고 나는 그것을 얻는다 신경망은 일종의 블랙 박스처럼 보이고 수학을하고 답을 내뱉습니다 중간 레이어는 숨겨진 레이어라고도합니다! 그러나 우리는 모범을 통해 일이 일어나고있는 요점을 이해할 수 있습니다

오 존 그린 봇? John Green-bot에게 훈련 된 신경망을 갖춘 프로그램을 제공합시다 회색조 사진에서 개를 인식합니다 이 사진을 먼저 보여 주면 모든 기능에 0과 1 사이의 숫자가 포함됩니다 한 픽셀의 밝기로 그리고이 정보를 숨겨진 레이어로 전달합니다 이제 하나의 숨겨진 레이어 뉴런에 초점을 맞추겠습니다

신경망이 이미 훈련되었으므로이 뉴런은 다음과 같은 수학 공식을 갖습니다 중앙의 특정 곡선과 같이 이미지의 특정 구성 요소를 찾습니다 코 상단의 곡선 이 뉴런이이 특정 모양과 반점에 초점을 둔다면 실제로 신경 쓰지 않을 것입니다 다른 곳에서 일어나고 있습니다 따라서 대부분의 피쳐의 픽셀 값에 0을 곱하거나 칭량합니다 0 여기에서 밝은 픽셀을 찾고 있기 때문에이 픽셀 값에 긍정적 인 무게

그러나이 곡선은 아래의 어두운 부분으로 정의됩니다 뉴런은이 픽셀 값에 음의 가중치를 곱합니다 이 숨겨진 뉴런은 입력 뉴런과 스 퀴시의 모든 가중치 픽셀 값을 추가합니다 결과는 0과 1 사이입니다 마지막 숫자는 기본적으로이 뉴런 사고의 추측을 나타냅니다

개 코라고 불리는 곡선이 이미지에 나타납니다 다른 숨겨진 뉴런은 다른 성분과 같은 다른 성분을 찾고 있습니다 이미지의 다른 부분에서 커브 또는 퍼지 텍스처 이러한 뉴런이 모두 추정치를 다음 숨겨진 레이어로 전달하면 해당 뉴런 더 복잡한 구성 요소를 찾도록 교육받을 수 있습니다 마찬가지로, 하나의 숨겨진 뉴런은 개 코가 될 수있는 모양이 있는지 확인할 수 있습니다

모피 텍스처를 찾은 이전 레이어의 데이터에는 신경 쓰지 않을 것입니다 따라서 0에 가까워 지거나 0에 가까워집니다 그러나“코의 꼭대기”와“하단을 찾은 뉴런에 대해 실제로 신경을 쓸 수 있습니다 코의 "와"콧 구멍 " 그것은 큰 양수로 가중치를 부여합니다

다시, 그것은 이전 레이어 뉴런의 모든 가중치를 합산합니다 값을 0에서 1 사이로 설정하고이 값을 다음 레이어로 전달하십시오 그것은 수학의 요지이지만 우리는 조금 단순화하고 있습니다 신경망은 실제로 "코"와 같은 아이디어를 이해하지 못한다는 것을 아는 것이 중요합니다 또는 "눈꺼풀" 각 뉴런은 주어진 데이터를 계산하고 특정 플래그를 지정합니다 빛과 어둠의 패턴

몇 개의 숨겨진 레이어가 추가되면 하나의 뉴런으로 출력 레이어에 도달합니다! 따라서 이전 레이어의 데이터를 한 번 더 가중 한 후 이 이미지가 개라면 출력 뉴런, 네트워크는 좋은 추정을해야합니다 즉, John Green-bot은 결정을 내려야합니다 John Green-bot : 출력 뉴런 값 : 093 이것이 개일 확률 : 93 %! John Green Bot 안녕하세요! 신경망이 하나의 이미지 만 처리하는 방법을 생각하면 왜 더 명확 해집니다 AI에는 빠른 컴퓨터가 필요합니다

앞에서 언급했듯이 컬러 이미지의 각 픽셀은 3 개의 숫자로 표시됩니다 빨강, 초록, 파랑이 많이 있습니다 따라서 1000 x 1000 픽셀 이미지를 처리하려면 작은 3 x 3 인치입니다 사진, 신경망은 3 백만 가지 기능을 볼 필요가 있습니다! AlexNet은이를 달성하기 위해 6 천만 개 이상의 뉴런이 필요했습니다 계산하는 데 많은 시간이 걸릴 수 있습니다

문제를 해결하기 위해 신경망을 설계 할 때 명심해야 할 사항입니다 사람들은 더 깊은 네트워크 인 더 깊은 네트워크를 사용하는 것에 정말 흥분합니다 숨겨진 레이어, 딥 러닝을 수행합니다 딥 네트워크는 입력 데이터를 더 복잡한 방식으로 결합하여 더 복잡한 구성 요소를 찾을 수 있습니다 까다로운 문제를 해결하십시오

그러나 숨겨진 계층이 많을수록 10 억 개의 계층과 같은 모든 네트워크를 만들 수는 없습니다 더 많은 수학은 우리가 더 빠른 컴퓨터가 필요하다는 것을 의미합니다 또한 네트워크가 깊어 질수록 네트워크가 제공하는 이유를 이해하기가 더 어려워집니다 그것이하는 대답 첫 번째 숨겨진 레이어의 각 뉴런은 입력 데이터의 특정 구성 요소를 찾고 있습니다 그러나 더 깊은 계층에서 이러한 구성 요소는 인간이 묘사하는 방식에서 더 추상적입니다

같은 데이터 자, 이것은 큰 일처럼 보이지는 않지만 신경망이 우리의 대출을 거부하는 데 사용된다면 예를 들어, 우리는 이유를 알고 싶습니다 어떤 기능이 차이를 만들어 냈습니까? 그들은 최종 답변을 어떻게 평가 했습니까? 많은 국가에서 이러한 종류의 결정이 왜 필요한지 이해할 수있는 법적 권리가 있습니다 만들어졌다 그리고 신경망은 우리 삶에 대한 점점 더 많은 결정을 내리는 데 사용되고 있습니다 예를 들어 대부분의 은행은 신경망을 사용하여 사기를 감지하고 방지합니다

자궁 경부암에 대한 Pap 테스트와 같은 많은 암 테스트는 신경망을 사용하여 현미경으로 세포의 이미지, 암의 위험이 있는지 여부를 결정합니다 신경망은 Alexa가 어떤 노래를 연주하고 싶은지 이해하고 Facebook에서 사진 태그를 제안하는 방법 이 모든 일이 어떻게 일어나는지 이해하는 것이 세상에서 인간이되는 데 정말로 중요합니다 지금, 당신은 당신의 자신의 신경 네트워크를 구축할지 여부 그래서 이것은 많은 큰 그림 자료 였지만, 우리가 John Green-bot에게 준 프로그램은 이미 개를 인식하도록 훈련되었습니다 뉴런은 이미 입력에 가중치를 부여하는 알고리즘을 가지고있었습니다

다음에는 신경망에서 사용되는 학습 과정에 대해 이야기하겠습니다 모든 뉴런에 적절한 가중치를 부여하고 왜 제대로 작동하기 위해 많은 데이터가 필요한지 Crash Course Ai는 PBS Digital Studios와 연계하여 제작됩니다 모든 크래시 코스를 모든 사람에게 무료로 제공하려면 영원히 참여하십시오 Patreon의 커뮤니티

신경망 뒤의 수학에 대해 더 자세히 알고 싶다면이 비디오를 확인하십시오 충돌 코스 통계에서 그들에 대해

Learn Deep Learning with Python, Keras and TensorFlow with Applications of Deep Neural Networks.

깊은 신경 네트워크를 환상적인 기술로 만드는 것은 그들은 거의 모든 형식으로 입력을 받아 들일 수 있습니다 그들은 표 형식의 데이터를 취할 수 있으며, 이미지, 텍스트 및 심지어 오디오까지

그런 다음이 정보를 처리하고 그런 종류의 수학적 마술은 결정이나 숫자를 출력합니다 등급을 부여하지만 동일한 유형의 데이터를 많이 출력 할 수도 있습니다 표 형식의 데이터, 이미지, 텍스트 또는 오디오를 출력 할 수 있습니다 내 수업에서는 응용 프로그램 딥 뉴럴 네트워크 (Deep Neural Networks)에 대해,이 신경망을 일상적인 문제 Jupyter Notebooks를 사용하여이 코스의 모든 것을 가르칩니다

및 Python 보시다시피, 코드와 정보를 섞어 볼 수 있습니다 내 과정에서 귀하의 프로그램에서 실제 결과를 볼 수 있습니다 그들 이제 비디오 게임을 만드는 응용 프로그램 중 일부는 비디오가 필요합니다

그래서, 우리는 그것들을 실제로 Jupyter 바깥에서 움직일 것입니다 노트북과 파이썬에서 직접 모든 것은 양립성이 보장된다 Google CoLab을 사용하면 필요에 따라 무료 GPU로 실행할 수 있습니다 GPU, 나를 믿으십시오, 당신의 훈련 시간에 시간을 절약 할 수 있습니다

나는 너에게 많은 것을 보여주지 그래픽 및 기타 멋진 것들을이 비디오에서 볼 수 있습니다 모든 것은 우리가 비디오 마술이 없도록 수업을 들으십시오 자, 나를 넣어 조금은 필요가있다 녹색 화면 마술의,하지만 신경 네트워크는 그런 처리가 필요해 날 믿어 멋지게 보입니다

GAN은 우리가 살펴볼 신경 네트워크의 한 유형입니다 이번 코스 GAN은 Generative Adversarial Neural Network의 약자입니다 GAN은 일반적으로 얼굴을 생성하는 데 사용되지만, 그들이 훈련받은 "가짜 데이터" GAN은 두 개의 신경망을 가짐으로써 작동합니다

그만큼 첫 번째 신경 네트워크는 발전기입니다 본질적으로 난수와 얼굴을 생성합니다 두 번째 신경망은 판별 자입니다 그것 본질적으로 발전기가 정확한 얼굴을 생산하는지 여부를 알려줍니다 이 두 사람 적대적 전쟁을 앞뒤로하고왔다

(충돌) 일단 그들이 당신을 끝내면 정말 다른 난수를 많이 가질 수있는 제너레이터가 있어야합니다 꽤 현실적인 얼굴을 계속 생성합니다 보강 학습, 특히 깊은 학습을 통해 적용하면 매우 강력합니다 Google AlphaZero가 Stockfish를 이기고 본질적으로 마스터가되는 기술 짧은 시간에 모든 체스 이 과정에서 우리는 인공 지능 체육관을 사용하고 배울 수있는 보강 프로그램을 만드는 아타리 비디오 게임 실제 비디오 이미지를보고이 게임을하는 법 게임에서 그리고 어떤 경우에는 실제 비디오 게임의 RAM 상태에서 진행됩니다

앉아라 앉아라 누가 착한 소년이야 히코리 강화 학습을 사용할 때 애완 동물을 훈련하는 것처럼 좋은 일을하거나 뭔가를하는 신경망에 대한 보상 그것은 유리한 결과로 이어집니다

신경망도 매우 훌륭합니다 광고를위한 잠재 의식 메시지를 생성 좋아, 잘 시도해 죄송합니다

신경망이 모든 유형의 입력을 받아 들일 수 있다고 말했던 때를 기억하십니까? 글쎄요 그들은 동시에 여러 유형의 입력을 수용 할 수 있습니다 이것은 어떻게 이미지 캡션이 작동합니다 글을 쓸 수있는 신경망을 만들려면 이미지 캡션, 당신이 할 일은 두 가지를 수용하는 신경망을 만드는 것입니다 서로 다른 유형의 입력, 사진, 그리고 그 순서가 그 순서입니다

끊임없이 성장하는 단어들의 집합 먼저 빈 배열로 전달하면됩니다 토큰을 시작한 다음 그림이 무엇인지 설명하는 단어를 추가합니다 되려고 요로, "너는 한번만 봐

" 이것은 당신이 볼 수있는 놀라운 기술입니다 주위를 도망 다니고 있어요 그것은 객체, 여러 객체를 분류하고 그것을하고 있습니다 매우 효율적입니다 한 번만보아야하기 때문입니다

우리는 당신이 어떻게 할 수 있는지 보게 될 것입니다 이 기술을 파이썬 프로그램으로 옮기고 실제 좌표 및 분류에 대한 정보를 제공합니다 요로 수 있습니다 어리석은, 여기 내 강아지와 박제의 차이를 말할 수 없다 동물 광고판을 말하는 데 어려움이 있습니다

사람들이 그것에 대해 생각하고 그들이 사람들이라고 생각하는 것들 이 간판 그것이 자기가 생각하는자가 운전 차에 관해서는 매우 넓어지기 그러나 기다려라 더있다 이 동영상은 이 코스의 하이라이트 만 보여줄 수 있습니다

전체 목록은 다음과 같습니다 우리가 다루는 다른 주제에 대해서도 설명합니다 이 비디오를 시청 해 주셔서 감사 드리며,이 코스에 대해 질문이 있으시면 그냥 코멘트에 뭔가를 남겨주세요 이 채널을 구독하여 이 코스에 새로운 비디오가 추가 될 때마다 업데이트됩니다 모든 정보 재생 목록 및 GitHub에서 사용할 수 있습니다

Build a Neural Net in 4 Minutes

전세계 여러분, Sirajology에 오신 것을 환영합니다 오늘, 우리는 뉴럴 네트워크(신경회로망)을 4분안에 만들거야 시작해 볼까요! 머신러닝 모델은 종류가 아주 다양합니다

그 중 뉴럴 네트워크가 최근 아주 유명하게 된 이유는, 빨라진 컴퓨터와 더 많아진 데이터 두가지 때문입니다 뉴럴 네트워크는 이미지 인식에서 랩 창작과 같은 거의 모든 영역에서 놀라운 결과물을 만들고 있습니다 머신러닝을 하려면 3단계만 기억하시면 됩니다 모델 만들기 훈련하기 테스트하기 우리가 모델을 만들고 나면, 우리의 입력과 출력에 맞춰 더 뛰어나고, 더 인지능력이 있도록 그 모델을 훈련시킬 수 있습니다 자, 모델을 만들어 볼까요 파이썬에서 세 개의 레이어 뉴럴 네트워크를 만들어 보겠습니다

파이썬에서 과학적 계산을 할 수 있는 NumPy 모듈을 import 해보도록 하죠 그런 다음, 우리는 0과 1사이의 어떤값이든 매핑하는 함수를 만들겁니다 이 함수는 시그모이드(sigmoid)라고 불립니다 이 함수는 데이타가 뉴런 네트워크를 지날때마다 실행됩니다 이 함수는 숫자(입력)으로 부터 확률을 생성할때 유용합니다

방금 시그모이드(sigmoid) 함수를 만들었습니다 입력 데이터들을 매트릭스(행렬) 형태로 초기화 합시다 각 행은 다른 훈련 샘플입니다 각 열은 다른 뉴런을 나타냅니다 그래서 우리는 4개의 훈련 샘플과 3개의 입력 뉴런을 그리고 우리는 우리의 출력 데이터 세트 만듭니다

4개의 샘플에 각 한 개의 출력 뉴런(신경)을 가지게 됩니다 랜덤하게 숫자를 만들 예정이기 때문에, 신경회로망에 구성할 수 있도록 값을 만들었습니다 이것은 그저 임의의 숫자들을 의미하고, 동일한 시작점을 생성, 전달하여 프로그램을 실행할 때마다, 동일한 순서로 임의로 생성된 숫자를 얻을 수 있을 것이다 이는 디버깅에 유용합니다 다음으로, 시냅스 행렬을 만들겠습니다

시냅스는 뉴런과 뉴런이 만나게 되는 연결 부위 입니다 (정확히는 하나의 뉴런과 여러개의 다음 뉴런과 만나는 부위) 시냅스는 뉴런과 뉴런이 만나게 되는 연결 부위 입니다 (정확히는 하나의 뉴런과 여러개의 다음 뉴런과 만나는 부위) 우리는 우리의 신경회로에서 3개의 layer를 가지게 되므로, 2개의 시냅스 행렬이 필요합니다 각 시냅스는 임의의 가중치가 할당됩니다

그 다음에, 훈련 코드를 시작하겠습니다 주어진 데이터로 신경회로를 최적화 하기 위해 for-loop로 훈련 데이트를 반복할 수 있도록 코드 만들겠습니다 첫번째 레이어를 만들어 보겠습니다 그것은 단지 우리의 입력 데이터입니다 예측 단계를 만들어 보겠습니다

각 layer와 시냅스간에 행렬 곱셈을 수행합니다 곱해진 행렬값을 시그모이드(sigmoid) 함수를 수행해서 다음 layer 값을 구합니다 곱해진 행렬값을 시그모이드(sigmoid) 함수를 수행해서 다음 layer 값을 구합니다 다음 layer는 출력 데이터의 예측합니다 그 다음 더 정교해진 예측 layer를 구하기 위해 같은 방법을 적용합니다 그 다음 더 정교해진 예측 layer를 구하기 위해 같은 방법을 적용합니다

여기까지, 두번째 layer까지 출력 값을 예측했습니다 예상되는 출력 data와 예상한 값의 차이를 비교해보겠습니다 평균 에러가 매 계산마다 줄어들수 있도록 값을 출력해보겠습니다 다음으로, 우리는 우리의 에러률에 우리의 시그모이드(sigmoid) 기능의 결과를 곱할 것입니다 이 함수는 두개의 layer로 부터 출력 예측값의 미분을 얻는 데 사용됩니다

이 함수는 두개의 layer로 부터 출력 예측값의 미분을 얻는 데 사용됩니다 이 값은 시냅스 값을 매번(every iteration) 업데이트 할때마다, 예측값의 에러율을 줄일수 잇는 델타 값을 제공합니다 그 다음으로 우리는 첫번째 layer가 얼마나 두번째 layer의 에러와 연관이 있는지 보겠습니다 그 다음으로 우리는 첫번째 layer가 얼마나 두번째 layer의 에러와 연관이 있는지 보겠습니다 이 방법을 역전파법(back propagation) 이라고 합니다 우리는 두번째 layer의 델타값(l2_delta)을 시냅스 전치행렬(syn1

T) 값과 곱하면서 이 에러를 구할 수 있습니다 우리는 두번째 layer의 델타값(l2_delta)을 시냅스 전치행렬(syn1T) 값과 곱하면서 이 에러를 구할 수 있습니다 그리고 나서 첫번째 layer의 델타값을 구하기 위해 시그모이드 함수값과 에러값(l1_error)을 곱합니다 그리고 나서 첫번째 layer의 델타값을 구하기 위해 시그모이드 함수값과 에러값(l1_error)을 곱합니다 이 함수는 첫번째 layer의 미분을 구하기 위해 사용합니다

우리는 각 레이어의 deltas를 가지고, 시냅스의 가중치를 변경해서 에러가 매 반복시 마다 줄어들 수 있도록 하겠습니다 이 방법은 그래디언트 디센트(gradient descent) 방법이라고 합니다 그래디언트 디센트를 적용하기 위해, 우리는 단지 각 layer와 delta를 곱합니다 마지막으로 예측된출력값을 print 하도록 하겠습니다 다 되었네요 터미널에서 실행해서 어떤 값이 나오는지 보겠습니다 멋지네요, 우리는 에러률이 반복해가면서(iteration) 줄어드는 것을 볼 수 있네요 예측된 출력값은 실제 출력값과 아주 아주 근접합니다 뉴럴 네트워크를 향상시키기 위해 우리가 할 수 있는게 정말 많습니다 자세한 내용은 아래의 링크 확인을 하시길 바랍니다

더 많은 기술 동영상을 보고 싶다면, 구독하십시오 시청 주셔서 감사합니다

machine learning .p18 -XNOR and XOR functions using neural net. [Hindi]

안녕하세요 괴짜, 다시 환영합니다 우리는 마지막 비디오에서 피드 앞으로 신경 네트워크를 보았다

이 비디오에서는 XOR과 XNOR의 구현을 보게됩니다 신경망을 이용한 논리 함수 사실,이 예제는 꽤 대중적이고 이해하기 쉽습니다 그래서 우리는 신경망의 기본을 이해하기 위해이 함수들을 사용할 것입니다 더 나아 가기 전에 XOR의 작동 방식을 보여줍니다 as, 당신은 여기에서 볼 수있다

입력이 0과 0 인 경우 출력은 0이됩니다 및 0 & 1은 출력이 1이됨을 의미합니다 입력 1과 0에 대해서도 동일합니다 입력이 1과 1이면 출력은 0이됩니다 두 입력이 같으면 다음을 의미합니다

출력은 0이 될 것이다 (0 & 0) 및 (1 & 1) 입력이 다른 경우 출력은 1이됩니다 XNOR는 간단합니다 XOR 부정 즉, XNOR의 출력은 1이됩니다 XOR의 출력이 0 인 경우 마찬가지로 XOR이 0 일 때 XNOR의 출력은 1이됩니다

이것이 우리의 시그 모이 드 함수입니다 모든 뉴런에서이 함수를 사용할 것입니다 우리는 이미이 문제에 대해 논의했습니다 시그 모이 드는 기본적으로 확률로 변환된다 또는 구체적으로, 진짜 번호

0과 1 사이 이것은 시그 모이 드 함수의 공식입니다 자세히 보아라 당신은 그 사실을 알게 될 것이다 함수는 항상 1이됩니다 아니

5보다 크거나 같음 마찬가지로, 함수는 항상 0이됩니다 아니 -5 이하 (마이너스) 네가 알기를 바란다 논리 OR 논리적 AND 및 LOgical NOT 작동 좀 더 기본적인 신경망을 보자 XOR과 XNOR 전에

논리 AND와 동일 이 신경망에서, 이들은 두 개의 입력 x1과 x2입니다 이것은 바이어스 (Bias) 용어이며, 이것은 논리 연산의 진리표입니다 x1은 0이고 x2는 0이라고 말할 수 있습니다 우리는 20과 20을 그에 맞게 곱할 것입니다 바이어스 요소 추가 -30 (마이너스 30) Sigmoid 함수에 -30을 공급하면 결과는 0이됩니다

이제이 신경망을 확인하십시오 여기서 가중치와 편향은 다릅니다 그 결과는 다를 것입니다 x1이 1과 같다고 생각해 보라 x2는 1과 같습니다

이제이 nos에 각각 20와 20을 곱하십시오 10 바이어스를 추가하십시오 이 경우 최종 출력 하나가 될 것입니다 진리 표에서 볼 수 있듯이 논리 OR 기능 하나는 결과 하나를 제공합니다

논리 OR 부정 및 ((NOT x1) AND (NOT x2)) Demorgan의 법칙 때문에 둘 다 동일합니다 나는 너는 이미 공부했다고 확신한다 너는 이것을 확인할 수있다 x1 = 1, x2 = 0이라고 가정하자 1에 -20을 곱합니다

마찬가지로 0에 -20을 곱합니다 이 가중치 때문에 -20 및 -20 을 더한 10, 우리의 편견 용어입니다 과 우리는 이것을 해결 한 후에 -10을 얻을 것입니다

그런 다음 시그 모이 드 함수에 -10을 전달합니다 나는 이미 그것을 논의했다 시그 모이 드 함수는 1에 가까움 +5보다 크거나 같은 nos 함수는 -5보다 작은 nos에 대해 0이됩니다

여기 값은 -10입니다 그래서, 대답은 0이 될 것입니다 자, 마지막 단계는 내가 너에게 말해 줄께 XOR과 XNOR는 다음으로 계산할 수 없습니다 숨겨진 레이어가없는 신경망 논리적 OR, 논리적 AND 및 논리적 부정 또는 그것은 약간 복잡한 함수이기 때문에 그래서 우리는 최소한 하나의 숨겨진 레이어가 필요합니다

이 기능을 배우기 이 이미지를 확인해보십시오 이 뉴런과이 화살표들은 AND 함수 이 뉴런과이 화살 시안 색은 ((NOT x1) AND (NOT x2)) 함수입니다 이 뉴런과이 화살 녹색으로 실제로 OR 기능입니다 내가 마지막 비디오에서 이미 말했듯이 이것은 우리의 입력 레이어입니다 이것이 우리의 것이면 출력 레이어, 그런 다음 중간에 레이어, 입력 층 또는 출력 층이 아닌 우리는 그것들을 숨겨진 층이라고 부릅니다

논리 AND의 숨겨진 레이어를 만들면 논리 부정 또는 OR 논리 OR의 출력 계층 입력 레이어 유지 그러면 우리는 원하는 결과를 얻을 것이다 너는 그것을 확인할 수있다 x1 = 0, x2 = 1이라고하자 그렇다면, XOR의 결과는 1이어야한다 하지만 우리는 XNOR를 계산하고 있으므로 결과는 0이되어야합니다

0에 20을 더한 다음 1에 20을 곱한 값 우리는 입력 변수에 대해 AND 연산을 수행하고 있습니다 20 및 20 더하기 -30, 결과는 -10 그런 다음 시그 모이 드 함수를 적용합니다 첫 번째 활성화 뉴런에 대한 결과는 0입니다 마찬가지로 0에 -20을 곱합니다 1에 -20을 곱합니다

우리 편견 기간은 10입니다 중간 결과는 -10이다 과 최종 출력은 0이됩니다 시그 모이 드 함수를 통과 한 후 즉, 제 2 활성화 뉴런의 입력은 제로이다 이제 우리는 0과 0을가집니다 두 뉴런에서 우리는 각각 20과 20을 곱하려고합니다

그런 다음 마이너스 10을 더합니다 결과를 볼 수 있듯이 이전과 비슷하다 우리의 최종 결과는 0입니다

machine learning .p13 -What is Neural network . [Hindi]

우리는 알고리즘과 같은 많은 것들을 수행했습니다 작은 프로젝트와 Kaggle의 큰 프로젝트입니다

우리는이 비디오에서 신경 네트워크에 대해 이야기 할 것입니다 컴퓨터 학습 튜토리얼 시리즈 13 번째 비디오를 다시 환영합니다 인공 신경망에 대해 이미 들었을 것입니다 생물학적 신경망과 닮았 기 때문에 인기가 많습니다 이 비디오에서, 그것의 역사 또는 우리의 두뇌는 어떻게 작동합니까? 또는 구체적으로 어떻게 생물학적 신경망이 작동하는지 또는 수상 돌기 (dendrites) 등입니까? 우리는 모든 것을 논의하지 않을 것입니다

위키 정의로 시작하자 인공 신경 네트워크 란 무엇인가? 나는 위키 피 디아가 인터넷을 통해 확실한 근원이라고 믿는다 정의의 경우, 나는 위키 피 디아를 구글보다 더 신뢰한다 뉴럴 네트워크는 현대 감각의 뉴런 네트워크 또는 회로 다 인공 신경 네트워크 인공 뉴런 또는 노드로 구성된 그것의 응용 프로그램의 주요 이유는 인기입니다 무수한 응용 프로그램으로 마법의 블랙 박스가됩니다

atleast, 나는 그런 식으로 생각하곤했다 하지만 날 믿어, 이건 순수 수학 그리고 나중에 비디오에서 이걸 증명할거야 딥 학습 (Deep Learning)은 AI의 주요 분야 중 하나이며 여기에있는 모든 것에 신경 네트워크를 사용합니다 곧, 우리는 심층 학습 시리즈를 시작할 것인데, 여기서 우리는 이미지 분류, 얼굴 탐지 물체 감지 등 이 동영상 용입니다 유용하다고 판단되면 동영상을 좋아해주세요

내 채널에 처음 오신 분은 구독하십시오 아래 코멘트란에 질문을 적어주세요 친구와 공유하는 것을 잊지 마세요 내 다음 비디오에서 보자 보고 주셔서 감사합니다

Advanced Machine Learning Day 3: Neural Architecture Search

>> 좋은 아침입니다 이 수업에 참여해 주셔서 감사합니다

내 이름은 Debadeepta Dey입니다 나는 MSR의 연구원이며 내 배경은 실제로는 로보틱스 강화 학습 기계 일반적으로 학습합니다 오늘, 나는 얘기하고있을거야 당신에게 무엇에 대한 간단한 개요를 주려고 신경망을위한 AutoML의 최첨단 기술입니다 자동 신경망 검색 그리고 나는 이 훨씬 더 비공식적 인 토론 중심, 부담없이 질문하십시오

이것은 분명히 내가주는 이야기 일 뿐이라고 생각하지 않습니다 이것은 훨씬 더 교실 스타일로되어 있습니다 그러면 잘하면 우리는 모두 배울 수 있고 또한 당신이 볼 수 있듯이 이것은 꽤 뜨거운 주제입니다 많은 열린 문제가있다 그리고 이것은 또한 매우 그들은 Microsoft와 확실히 관련이있는 Beck 회사입니다

우리는 Azure ML을 가지고 있기 때문에 우리는 AutoML 오퍼링을 갖고 싶습니다 또한 잠재적으로 우리에게 많은 수익을 창출하게 만듭니다 그래서, 내가 시작하기 전에, 하지만 훨씬 더 많은 사람들이 적어도 한 명 당 손의 쇼로서의 수업은 편안하게 할 것입니다 길쌈 신경 네트워크 (convolutional neural networks)는 재발 성 신경 네트워크 (recurrent neural network)이다 당신이 그것을 사용했거나 들었습니다

그것에 대해 또는 적어도 아주 기본적인 수준을 이해, 하나, 좋아 좋아 어쩌면 너는 어떤 사람과 놀지 않았을거야 텐서 유동관에서 CNTK et cetera, good 얼마나 많은 사람들이 당신이 편안하다고 말합니까? MDP와 같은 용어로, 폭탄 DP, 숨겨진 마르코프 모델

기본적인 자기 보강 학습을하자 정책 그라디언트 방법, 보강, 알았어 내가 묻는 이유는 강화 학습이 꽤 많이 사용되기 때문에 당신이 오늘 건너 올 것 인 서류의 많은 작은 조각 적어도 Neural Architecture 연구 논문에서 적어도 이해하는 것이 중요합니다

의 기본 자체 정책 기울기 방법 무엇을 감사하기 위해서 그 논문들은하고 있으며 궁극적으로 우리는 그렇게 할 것입니다 내가 그 사건을 만들거야, RL은 최고의 타자가 될 수 없습니다 많은 신경 디자인에도 불구하고 네가 원하는 문학 검색을하면 찾으십시오 최신 결과는 모두 실제로 그렇지 않은지 확인합니다 매우 놀랍지 만 때로는 그것이 지역 사회가 움직이는 방법입니다

우리에게는 집단적인 DNA와 기억이 있습니다 그래서 신경 건축물 검색을 공식화하는 것입니다 예를 들어, DenseNet의 아키텍처를 보여주는 표입니다 이제 DenseNet은 얼마나 많은 사람들이 DenseNet이 무엇인지 압니까? 괜찮아 그래서 ResNet? 좋아, 훨씬 더 많은 사람들

좋아, 좋아 그래서 ResNet과 DenseNet은 그다지 다르지 않으므로 ResNet, 3 ~ 4 년 전 MSR 문제에서 나왔다 확실히 훌륭한 건축물을 가지고있다 그러나 기본적인 생각은, 헤이 연결 및 능력을 건너 뜁니다 정체성을 예측하는 것은 좋은 생각입니다

그래서, ResNet 보이는, 내가이 부분을 사용하는 것을 보자 이사회의 이사회는 DICE에 의해 방해 될 것입니다 그래서 몇 개의 레이어가 있다고 가정 해 봅시다 입력 이미지 또는 무엇인가 어떤 입력 X는 가장자리의 중심을 말하며, 보통 길쌈 신경 네트워크 이것은 표준 피드 전달 네트워크입니다 이러한 것들은 길쌈 (convolutional), 풀링 (pooling)과 같을 수 있습니다

Max-pooling, Average pooling 같이 그런 다음 때로는 거기에 같은 우리가 원하기 때문에 다운 샘플링은 일반적으로 풀링을 수행하지만, 때때로 우리는 가질 것이다 차원 감소 조작과 유사합니다 ResNet이 말한 것과 똑같은 반복과 반복, "이봐,이 연결을 건너 뛰는 것이 좋다" 왜? 네트워크가 허용되기 때문에 자체 용량을 선택하는 것 왜냐하면 네트워크가 실현된다면 실제로이 레이어가 필요하지 않기 때문입니다

우리는 이것을 완전히 우회 할 수 있습니다 매우 작은 가중치가 0의 비율 인 것처럼 거의 배우십시오 거기서 정체성을 배우고 당신은 많은 유연성을 가질 수 있습니다 그런 다음 DenseNet이 나왔습니다 CVPR 2017 너는 무엇 대신에 연결 왜 모든 레이어를 연결하지, 연결되는 대신에 모든 것을 그것 앞에있는 것, 전에 모든 걸 연결시켜 줘

그래서,이 남자는 다음과 같이 연결됩니다 이것은 이것에 연결하는 것을 묘사하는 것과 마찬가지로, 이것과 이것 등등 이것이 DenseNet이 한 일입니다 그게 바로 그 다음에 정말 훌륭한 결과를 보여주기 때문입니다 하지만 당신이 갖고 싶어하는 것이 필요합니다

이런 종류의 네트워크로 많은 일을 해냈습니다 그런 다음 왜 그런지 생각하면 그들이 옳다고 생각하는 구체적인 수치 왜이 조밀 한 블록 출력면은 일곱 번 십자가일까요? 누가 할 수있는 가장 좋은 일은이 조밀 한 블록에 있어야한다는 것입니다 네 번째 Dense 블록에는 16 개의 레이어가 있어야합니다 그런 다음 DenseNet 169에서 32 개 레이어 등이됩니다 뉴욕에있는 MSR을 방문했을 때 이걸 가지고 있었는데, 나는 요한과 이야기하고 있었다

존 랭 포드와 존 랭 포드는 이론적 인 많은 ML도 있습니다 존, 우리가 말한이 블록을 봤어 너는 실제로 생각하기 시작 했어 AutoML에 대해서 그리고 올해는 4 월입니다 그리고 요한은 어떻게 이런 생각을하게 될지 전혀 모릅니다

나는 이것도 생각할 수 없을 것이다 왜 그런가요? 순서대로이 특정 세트는 훌륭한 결과를 제공합니다 내가 아는 것처럼 내가 읽을 수있을거야 어떻게 든 ResNet이 실제로 작동한다는 것을 발견했습니다 전에 온 것들과는 반대로 VGG, AlexNet 등의 ResNet

그래서 우리는 모든 것을 모든 것이 그 것이었다 그러나, 그것은 보였다 그리고 우리는 단지 일을했다 그것이 실제로 수행 한 것을 발견했다 그러나 그것은 매우 만족스럽지 않은 것처럼 보입니다

내가 새 데이터 세트를 줄 경우 상상력이 아닌 이미지가 아닌, MS coco 데이터 세트 및 많은 사람들이 프로덕션 환경에서 작업합니다 귀하의 데이터 세트는 고객이 고유 한 데이터 세트 또는 데이터 세트를 소유하고있어 제품의 부작용으로 만남 우리가 작업하는 표준 데이터 세트가 아닌 학계 비전 기계 학습 커뮤니티 또는 연설 언어 커뮤니티는 표준 데이터 세트를 그들은 해킹하고있다 그래서, 당신은 소비하지 않고 싶습니다 직감을 얻는 10 년 신경망 구조에서 위대한 것을 생각해 내야한다 최신의 예술 공연 너 자신의 신경 구조

그것은 단지 현장 진보를위한 올바른 방법이 아니라는 점을 불만스럽게 생각합니다 이상적으로, 우리는 단지 자동으로 일을하고 싶습니다 나는 꿈처럼 할 수 있어야한다 내가 ImageNet을 생각해 냈다고 가정 해 봅시다 ImageNet 또는 당신이 걱정하는 몇 가지 큰 데이터 세트

당신은 그냥 Azure라고 말하면서 그것을 던지고 싶습니다 이틀 후에 다시 오면 우리가 너를 줄거야 최첨단 아키텍처 옳은가? 아니면 심지어 2 일 만에, 언젠가는 내가 좋아하는 것처럼, 아니면 어쩌면 당신이 예산을 책정했는지, 나는 1 만 달러를 들여 보낼 의향이있다 이 데이터는 나 또는 내 고객에게 매우 중요한 데이터 세트입니다

유효성 검증시 최상의 성능을 원합니다 또는 보류 아웃 테스트는 한 번에 $ 10,000이 부족합니다 사실 현재 경쟁중인 대회가 있습니다 단순한 모델과 같은 실행 최고의 아키텍처가 무엇인지, 또는 100 달러짜리 Cloud Compute에서 얼마나 잘 할 수 있습니다 당신이 이것이 매우 중요한 문제라고 상상할 수 있듯이, 대다수의 세계가 박사 학위를 신경 쓰지 마라

아키텍처 해킹 또는 같이 보냈다하지 않았습니다 네가 원한다면 10 년 동안 많은 직감을 세워라 진정으로 민주화 할 수 있기 위해서 이 모든 것 또한 좋은 원리를 찾는다 그 테이블이 어떨까요? 손으로 직접 작성하지 않고 생성 된 매우 비효율적 인 것처럼 보입니다 그래서이 분야 또는 하위 주제가 아주 중요하고 어떻게 보여줄지 중요하고 힘든 일이되었습니다

나는 너에게 보여줄거야 이 웹 페이지는 Frank Carter와 그의 그룹이 관리했습니다 이것은 아주 좋은 웹 사이트입니다 당신이 AutoML을 계속 사용하고 싶다면, AutoMLorg, 그들은 훌륭한 일을하고 있습니다

그래서, 다음의 목록입니다 신경 건축술 검색과 관련된 논문, 그리고이 사람들은 단지 많은 일을하고 있습니다 아카이브에 올라 오는 모든 종이를 컴파일하십시오 모든 종이가 아닌 모든 종이 좋은 품질의 제품으로 그 논문들은 다른 논문들보다 훨씬 심각합니다 이 설문 조사를 읽는 것이 좋습니다

나는 그것을 슬라이드에 넣을 것이다 얻을 수있는 좋은 방법입니다 실제로 일어나는 일에 대한 간단한 소개 희망을 갖고, 우리는이 수업에서도 많은 것을 빼앗아 갈 것입니다 하지만, 내가 벗어나길 바란다는 것은, 이 설문 조사는 8 월에 나 왔으며 우리는 10 월 중순과 같습니다

이미 3 개의 논문이 더 있습니다 2018 년에이 목록을 보면, 올해의 첫 10 개월 동안처럼 그리고이 목록은 계속해서 반복됩니다 어디 보자 예, 여기서 끝납니다 권리

그래서, 2018 년에, 신경 건축술 수색은 진짜로 벗고 실제로, 2017 년을 보면, 2017 년은 크지 만 2018 년만큼 크지는 않다 2016 년은 훨씬 작아지고 2015 년은 명백하게, 단지 두 개의 서류 만있었습니다 권리 그럼 2012 년 전에 아무 일도 없었어 그때 그리고 2009 년, 2008 년 등등

권리 그래서 2018 년은 신경 건축술 검색의 해 헤이, 놀랍지도 않아! 우리는 실제로 실제로하기 시작했습니다 많은 작업을 개별적으로 우리의 개인적인 경험과 연구원 및 엔지니어의 전문 지식과 군대 그래서 이것을 자동화하는 큰 노력이 있습니다 커서를 다시 가져올 수 있는지 봅시다

알았다 예, 전체 목록을 읽지 않으려면, 하지 말아야 할 것은, 설문 기사를 읽으십시오 그것은 매우 잘 쓰여졌 고 나는 그것을 강력하게 추천한다 그래서 우리가 가서 다이빙하기 전에, 저는 오늘 4 ~ 5 종이에 대해 이야기 할 것입니다 대표적인 것들이며 거의 모든 분야에서 일어나는 것처럼, 이 기술들 중 많은 것들은 Epsilen 같은 신문에서 차이점, 오! 나는이 방법으로이 다른 종이를 왜곡했다

그것은 그렇게하고 그것을 이렇게합니다 그들은 여기 저기에 약간의 이익을 준다는 것을 알게 될 것입니다 그래서,이 수업에서 내가하려고 한 것은 실제로 선택입니다 다른 기술과 같은 4 개의 논문 그들을 다른 기술의 주축으로 생각하십시오

그 중 두 명이 사용할 것입니다 정책 그라디언트 방법을 사용하고 나머지는 그렇지 않습니다 그렇다면 다른 세 사람은 그렇지 않습니다 그러나 처음으로 정말 심각한 논문들, 그들 모두는 사실 Google에서 왔습니다 [들리지 않는] 그룹과 누가 이것을 시도했는지 2016 년 이후에 그들은 모두 강화 학습을 사용했습니다

그들 중 일부는 또한 진화론 적 탐색을 사용했다 그래서, 아주 빠른 프라이머를 주자 내가 정말로 강화 학습을 의미하는 것에 관해서, 이것은이 수업과 관련이 있습니다 분명히 강화 학습은 그 자체의 주제입니다 사람들은 일생 동안 연구를하고 있습니다

그래서, 나는 커버 할 수 없을거야 내가 이것을 위해 예약 한 거의 15 분 안에 무엇이든, 그러나 나는 당신에게 충분한 배경을주고 싶다 너는 왜 감사 할 수 있니? 기술이되는 기술, 왜 그들이 선택 되었는가? 왜 그들이 최고가 아니거나 어쩌면 최고일지도 모르는 경우에, 우리는 올바른 공식을 얻지 못했습니다 그러나 모든 초기 결과, 심각한 결과는 Model-Free RA를 사용한 결과입니다 괜찮아

그래서, 우리는 할 것입니다 내가 가지고있는 슬라이드로 빠르게 빠져 나간다 어디 보자 이 전체 화면보기를 만드는 방법이 있다고 생각합니다 완전한

그래서, 이것은 내 대학원생 시절의 나의 친구입니다 그는 정말 좋은 강의를합니다 그래서 나는 그의 슬라이드를 훔 쳤어 그러나 모든 일은 제프에 의해 이루어졌습니다 이 슬라이드의 경우 아마있는 사람들처럼 들었을거야

강화 학습에 대해 최소한의 마르코프 결정 과정과 같은 폭풍의 계획 권리 그래서 마르코프는 정말로 러시아 수학자였습니다 많이 공식화 된 그 기초가되는 강화 학습은 기반으로하고 계획 방법은 기반으로합니다 마르코프 체인이란 무엇입니까? 권리

그래서 이것들은 매우 간단한 구조입니다 그러나 그들은 매우 강력합니다 따라서 마르코프 체인은 유한 상태의 이산 상태를 가지고 있습니다 이 간단한 예에서, 당신은 S1에 있고 S2는 오직 당신의 유일한 두 상태입니다 우리는 당신이 생각할 수있는 확률 적 전환을 가지고 있습니다

결정 론적 천이의보다 일반적인 형태 예를 들어, 내가 S1에 있다면, 그 다음으로 확률 09로, 나는 확률 01로 자연스럽게 S2로 옮길 것이다 나는 S1에 남아 있고 S2와 마찬가지로 0

8 점을 가지고있다 나는 S1에 가서 S2에 남아 있을지 모른다 권리 그러면이 Markov 속성은 다음과 같습니다 너에게 알리기 위해 주문해라

당신이 다른 어떤 주에서 끝날 가능성은 얼마입니까? 당신이 알아야 할 것은 당신이 현재 어떤 상태에 있는지입니다 맞습니다 이전 주에 대한 기록을 알 필요가 없습니다 이전에 S1이나 S2에서 보낸 시간은 중요하지 않습니다 당신이 지금 어떤 상태인지 아는 한, S1 또는 S2 중 어느 하나 인, 그것은 기회를 완전히 결정한다

당신이 다음에있을 곳의 맞습니다 그리고 종종 Markov 속성으로 불립니다 세상의 많은 것들이 마르코 비안입니다 예를 들어, 날씨는 Markovian이 아니며, 우리 주식 시장은 확실히 Markovian이 아닙니다 네가 아는 것처럼 오늘 주가가 알려주지 않는다

내일은 주식 가격에 관한 모든 것 실제로 좋은 모델링을 할 수있는 기회를 가지려면, 당신은 역사와 아마 더 많은 정보를 알고 싶습니다 권리 날씨와 비슷합니다 그러나 많은 것들이 마르코프 추정치가 보유하고있는 정말 효율적인 알고리즘을 인정합니다

그리고 숨겨진 마르코프 모델이라는 것이 있습니다 숨겨진 마르코프 모델은 마르코프 체인과 정확히 똑같습니다 당신이 어떤 상태에 있는지 모르는 것을 제외하고는, 국가가 너에게서 숨겨지는 것처럼 예를 들어, HMM은 형식주의와 모델링에 많이 사용됩니다 연설을 텍스트 번역으로 상상해보십시오

관찰 할 수있는 것은 모두 오디오와 컴퓨터의 임무는 소리의 파도에서 이것을 번역하다 마이크를 통해 픽업되어 텍스트로 전송됩니다 그래서, 당신은 실제로 무엇을 보지 못합니다 말해지고 있던 낱말은이었다, 어떻게 든 추측해야 해 당신이 얻고있는 이러한 관찰로부터 그들

권리 O라는 새로운 것을 볼 수 있습니다 예를 들어, 당신이 S1에 있다면, 예를 들어, 실제로 그 단어를 말하고 있다면 화요일을 가정 해 봅시다 당신은 실제로 화요일이라는 단어가 무엇인지 보지 못하게하십시오

그것이 당신의 과제라고 추론해야합니다 그러나 소리의 순서를 듣거나 오디오 웨이브 마이크 도착하고 그러므로 당신은 실제로 당신이 S1에 있는지, 당신이 보게되는 누구나는 O1 다, 그리고 당신은 보게된다, 나는 거기에서 빨갛게하는 것을 모른다 그래서 당신은 O2를 보게된다 그리고 당신은 다음의 순서에서 알아 내야합니다 관측은 당신이 무엇을 얻었는지 당신이 들어 왔던 상태의 연속

거기있는 것으로 밝혀졌습니다 동적 프로그래밍과 매우 흡사 한 알고리즘 가장 유망한 경로 순서가 무엇인지 알려줍니다 당신은 당신이 관찰 한 순서대로 주어지지 않을 것입니다 HMM을 풀기 위해서 그것은 즉각적이었다

그러나 다시 한번, HMM 및 마르코프 체인에는 아무런 조치가 없습니다 상태 전이는 사용자의 제어 범위를 벗어납니다 연설을 할 때, 누군가 말한 연설을 듣게됩니다 당신은 무엇을 통제하지 못합니다 그 다음 단어는 당신이 어디에 있을지를 기반으로합니다

MDP 자, 이것은 재미있는 것들입니다 MDP에는 모든 것이 있습니다 그래서, 그들은 주를 가지고 있으며,이 예에서 저는 다시, 이산 상태를 보여 주지만 이 연속적인 상태는 똑같습니다 당신은 연속적인 상태를 나타낼 수 있으며 여기서 행동을 취할 수 있습니다

그래서, 만약 내가 S1에 있고 만약 내가 행동 A1을 포인트 3 확률로 돌아 가기 S1과 포인트 7 확률로 나는 S2로 간다 비슷하게, S2 등등 보상이라는 새로운 개념이 있습니다 제가 보상금을받는다면 보상이 있습니다 S1과 행동 A1을하고 난 S2로 이동했다, 나는 약간의 돈, 약간의 신용을 얻을지도 모른다

예를 들어, 이것이 비디오 게임 인 경우, S2가 승리 상태 인 상태이면 어떻게 든 내가 예를 들어, 모르겠다면, 체스 체스는 많은 주를 가지고 있습니다 예를 들어, 많은 국가가 있고 내 목표는 어떻게 든 행동을 취함으로써 국가 공간을 헤쳐 나간다 어디에서 행동을 취해야합니까? 내 체스 조각과 끝내주는 상태에서 상태의 부분 집합을 가진다

나는 상대방의 왕을 사로 잡았다 그래서, 그것은 제가 가고 싶은 국가가 될 것입니다 내가 어떻게 든 할 수 있다면 내 적의 앞에 성공적으로 달성, 나는 게임에서 승리해야만하는 커다란 보상을 얻는다 그래서, 이것이 보강 학습에서 볼 수있는 것입니다 보상을 극대화하려는이 목표가있다

당신이 얻는 전환, 당신이 국가 공간에서 움직일 때 때로는 보상을 조금씩받습니다 예를 들어, 체스에서, 좋은 대리 중간 보상은 당신이 상대방을 몇 장 붙잡고 있는지 그래서, 당신은 드문 드문 보상이라고하는이 용어에 대해 들어봤을 것입니다 결국 게임을 끝내는 것은 매우 희소 한 보상입니다

중간급 보상을 받고 싶을 수도 있습니다 사람들이 와서 모든 보상 공학에 들어간다 궁극적으로 당신이하는 일과 상관없이, 당신은 MDP를 정의하고 있습니다 MDP는 당신의 상태 공간이 무엇인지를 생각해냅니다 모든 주에서 할 수있는 행동 공간은 무엇입니까? 그런 다음 비디오 게임의 전환 모델을 일반적으로 가지고 있습니다

예를 들어, 체스에서 체스 게임에서, 내 전환은 결정 론적입니다 내가 조각을 움직이면, 내 행동이 폰을 E4로 옮겼습니다 폰을 E4로 이동하면, 폰을 E4로 옮길 확률은 낮습니다 따라서 결정 론적입니다

확률 1로 행동이 성공한다는 것을 의미합니다 상황이 확률적일 수있는 많은 경우가 있습니다 우리는 나중에 그것에 대해 이야기 할 것입니다 그렇습니다 따라서 전환이 있고 전환에 대한 보상이 있습니다

모든 주를 볼 수 있습니다 당신은 어느 주에 있는지 알게됩니다 체스처럼 당신은 국가가 무엇인지 압니다 그것은 보드에있는 모든 조각의 상대적 위치입니다 그것이 필요한 모든 정보이며 대개는 Markovian입니다

현재 위치에 어떻게 도착했는지는 중요하지 않습니다 중요한 것은 당신이 다음에하려고하는 것입니다 따라서 게임 플레이 정책을 보게 될 것입니다 아주 좋은 역사에 의존 할 필요가 없기 때문에, 그렇지 않으면 정책이 매우 어려워지는 경향이 있습니다 당신의 상태 공간이 폭발 할 것이기 때문에 찾아보십시오

그럼 보자 그런 다음 우리는 부분적으로 관찰 가능한 MDP 다음을 제외하고는 MDP와 동일합니다 지금 당신은 당신이 어느 주에 있는지 알지 못합니다 다시 말하지만, 당신은 이 땜질 한 관측 및 관측은 단지이다, 예를 들어 체스는 PAMDP가 아니며 MDP이기도합니다 [들리지 않음]은 PAMDP가 아니라 MDP입니다

PAMDP의 좋은 예는 예를 들어, 로봇의 위치를 ​​파악하기위한 로봇 모션 계획입니다 말하자면,자가 운전하는 자동차 시애틀 도심에있을 때 GPS가 매우 시끄 럽거나 타원 불확실성이 커지면, 당신은 건물 사이에 GPS가 작동하지 않습니다 따라서 위치가 더 이상 직접 존재하지 않습니다 주목할 만한

그러나 당신은 믿음을 가질 수 있습니다 당신은, "오, 나는 스타 벅스를 보았다 나는 국회 의사당이 " 그래서 그것은 당신의 관찰이기 때문에, 그게 네가 볼 수있는 전부 야 귀하의 GPS는 이제 꽤 쓸모가 없습니다 그러나 당신이보고있는 것을 기반으로 당신은 당신의 관찰에 도달 할 수 있습니다

너는 약간의 신념을 가질 수 있을지도 모른다 어떤 상태 또는 어떤 일련의 상태 집합이 될지도 모릅니다 당신은 "오, 내가 본다면 스페이스 바늘과 그 왼쪽에 나는해야한다 이 이웃과 그 밖의 것들에 있으십시오 "그래서, 이것은 다시, 너는 너의 관찰을 봐

당신이 어떤 국가에 있는지 알아 내려고 노력하십시오 그리고 나서 당신이 당신이 어떤 상태에 있거나 당신을 진술하고 있을지도 모릅니다 당신은가는 길을 계획하려고 노력합니다 네 친구 집에 따라서 PAMDP는 일반적으로 많이 사용되며, MDP보다 해결하기가 훨씬 더 어렵습니다

보통, 당신은 풀 수 없습니다 원칙적으로 12 가지가 넘는 문제 그래서 우리에게는 직업 보장이 있습니다 많은 연구가 여기에 있습니다 예

다음은 매우 유용한 차트입니다 그래서, 오디오 상태에 따라 완전히 관찰 가능하고 행동을 취했는지 여부, 마르코프 체인을 가지고 있거나, HMM, MDP 또는 PAMDP 다른 사람이 이걸 빼앗지 않으면 이 수업은 당신을 많이 도와 줄 것입니다 당신이 강화 학습 또는 계획 전문가가 아닌 경우, 이것은 정신 모형이있는 것이 매우 편리합니다 괜찮아

이제 저는 이사회에 남겨 둘 것입니다 그래서 제가 보게하겠습니다 그래서 우리는 MDPs에 초점을 맞출 것입니다 MDP는 다음과 같이 정의됩니다 특정 MDP를 정의하기 위해, 당신은 상태 공간, 행동 공간, 전환, 국가 간 확률, 보상 기능

권리? 그래서 이것, 그리고 일반적으로 완성을 위해, 당신은 우리의 확률 인 S naught와 같을 것입니다 너는 주식 상태가 뭐니? 시작할 것입니다 어쩌면 단일 상태가 아닐지도 모른다 한 무리의 상태에 대한 확률 분포 그래서 이것을 정의한다면 나는 MDP를 정의했다

무슨 뜻이에요? 어쩌면 계획에 익숙한 사람들을 위해, MDP를 해결한다고 말하는 것은 무엇을 의미합니까? 맞춰봐 이 단어를 많이들을 수 있습니다 우리는이 MDP를 해결해야합니다 그게 무슨 뜻이라고 생각하니? >> 보상을 극대화하십시오 >> 물론

권리? 너는 ~하고 싶어 정책에는 두 종류가있다 정책이 떠오른다 4 가지 종류의 정책이있다 그러나 우리의 정책에는 매핑이 있습니다 가장 간단한 정책은 상태에서 조치로의 매핑입니다

내가 원하는 건, 내가 방금 사용할 정책을 알려줘 기호 pi는 매우 일반적인 표기법입니다 말하는 강화 학습 문학에서, 내가 현재의 주 S에 있으면, 나는 어떻게해야합니까? 뭘하니? 예상되는 보상을 극대화하려면 여기서 정책을 취할 때, 그래서 S naught에서 시작한다고 가정 해 봅시다 당신이 그때 행동을 취한 것과 같다고하자 액션 공간을 정의 해 보겠습니다

당신은 왼쪽 아래로 올라가고, 네가 테트리스 게임을하는 걸 모르겠다 또는 일부 그리드 검색, 방 탐색 게임처럼, 그러나 숨겨진 금 냄비가 있습니다 당신은 경로가 무엇인지 알아 내야합니다 나는 거기에 가기 위해 가져 가야한다, 그렇지? 최단 경로 문제와 마찬가지로 정확히 MDP입니다 이제, 나는 행동 A1을 취할 것입니다, 나는 어떤 사람들에게 약간의 보상을 얻을 것이다

그러면 나는 S1을 명중시킬 것이다 내 정책에 따르면, "이봐, 내가 여기서 뭐하고 있니?" 나는 다시 행동 A1을 취할 예정이다 나는 S2에 갈지도 모른다 이번에 A0을 가져 가면 되겠습니까? 그래서 이것은 기본적으로 비슷합니다 나는 이것을 구급차라고 부를 것이다

더 많은 수학적 이름이 있습니다 나는 결코 발음 할 수 없다 그래서 이것은 본질적으로 궤적입니다 그래서 나는 S 노숙자로부터 벗어나고 나는 모든 길로 간다 내가 그걸 연주하고 내가 그걸 위해 연주한다고 말하자

n 단계 또는 일부 지평선 자본금 H 목표에 도달 할 때까지, 또는 시간, 또는 같은, 그만 내 예산이야, 그리고 그것은 나에게 특별한 궤도를 준다 그리고 내가 전환을 할 때마다, 나는 당신의 보상을 보게됩니다 이 MDP를 해결하려는 나의 목표 정책을 생각해 내야한다 모든 보상의 합이 최대화됩니다 권리? 그게 나에게 정책 파이를 주렴

내가 그렇게하면 이러한 행동은 파이에 따르면 S Nothing에서, 나는 S naught의 pi를한다 S naught의 Pi는 "이봐, 당신은 여기 A1을 가져 가야합니다 " S1에서 A1을 가져 가라 나는 S1의 파이를한다 그리고 그것은 나에게 이것을 준다

권리? 내 목표는 A1에서 H까지 극대화하는 것입니다 그래서 파이는 argmax가 될 것입니다 이상 나는 일부 매개 변수를 가지고 말할 여기에 쓰고있는 나의 정책, 쎄타에 대한 argmax, 내가 얻은 쎄타 스타, 파이 스타에 해당 이것은 그것을 극대화하는 정책입니다 자, 다양한 방법이 있습니다

내가 실제로 한 일은 앞으로 많이 뛰어 들었다 내 정책은 일부 매개 변수 theta에 의해 매개 변수화됩니다 그리고이 세타들은 보통 또한 깊은 보강 학습 에서처럼, theta는 신경 네트워크의 매개 변수에서 비롯됩니다 선형 정책에서, 당신은 선형 회귀가있을 수 있습니다, 이산 숫자를하는 경우 분류 자 모두가 말하는 행동 단계는 나에게 세타를 줘 내가 그 정책을 펼치려면, 나는 이것을 극대화 할 것이다

권리? 그래서 보통 이런, 예를 들어 최단 경로 문제 MDP를 해결하는 특별한 경우입니다 거기에 MDP가 무엇입니까? 당신의 MDP는 국가와 행동은 당신이 그들 사이를 어떻게 움직일 수 있는지, 아래쪽이나 오른쪽으로 갈 수 있다고 가정 해 보겠습니다 시작 상태에서 시작하기까지의 비용 최소화 끝 상태도 다음과 같이 포즈를 취할 수 있습니다 그 비용의 부정을 극대화하는 것, 동적 인 프로그래밍을하면, 실제로 MDP를 해결하는 것이 최선의 방법입니다 큰 거대한 동적 프로그래밍 문제를 해결하는 것입니다

그러나 일반적으로 큰 문제가 있습니다 어서 >> T는 무엇입니까? >> 오! T는 전환입니다 >>이 특정 그리드 연구를 의미합니다 >> 그리드 검색

예 우리가 알아 낸 바로는, 그것은 기본적으로 테이블입니다 당신이 상태 S1에 있고 행동을 취한다면 A1은 마치 올라가는 것 같아요 권리? 이것이 내 그리드라고 말하자 나는 여기에있다

T는 기본적으로 나에게 말한다 T의 S1과 이것이 S1이라고 부르 자, 내가 A0 조치를 취해야한다면, 내가 끝낼 다음 주 S는 무엇입니까? 이 경우, 내가 행동을 취하면, 내가 여기 등등으로 가면 나는 올라간다 T는 내가가는 곳, 역학을 정의합니다 >> 그러나 어떤 문제에는 몇 가지 상태가있을 수 있습니다 권리? 그래서 가능성

>> 네 내가 너에게 보여주고있는 건 결정적 상태 전이 확률 내가 아무 것도받지 않으면, 너는 S 프라임으로 간다 하지만 실제로 너와 같을 수도있어 S 소수 또는 확률을 얻는다 권리? 예를 들어, 로봇 공학에서는 종종 로봇에 명령을 내리면, 로봇은 정확하게 실행하지 않습니다

실제로 모든 것을 똑바로 위로가는 대신에, 그것은 일종의 종류의 올라간다 그래서 당신은 실제로 다른 주에서 끝납니다 그래서 보자 좋아, 벌써 11시에 일어나는 일은, 그리고 언제든지 이건 아주 흔한 혼란입니다

Amazure에서 여름 인턴쉽을 위해 인턴을 인터뷰하고, 나는 종종 그들에게이 아주 간단한 질문을한다 좋아요, MDP를 정의 해주세요 그들은 모두 저에게 MDP를 잘 정의합니다 그들이 보강 학습 배경에 있다면, 나는 그들에게 묻습니다 문제를 보강 학습 문제로 만드는 것이 무엇인지 말해주십시오

무엇이 빠졌는가 또는하는 것처럼, 그래서 최단 경로 문제는 나는 너에게 설명했다, 계획 문제이다 권리? 필자는 이산 공간에서 동적 프로그래밍을 할 수 있습니다 당신은 또한 세부적인 연속적인 공간에서 그것을 할 수 있습니다 하지만 역동적 인 프로그래밍을 통해 해결할 수 있습니다 그러면 RL이 필요한 이유는 무엇입니까? 왜 RL의 전체 필드가 ​​존재합니까? 누가 나에게 말할 수있는 것처럼 MDP에서 RL 문제를 해결하지 못했습니까? >> 가능성이있는 피드백

죄송합니다 >> 피드백 >> 피드백? 좀 더 말해 줄 수 있어요? >> 기본적으로, 당신은 당신이 행동을 취한 후에 어떤 종류의 피드백, 전환을 한 후에, 그 피드백에 기초하여, 당신은 다음 행동을 취하거나 증가시키려는 시도의 또 다른 변화, 보상을 극대화하려는 의미입니다 >> 알았어 그래서 중간 보상, 당신은 MDP에서도 그것을 얻을 수 있습니다

권리? 따라서 보상은 MDP 설정에서 알려져 있습니다 권리? 예를 들어, 당신이 진보하고 있다면 최단 경로 문제의 최종 상태, 중간 보상을 얻을 수 있습니다 권리? 그리고 당신도 알기 때문에 당신이 어디에 있는지 정확하게 알 수 있습니다 권리? 그것은 보통 다른 것입니다 보상은 대개 문제가 아니지만, 그것은 좋은 추측 이었지만

그곳에는 많은 상징이 없습니다 그래서 제거 과정에 의해 세 가지가 남았습니다 >> E는 알려져 있지 않습니다 죄송합니다 >> E는 알려지지 않았습니다

>> 네, 그렇습니다 그래서,이, T가 무엇인지 모르는 경우, 다음은 보강 학습 문제입니다 그래서 Chess 나 AlphaGo에 대해 생각해보십시오 모두가 Go와 AlphaGo를 보았습니다 사람들은 깊은 마음을 품었다

그들의 깊은 보강 학습을 사용했고, 하지만 지금은 보강 학습만큼 중요하지 않습니다 알려지지 않은 것을 설명 할 수있는 사람, T가 거기에서 어떻게 알려지지 않습니까? >> 왜냐하면 상태는 보드의 상태이기 때문입니다 그렇게 많은 주들이 없습니다 >> 많은 주들은 괜찮습니다 제 상태 공간은 정말로, 정말로 거대한 것입니까? 그러나 전환이 어떻게 알려지지 않았습니까? >> [보상 할 수없는] 보상

>> 보상을 안다 >> 알아, 상대방 이동, 그렇지? >> 정확히, 내가 행동을 취할 때처럼, 당신이 백인이라고 가정 해 봅시다 널에 점이 있고 너는 행동을 취했다 당신은 이사회의 다음 상태를 보게됩니다 그러나 당신이 모르는 것은 흑인이 할 것입니다, 맞죠? 당신이 그것을 모르기 때문에, 그것은 당신이 전환을 알지 못하는 것처럼 보이게합니다

너는 정확한 상태를 모른다 진화 할 일련의 상태들 당신이 한 일의 결과로 나온 거죠? 그것이 더 이상 존재하지 않는 이유입니다 계획 문제와 그 보강 학습 문제가된다 모든 보강 학습 문제는 시뮬레이터와 상호 작용하는이 풍미 이동의 경우, 보드는 시뮬레이터 그 자체이며, 그것은 매우 멋지다

그리고 그것은 어느 것을 의미한다 시뮬레이터에서 내 연극을 해결할 수 있다면, 시뮬레이터에서 좋은 정책을 생각해 낼 수 있습니다 나는 실세계 문제를 실제로 풀었다 아타리 (Atari)와 같은 비디오 게임, 이동, 체스, 등등, 이 모든 것들은 세상은 당신이 정의한 것입니다 예? >> 네,하지만 체스와의 유추는 정확하지 않습니다

체스 게임 이상으로 당신은 Alpha-beta를 사용합니다, 그래서 나는 전환을 알고 있습니다 이사하기 전에 저는 Alpha-beta를 사용했고 가능한 응답을 찾았습니다 사실, 알파는 그 영향을받을 것입니다 >> 기다려 나는 알파 베타 부분을 이해하지 못한다

>> 알파 베타 그래서, AlphaGo와 같은 현대의 RL 그러나 그것은 빙산의 일각에 불과합니다 그것은 오래된 기계 학습의 핵심입니다 알파 베타 (Alpha-beta) 검색이란 움직임과 가능한 반응이 무엇인지 미리 봅니다

>> 몬테카를로 나무 수색 같이 >> 어떤 깊이 >> 알았어 예, 예 >> 그래서, 당신의 견적을 위해, 실제로, 당신의 자신의 사례금

>> 네 >> 분명히, 당신은 어떤 휴리스틱 스 (heuristics)와 전략 (strategy) 그 아주 유한 번호를 어떻게 정의할까요? 이동의, 그리고 당신은 얻을 RL은 모든 전체 최적화를 사용하고 있습니다 이 과정은 그 이상이 아닙니다 즉, 체스는 RL 문제가 아닙니다

>> 당신은 아직도 변화를 모르기 때문에 나는 동의하지 않을 것입니다 >> 당신이 동의하지 않는 것을 압니다 >> 네,하지만 공식화할지 여부 그것은 RL 문제 또는 아닙니다 것과 같이 분리 된 문제점이고, 실제로, 신경 건축학 검색에서 보여 드리겠습니다 RL 문제로 공식화되어서는 안되며, 많은 사람들이 그랬던 것처럼, 맞습니까? 내 체스, 나는 국가, 행동, 전환 및 보상을 가지고 있으며, 나도 몰라 전환은 내가 무슨 일이 있는지 모르니까, RL을 할 수 있지, 그렇지? AlphaGo에서도 예를 들어, 당신은 가치 함수 추정을 다음과 같이 수행합니다

당신이하기 전에 매번하고, 앞으로 많은, 많은 단계를 시뮬레이션 할 수 있습니까? 그런 다음, 신경 네트워크는 당신을 줄이기 위해 인도하고 있습니다 예를 들어, 귀하의 분기 요인 >> 우수한 깊이, 구체적으로하자, 질문은, 무엇이 문제를 RL 문제로 만드나요? >> 나는 체스가 절대적으로 RL 문제라고 주장한다 >> 글쎄, 이것은 정확히 우리가 동의하지 않습니다 >> 이건 꽤 바이너리라고 생각해

사실, 나는 이것이 철학적 논쟁이라고 생각하지 않는다 >> 그것은 철학적 논쟁이 아닙니다 꽤 바이너리처럼 보입니다 >> 네, 네 >> 그렇지 않습니다

>> 나는 그것이 확실하다고 확신한다 >> 알았어 >> 그래, 이제 우리는 최소한 갖고있어 문제를 보강 학습 문제로 만드는 것의 맛, 이제 우리는 한 가지 방법을 매우 빨리 통과 할 것입니다 나는 이것을 완전히 파생해야 할 시간이 얼마나되는지 모른다

그래서 나는 적어 두겠다 기억하십시오, 우리는 최대화하고 싶습니다 정책에 대한 완전한 보상, 내 누적 보상은 무엇입니까? 나는 그것을 극대화하고 싶다 나는 J 세타 (J Theta)라고 적어 두겠다 맞지? 나는 할인 조항을 사용하지 않을 것입니다

RI, T는 내 큰 수평선에 1과 같습니다 나는 그것을 극대화하고 싶다 내 정책은 S에서 A로 간다 나는 확률 론적 정책과 정책 구도를 가질 것이다 주에서 특정 행동으로가는 대신에, 나는 상태에서 [들리지 않는 것] 이상의 확률 분포로 갈 것이다

내가 원하는 것은 그라디언트를 취하는 것입니다 내 누적 보상, 그리고 나서 내가 어디서 구불 구불하게 사용할 지 내 궤적, 구불 구불 한 R 나는 다른 펜을 사용할거야 Squiggly의 R은 어디에 있습니까? 기억해라, 나는 S naught에게서 떠나 간다 나는 어떤 행동을 취한다

그 다음 나는 S1에 간다 그리고 나는 또 다른 행동을 취한다 등등 그리고 나서 나는 내가받는 모든 행동을 요약 할 것입니다 내가가는 큰 R이 여기 있습니다

그래서, 왜 이것의 그라디언트를 취하고 싶습니까? 그래야 그라디언트 강하를 할 수 있기 때문이죠 의 매개 변수 공간에서 내 정책과 내가 그라데이션 상승을 생각 해낼 때까지, 내가 정말로 좋은 정책을 생각해 낼 때까지, 그렇지? 어떤 것은 매개 변수화와 같습니다 예를 들어 신경망을 사용하는 경우, 내 신경망이 나에게 준다 내가 정책을 수행 할 때 정말 좋은 상을 받았습니다 그래서 나는 이것을 시타 그라데이션으로 다시 쓸 수 있습니다

R 타우, 내가 이것을 사용하고있는 곳은 가능한 모든 탄도 당신은 당신의 국가 공간을 차지할 수 있습니다 자, 이것은 정말 안좋은 것 같습니다 모든 가능한 탄도는 나의 지평선에서 기하 급수적이다 그리고 나서 나는 매우 큰 상태 공간을 가질 것입니다 그러나이 용어 때문에 보이는 것만 큼 나쁘지는 않습니다

궤적을 잡을 확률 정책의 현재 매개 변수화가 주어지면, 다음과 같이 적어 둘 수 있습니다 괜찮아 그래서 다시, 우리는 이것으로 돌아 간다, 그렇지? 그것은 특정한 궤적을 겪은 것과 같습니다 나는 그게 무엇인지 적어두고있다 내가 처음에있을 확률 상태는 내가 S-naught에서 그 시간을 고려해 행동 A-naught를 취할 것이고, 내 현재의 정책을 감안할 때 시간을 계속 곱해 내가 S-naught에있을 여러 가능성 내가 아무런 행동을하지 않고 S-naught를했다는 점을 고려할 때

이렇게 그런 다음이 일은 이 용어로 써야한다 괜찮아 나는이 용어를 안으로 옮길 수있다 쎄타에 관한이 기울기처럼, 그리고 당신은 이것이 모든 T 그라디언트의 합계 이 주어진 Theta의 세타 확률은 R-squiggly입니다

나는 다른 용어가 0이 될 것이기 때문에 그 안에 들어갈 수 있습니다 그리고 그것은 Tau의 기울기입니다 나는 번식하고 나누기 위해 갈거야 권리? 나는이 양을 곱하고 나눕니다 그럼, 이걸 사용할거야

나는이 합계를 취할 수있다 이 물건을 꺼내서 기대로 씁니다 다시 말하지만, 아마 당신과 쎄타를 괴롭힐 것입니다 그래서 이것은 다시 기대에 맞게 다시 작성하는 것과 같습니다 그러면 다음과 같은 이유로 나는이 용어를 쓰고 있는데,이 용어를 보라

궤도의 확률의 기울기 궤도의 확률로 나눈 값은 확률 로그로 써라 왜냐하면 내가이 용어를 사용하면이 용어를 나에게 줄 것이다 정말 좋은 속임수입니다 일단 로그의 관점에서 작성하면, 나는 이것을 확장 할 수있다 이 용어가 주어진다면 이것의 확률을 기억하십시오

그래서, 제가 제품 인 것들을 기록한다면, 나는 이것들의 대부분이 있기 때문에 매우 멋지다 추가를 얻는다, 이런 식으로 다가올거야 모든 timesteps에 대한 합계의 로그, st의 b는 St – 1로 주어진다 마이너스 1에서 t log Pi를 합한 합계, St times R의 구불 구불 한 너는 내가이 모든 조건들을 모으고 있다는 것을 알 수있다 따로 따로 수집해야합니다

내가 그라디언트 용어를 내부에 넣으면, 이들 중 어느 것도 쎄타에 의존하지 않습니다 이 모든 것은 0이 될 것이고, 이것 만이 세타에 달렸습니다 그래서, 모든 것을 잘 고쳐 쓰면, 내가받을거야, 그 세타는 [알아들을 수 없는] 당신이 그것을 쓰는 방법에 따라 이것의 변종이 있습니다 이것을 정책 기울기 정리라고합니다

이것은 기본적으로 그라데이션을 해제하는 방법을 말합니다 정책 쎄타의 매개 변수와 관련된 정책 그리고 당신의 정책은 확률 적이어야합니다 너 잘 지내고, 이 보상 함수와 관련하여 기울기입니다 그러나 당신이 볼 필요가있는 것은 그것이 이 그라디언트는 당신의 정책 매개 변수의 세타는 아주 좋습니다

여기서 주목해야 할 아주 좋은 점은 당신이 당신의 주 분포의 파생물을 가져옵니다 이것은 매우 편리하게 제공되며, 수학이 그런 식으로 작동한다는 것은 아주 좋습니다 그걸 명심한다면 나는 실제로 알고리즘을주지 않았다 방금 그라디언트를하는 법을 말했어

그라디언트를받는 방법을 알고 있다면, 그러면 Theta-new는 기본적으로 Theta-old와 같습니다 나는 기본적으로 그라데이션 강하 스타일의 것을 더할 수있다 약간의 단계 크기 Theta J-Theta에 관한 알파 배수의 그라디언트 나는 이것을 할 수있다 내가 그것을 아플 때까지 이걸 계속 반복해라

나는 수렴하거나 좋은 정책을 찾는다 이제 우리는 궁금해하기보다 실제로 신경 아키텍처 검색을 수행하지 않았습니다 지금까지는 걱정하지 마십시오 정책 기울기 정리를 이해한다면, 처음 두 논문은 10 분입니다 저기에 그걸 남길거야

다음은 몇 가지 학습 자료입니다 우리는 이걸 뒤쫓을거야 그래서 나는 이걸로 시작하고 싶습니다 여기에서 일어나는 일은 신경 구조 검색을 할 수 있다는 것입니다 이것을하는 것이 현명하지 않을 수도 있습니다

그러나 이것은 2016 년에 일어난 일입니다 Neural Architecture Search는 정책 기울기 문제로 제기되었지만, RL 문제처럼 이제 상태 공간을 살펴 봅시다 당신의 상태 공간은 가능한 모든 신경 구조 또는 몇 가지 상태 공간을 정의하고 가능한 모든 아키텍처는 공간입니다 그래서 모든 S는 이제 특별한 아키텍처입니다

자, 당신의 행동은 기본적으로 당신이 선택하게됩니다 당신은 한 주에서 다른 주로 이사하게됩니다 그래서 당신은 거의 임의로 전환 할 수 있습니다 너는 무엇을 알지 못한다는 것을 제외하고는 행동은 당신에게 좋은 보상을 가져다 줄 것입니다 그것을 더욱 어렵게 만들기 위해, 그래서 당신은 보상 기능을 아주 잘 압니다

보상 기능은 "나는 네가 내게 주길 바래 궁극적으로 좋은 아키텍처의 결과로, 내가 걱정하는 데이터 세트의 정확성을 말해 보겠습니다 " 나는 사실을 알고있다 그래서, 내가 문제를 일시 중지하면 정책 구배 강화 학습으로서, 그 다음에 정책을 세울 것입니다 내 정책은 여기있을거야, 그들은 RNN 인 컨트롤러를 호출하고 있습니다

이 컨트롤러가 무엇을 할 것인지, 확률 P로 아키텍처 A를 샘플링 할 것인가를 기억하라 왜 샘플링 아키텍처입니까? 우리의 정책은 확률 적이기 때문입니다 확률 론적 정책이 필요해 정책 기울기 정리가 작동하도록합니다 그래서 사람들이 같은 이유입니다

"좋아, 이제 우리는 아키텍처를 샘플링 할 것입니다 우리는 확률 P로 아키텍처를 샘플링 할 것이고, 우리는 자식 네트워크를 훈련 할 것입니다 그 건축물과 함께, 당신이 볼 때까지 정기적 인 신경망 훈련을해라 당신의 정확성 또는 네거티브 오류를 입력 한 다음 그라디언트를 계산합니다 " 이제 질문은, "여기에있는이 그라데이션을 어떻게 계산할 것인가? 내가 가지고 있기 때문에 나는 그것을 여기에서 줬다

그 기대 기간은 나를 " 괜찮아 그래서,이 신문이 가지고있는 것 done은 기본적으로 다시 수학을 씁니다 그러나 그들은 기대 대신에 샘플 견적으로 바꿨지, 그렇지? 그래서, 이것이 우리가 극대화하려는 것입니다 그래서, 그들은 삐걱 거리는 대신에 이것을 쓰고 있습니다 그리고 그것을 만들면 더 많은 공간이 필요합니다

나는 매개 변수를 내고 싶다 그와 같은 나의 기대 된 보상 내가 취할 내 궤도에서 최대화된다 이것은 동일한 파생물입니다 그것이 실제로 어떻게 될지에 관해서, 이것은 또한 이것이 강화라고 불리는 인정 알고리즘이며, 오늘날에는 여러 가지 변종이 있습니다 그리고 나는이 기대를 정확하게 평가할 수 없기 때문에, 샘플링 문제로 바꾸겠다

나는 표본 추출 만 할거야, 이것이 견본 추정치입니다 권리? 그래서 제가 할 일은, 내 컨트롤러를 샘플 아키텍처에 사용할 예정이며, 모든 아키텍처를 훈련 시키십시오 그런 다음 내가 얻은 보상이 무엇인지 확인하십시오 다시 연결해, 맞지? 귀하의 K가 M과 1 대 1의 관계는 기본적으로 모두입니다 당신은 당신이 샘플링 한 것들입니다

이것은 평균을 구하는 M에 의한 것입니다 그 기대치의 샘플 견적 인 그런 다음 그라디언트 단계를 밟습니다 RNN과 내가 어떻게하는지 안다 어떻게해야하는지 알 수 있습니까? 내가 다시 소품을 할 수 있기 때문에 권리? 그라디언트를받는 방법을 안다

신경 네트워크에서 내 매개 변수의 그래서 저는 대신 할 것입니다 그래서 저는 컨트롤러가 RNN이 될 것입니다 이것은 아키텍처를 샘플링 할 것입니다 이제 문제는 어떻게 될 건데? RNN의 샘플 아키텍처? 따라서 도메인 전문 지식이 필요한 곳입니다

실제로 그렇게 어렵지는 않습니다 나는 RNN을 펼칠거야 상기 RNN의 각 단계에서, RNN을 풀어 놓고있는 것처럼 순차적으로 샘플을 만들겠습니다 필터 높이, 필터 폭, 보폭 (stride height), 보폭 (stride width) 등이있다 그래서 기본적으로 정의를위한 레이어가 이것에 의해 제공됩니다

권리? 이렇게 이것은 1, 2, 3, 4, 5입니다 이 5 개의 숫자는 나에게 길쌈 층을 정의한다 높이, 너비, 내 보폭, 너비, 및 필터의 수를 나타냅니다 그래서, 제가 이것을 샘플링 할 수 있다면, 다음 5 개의 언 롤링이 또 다른 레이어가됩니다 권리? 그래서, 나는 쌓아 올릴 수있어, 알았어

나는 표본 추출한다 나는 RNN을 실행하여 20 번 말해 보자 그래서 나는 20 층 신경 구조를 얻는다 권리? 그리고 나서 저는 20 층 신경 구조를 취할 수 있습니다 가서 다른 GPU에서 훈련 시키면, 보상을 참조하십시오

컴백하고 내 정책 기울기 정리에 연결, 하고 견본 견적은 내가 이것들을 많이 가지고 있기 때문에, 그런 다음 RNN에서 그라데이션 단계를 수행하십시오 일어나는 컨트롤러 그것은 정확히 그들이 한 일입니다 그들은 신경 구조를 노출시켰다 이 보강 학습 문제로서, 속도를 높이기 위해 이것은 모든 공학이 들어오는 곳입니다

당신은 다음과 같은 매개 변수를 갖게 될 것입니다 당신의 RNN은 많은 병렬 매개 변수 서버 컨트롤러에는 많은 복제본이 있습니다 이 모든 일은 이것 모두에서 가장 어려운 부분, 가장 시간이 많이 걸리는 부분이 다가오고 있습니다 많은 기대감을 표본 여기서 말하는 샘플은 아키텍처 샘플링을 의미하며, 그것을 끝까지 훈련 시켜라

예를 들어 제가 ImageNet을 주면, 3 일이 걸릴거야 권리? 따라서 하나의 샘플이 매우 비쌉니다 따라서 8000 개의 GPU가 있다면, 당신 매니저는 2 천만 달러를 불 태우면서 괜찮습니다 가서해라 권리? 그것은이 큰 테이크를 가지고 있기 때문에 이것을 실행하십시오

이것은 희망을 갖기 위해해야 ​​할 모든 기술입니다 충분한 샘플을 얻고 이것을하는 것 그런 다음 몇 가지 엔지니어링이 있습니다 건너 뛰기 연결을 다시 유도하기 위해해야 ​​할 일 권리? 이것은 다시 중요하기 때문에 이것은 약간 까다로워지기 때문에, 우리는 적어도 ImageNet C410에서의 이미지를 알고 있습니다

공명하고 밀도가있는 그물 스타일 아키텍처 건너 뛰기 연결이 잘되어있는 경향이 있습니다 그래서, 검색 공간을 디자인한다면 우리가 처음 보았던 것과 같이 연결을 건너 뛰는 것을 인정하고, 그러면 당신이 떠나고 있다는 것을 알게 될 것입니다 인간의 전문 지식과 같은 많은, 우리는 건너 뜀 연결 도움을 알고있다, 정말로 그들은 그것들을 극적으로 빠르게한다 모든 좋은 일들이 일어난다 그래서 여섯 번째 풀기를 소개 할 것입니다

목표가 정당한 앵커 포인트를 호출하려고합니다 만약 당신이 N 층에 있다면, 어느 쪽이 N-1 층에 연결될 것인가? 그래서 당신은 건너 뛰기 연결을 샘플링하는 것입니다 그래서 이것은 정의되어 있습니다 이제 당신은 조밀 한 신경 공간으로 돌아갑니다 따라서 가능한 모든 건너 뛰기 연결 귀하의 검색 공간의 일부가되기 전의 것들

그래서, 이것은 어디에 검색 공간 해킹이 발생합니다 당신이 당신의 검색 공간을 너무 크게 만들면, 너는 가지 않을거야, 너의 수색 공간은 거대한 당신은 모든 것을 검색 할 수 없을 것입니다 그럼 너가 할 때 – 너무 많이 – 알았어 이제 해킹이 필요한지 확인하기 위해 더 많은 해킹이 필요합니다 샘플링중인 네트워크는 유효한 네트워크입니다

몇 가지 숫자를 생각해내는 것부터 기억하십시오 모든 RNN이 수행하는 작업은 5 ~ 6 개 튜플 또는 레이어와 연결을 정의하기 위해 한 번에 다섯 개의 튜플, 그런 것들은 실제로 함께 작동하지 않을 수도 있습니다 예를 들어, 계층 N에서, 내가 필터의 수와 보폭 높이가 확실하다 특정 텐서 크기가 들어가기를 기대한다 왜냐하면 그게 들어 가지 않으면, 그것은 단지 계층 N – 1 때문입니다

완전히 다른 모양이며 호환되지 않습니다 당신은 행렬 곱셈을 할 수 없습니다, 그렇죠? 그래서 실제로 일을하기 위해서, 이것들은 당신이 해킹하는 것들입니다 해킹 중 하나처럼 건너 뛰기 연결이 있어야합니다 그들은 깊이 차원을 따라 연결되고, 그런 식으로 걱정할 필요가 없습니다 예를 들어 합계를 원한다면 작동하지 않을 것입니다

당신은 텐서 스 (tensors)를 가지고있을 수도 있습니다 완전히 다른 모양입니다 어떻게 합치셨습니까? 그런 다음 레이어 하지만 – 만약 당신이 단지 그것을 연결하는 것처럼 그것은 단지 밖으로 작동합니다 당신이 푹 빠져있는 한 당신은 무엇을 가지고 있더라도 상관 없습니다 연결을하는 데 필요한 모든 것, 맞습니까? 작은 것이 나오고 커다란 것이 있다면, 모든 것을 0으로 채 웁니다

그것을 같은 크기로 만드십시오 연결하여 이제 좋은 커다란 텐서를 그리고 나서 그걸 앞으로 나눕니다 괜찮아 그래서, 당신은 이것 모두를하고 당신은 많은 전기를 사용합니다, 그리고 네가 따라 오니, 이것은 C410에있다 그래서 C410은이 이미지 데이터 세트입니다

ImageNet과 달리이 모든 NAS 작업에서 많이 사용됩니다 ImageNet보다 훨씬 작습니다 그래서 당신은 실제로 당신이하고있는 모든 평가를 기억합니까? 샘플링 아키텍처와 마찬가지로 그런 다음 그라디언트 단계를 수행하면 일반적으로 수행 할 수 있습니다 반나절이라면 빠른 GPU를 사용하고 잘 설계해야합니다 따라서 ImageNet의 경우 4 일을 기다릴 필요가 없습니다

그래서, 네, 알고리즘의 다양성, 그들은 좋은 결과를 얻는다, 그렇지? 그 당시 꽤 예쁜 365처럼 좋았습니다 그리고 이것들은 아키텍처에 대한 매개 변수 잘 수행 한 발견했다 괜찮아 그런 다음 언어 모델링 작업을 수행했습니다

우리의 방법을 보여 주기만하면됩니다 작동 할 수있는 이미지에만 적용되는 것은 아닙니다 Penn Treebank는 언어 데이터 세트입니다 나는 NLP 전문가가 아니기 때문에 나는 할 수 없다 그것에 대해 많이 말하지만 그들은 적어도 보여줍니다

그들은 매우 – 그래서 여기에는 혼란이라는 용어가 있습니다 정확성과 정확성을위한 대리인으로 생각하십시오 낮은 것이 더 좋으며 실제로 가장 낮은 것 중 하나를 얻습니다 이것은 컸다, 그렇지? 그래서 그 당시, 이것은 실제로이 Neural Architecture Search에서 시작되었습니다 엄청난 양의 일, 이 숫자에서 우리가보고있는 지수 구배 그들이 일하기 때문에 여기에서 끝내고있는 서류들과 일들, 갑자기 자동으로 검색을 완료하면 예, 많은 GPU들, 우리는 실제로 실제로 인간을 때리는 아키텍처를 자동으로 발견 할 수 있습니다

이것은 좋은 소식입니다 왜냐하면 그건 내가 가질 필요가 없다는 것을 의미하기 때문입니다 10-15 년의 신경 건축 경험 해킹 직감을 개발하기 위해서 괜찮아 하지만 사실 그 중 하나가 그 세부적인 내용은 실제로 사용 된 것입니다

거의 8000 GPU처럼 몇 개월 동안 그리고 그들은 최소한 그들은 무엇입니까 보고했는데 그건 내가 취할 것을 의미 할거야 지금 필라델피아를 사용하는 사람들을 위해 필라델피아의 모든 것, 오늘은 10,000 명 밖에 안되죠? 따라서, 비록 이것이 나에게도 어렵다 필라델피아의 모든 사람들이 6 개월 동안 나에게 헌신 했지, 그렇지? 그래서 다행히도 상황은 많이 좋아졌고, 훨씬 더 효율적입니다 올해 2 월에 나온 다른 논문이 있었는데, 첫 번째 버전이며 호출됩니다

효율적인 신경 아키텍처 검색 또는 ENAS와 실제로 많이 달성합니다 그래서 이것은 우리가 본 첫 번째 NAS 종이처럼 뛰었습니다 첫 번째 NAS 논문에서이 숫자는 36, 374 정도였습니다

이것은 CIFAR-10에서 훨씬 낮습니다 Penn Treebank에서 이전 NAS가 624를 가졌던 것과 같습니다 이것이 가장 좋은 부분입니다 하나의 단일 Nvidia 1080Ti GPU, 그러한 시간은 16 시간 미만이며, 그 (것)들을위한 수천 GPU 시간이었다

그래서 이것은 거의 3 배의 감소와 같습니다 그럴 때 그래서 이것은 괜찮습니다 이제 데스크탑 GPU 하나를 사용하여, 실제로 할 수있는 것보다 더 나은 결과를 얻을 수 있습니다 전에 해

트릭이란 무엇입니까? 트릭은 내가 공유 할 것입니다 모든 실험을 통한 계산 그래, 알았어 이전 작업에서 주목했다면, 큰 시간을 소비하는 단계는 무엇 이었습니까? 큰 시간을 소비하는 단계는 실제로 계산을 한 번 수행합니다 당신은 모든 보상과 들어오는 모든 보상의 견본, 그것은 매우 작은 단계이기 때문에, 컨트롤러를 업데이트하는 데는 1 ~ 2 분 정도 소요됩니다

큰 시간은 훈련이었다 샘플을 얻으려면 완성과 병행하는 모든 것들 내가 하나를 샘플링 한 것처럼, 컴퓨터로 보내라 훈련시키다, 다른 건축물을 샘플로 만들다, 기차를 타러 다른 건축물을 견학하고 기차에 가십시오 이제 모든 것들은 많은 시간과 많은 계산을 필요로합니다

따라서 GPU 시간이 엄청나게 많은 이유는 바로이 때문입니다 모두가하고 있기 때문에 앞으로 prop와 back prop는 서로 독립적입니다 자,이 아이디어는야만적이고 완전히 미친 듯이 들릴 것입니다 그러나 그것은 어떻게 든 여기에서 작동합니다, 내가 보내지 않으면 어떻게 될까? 모든 것을 꺼내서 독립적으로 실행하십시오 내가 가진다면? 이 거대한 계산 그래프 그 커다란 거대한 계산 그래프에서 샘플을 얻습니다

그러나 모든 무게를 공유하고, 모든 교육 및 배경 작업 수행 왜냐하면 이것은 장난감의 예입니다 그러니까 이것이 내 큰 계산 그래프라고 가정 해 봅시다 기본적으로 이것은 내 검색 공간을 정의하고 나는이 붉은 분파처럼 이것을 시식 할 것이다 화살표는 하나의 네트워크입니다 그런 다음 – 나는 밖으로 놓을 것이고 나는 그것을 여기 위에 놓을 것입니다

그런 다음 파란색의 화살표가 생겼다고 가정 해 봅시다 이것은 아마도 이렇게 될 수 있습니다 이것에서 다른 견본, 그게 내 다른 네트워크 다 그럼,하지만, 대신에 그들을 훈련 모두 다른 GPU를 가진 다른 컴퓨터에, 나는 그들을 함께 훈련시키고 무게를 나눌 것입니다 예를 들어,이 가장자리가 일반적인 경우 두 샘플링 된 아키텍처 사이에서, 그들은 실제로 같은 텐서를 공유 할 것입니다

그들은 동일한 매개 변수를 공유하지 않습니다 미안하지만, 텐서가 아닙니다 그들은 실제로 완전히 독립적이지는 않습니다 그러나 이것은 매우 나빠 보인다 네가 같아야하지만 -하지만, 내가 실제로 그것들을 개별적으로 훈련한다면, 내가 얻을 수있는 가중치 집합은 1과 2를 연결합니다

어쩌면 그 건축물은 특정한 지형을 가지고 있기 때문에, 그것은 전문화 될 것이고 이것에 매우 유용해서는 안된다 그리고 이것은 마치 당신이 저에게 이것을 제안하는 것처럼, 나는 그 소리가 미친 듯이 들릴 것입니다 그것은 모든 사람을 실제로는 차선책으로 만들 것입니다 그 것들은 그들의 건축을 전문으로해야한다 그러나 어쨌든 그것은 사실이 아닙니다

그렇다면 이것은 큰 머리를 찰과상처럼하는 순간이었습니다 그들은 증거가 없으며, 이론적 증거가 여기에 있습니다 그러나 그들은 그것을 보였다, 헤이, 우리의 동기는 기본적으로 멀티 태스킹 학습입니다 신경망과 마찬가지로, 어떻게 여러 가지 다른 작업을 할 수 있으며 네가 할 수 있다면 더 잘 일반화해라 동시에 여러 작업, 그러한 멀티 태스킹 동기에 기초하여, 우리는이 길을 따라 시작했고 우리는 우리가 실제로 발견 할 수있는 것은 매우 잘할 것입니다

그래서, 예를 들어, 여기처럼 샘플을 좋아하는 사람이 어떤지, 여기에서도 정책 기울기 방법을 사용하고 있습니다 그들은 여전히 ​​RNN 인 컨트롤러를 가지고 있습니다 그러나 레이어드처럼 – 이렇게하면됩니다 재발 성 신경 네트워크 이것은 특정 세포가 어떻게 보이는지입니다

이것은 검색 공간입니다 들어오고있다 이 모든 작업 옵션은 샘플을 얻은 것처럼 보이고, 세부 정보를 읽을 수 있습니다 세부 사항은 정말 지루하지만 예 예를 들어, 자동으로 컨볼 루션 신경망 설계, 그럼이 골격을 고칠 수 있어요

및 외부 구조 및 수 있습니다 각 레이어가 어떤 작업을 수행해야하는지 샘플링하십시오 그들이 한 또 다른 트릭은 우리 대신에 – 좋아 매크로라고 불리는이 용어가 있습니다 NAS 논문을 살펴볼 때 많이 필요합니다

어떤 매크로가 의미하는 것은, 검색 의미, 난 아무것도주지 당신은 매우 작은 네트워크처럼 시작합니다 토폴로지 순서를 강화하지 않을 것입니다 네트워크를 성장시킬 수있는 것처럼 추가, 빼기를 원하는대로 할 수 있습니다

이 거대한 검색 공간에서 샘플을 얻을 수 있습니다 임의로 모양이 잡힌 큰 네트워크와 괜찮습니다 우리는 그 공간에서 수색을 좋아할 것입니다 일을 좀 더 다루기 쉽도록 만들기 위해, 사람들이 시작한 것은 마이크로 검색이라고합니다 그래서 그들은 수정합니다 – 예를 들어, 오, 안돼, 나는 그것을 떨어 뜨렸다

좋아, 내가이 방법으로 사용할거야 예를 들어, 알았어 공명을 기억 하는가? 공명은 좋은 생각처럼 보입니다 검색 공간을 이와 같이 정의하면 어떻게 될까요? 이봐, 이미지가 들어오고, 나는 이걸 가지고있어 나는 갈거야

외부 골격 인 공진 구조를 수정하십시오 이것은 내 매크로 아키텍처가 될 것입니다 나는 그것을 고치 러 갈거야 나는 이것이 자유의 정도라고 생각하지 않을 것이다 그러면 제가해야 할 말은 무엇을 여기에 가야한다는 것입니다

네트워크를 허용하는 모든 것, 이 전체 샘플링 비즈니스 검색 절차가 내가해야 할 계층의 종류를 말해 주시겠습니까? 네가 여기서 무엇을 가질 수 있니, 여기, 여기, 등등 등등 더 많은 것을 다루기 쉽도록하기 위해서, 내가 묻는 건 그게 전부 야

나는이 모든 것이 같은 층을 가질 것이라고 말해야한다 그 레이어 유형이 무엇인지, 어떤 레이어이든간에 여기서 샘플링을하고 있습니다 정확하게 여기에서 복제 할 것입니다 그래서, 이것들은 검색 공간을 줄이는 모든 방법입니다

하지만 주목해라, 나는 내가 있음을 알아 차린다 마이크로 또는 셀 검색을 수행하라 당신이 방금 세포를 찾고 당신이 고치고 있기 때문에 고정 된 외부 골격 디자인 어떤 인간 전문가가 발견 한 좋은 것 당신은 사실에 의존하고 있습니다

당신에게 좋은 매크로를 주었던 인간 전문가 이미지의 경우와 마찬가지로, 언어에 대한 많은 연구가 이루어졌습니다 많은 연구가 이루어졌으며, 그래서 당신은 당신이 집중할 수있는 좋은 매크로 아키텍쳐를 가지고있을 것입니다 반면에 완전히 새로운 데이터 세트를 제공하더라도 데이터 세트가 이전의 많은 일이없는 다른 영역, 당신은 무엇이 올바른 매크로인지 알지 못할 수도 있습니다 그래서 일을 다루기 쉽도록 만드는 것이 있습니다

거기에 인간의 도메인 지식 주입이 많이있다 검색 공간을 좋게 만드는 NAS 논문 좋아, 우리가 이런 종류의 일이 잘된다는 것을 의미하는 것처럼, 그래서 이런 종류의 것들의 범위 내에서 arg max가 무엇입니까? 그것이 많은 논문이하는 일입니다 그래서 그들은 그 트릭을 사용합니다 그들은 우리가 매개 변수를 공유 할 트릭을 사용합니다 우리는 다른 구성 요소에서 모든 것을 실행하지 않을 것이며, 그리고 알았어 그들은 마치 ENAS라고 불리는 것처럼 생겨납니다

다양한 팁과 트릭 그 숫자에 도달하기 위해서, 하지만 그들은 매우 효율적입니다 맞습니까? 괜찮아 예를 들어, 이것은 발견 된 네트워크입니다 ENAS는 또한 매크로 에서처럼 할 수 있습니다 그래서 그들은 이것이 하나의 매크로 결과임을 보여줍니다

그리고 나는 모른다 나는 결코이 건축술을 직접 손으로 디자인하지 않았을 것이다 이것은 실제로, 정말로 잘합니다 많은 이미지 분류 작업 건너 뛰기 연결이 전체 곳곳에 어떻게 있는지 주목하십시오

왜 그들이 될지는 단지 무언가 일뿐입니다 그 자동 검색 절차가 좋은 발견 이들은 기억과 같은 세포, 세포 것입니다 이들은 자동으로 발견되는 별난 세포입니다 다시 말하지만, 만약 당신이 저에게 하나를 디자인하도록 요청했다면, 나는 그런 멍청한 것들을 생각해 냈을 것이다

괜찮아 그래서,이 두 논문 보강 학습 기반, 맞습니까? 그래서, 그들이 기본적으로 말했던 곳에, 우리는 이것을 상호 작용 문제로 간주 할 것입니다 우리는 전환이 어떻게 될지 알지 못합니다 그리고 우리의 보상은 차별화됩니다 그래서, 우리는 이것을 가질 것입니다, 내가 어떻게 해야할지 모르기 때문에 보상은 차별화되지 않는다

존경심으로 보상을 차별화하다 컨트롤러의 파라미터에 적용됩니다 나는 오직 존경심으로 나의 보상을 차별화 할 수있다 개인적인 것에, 내가 샘플로 할 네트워크, 정책 그라디언트를 사용해야합니다 그게이 신문이 된 방법입니다 이제 막대한 양의 논문이 있습니다

실제로 강화 학습을 사용하지 마십시오 또는 특히 정책 기울기 그래서, 하나는 프로 그래 시브 신경 아키텍처 검색이라고합니다 나는 많은 걸 건너 뛸거야 세부 사항은 우리가 시간이 없어 질 것이기 때문에, 직감을주고, 여기서 직관은 "네트워크"를 성장시킬 것입니다

제어기가없고, RL도없고, 하지만 내가 할 일은 나는 작은 세트에서 시작하려고한다 이들은 부모 네트워크 일 수 있습니다 거의 하나 또는 두 개의 레이어처럼 나는 그들을 평가할 것이다 그들 중 어느 쪽이 잘하는지 보아라

나는 어느 것이 잘하는 지에 근거하여 그 다음에 추가 할 수 있습니다 나는 그들을 확장 할 수있다 그래서, 이것은 당신에게 유전자 알고리즘 또는 혁명적 스타일 알고리즘, 그들이 좋은 부모라면, 그 때 잘 한 그들, 그들 자녀들은 유망 할 수도 있습니다 우리는 단지 어떤 아이들이 잘했는지를 볼 것입니다 다음 경우에만 하위 집합을 가져옵니다

차세대를위한 부모의 다음 집합 그런 다음 다시 확장 한 다음 다시 잘라내십시오 모든 유망한 것, 유망한 사람들 만 지키십시오 이러한 단계의 단계와 같은 각 단계에서, 그냥 레이어를 추가하는 것입니다 레이어를 샘플링하고 추가합니다

모든 큰 시간을 기억하십시오 신경 건축술에 간다 특히 안으로 같이 찾으십시오, 좋아, 나는이 모든 것을 네트워크처럼 여기있다 각 점은 특정 네트워크 아키텍처입니다 훈련에는 많은 시간이 필요합니다 그래서, 그들이 말한 것은, 우리는이 "Predictor" 그것은 예측하려고 노력할 것입니다

학부모의 공연과 아이들을 창조하기 위해 추가 된 돌연변이, 그 (것)들을 훈련하지 않으면 성과는 일 수있다 이제 이것은 닭고기와 달걀 문제와 함께 이렇게됩니다 따라서 알고리즘은 매우 유사합니다 이걸 조금 훈련하면, 약간의 데이터 수집, 그것이있을 수있는 또 다른 예측자를 훈련시키다 다른 신경망 또는 작은 신경망, 이러한 것들이 얼마나 잘 수행 될지 예측합니다

우리가 그들에게 한 적은 양의 훈련에 대해서, 그리고 그들이 완전히 훈련받은 다른 네트워크의 과거의 역사는, 최고 K 만 가져 가세요 당신은 그들을 완전히 훈련시키지 않고 커다란 K를 똑딱 거리게됩니다 그게 당신에게 많은 시간을 절약 해줍니다 그것은 매우 간단한 절차이며 NASNet과 비교됩니다 그것은 첫 번째 종이와 이것 저것이었습니다

그렇다면 이것은 진보적 인 NASNet입니다 그들은 잘한다, 그들의 수색 시간은 매우 더 낮다 그것은 아이디어입니다, 나는 너무 많은 숫자에 매달 리지 않을 것입니다 그들은 또한 ImageNet에서 시도했습니다 그들은 ImageNet에서 실제로 검색하지 않습니다

모두가하는 일은, 그들은 CIFAR에서 검색합니다 그들은 훌륭한 건축물을 찾습니다 그런 다음 그들은 단지 추가, 모든 세포를 복제하십시오 그들은 네트워크를 더 크게 만들고, 그런 다음 ImageNet에서 교육합니다 그래서, 그것은 표준 트릭입니다

에 직접 검색 ImageNet은 많은 시간을 필요로합니다 괜찮아 그래서, 나는 3 분 더 기다렸다가 다트를 통과했다 지금까지 제가 가장 좋아하는 종이이기 때문입니다 지금은 [들리지 않음]에서 검토 중입니다

내가 검토 중이라는 이유는 회의가 어떻게 작동하는지 안다면 [들리지 않음] 완전히 공개 된 리뷰입니다 익명화 된 저자는 예외입니다 이것은 정말 멋진 종이입니다 컨트롤러 없음, 중간 성능 없음 당신이 갈라지기 때문에 문제가있는 예측

내가 말할 수있는 한 그것은 그 이전의 모든 것을 능가합니다 그것은 CIFAR-10에서 예술 수준을 달성하며, 그리고뿐만 아니라, 나는 GPU 하루에 Penn Treebank를 생각한다 아주 좋았어 RL 문제가 실제로 도움이되는 것처럼 맹목적으로 문제를 던지지 않는 곳 여기의 속임수는, 나는 계속 이완을 할거야

신중한 최적화 문제 기억하십시오 내 목표는 어떻게 든됩니다 ~의 공간을 통과하다 신경망 아키텍처 및 좋은 하나를 찾으십시오 신경망 아키텍처는 분리되어 있으며, 그들은 서로 유사 할 수도 있고, 하지만 그것은 연속적인 공간이 아닙니다

마찬가지로 이것이 하나의 아키텍처라면, 그 옆에있는 아키텍처는 특정 층 또는 일부 레이어 또는 이것 저것의 특정 매개 변수화, 심지어 "다음"이 의미하는 것을 정의하는 것이 어렵습니다 맞습니까? 마찬가지로 작은 추가 거리를 의미 할 수도 있습니다 여기, 우리가하려고하는 것은 이것이 마치 세포와 같은 것이라고 상상해보십시오 다시 DARTS가 대부분 셀을 수행합니다 나는 내가 말할 수있는 한 그들이 매크로를한다고 생각하지 않는다

나는이 세포 안에서 알아 내려고 노력할 것이다 내 세포에 네 가지 일이 있다면, 나는 먼저하려고 노력할 것이다 이 셀을 연결하는 작업은 무엇이되어야합니다 나는 이것으로부터 샘플링을 가정하지 않을 것이다 가능한 모든 작업이 특정 셀 아키텍처 및 그 (것)들을 훈련해서 그 (것)들을 평가하십시오

나는이 모든 작업이 공존 할 수 있다고 가정 할 것입니다 그래서, 이것은 어머니 세포의 종류입니다 내가 할 일은, 가중치가 있고, 그런 다음이 가중치를 넣으십시오 그게 얼마나 가능성이 높습니까? 3 개는 컨볼 루션 층에 의해 연결되어야하며, 또는 견인층에 의해, 또는 감소 층 또는 무언가에 의해 그럼 나는 알파 하나를 넣을거야

알파 2, 알파 3이 넘었습니다 이것은 나에게 또 다른 그래프를 준다 그래서 그것은 지속적인 이완입니다 그렇지 않으면 내가 가질 수있는 이산 미분 문제의 그런 다음,이 Bi-level Object of Optimization을 실행할 것입니다 나는 좋은 알파를 찾고 싶다

알파의 체중이 아주 좋은지 기억하십시오 이 녹색 선이 더 두꺼운 것을 의미합니다 알파의 무게가 작은 경우, 다음은 아마도 이것이 이 둘 사이를 연결하는 올바른 작동이 아닙니다 그럼 내가 할 일은 먼저 알파에 대한 최적화를 실행하십시오 마찬가지로 무작위로 가중치를 초기화하고, 알파를 통해서만 소품을 돌려라

다른 모든 가중치를 일정하게 유지하면서, 그리고 어느 것이 밖으로 이기기 시작하는지 보아라, 이것은 Alphas를 시각화 한 것입니다 그런 다음 알파 (Alpha)에 대한 최적화를 중단하고, 어떤 사람이 어떤 무게를 가지고 있느냐에 따라, 실제 뉴럴 네트워크 아키텍처 이상으로 최적화 이 알파의 특정 인스턴스에 의해 인정됩니다 그래서 이것은 건축을 제외하고는, 저는 당김으로써 매우 강하게 하나 하나를 연결하려고합니다 아주 조금 Convolution Layer를 말하자 축소 층 (Reduction Layer)이 거의 없습니다

나는 항상 테이블에 모든 가능성을 유지하고있다 그 무게는 어느 쪽이 다른 쪽보다 가능성이 높습니다 이 아키텍처를 감안할 때 실제로 그 안의 매개 변수 값을 최적화하고, 그리고 나서 나는 앞뒤로 갈 것입니다 나는 약간의 알파를 할 것이고 약간의 가중치를 할 것이다 약간의 알파 조금의 무게, 이 Alphas 중 하나가 될 때까지 정말로 중요하게 좋아지기 시작합니다

그런 다음 ArgMax 아키텍처로 사용하려고합니다 그래서 이것에 대한 좋은 점은 별도의 컨트롤러가 없다 정책 그라디언트 일을 통해 훈련하십시오 모든 아키텍처 검색은 다음과 같이 상각됩니다 순방향 및 역방향 전파 동작은 한 번에 모든 아키텍처에 걸쳐 상각되어, 그것은 매우 멋지다

ENAS 트릭과 마찬가지로, 네가 있기 때문에 더 좋았어 가능한 모든 아키텍처를 동시에 유지합니다 그런 다음 끝에, ArgMax를 꺼내는 것뿐입니다 그래서 기본적으로, 이것은 알고리즘이 어떻게 생겼는지, 걱정하지 마세요, 그것은 가중치를 업데이트하고 아래로 내림으로써, 알파를 일정하게 유지하는 것, 가중치를 업데이트하면됩니다 너의 표준 등받이 작전

그런 다음 아키텍처를 업데이트합니다 Alpha의 공간을 내려가는 Alpha, W를 일정하게 유지하고 어느 것이 다시 단지 소품인가? 그러나이 단락에 그런 다음 끝에 한 번 당신이 어느 것을 발견했는지, 당신은 ArgMax 인 것만으로 모든 모서리를 대체합니다, 남아있는 가장 두꺼운 선 보시다시피, 그들은 정말 최고의 결과를 가지고 있습니다 GPU 검색 시간이 불과 4 일 만에 그들은 2

83이됩니다 ENAS는 꽤 비슷합니다 그러나 나는 마지막 숫자가 이것에 더 낫다고 생각한다 ENAS는 여기서 4 일 대신에 05 일을 검색했지만, 그러나 지금까지 나는 생각한다

숫자가 단지 진짜이기 때문에 이것은 가장 좋은 방법입니다, 모든 것이 정말 좋으며 하나의 GPU 만 있으면됩니다 DARTS에는 이미 확장 기능이 있습니다 나는 사람들이 일하기 시작한다는 것을 알고있다 일반적으로 좋은 생각입니다 RL을하지 말고, RL의 번호를보고, 검색 비용은 정말 당신을 걱정 해야하는지, CIFAR의 마지막 숫자는 아닙니다

이것은 6 개월 동안 당신에게 헌정 된 모든 관계자들을 태우고 있습니다 그것은 당신이 찾고있는 종류의 것입니다 CIFAR와 마찬가지로, 아키텍처를 찾는 좋은 방법이 아닙니다 그렇다면 현재의 모든 논문과 같은 많은 열린 문제가 있습니다 CIFAR 10, 100, ImageNet, 비전 또는 하나의 NLP 데이터 세트, RV는 몇 가지 데이터 세트로 수렴되는 전체 분야입니다

그리고 나서 이 부분 공간 해킹은 우리가 좋은 매크로를 가지고 있다고 가정함으로써, 돌아 다니면서 셀 검색을 사용하여 검색 공간을 다루기 쉽도록 만듭니다 그래서, 당신이 올바른 매크로 아키텍처가 무엇인지 모르십니까? 더 이상 마이크로를 할 수 없습니다 여기 우리 그룹의 티저 결과가 있습니다 우리는 실제로 레이어를 추가하여 신경망을 성장시킵니다 우리가이 일을하도록하기 위해 사용하는 많은 트릭이 있습니다

어제 악용 당일에 있었던 사람들을 포함하여, 우리는 많은 exploit trick 알고리즘을 사용합니다 파레토 프런트 (Pareto Front) 어느 정도의 정확성, 당신은 매개 변수 측면에서 낮아질 수 있습니다 음모를 꾸미면 파레토 프론트의 일부가됩니다 그래서 우리는 훈련을하면서 파레토 프론트를 조사했습니다 우리는 우리가 극도의 문제를 제기 할 수 있음을 보여줍니다

우리는 저기있는 매크로입니다 적은 양의 검색, 꽤 좋은 숫자 우리는 다트가하는 것보다 훨씬 더 일반적입니다 DARTS가 마이크로를하고 있습니다 매크로를하고 있습니다

우리는 얻을 수있다 에 비해 좋은 성능 DARTS 및 기타 모든 Google 논문 이들은 티저이며, 우리는 여전히 많은 것을 운영하고 있습니다 실험의, 그러나 그렇습니다, 더 많은 질문에 행복하게, 우리는 초과 근무, 그러나 운 좋게 우리에게는 즉시 수업이 없다 음, 필자는 NAS를 살펴 보았지만, 인간 영역 전문가들의 시대, 엔지니어링과 시행 착오를 많이하는 것처럼, 곧 끝날거야

끝나야합니다 우리가 거기 앉아서는 안되는 것처럼, 좋아, 어쩌면 나는이 레이어를 이것을 대체해야한다 일자리를 내보내고, 이틀 후에 다시 와서 무슨 일이 일어나는지 보아라 특히 우리가 시작할 때 매우 만족스럽지 않습니다 새로운 데이터 세트 및 작업을 위해 어디에서나 신경망을 사용합니다

>> 따라서 매개 변수 공유를 사용하는 메소드, 당신은 그들이 그렇지 않은 사람들과 어떻게 비교되는지 아십니까? 실적면에서 공유를 위해 축소 했습니까? 그들은 실제로 전혀 공유하지 않고 무엇인가를 잃고 있습니까? >> 아니, 바로 그게 놀라운 일이야 그들은 실제로 잃지 않고 더 잘합니다 다트 (DARTS)가 있다면 매개 변수 공유를하는 것으로 가정 할 수 있습니다 모든 네트워크가 NAS에 있기 때문에, 효율적인 NAS는 매개 변수 공유를 수행하고 있으며, 그들은 실제로 더 잘하고 그 시간은 100 x 더 적습니다 어떤 슈퍼 카운터 직관적 인 결과입니다, 그러나 당신이 그들의 결과를 믿는다면, 나는 그들이 그것이 좋은 사람들이라고 믿습니다

>> 가능한 범위는? 위에 공유하고 오버레이하는 것과 같은 다중 아키텍처는 일종의 강화입니다 아키텍처의 일부 신호, 이게 옳은지 더 확신하니? >> 네 매개 변수 값과 같은 특정 종류의 비율 값이 생각할 수있는 한 가지 방법은 이 모든 다른 아키텍처는 동일한 공통 에지에서 규칙 화를 강제합니다 가장자리가 지나치게 맞지 않아요 네가 얻은다면 다른 아키텍쳐로 당신이 그들을 독립적으로 훈련했다면, 그래서 멀티 태스크가있다

정규화 영향이 나타나고 있으며, 그리고이 가중치가 잘해야하기 때문에 그 가장자리를 공유하는 모든 아키텍처에서 그래서, 실제로 도움이 될지도 모르지만, 나는 손으로 훨씬 덜 정규화 할 필요조차 없다 또한 나는 이것이 인상적이라는 인상을주고 싶지 않습니다 모든 마술과 모두가 봐야 할 마술 그냥 DARTS를 구현하면 끝난다 그 숫자를 얻으려면, 도메인 엔지니어링이 많이 진행되고 있습니다 너가 그 컷 아웃과 같은 테이블에서 본다면 너는 그 이유를 알지

이 경로 확대 및 드롭 경로, 이것은 모든 팁과 트릭은 파이썬 노트를 보면서 만 본다면, 찾을거야, 알았어이게 아니야 그냥 맞는대로 간단하고 다시 와서, 당신은 그 수를 얻기 위해이 모든 속임수를 써야합니다 그러나 그것은 마치 연구자들과 같습니다 오, 내 사람들이 너보다 낫다

그 게임에 들어가는 거지? 예 >> 이미 언급 했겠지만, 그러나 그것은 정확히 무엇에 관한 것인가? 너무 빨리 훈련 할 수있는 다트? >> 암시 적으로 그 사실 모든 매개 변수 공유, 그리고 아키텍처에 가중치 그래서, 그들은이 지속적인 이완을 가지고 있습니다 이 이산 검색 공간의 그래서 주어진 서브 그래프와 같이 특정 아키텍처이지만 모두 유지됩니다 그들은 모두 동시에 모두 보관됩니다

이 기차에서 샘플을 가져온 다음 다시 돌아 오는 것이 아닙니다 모두는 동시에 모든 시간을 지켜야하며 이렇게하면됩니다 아키텍처 파라미터에 대한 최소화 최소화, 그리고 그들을 인정하는 네트워크 속도를 통해 매개 변수 네, 그것을 공유하는 것입니다 차가운 느낌, 자유롭게, 나는 같은 회사에있어

나에게 질문 및 기타 등을 이메일로 보내, 슬라이드가 SharePoint에 이미 올라 있다고 생각합니다 슬라이드를 가져올 수 있습니다 그 설문지는 아주 좋습니다 관심이 있다면 열려있는 많은 문제를 해결할 수 있습니다 내가 좋아하는 것이 매우 솔직하다

Advanced Machine Learning Day 3: Neural Program Synthesis

>> 저는 MSR AI의 연구원입니다 나는 주로 프로그램 합성이나 더 일반적으로 다양한 방법으로 기존 기술을 결합하는 방법 좋은 구식 인공 지능에서, 기호 검색, 논리 형성, 프로그램을 분석하는 방법, 그리고 심화 학습, 강화 학습, 신경 기술 및 모든 우리가 요즘 가지고있는 고급 기계 학습

오늘의 강의는 일반적으로 현장의 개요이며, 당신이 할 수있는 방법의 개관 귀하의 제품에 프로그램 합성 (Program Synthesis) 당신이 그것으로부터 혜택을받을 수있는 방법, 그것의 모든 다른 응용, 그것은 일반적으로 그것에 관한 것입니다 시간 중 언제든지 질문 할 수 있습니다 우리는 대략 머무를 예정입니다 높은 수준과 당신에게 많은 포인터를주고, 그래서 관심이 있다면 한 시간 내내 특정 주제, 오프라인에서 따를 수 있으면 언제든지 환영합니다 좋습니다

괜찮아 자, 시작하겠습니다 프로그램 합성은 무엇이며 왜 우리는 프로그램을 생성하기를 원합니까? 프로그래밍은 재미 있고, 왜 자동화 하는가? 글쎄, 1950 년대 인공 지능 초기에, 사람들이 모인 1960 년대 우리가 AI가되기를 원하는 것에 대해 함께 이야기 했습니까? 이 용어는 무엇일까요? 자동으로 코드를 작성하는 것이 문제였습니다 핵심 기능으로 지정 우리는 컴퓨터가 가능하기를 원합니다 그 당시에는, 그것은 기본적으로 1 초를 의미했습니다

바깥 쪽 스위치를 끄 겠어 당신이 필요 이상으로 빨리 가고 싶지 않기 때문입니다 궤도에 그래서 그 당시에, 그것은 기본적으로 우리가 컴퓨터에 줄 것을 의미했습니다 우리가 우리 프로그램이하기를 원하는 것에 대한 어떤 종류의 명세

컴퓨터가 우리에게 정렬 루틴을주기를 원하면, 우리는 정렬 함수가 배열에서 입력을받는 무언가와 다른 배열을 생성한다 그것은 원래 하나의 순열이고, 그러나 그것은 또한 분류됩니다 그 아이디어는, 우리는 이것을 적어두고, 그것을 컴퓨터에주고, 그리고 그것은 우리에게 조각을 되 돌릴 것입니다 그 명세를 만족시키는 코드 당시에 많은 문제 사양이 있었기 때문에, 조금 야심 찬 것 같아

우리는 우리가 할 수있는 지점까지 결코 갈 수 없었습니다 자동으로 웹 브라우저 또는 Cortana 또는 [들리지 않음] 현대적인 프로그램 합성은 여전히 ​​떠남과 그렇지 않은 경우에도 다른 응용 프로그램 웹 브라우저 크기의 응용 프로그램을 제공하십시오 지금은 조금 달라 보입니다 그래서 오늘날의 프로그램 합성에는 크게 세 가지 요소가 있습니다 첫 번째는 여전히 사용자 의도로 시작한다는 것입니다

우리가 지난 몇 년간 발견 한 것은 사람들은 일반적으로 좋아하지 않는다 논리적 완성 사양 쓰기 우리가 원하는 것을 넘어서 처음부터 항상 빠져 나올 수있는 것은 아닙니다 그러나 또한 힘드네 의도를 지정하는 다른 방법이 있습니다 (예 : 당신은 당신이 당신의 프로그램을 원하거나, 자연 언어로, 영어로, 프로그램의 행동을 기술하십시오

한편, 우리에게는 프로그램 공간이 있습니다 그것은 가능한 프로그램의 모든 공간을 당신은 당신의 의도를 만족시키는 것을 선택하기를 원합니다 당신은 그것이 존재하고, 말하며, C #과 같은 범용 프로그래밍 언어의 모든 프로그램 또는 파이썬 또는 더 자주보다, 실제로 도메인 특정 언어를 작성합니다 특정 업무 및 목적을 위해 이 언어로 된 프로그램을 선택하라고 말합니다 이 두 구성 요소는 모두에 대한 입력입니다

목표가있는 검색 알고리즘 실제로 올바른 프로그램을 찾을 수 있습니다 역사적으로 이것은 대개 몇 가지 검색입니다 열거 형 또는 추론 형 논리 검색, 하지만 요즘 우리는 신경망을 사용할 수 있으며 우리가 주된 경우에서 보게 될 것처럼이 일을 공정하게 수행하십시오 이 조합에서 프로그램이 나옵니다 다른 프로젝트가 다른 조합을 선택합니다

이 세 가지 구성 요소 중 우리는 여러 가지 예를 보게 될 것입니다 이 응용 프로그램을 선택하면 여러 응용 프로그램이 있습니다 글쎄, 우리가하고 싶은 말을하자 사용자로부터의 질문 및 생성 그 질문에 대한 해석 명령을 입력 한 다음 쿼리를 충족시키는 방법을 계획하십시오 그래서 대화 형 에이전트에 대한 대화 시스템을 제공합니다

마이크로 소프트가 최근 인수 한 시맨틱 머신즈 (Semantic Machines) 프로그램 합성 기술을 그들의 주요 회화 시스템에서 백 엔드 Excel의 Flash Fill에 익숙한 사용자 몇 사람 좋은 기본적으로 살펴 보겠습니다 플래시 나중에 약간 채우세요,하지만 아이디어는, 스프레드 시트에 많은 양의 데이터가있는 경우 올바른 형식으로 정리하고 표준화하려는 경우, 자신의 정규 표현식을 많이 쓰는 대신에, 당신은 몇 가지 입출력 예제를 줄 수있다

당신이 변환하기를 바라는 것의 문자열 대 문자열 프로그램을 제공합니다 예제에 따라 데이터를 정리합니다 그것은 동일한 패러다임의 또 다른 인스턴스입니다 또는 우리는 모든 방법으로 갈 수 있고 실제로 말할 수 있습니다 범용 코드 생성, 생각하면 IntelliSense 또는 자동 완성과 같은 단 한마디도 아닌 수준에서 토큰이지만 완전한 표현식이 더 많습니다

거기에서 당신의 의도는 현재의 프로그램 프로그램은 모든 표현식을 공백 당신이 프로그래밍하고있는 언어로 그래서 이것으로 일반적인 개요를 마칩니다 다음은 몇 가지 더 많은 응용 프로그램을 집중적으로 살펴보고, 이 특별한 선택은 이 구성 요소와 우리는 여러 가지 방법으로 이 응용 프로그램을 만족시키고 구현하십시오 우리는 전통적인 논리적 인 것에서 시작할 것입니다 그것을 매우 높은 수준으로 가져갑니다

너는 어떻게 가져 가니? 입출력 예제 및 프로그램 검색 그것은 프로그램 합성이라고 불립니다 우리는 이것에 대한 장단점을 다룰 것입니다 그런 다음 추가하는 방법에 대해 더 많은 기계 학습 기술을 믹스와 여러 프로젝트에 대해 이야기 기호 구현을 결합하는 프로그램 합성과 신경 프로그램 질문 있니? 우수한 그럼, 계속 나아가 자 글쎄, 만약 당신이 예제로 프로그래밍에 대해 이야기하고 있다면, 아마 어쩌면 시작하자

그것의 가장 유명한 마이크로 소프트 응용 프로그램, 플래시 채우기 Microsoft Excel의 기능입니다 프로그램 종합의 광범위한 산업 응용 프로그램을 시작했습니다 기본적으로, 당신이 할 수있는 것은 "이봐, 스프레드 시트에 많은 양의 데이터가 있는데 느낌이 들지 않으면 원하는 변환을 작성하는 것과 같습니다 이 자료 전부를 나 혼자서

" 이 경우처럼, 올바른 형식으로 이름을 결합하면, 나는 단지 하나 또는 두 가지 예를 줄 수있다 나는이 변화를 원한다 이 경우 두 번째 행에 주어진 한 예가 충분하고 플래시 필이 올 것이다 뒤를 채우고 나머지를 채운다 당신이 원하는 것이라고 생각하는 템플릿에 따라 귀하의 데이터

뒤에 생성되는 실제 템플릿 이 장면은 다소 비슷하게 보입니다 이 프로그램은 문자열 – 문자열 변환의 특정 언어 그래서,이 경우에, 당신이 합계하기를 원하는 것, 성을 가지고 쉼표를 추가하십시오, 이름 편집, 공백 추가, 다음의 하위 문자열을 추가하십시오 중간 이름은 첫 번째 문자부터 시작한다 마지막 대문자로 끝나는, 모든 것을 점으로 추가하십시오 당신이 그것을 본다면, 실제로 데이터가 두 가지 형식으로 있음을 알 수 있습니다

따라서, 통행료를 완수하기 위해서는, 아마 두 번째 예제를주고 싶을 것입니다 플래시 채우기 (Flash Fill)는 프로그램을 수정하고, 중간 이름의 존재 여부에 따라 그래서, 그것은 만족스러운 프로그램입니다 스프레드 시트의 작업을 구체적으로 설명합니다 이것에 대해주의해야 할 몇 가지 우선, 프로그램은 Excel 수식 언어가 아닙니다

이 프로그램은 C #이 아닙니다 이 프로그램은 BASIC이 아닙니다 이 프로그램은 특정 언어로되어 있습니다 Flash Fill의 디자이너가 순서대로 등장했습니다 그 일의 공간을 충당하기 위해 이 기능, 문자열 – 문자열 변환에 유용합니다

도메인 특정 언어 또는 DSL 예제 작업에 의한 대부분의 프로그래밍에 중요합니다 그것은 당신에게 필요한 전문성을 제공합니다 만드는 일없이 작업 공간을 충당한다 문제가 너무 힘들어 에 무한한 수의 프로그램이 있습니다

범용 언어이고 그에게 희망이 없다 너무 많은 정보가 있기 때문에 올바른 정보를 찾을 수 있습니다 우리가 묘사 한 일반적인 원칙 여기서 Example by Programming 또는 PB라고 부릅니다 이것은 프로그램 합성의 한 가지 맛입니다 우리는 나중에 이야기에서 몇 가지를 더 보게 될 것입니다

그리고 예를 들어 [들리지 않음] 플래시 채우기가 시작되었습니다 믹스가 널리 널리 알려지게되었습니다 당신은 똑같은 원리를 취하고 그것을 구현할 수 있습니다 웹 페이지에서 데이터를 선택하거나, 테이블을 변환하거나, 자동으로 연결, 데이터 변환 하나의 JSON 스키마에서 다른 JSON 스키마로, 구문 패턴을 기반으로 데이터를 클러스터링합니다 같은 형식의 여러 가지가 많고 많습니다

PB는 훌륭하게 작동하지만 작동하게하려면, 몇 가지 문제를 극복해야합니다 그래서, 당신은 이미이 예제에서 그들이 무엇인지 알 수 있습니다 예를 들어, 1 위 규칙, 누군가 당신에게 예제를 주었다면, 당신은 그들을 만족시켜야합니다 그것이 사용자가 기대하는 것입니다 바로 다음 슬라이드에서, 우리는 실제로 그것이 어떻게 일어나는지를 볼 것입니다

둘째, 예제는 훌륭합니다 그러나 하나의 예제가 실제로 반드시 제약 할 필요는 없다 당신 문제는 충분하다 첫 번째 예에서 모든 것을 만족시킵니다 일부는 모호합니다

심지어 그러한 경우에도, 우리는 올바른 것을 얻으려면 두 가지가 필요했습니다 이상적으로, 우리는 의도 된 프로그램을 배우고 싶습니다 예제를 만족시키는 것뿐만 아니라, 우리는 사용자의 마음을 읽을 수 없으며, 그래서 우리는 여기서 더 똑똑한 것을 할 필요가 있습니다 우리가 의도 한 프로그램을 얻을 수 있다고하더라도, 우리가 어떻게 그 사실을 확실히 알 수 있습니까? 사용자가 예제를 계속 제공 할 수 있기 때문에? 멈추고 말할 때를 어떻게 알 수 있습니까? 이것은 분명히 같은 프로그램입니다 당신의 모범은 실제로 어떤 것도 변화시키지 않습니까? 이제 내가 보여준 과정 이전 슬라이드에서 대화 형, 그것은 사용자와 앞뒤로 의사 소통합니다

실시간으로 발생하기 때문에, 당신은 그것의 모든 반복이 매우 빠르길 원합니다 DSL 디자인은 약간의 예술입니다 과제 공간을 충분히 표현할 수 있어야하지만 여전히 간결하게 프로그램 합성은 몇 초 안에 완료됩니다 예를 들어 Flash Fill의 경우, 이것은 발췌입니다 그것은 완전한 DSL이 아니며, 하지만 기본적으로 계층 적으로 작동합니다

말하자면, 프로그램은 단일 조각 또는 여러 조각의 연결 단일 조각은 상수 문자열 또는 2 개의 위치에 근거하는 입력의 1 개 (살)의 부분 캐릭터 라인 이들 각각의 위치는 인덱스에 기초한 문자열의 절대 위치 또는 정규 표현식 기반 문자열의 위치 그것을 둘러싼 정규 표현식 쌍을 기반으로합니다 당신은 이것들을 디자인 할 수 있습니다, 그런 식으로 점점 더 많은 사업자를 붙잡아 라 근본적으로 당신의 상상력 일뿐입니다

그것은 당신이 글자 그대로 쓰는 것입니다, 문맥이없는 작은 언어의 문법, 네가 그것을 만든다면 충분한 것을 표현할만큼 표현력이 있어야 충분합니다 지금까지 질문이 있습니까? 예 >> 모순되는 사례로 무엇을합니까? >>이 설정에서는 예제가 황금색, 사용자가 오타 또는 무엇인가를 만든 경우, 그러면 당신은 그냥 빈 세트에서 벗어날 것입니다 그러나 실제로 할 수있는 일 실제로, 그것은 불만족 스럽기 때문에, 두 가지 예에서 프로그램 집합을 합성하는 것입니다 혼자서 한 가지 예를 든다면, 나머지는 가능할 수 있습니까? 사실 일관성있는 프로그램을 제공합니다

그러면 사용자에게 가리키고 말할 수있는 메커니즘이 제공됩니다 당신은 이것에 오류를 만들었습니다 다른 무엇보다도 일관성이 없습니다 >> 서면으로 작성해야합니까? 실제 프로그래밍 언어에 대한 발견? >> 네 따라서 각각에 대한 구현이 필요합니다

이 연산자를 사용하면이 프로그램을 실행할 수 있습니다 이 경우, 여러분은 이것이 Csharp의 몇 줄과 같다고 상상해보십시오 그렇다면 실제로 어떻게 올바른 프로그램을 찾으십니까? 당신은 문법을 가지고 있습니다 이제 우리는 이러한 예제를 확실히 만족시키는 프로그램을 원합니다 원칙을 한 슬라이드에서 설명하려고합니다

나중에 조금 더 복잡하게 만들 것입니다 예를 들어 Flash Fill을 실행 예제로 사용합시다 우리는 의도의 일부 명세로 시작합니다 예를 들어, 우리는 이러한 입출력 예를 몇 가지 가지고 있습니다 이 문자열을 번역하기를 원합니다

그 끈과이 끈 하나에 검색하는 모든 시점에서 다음을 수행합니다 따라서 검색은 문법 전체에서 맨 아래로 진행됩니다 이전 슬라이드에서 보여주었습니다 그래서, 당신은 건물에있을 것입니다

귀하의 프로그램은 추상 구문 트리의 순서대로 전에 AST라는 용어를 보지 않았다면, 그것은 기본적으로 저는 이전 슬라이드에서 보여준 프로그램입니다 그래서, 우리가 여기에 몇 조각의 일부 연결이 필요합니다 이들 중 일부는 상수이고, 이들 중 일부는 하위 문자열입니다 물론, 우리가 검색을하는 동안, 우리는 아직 그것을 모른다

그래서, 모든 시점에서, 우리는 부분적인 프로그램을 가지고 있습니다 예를 들어, 검색 중이 순간에, 우린 이미 어떻게 든 결정 했어 알았어 프로그램의 왼쪽 부분은 상수 "To"콜론 공간이어야하며, 그러나 우리는 옳은 부분이 무엇이어야하는지 아직 모른다 그래서, 이것은 구멍으로 시작합니다

이것은 부분 프로그램의 일부 구멍입니다 처음에는 루트에 불과합니다 이전 프로그램에서, 우리는 이것들이이 구멍이라는 것을 알고 있습니다 나머지를 위해 순서대로 만족해야한다 그것을 원래의 것을 만족시키는 것

다시 말하지만 처음에는 이것이 우리에게 주어지는 원래의 예제 일뿐입니다 원리를 재귀 적으로 설명하여 적용 할 것입니다 상단의 구멍과 아래의 모든 구멍 우리가하고 싶은 것은 다음과 같습니다 첫째, 문법을보고 말하기

가능한 운영자가이 시점에 나타날 수 있습니까? 예를 들어, 우리는 여기에서 그것을 결정했다 우리는 또 다른 연결을 원한다 다른 옵션이 있습니다 이제 두 개의 구멍이있는 프로그램이 있습니다 concat의 왼쪽 부분과 concat의 오른쪽 부분

다시 말하지만, 어떤 프로그램이 거기에 나타나야하는지 아직 알지 못합니다 그러나 그들이 무엇이든, 이들 예에 기초하여, 왼쪽 하나는 순서대로 A와 B를 출력해야합니다 전체 프로그램이 만족할 수 있도록 구멍과 오른쪽 구멍은 L과 O를 출력해야합니다 우리가 한 것은 예제를 전파 한 것입니다 프로그램 내내 맨 아래로, 당신은이 규칙을 쓰는 것을 상상할 수 있습니다

몇 줄의 코드 이 규칙은 기본적으로 다음과 같습니다 내가 준 출력 예제를 보라 나는이 시점에서 프로그램 운영자가 concat임을 안다 이제, 구성 요소에 대한 명세는, 출력 문자열을 알려진 가능한 위치로 나눕니다

이러한 분할 중 일부는 우리에게 올바른 프로그램을 제공해야합니다 이 경우, 빈 문자열을 무시하면 단 하나의 분할 만 존재합니다 그러나 여러 가지가있을 수 있습니다 그래서, 이렇게 보입니다 본질적으로, 몇 개의 빛

예? >> 프로그램이 빈 문자열을 줄 수 있습니까? >> 본질적으로 검색 속도를 높이십시오 실제로이 도메인의 경우, 거의 절대 그렇지 않다 올바른 프로그램은 실제로 우리에게 빈 문자열을줍니다 특정 사용자 작업의 경우 인 것으로 밝혀진 경우, 당신은 언제나 돌아가서 재 합성 할 수 있습니다 이 과정은 이제 계속됩니다

모든 구멍이 끝날 때까지 줄기가 끝날 때까지, 당신이 전체 프로그램을 얻을 때까지 그래서, 무엇에서 벗어나 죠? 첫째, 그것은 건설에 의해 정확합니다 전파 절차가 유효하고 건전한 경우, 당신은 당신이 나간 프로그램 적어도 그것들을 만족시켜야한다 당신이 만족하고 싶지 않다면 예제는 실제로 이상적으로 선호되지만, 살펴볼 순위 함수를 통합하고자합니다 프로그램을 통해 당신에게 몇 가지 점수를줍니다

이 프로그램은 일반화 될 가능성이 높습니다 이 순위 지정 기능을 기계 학습 할 수 있습니다 슬라이드에는 몇 가지 포인터가 있습니다 순위 지정 기능이있는 경우, 당신은 전체 탐색 과정에서 그것을 전파 할 수 있습니다 실제로 최고의 핵심 프로그램을 배우고 단 하나의 좋은 프로그램 만 배우는 것은 아닙니다

마지막으로,이 원칙이 적용됩니다 많은 다른 사업자와 도메인에 이르기까지 방금 문자열 변형에 대해 보여주었습니다 그러나 모든 데이터 변환에 대해 동일하게 상상할 수 있습니다 웹 페이지, 당신은 그것을 지명한다 필요한 것은 예제를 전파하는 방법뿐입니다

본질적으로 심지어 대략 오퍼레이터, 많은 경우에있어서, 효율적으로 쓸 수 있습니다 예 >> 그것은 지수 적 복합체처럼 보입니다 >> 네 우리는 그것을 조금만 커버 할 것입니다

괜찮아 이 원칙을 적용 하시겠습니까? 우리는 당신이 도메인 특정 언어를 적어 둘 수 있습니다 이러한 전파 규칙을 적어 두십시오 그들은 정말 짧고 단순합니다 그리고 그것은 당신에게 합성기를 침을 뱉을 것입니다, 그래서 당신은 스스로 플래시의 복사본을 만들 수 있습니다

몇 시간 또는 며칠 만에 채우십시오 그것은 12 개의 다른 장소에 적용되었습니다 다양한 영역에서 회사 내부 및 외부 이러한 도메인 중 상당수는 이미 프레임 워크에 통합되어 있으며, 그래서 필요한 모든 것이 예제 데이터에 불과하면 그 중 하나는 상자에서 꺼내 사용할 수 있습니다 하지만 그렇지 않으면, 기본적으로 어떤 일이 발생하는지는 모든 합성 전략을 가진 프레임 워크 연역적 서지와 언어의 정의를주고 특정 신디사이저를 생성합니다 이러한 도메인 특정 언어에 맞춰 조정됩니다

그 중에서도 이제 빌드 할 수 있습니다 앱 및 서비스 및 UI 경험, 실행 시간이 예제를 입력하고 사용자를 위해 프로그램을 뱉어 내십시오 괜찮아 나는 돌아 가지 않을거야 산문 그래서 만약 당신이 시점에서 질문이 있으시면, 너는 언제든지 물어볼 것이다

>> 오픈 소스? >> 오픈 소스가 아닙니다 아직 오픈 소스가 아닌 회사 내부의 오픈 소스 예 그래, 지금 당연한 질문이 들었다 그것은 훌륭한 검색 절차지만 많은 검색 절차, 그것은 작은 결점이 있습니다

천천히, 기하 급수적으로 느리게, 모든 지점에서 당신이 될 것이기 때문에 당신의 사양을 가능한 경우로 나눠서 당신이 그것을 어떻게 만족시킬 수 있으며 매우 빠르게 성장할 수 있습니다 그럼, 우리는 이것에 대해 무엇을해야합니까? 프로그램에 대한 현대적인 접근 방식을 제시합니다 서로 다른 두 세계의 힘을 결합한 합성 통계 및 기호 연역적 검색을 먼저 빠르게 만드는 것에 대해 이야기 해 봅시다

연역적 검색이란 무엇입니까? 전체 검색 공간이 있습니다 다른 지점이 많이 있습니다 일부 지점이 확실히 덩크 할 수는 없다 예제를 만족시키고, 적절한 프로그램을 찾으려고 그들을 탐험하게 될 것입니다 글쎄, 그렇다고 꼭 그런 것은 아닙니다

그래서, 당신이 어떤 개별적인 문제를 보았다면, 너는 인간으로서 너를 즉시 볼 수있다 이론적으로 실용적인 경우에도 이러한 분기는 실행 불가능합니다 그래서, 여기에있을 수는 없습니다 이 사양을 만족하는 하위 문자열 프로그램 만 여기에 결장이있어 입력 할 콜론이 없습니다

이것은 단일 하위 문자열 추출을 만족할 수 없습니다 적어도 무언가를 연결해야합니다 그래서, 당신이 이것을 안다면, 왜 우리가 이것을 할 수있는 신경 네트워크를 가르 칠 수 없습니까? 이를 수행하는 데는 두 가지 접근 방식이 있습니다 하나는 더 얕고 다른 하나는 더 깊이 얕은 하나는 구현하고 훈련하기가 매우 쉽습니다

DeepCoder라고합니다 당신이 종이를 보길 원한다면 원리는 간단합니다 우리는 우리의 예제를 제공하고 우리에게 줄 신경 네트워크에 그들을 공급 에있는 통신 수에 대한 분포 믿음이 나타나는 언어 만족하는 프로그램 이 예제들과 일단 우리가이 분포를 가지면, 우리는 가장 가능성이 적은 부분을 볼 수 있습니다 우리가 방금 그들을 제거하는 방법에 대해 배포 및 말 검색에서, 네트워크 신념 이러한 경로는 예제를 만족시킬 수 없으며 본질적으로 그것입니다 이것을 훈련시키고 싶다면, 당신이 필요로하는 유일한 것은 임의의 작업과 프로그램도 너무 자주 그리고 각 프로그램에서 너에게 충분 해

연산자 세트를 추출하여 이 네트워크가 존재한다고 말하면이 네트워크는 존재하지 않습니다 자, 이것은 이미 꽤 잘리고 잘 작동합니다 그러나 당신은이 과정을 알 수 있습니다 검색 공간을 시작하기 전에 만 실행됩니다 그러나 검색 연속 재귀 적으로 전체 트리에 걸쳐

우리가 사용하지 않는 것 같아 기회는 우리가 할 수있는만큼 자주 당신이 시작 단계가 아닌 모든 단계에서 그렇게한다면, 너는 우리가 부르는 무엇인가에 도착한다 신경 유도 연역 검색 기본적으로,이 방법의 모든 단계에서 우리가 갈 검색 부분 검색 상태를 이어 받아 피드 그것을보고 재주문 할 네트워크에 통신 수 및 저희에게주십시오 다음 단계에서 분기를 통해 다른 분포

이제, 당신은 그것을 차단할 수 있습니다 검색의 또 다른 부분이며 매 단계마다 그것을해라 당신이 올바른 프로그램에 도착할 때까지의 길 괜찮아 자, 실제로 기술적으로 어떻게 보이나요? 당신이하고 싶은 것은 다음과 같습니다

그래서, 첫 번째로하고 싶습니다 중간 검색 결과의 완전한 데이터 세트를 작성하십시오 없이 프로그램 합성을 실행하십시오 어떤 신경 네트워크 또는 어떤지도없이 모든 지수 공간을 탐색하자

이전 결과를 수집하고 이 검색 지점에서 우리가 K 연산자와 우리 사이의 선택 입력 및 출력 예제의 이러한 스펙을 가지고 있었고, 우리는 우리에게 준 모든 K 가지를 살펴 보았습니다 K 최고 수준의 프로그램 및 우리가 가진 순위 함수 H에 따라 이용 가능한 프로그램 P1에는 그 점수가 있었고, 프로그램 K는 그 점수를 받았다 우리가 원하는 것은 선택하는 것입니다 프로그램의 점수를 최대화 할 지사 그것이 그 점수입니다

이 프로그램은 일반화되고 의도 된 것입니다 그래서, 우리는 배울 것입니다 입력으로 취할 수있는 예측 모델 이 상태의 지점 ID와이 점수가 얼마나 좋은지를 대략적으로 나타냅니다 명확히하기 위해 지사를 선택하는 것만은 아닙니다 이 점수를 사용하고 싶습니다

점수가 일정하지 않기 때문에, 그들은 실제로 의미가 있습니다 이 범위의 점수는이 프로그램이 그 가능성이 높으며 그 범위의 점수는 그럴 것 같지만 그리 많지는 않다는 것을 말하십시오 따라서 점수를 최적화하고 싶습니다 이 과정에서 제곱 오차 목적을 사용하여 훈련하십시오 실제로 사용하는 모델 아키텍처는 작업에 따라 다릅니다

예를 들어, 문자열에 대해서는 말할 것입니다 "나는 나의 입력 예를 가지고있다 내 출력 예제가 있습니다 한 번에 한 문자 씩 그들을 임베드 할 것입니다 가시 STM 4 입력 및 생산물 ID별로, 나는 그것을 먹을거야

나에게 프로그램 점수를내는 다중 레이어 퍼셉트론 "이라고 말했다 이 파이프 라인은 각 프로덕션마다 독립적으로 실행할 수 있습니다 각 연산자 및 다음 몇 가지 최상위 순위의 것들을 선택하십시오 이 과정을 통해 몇몇 [들리지 않음]이 있습니다 좋은 부분은 잘 구현된다면, 그것은 수색을 더 높은 품질의 프로그램과 비생산적인 가지를 제거합니다

그들은 목표에 이르지 못합니다 단점과주의해야 할 사항, 만일 당신이 나무 전체의 어떤 지점에서 잘못 선택한다면, 당신은 지회를 제거하려고합니다 올바른 프로그램을 마치면 끝납니다 그래서, 만약 당신이 그것을 원하지 않는다면, 너는 항상 고르고 싶지 않아 이 모델이 예측 한 최상의 분기

당신은 그 중 몇 개를 고르고 싶습니다 이상적으로는 별과 같은 가지와 가지를 구현합니다 탐구하기 위해 검색 프로세스의 최전선 인 맹목적으로 최선의 예측을 선택합니다 괜찮아 그래서, 그 첫 번째 접근 방식은 스토리지와 신경계를 결합합니다

끝까지 가면 새의 눈으로 볼 때 하늘을 보아라 근본적으로 일어난 것은 우리가 완전히 논리적 인 절차를 가졌지 만, 상징적 인 검색 과정을 발견했습니다 신경 네트워크를 사용하여 그것을 안내하는 방법 음, 명백한 질문은 : 왜하지 않는가? 당신은 처음에 신경망을 배우고 배우려고합니까? 어떤 경우에는 작품이 작동하지 않는 것으로 밝혀졌습니다 우리는 어떻게해야하는지 몇 가지 예를 보게 될 것입니다

당신은 신경 네트워크의 올바른 아키텍처를 설계합니다 만약 당신이 전체 프로그램 합성 문제를 풀고 싶다면 신경망을 사용하는 것에 대한 명백한 단점은, 설명을 전달할 수 없다 프로그램에 참여한 모든 운영자의 100 % 보장 할 수는 없습니다 그 프로그램은 그 프로그램에 의해 신경망이 갈 것이라고 방출은보기를 만족시키기 위하여려고하고있다, 그리고 예제를 만족시키는 것을 잊어 버리고, 컴파일 할 것입니다

원하는 경우 그 신경 네트워크는 검색 프로세스의 핵심에 있어야하고, 상징적 인 프로세스를 사용하여이를 안내 할 방법이 필요합니다 네트워크를 알려주는 구성 요소가 있어야합니다 이것이 당신이하는 방법입니다 프로그램이 컴파일되고 그 (것)들을 예제를 만족시키는 방법입니다 이제 다른 몇 가지 도메인에서이를 수행하는 방법을 살펴 보겠습니다

이것이 가장 잘 묘사 될 수있는 설정, 우리 마음의 많은 사람들에게 사랑하는 분이 십니다 SQL 쿼리를 작성합니다 오랫동안 꿈꿔 왔던 에 대한 프로그램 합성 커뮤니티 오랜 시간이 걸릴 수있는 뭔가가 질문을하다 주어진 테이블과 침을 뱉다 실제로이 질문에 해당하는 SQL 프로그램, 그래서 당신 스스로 그것을 쓸 필요가 없습니다 우리가 가지고있는 것으로 밝혀졌습니다 당신이 그것을 사용한다면, 일종의 기계 번역 문제로 표준 인코더 디코더 주목 포인터, 그래서 STM은 입력으로 받아들입니다

하나의 시퀀스와 다른 시퀀스를 출력합니다 그 중 몇 가지가 있습니다 이 아키텍처는 이미 옳다 예를 들어, 그것은 당신에게 말할 수 있습니다, 좋아요, 단어의 삽입에 따라, 이것은 자회사의 가치가있다 시간 속성 및이 열 이름 또한 시간 속성에 관한 것입니다

아마도 이번 달은 올해와 일치해야합니다 나는 너에게 말할 수있다 이 열은 숫자를 포함하므로 서문과 여기에 마지막으로 한 마디가 있습니다 그래서 종종 마지막에 해당합니다 이 경우에는 max 데이터베이스를 기반으로합니다

이 상수가에 나타납니다 테이블 그래서 그것은 또한 프로그램에서 아마 나타나야한다, 그것이 질문에도 나타난다면 이 것은 통계적으로 꽤 안정적으로 발견 될 수 있습니다 세부 사항이 필요하면, 예를 들어이 논문을 찾아 볼 수 있습니다 따라서 구체적으로 구현하는 방법 이 경우 시퀀스 – 시퀀스 아키텍처 당신이 STM을 모른다는 것입니다

스키마, 열 이름을 인코딩합니다 질문을 인코딩 한 STM이 있습니다 모든 지점에서 디코더 LSTM은 세 가지 중 하나를 출력 할 수 있습니다 열 이름을 출력하거나, 당신이 실제로하고 싶은 것은 우리가 살펴볼 사본과 메커니즘 열 이름의 모든 토큰 그들 모두를 개인 배포하고 가장 좋은 것을 고르십시오 아니면 그냥 상수 토큰을 출력 할 수도 있습니다

이 경우, 당신은 단지 softmax 분포를 가지고 있습니다 문법에 나타날 수있는 모든 상수, 등호 (equal sign) 또는 운영자 (operator max) 또는 그와 같은 것 또는 특정 값을 원한다면, 그건 또 다른 복사본과 메커니즘입니다 질문의 낱말에 배급을보고, 스키마의 단어 대신 자, 만약 당신이 그것을 구현, 당신은 그것이 어느 정도는 작동한다는 것을 알게 될 것입니다, 비 유적으로 말하는 방식의 80 %를 얻는 것처럼

그러나 언급 한 바와 같이 실제로 생성하는 프로그램이 정확합니다 자,이 경우, 우리는 예제가 아닌 명세로서 자연어를 사용합니다 그래서, 말할 길이 없습니다 "프로그램을보고 프로그램이 건설을 통해 사양을 만족 시켰는가 " 그러나 적어도 우리는 유효한 SQL이고 올바르지 않을 가능성이있는 프로그램을 생성하고, 컴파일 및 실행, 우리는 신경망이 프로그램을 만들 가능성이 높습니다

에서와 같이 언어로 표현 된 의도를 충족시킵니다 이 보증이 거기에 존재하기를 원한다면, 신경 네트워크 위에 무엇을 추가하고 싶습니까? 실행 지침이라고 부르는 것입니다 실행 지침은 많은 HOC 필터링 기준 세대가 신경 회로망의 유효 기간은 유효한 프로그램입니다 구체적으로 무엇을 의미합니까? 자,이 예제를 보겠습니다 스키마가 있습니다

우리에게는 질문이 있습니다 우리는 모든 것을 처리하는 신경망을 가지고 있습니다 한 번에 하나의 토큰이 우리에게 SQL 쿼리를 출력합니다 그러나 실제로, 이미 알고있는 것처럼 표준 아키텍처를 기반으로 HFML과 기계 번역 및 기타 등등, 일반적으로 단일 예측을 출력하지 않습니다 빔 검색 (beam search)과 모든 단계에서 여러 예측을 출력 할 수 있습니다

시간이 지남에 따라 이러한 해독과 생성, 당신은 말할 것입니다, "이 시점에서 상위 50 개의 예측을 제공하십시오 그들의 확률은 지금까지 생성 한 접두어 그런 다음 상위 50 위권을 제외하고 모두 제거하려고합니다 다음 시간 단계로 이동하십시오 또한 최고 예측 등을 요구하십시오

" 너비가 50이 아니라 하나 인 경우, 욕심 많은 단일 토큰 생성 사실은 꽤 허약합니다 왜냐하면 다시, 생성 중에 단일 토큰이 잘못되어 다른 어떤 것보다 낮은 확률, 당신은 올바른 프로그램을 재구성하지 않을 것이며, 이것이 사람들이 빔 서치 (Beam Search)와 같은 것을 구현하는 이유입니다 빔 서치가 우리에게주는 또 다른 사실은, 예? 질문 있니? 괜찮아 빔 서치가 우리에게주는 또 다른 사실은, 이 부분적인 프로그램을 보는 방법입니다 낮은 확률의 것들을 제거 할뿐만 아니라, 좋은 일은 없을 것입니다

그래서 구체적으로 여기서 몇 가지 사례를 살펴 보겠습니다 괜찮아 합계가 있고 CT가 있습니다 구문 오류입니다 CT를 합산하는 법을 모르겠습니다

이 전체 프로그램을 갖고 있다면, 너는 그것에 줄 수 있었다 SQL 컴파일러는 컴파일 할 수 없다고 알려줍니다 그러나이 단계에서도, 당신은 이미 부분적인 프로그램을 볼 수 있습니다, 컴파일러에주고 그것을 알려줍니다 우리는 이미 구문 오류입니다 그래서 빔에서 제거 할 수도 있습니다

여기와 같아 이것은 구문 오류가 아닙니다 이것은 기술적으로 유효한 SQL이지만 실행하려고하면, 이미 빈 세트를 줄 것입니다 예를 들어, SQL dialect가 ORS를 허용하지 않으면, 그때 너는 끈질 기게 더욱 더 많은 조항들이 이 프로그램은 출력을 더 비게 만 만들 것입니다 대부분의 경우, 질문은 실제로 답할 수 있습니다

그래서 당신은하지 않기로 결정할 수도 있습니다 출력이 비어있는 것으로 보증 된 프로그램을 출력하십시오 답할 수있는 질문을 허용하려면, 괜찮아요, 그냥 포함시키지 마세요 그 특별한 필터링 기준 그래서 SQL은 실제로 어떤 언어 든 문법을 가지고 있습니다

어느 시점에서든, 당신이 프로그램을 생성 할 때, 마지막 토큰을보고 "Okay, 내 문법에 따라, 도달 토큰이 원칙적으로 다음 위치에 나타날 수 있음을 알고 있습니다 " 방금 '어디서'를 생성했는지, 그 다음 것은 열 이름이어야합니다 다른 연산자 나 다른 어떤 것도 될 수 없습니다 실제로, 그것은 당신이 물건을 생성 할 때, 당신은이 분석을하고 싶습니다 다음 위치에 올 수있는 일련의 토큰을 제시하고, 다른 모든 것들은 출력 어휘에서 제외됩니다

그들에게 빼기 가면을주십시오 무한대로 설정하여 네트워크에서 선택하지 못하게 할 수 있습니다 그게 당신에게 아주 간단한 방법을 강요합니다 프로그램을 시공으로 컴파일하기 이 기술은 실제로 훈련에 통합 할 수 있습니다

추론에만 국한되지 않고, 그래서 당신이 네트워크를 훈련 할 때마다, 모든 시점에서, 유효한 토큰 중 하나만 선택하면됩니다 문법에서 가능한 모든 것들은 아닙니다 프로그래밍 언어로 작동합니다 프로그래밍 언어는 문법을 많이 사용합니다 자연 언어라면 그렇게하기가 조금 더 어렵습니다

괜찮아 질문이 있으십니까? 또 다른 좋은 방법은 프로그래밍 언어 세계에서 통찰력을 사용하고, 나는 같은 문제에 대해 이것을 설명하려고한다 언어를 사용하고 SQL 또는 SQL과 같은 것을 출력하는 것 우리는 스케치 생성에 대해 이야기 할 것입니다 그래서, 직관적으로, 당신이 인간으로서 프로그램을 작성할 때, 당신은 보통 그것을 항상 쓰지 않는다

내가 지금 설명했던 것처럼 끝에서 끝까지 당신은 당신의 컴퓨터에 앉아서 "Okay"라고 말하지 않는다 나는 정말로 열심히 생각했다 이것이 올바른 프로그램입니다 나는 그것을 쓸거야, 말단과 이야기하기 시작한다

그리고 첫 번째 시도에서 올바른 것 "입니다 내 말은, 가끔 이런 일이 일어난다는거야 그러나 우리가 원하는만큼 빈번하지는 않습니다 대부분의 경우 어떻게됩니까? 당신이 단계적으로 그렇게하는 것입니다 당신은 목표 프로그램의 골격을 쓰고, 그리고 그 구멍을 채우십시오

경우에 따라 돌아가서 반복합니다 그 뼈대와 아마도 맞을지도 이전에 쓴 몇 가지 부분과 다음 구멍을 채우는 등등 따라서, 프로그램 합성을위한 신경 네트워크 아키텍처가 있습니다 그 과정을 모방하고 노력한다

인간 프로그래머들이 어떻게 작동하는지에 가깝게 만들기 위해서, 놀라 울 정도로 효과적입니다 가장 간단한 방법은, 세대를 두 단계로 분리하는 것입니다 무엇이 스케치 된 생성 및 프로그램 생성이라고 불렀습니다 스케치는 구멍이있는 프로그램입니다 이것은 프로그램이 다음과 같이 보일 것입니다

템플레이트 그러나 어떤 특정한 leafs없이, 상수, 분할 된 프로그램으로 만들 변수 여기에서와 같이, 이것이 생성하고 싶은 표현이면, 이것은 모든 항공편을 선택하는 함수입니다 출발 시간이 미안해 미안해 그것은 비행이고 본질적으로 그것입니다 따라서 모든 상수를 제거하십시오

이 프로세스의 변수를 사용하면 템플릿을 얻을 수 있습니다 템플릿은 선택하는 함수입니다 출발 시간이 무언가보다 적은 모든 항공편 따라서 프로그램 생성을 두 단계로 나눕니다 첫 번째 LSTM은 이 스케치와 두 번째 LSTM, 우리는 그것을 스케치에서 조절하고 침을 뱉을 것이다

그 스케치를 채울 구체적인 방법 이를 구현하는 몇 가지 다른 방법이 있습니다 여기서 가장 간단한 것은 LSTM이 두 개있는 것입니다 하나는 스케치의 토큰을 넣을 수 있습니다 그것이 프로그램의 토큰을 넣을 수있는 곳입니다

대상 프로그램이 실제로이 스케치에 나타나는 경우, 그것은 이전의 것에서 그것을 복사 할 것이고, 그렇지 않다면, 새로운 것을 생성합니다 그래서, SQL을위한 것이 아니라, 이 아이디어는 기본적으로 거의 모든 프로그램 생성 프로세스가 길다 너와 함께 할 수 있듯이 무엇이 스케치를 구성하는지에 대한 특별한 정의 괜찮아 이 시점에서 질문이 있습니까? 우리는 당신의 상징적 인 것에서부터, 우리는 발표의 마지막 부분에 다가 가고 있습니다

질문 없습니다 우수한 그럼, 얘기하자 신경 프로그램 합성에 관한 우리가 검색을 사용할 수없는 경우 자, 여러분 중 일부는, 음, 왜 우리는이 모든 방법으로오고, 기계 번역에서의 방법론 프로그램 생성에 적용하려고합니다

내 말은, 거기에는 몇 가지 유사점이 있습니다 그러나 정확하게 동일한 작업이 아닙니다 그리고 당신 말이 맞습니다 그래서 그것은 관점이었습니다 처음에는 기계 학습 커뮤니티의 말하자면, "프로그램은 단지 단어의 순서 일뿐입니다

우리는 일련의 단어들을 다루는 방법을 안다 같은 아이디어를 적용 해 봅시다 " 그것은 작동하지만 몇 가지 문제가 있습니다 프로그램은 자연 언어와 매우 다릅니다 그들은 키워드, 의미론을 가지고있다

우리는 그것이 잘 정의되어 있다는 것을 알고 있습니다 실행 가능하지만 그것은 신경망에 알려져 있지 않습니다 프로그램은 자연 언어 문장보다 훨씬 더 스파 스합니다 봐, 많이 프로그램의 식별자는 거의 사용되지 않습니다 누군가 그 (것)들과 함께 나왔다

소스 코드에서 몇 번이나 사용됩니다 분포는 매우 긴 꼬리가 있습니다 자연어 배포에는 긴 꼬리가 있습니다 하지만 긴밀한조차도 마찬가지입니다 실제로, 신경망이 보이지 않는다면 특정 식별자를 사용하는 충분한 예, 그것은 그것으로 무엇을 해야할지 모른다

프로그램의 거리 의존성이 훨씬 큽니다 봐, 우린 아마 얘기 했어 장거리 의존성 문제 및 자연어 LSTM이 발명되었고 다른 기술들, 자연 언어 문장에서 장거리는 무엇을 의미합니까? 20 단어처럼 프로그램의 장거리는이 파일이 어딘가에 있음을 의미합니다 다른 하위 디렉토리는 아마도 지금 쯤 잊어 버렸지만 갑자기 그걸로 함수를 호출합니다

그래서 사람들이 많이 깨달았을 때, 낱말의 연속에서 낱말의 나무에 졸업하는 것을 시도하고 순서대로 AST 전체를 처리하려고 시도했습니다 그들이 생성하는 프로그램에 구조를주고, 하지만 그것도 사용하지 않습니다 모든 알려진 풍부한 정보 프로그램의 소스 코드에서 사용할 수 있습니다 따라서 현재의 접근 방식은 프로그램을 그래프로 인코딩합니다 이것은 두 세계의 장점을 가져다주는 것입니다

그래프 란 무엇을 의미합니까? 그래서, 구체적으로, 우리는 우리 프로그램의 특정 위치에 해당하는 노드가 있어야합니다 및에 해당하는 가장자리 구문 론적 관계뿐만 아니라 의미 론적 프로그램의 변수와 사용 방법이 다릅니다 그걸 보여줄거야 몇 가지 슬라이드에 많은 세부 사항이 있으므로 걱정하지 마십시오 이 접근법에 대한 좋은 점은 정적 분석 알고리즘을 실행할 수 있으며, 존재하는 것과 같다

우리가 수십 년 동안 알고 있던 컴파일러, 모든 의미 정보를 얻으십시오 그런 다음 신경망이 잘 활용할 수 있도록 퍼가십시오 프로그램이 언제인지 알 수 있습니다 실행 파일 및 실행 파일 인 경우 그럼 우리가 어떻게하는지 봅시다

우리는 분석하려고하거나 이런 식으로 보이는 프로그램을 생성하십시오 이 프로그램의 모든 위치, 당신은 그것을 거대한 그래프의 노드로 나타낼 것입니다 그런 다음 다른 유형의 이러한 노드를 서로 연결하는 가장자리 가장자리의 유형은 무엇이며 무엇이 무엇입니까? 우리가 원하는 의미 론적 관계 이 표현으로 인코딩할까요? 예를 들어 가장 확실한 것은 구문입니다 이것은 당신이 이미보고있는 것입니다

예를 들어, "다음 토큰"이라고하는 단일 유형의 가장자리, 네가 얻을 수있는 것은 모서리와 연결된 노드 단어의 단일 시퀀스에 해당하는 이것이 바로 LSTM이 입력 및 출력으로 취하는 것입니다 그것이 당신의 기준입니다 단일 다른 유형의 가장자리를 추가하는 경우, 추상 구문 트리 자식, 우리는 이제 시퀀스 관계와 트리 관계 모두 이것의 위에 AST 자, 이제, 이것은 이미 여러분에게 제공합니다 프로그램을 보는 두 가지 다른 방법, 구조 및 파일에서의 순서

그러나 그것은 충분하지 않습니다 우리는 실제로 무엇을 이해하고 싶습니까? 프로그램은 마치 어떻게 생겼는지를 보여주지 않습니다 그렇게하는 방법은 데이터 흐름에서의 의미 적 가장자리 따라서 Data Flow 프레임 워크에 대해 들어 보지 못했다면, 그들이하는 일은 그들이 프로그램을보고 그들이 생각해내는 것입니다 관계의 근사치 변수가 실행되면 프로그램 전체에 변수가 흐를 수 있습니다 예를 들어, 알겠습니다

지금이 변수를보고 있습니다 언제 마지막으로 쓰여졌 을까? 예를 들어 여기서 찾고 있다면, 잘 마지막 어쩌면 주변 어딘가에 쓰기, 여기 또는 여기 나는 지금 루프의 반복을 알지 못했다 그래서 나는이 두 모서리를 모두 추가 할 것입니다 이 위치를보고있는 경우, 언제 마지막으로 쓸 수 있니? 다시, 여기 또는 여기

그냥 모두 추가하십시오 특정 입력에 대해 분석하지 마십시오 이것은 모두의 일반화입니다 또 다른 가장자리 변수가 마지막으로 사용 된시기는 언제입니까? 읽기 대신 쓰기와 비슷하지만 비슷합니다

또 다른 하나는 내가 과제를보고 있다면 특정 변수는 등에서 계산됩니다 동일한 그래프에 추가합니다 결정적으로 그리고 이제는 인코딩하는 표현이 있습니다 두 구문의 혼합으로 프로그램 우리가 가지고 있지 않은 의미와 의미 이전에 프로그램을 보았던 접근법에서 전에 실행 가능한 객체가 아닌 구문 객체와 동일합니다 자,이 모든 것들을 얻은 후에 중요한 부분은 물론입니다

이 그래프를 모두 어떻게 처리 했습니까? 신경망과 실제로 그것을 밖으로 어떤 종류의 이해가? 그것에 대해 이야기 해 봅시다 그래서 RNN부터 시작하겠습니다 RNN은 우리의 기준선이며, 그래서 우리가 텍스트와 같은 구조화 된 데이터를 가질 때, 우리는 매우 간단한 알고리즘을 사용하여 그것을 처리했습니다 우리는 소위 반복 단위 (recurrent units) 벡터를 기반으로 한 계산을 수행하는 셀 개별 단어가 있다면 프레젠테이션 우리는 그것을 하나의 순서로 처리합니다 말하자면, 대표를 맡자

단어의 메시지로 그것을 포함, 벡터 및 각 시간 단계에서, 반복 단위는이 메시지를 변형 할 것이며, 그것을 다음 사람에게 건네 줘, 다시 그것을 변형시킬 것이기 때문에, 그것을 이웃 사람에게 넘겨 준다 그래서이 시점에서의 작업은 그냥 당신의 현재 표현, 프리픽스와 프로세스에서 프리젠 테이션 패스를 가져 가라 그리고 나서 더 나아가고 그것은 끝날 때까지 계속됩니다 RNN은 본질적으로 RNN을 알고 있습니다 이제이 구조체에 가장자리를 더 추가하면, 우리는 이제 그래프 구조 데이터를 체인 만 가지고있는 것이 아닙니다

그렇다면이 계산 방법을 어떻게 채택할까요? 이제 더 이상 단순한 질서가 없습니다 글쎄, 어떻게하는지 보자 그래프와 그래프로 시작하겠습니다 프로그램의 위치 인 상태를 가지며, 단어와 마찬가지로 삽입이 포함되어 있습니다 예를 들어, 다음과 같이 말할 수 있습니다

식별자 변수 단어로 포함되어 있으며 벡터로 나타냅니다 우리는 또한 가장자리가 있습니다 그래서 우리는 여러 종류의 모서리를 가지고있었습니다 각자가 될거야 또한 특정 되풀이 단위로 표현됩니다

이제 우리는 각 노드마다 반복적 인 유닛을 가진 구조를 가지고 있습니다 이 텍스트와이 노드의 표현과 마찬가지로, 이 텍스트와 마찬가지로 하나가 아닌 여러 유형의 모서리가 있습니다 그래서, 아이디어는 당신이 가져가는 것입니다 노트 상태가되면 통과하게됩니다 모든 이웃에 대한 에지 네트워크

한 번에 모든 이웃 그래서, 노드 상태를 통과시키고, 가능한 모든 이웃과 그 지식에 따라 그렇게하십시오 이제 주어진 노드에 하나 이상의 메시지가 도착했습니다 하나 대신 RNNs의 경우가 아니라, 그래서 당신은 그것을 모으는 어떤 방법이 필요합니다 소리는 대개 잘 작동하지만 음료 또는 다른 것들로 실험

그래서 재발 성 단위 다시 노드의 현재 표현을 취하고, 에서 도착 메시지를 가져옵니다 이웃과 그 표현을 업데이트합니다 구조는 RNN과 매우 유사하며, 그것은 단지에서 발생합니다 두 개 이상의 노드에서 발생하며 둘 이상의 노드에서 발생합니다 우리는 모든 가장자리 유형에 대해 별도로 수행하고 있습니다

모든 노드를 동시에, 우리는 우리의 프리젠 테이션을 노드와 정보를 사용 이웃을 계산하기 위해서 당신이 여러 번 그렇게한다면, 여러 개의 다른 레이어에 대해 네트워크를 풀고, 이제 우리는 에 기반한 홀 프로그램 구조 전반에 걸친 메시지 전파 괜찮아 그래서 이것은 GNNs에 관한 것입니다 자연스러운 질문은 이것이 모두 합성과 관련이있는 것입니다

글쎄, 그것이 우리에게주는 것이 인코딩하는 좋은 방법이라고 봅니다 프로그램이 있다면 특별한 좋은 표현 문법을 이해할 수있는 프로그램, 그 의미론뿐만 아니라, 이 인코딩 방법을 현재 사용중인 프로그램에 적용 할 수 있습니다 컨디셔닝하고있는 프로그램뿐만 아니라 생성 네가 조건을 정할 일이 있다면 예를 들어, 프로그램 완료를 원한다고 가정하십시오 너는 특정한 프로그램을 가지고 있고 너는 길을 원한다

특정 지점에서 앉으세요 사용자가 입력하고 제안을 제공합니다 IntelliSense만이 아니라 단일 토큰 IntelliSense 구멍 식 수준의 IntelliSense 이 설정에는 예제, 언어, 의도 표현은 여기 내 프로그램의 맥락이다

그 문맥의 가장 확률이 높은 완성은 무엇입니까? 그래서 원칙은 실제로 이제 너는 인코딩이 비교적 간단하다는 것을 알았습니다 당신이 말하는거야, "자 이 컨텍스트를 그래프 신경망을 사용하여 인코딩합니다 " 우리가 그것을 인코딩 한 후에 우리는 Hole 노드에서 어떤 표현을 얻습니다 이것은 우리가 시작하는 벡터가 될 것입니다

우리 프로그램과 표현을 생성한다 그 주변 변수의 순차 생성 프로 시저에 전달 그것은 생성 된 코드를 우리에게 줄 것입니다 이 표현은 여기에 있습니다 생성 된 절차는 다음과 매우 유사합니다 이미 본 연역적 검색, 방금 신경망을 사용하여 구현했습니다

논리 검색 대신 근본적으로 다시 하향식 표현을 만들 것입니다 위에서 아래로 왼쪽에서 오른쪽으로 메시지 전달 및 전달을 사용하여이 작업을 수행하십시오 논리 파생 대신 그래프 신경망의 여기서부터 시작하겠습니다

구멍에 초점, 우리는이 구멍에서 확장되어야 할 것을 선택하고 싶습니다 우리는이 시점과 같은 작품을 가질 수 있습니다 마이너스 또는 플러스 또는 함수 및 기타 등등에 대한 호출 연역적 검색 변칙과 마찬가지로 제작되었지만 거기에서 우리는 그것들 모두를 확장했다 여기서 우리는 그들을 선택하는 softmax 만 가질 것입니다

다음 구멍에 집중하고, 그것을 확장하고, 이제 터미널 노드가 생겼습니다 그래서 터미널 노드에서 변수를 선택합니다 의미에 해당하는 가장자리를 추가하고, 마지막 사용 엣지와 같이 전파된다 문맥에서 변수 노트를보고 말하면, 어디에서 마지막으로 사용했는지, 동일한 프로세스를 왼쪽에서 오른쪽으로 단계별로 계속 진행하십시오 이 특정 설정을보고 적용하면, 너는 실제로 네트워크를 얻는다

놀랍게도 작은 스 니펫을 보는 것이 좋다 코드 생성 및 생성 모든 지점에서의 표현과 그 순위 예를 들어, 이미 본 예제를 보자 때때로 그것은 정확하지 않습니다 그래서, 예를 들어, 여기 오른쪽 표현 첫 번째 점 대신에 두 번째 점에 나타납니다

그러나 그들의 확률은 그다지 다르지 않다 때로는 놀랍도록 좋지만, 이 식과 마찬가지로 오른쪽 하나는 문자 변수입니다 어떤 상수와 비교되어야한다 그것은 당신에게 올바른 상수를 생성 할 수 있습니다, 그러나 그것은 일정해야한다는 것을 알고 있습니다 그래서 나는이 시점에서 결론을 짓겠다

그것은 여러 다른 것들에 대한 상위 수준의 개요입니다 이 특별한 것들이 당신에게 흥미가 있다면, 여기 링크가 좋습니다 그래서 설문지는 맨 위는 아마도 전체 분야에서 가장 좋은 부분 일 것입니다 다루는 상징적 인 부분을 다룹니다 신경 섹션 및 많은 특정 프로젝트 및 응용 프로그램, 당신에게 관심있는 것에 따라

내가 너를 체크 아웃하는 것이 좋습니다 특정 프레임 워크는 사람들이 특정 적용 방법을 간소화한다 최종 사용자 중심 애플리케이션에서의 프로그램 합성, 프로와 스케치가 가장 인기있는 두 가지입니다 그래서 그들을 사용하십시오 다음과 같은 몇 가지 블로그 게시물이 있습니다

최근의 연구 및 논문 및 결과를 원하는 경우 우리가 가기 전에, 나는 너와 함께 떠나고 싶어 이 이야기 전체에 걸친 이러한 테이크 아웃 프로그램 종합은 전체적으로 특정 애플리케이션 도메인에서 프로그램을 생성하고, 이를 구현하기 위해, 세 가지 주요 구성 요소가 필요합니다 프로그램 언어를 정의하고, 사양을 취하는 방법을 정의하고, 당신이이 수색에서 어떻게하는지 정의하십시오 그들 모두를위한 몇 가지 특별한 선택이 있습니다

당신의 명세가 예제라면, 그래서 당신은 가능한 한 그 (것)들을하고 당신은 그것을 빨리하고 싶다 열거 형 또는 연역 형 검색 보통 그렇게하는 좋은 방법입니다 그것은 귀하의 프로그램의 정확성을 보장하며, 최소한 예제와 관련하여, 그러나 항상 가장 효과적인 방법은 아닙니다 그래서 속도를 높이고 싶다면, 신경 유도 된 수색은 그것을하는 좋은 방법이다 다른 사양의 경우, 당신이 필요로하기 때문에 어디서 검색을 할 수 없는지 언어 감각을 키우거나 프로그램 컨텍스트의 감각 또는 다른 도메인 신경 네트워크가 더 효과적인 방법입니다 인코딩, 신경 네트워크를 사용합니다

이것들은 우리의 현재 또는 그래프 기반의 것들이며, 프로그램의 복잡성에 따라 다릅니다 당신은 실행 정확성을 포기합니다 따라서 부분 프로그램 실행 또는 인위적으로 추가 된 구조 프로그램을 컴파일하기 위해 프로그램이 컴파일됩니다 힌트가 도움이됩니다 어떤 프로그램도 생성하고 싶지는 않습니다

프로그램이 무엇인지에 대한 암시가 있다면 그것을주십시오 올바른 프로그램의 스케치를 작성할 수 있다면, 그것을 작성하십시오 문법이있는 경우 프로그램을 생성하는 언어, 그 문법을 네트워크에 전달하십시오 예를 들어, 사용할 수있는 토큰을 제한하는 것 부분적으로 생성 된 프로그램을 기반으로 각 위치에서 순위 함수를 훈련 할 수 있다면 어떤 프로그램을 다른 프로그램보다 우선시 할 수 있습니다 그것은 또 다른 히트 다

사람들이 만든 프레임 워크가 있습니다 특정 종류의 프로그램 합성 다른 설정에서 활용할 수 있습니다 이것으로 프로그램 합성의 고수준 개요를 마칩니다 행복하게 질문을합니다 고맙습니다

질문이 있으십니까? 예 >> 강도 옵션을 쓸 수 있습니까? 나는 당신이 순위를 매기는 방법을 다뤘다고 생각하기 때문에 에 신경 네트워크를 사용 노드 레벨이지만 프로그램 레벨에는 없습니다 >> 네 따라서 순위 함수는 다음과 같습니다 프로그램을 입력으로 받아들이는 것, 선택적으로 입력으로서 작업을 취하고, 인풋과 예를 들어 만족시키고 자하는 결과물

출력은 여덟 가지 종류의 점수입니다 이 프로그램은 아마도 더 일반화 될 수 있습니다 그걸 훈련시키고 싶다면, 당신이하고 싶은 것은 당신의 데이터를 구축하는 것입니다 만족할 수있는 모든 가능한 프로그램 세트 예제를 일반화 할 수 있는지 여부를 표시합니다 보통 그렇게하기 때문에 그렇게 할 수 있습니다

더 많은 입력 데이터 예제 이 사양에 주어진 것보다 스프레드 시트에서와 마찬가지로, 플래시가 실패한 경우, 당신은 "좋아, 상위 두 줄을 기반으로 프로그램을 생성하고 있습니다 하지만 나는 그 프로그램들을 다음과 같이 판단 할 것이다 나머지 행에 대한 행동에 따라 좋든 그렇지 않든간에 " 그건 당신에게 훈련 데이터를 제공합니다 다양한 목적이 있습니다

실제로 학습 문제를 설정하는 방법, 근본적으로 당신이 달성하기를 원하는 것은 좋은 프로그램은 가능한 모든 나쁜 프로그램보다 높아야합니다 따라서 순위 함수에 의해 출력 된 점수는 분리되어야합니다 모든 나쁜 프로그램의 점수에서 더 좋은 프로그램 그것은 무언가에 해당합니다 당신이 말하는 곳에서 최대 – 마진 손실, "나는 사이에 마진을 만들고 싶다 좋은 프로그램과 나쁜 프로그램만큼 가능한 높은 수준

" 그래서 이것은 조정하고 싶다면 그렇게하는 한 가지 방법입니다 전체 프로그램과 작업을 인코딩하고, 그게 너에게주는거야 순위 지정 기능 모든 단계에서이 작업을 수행 할 수도 있습니다 에서 훈련 데이터를 수집 할 수 있다면 검색 프로세스의 모든 레벨 우리가 신경 유도 된 검색에서했던 것처럼 물론, 당신이 훈련을 원하지 않는다면, 나는 당신이 순위 기능을 쓸 수 있다고 생각합니다

사실, 간단한 휴리스틱 스 더 짧은 프로그램은 상수가 적은 더 나은 프로그램 더 나은 yada yada는 이미 당신에게 80 %의 길을줍니다 질문이 있으십니까? 예 >> 관련 질문 당신은 어떻게 보장합니까? 도메인 등급에 따라 생성 된 프로그램의 성능? 생성 된 프로그램은 의식이 조용한 프로그램이나 SQL의 경우, 그것은 글을 돌보지 않는가? 그 시스템 관련, 어떻게 친절하니? 그 지식을 그 세대에 만들어야합니까? >> 네 좋은 질문입니다

그래서 저는 그것을 반복 할 것입니다 문제는 다음과 같은 성능을 어떻게 보장 할 것인가입니다 생성 된 프로그램의 속도는 막대까지이며, 에 해당하는 다른 도메인의 경우 복잡성이나 색인 생성 등의 다른 개념은 무엇입니까? 괜찮아 성과는 또 다른 척도입니다 생성 된 프로그램에 점수를 매길 수 있습니다

우리는 방금 순위 함수에 대해 이야기했습니다 순위 함수는 일반화 또는 프로그램의 적용 가능성 당신은 성능을 위해 비슷한 것을 만들 수 있습니다 프로그램을보고 말하면 "이 통신 수는 실제로있다 이러한 운영자보다 느린 구현 "이라고 말합니다 당신은 두 가지 목표의 혼합을 최적화하고자합니다

간단한 비용 모델을 작성할 수 있습니다 SQL 인덱스의 경우, 다시 말하지만이 열에 대해 인덱스가 있다고 말할 수 있습니다 나는이 연산자들 이러한 연산자보다 효율적입니다 그것이 제 목표의 두 번째 요소입니다 따라서 네트워크는이를 최적화하고, 실제로 올바른 프로그램을 생성 할 수 있습니다

또한 종종 두 단계로 수행 할 수 있습니다 당신이 집합을 생성하는 곳 올바른 것으로 보이는 프로그램, 그 중 가장 효율적인 것을 고르십시오 예 추가 질문? 괜찮아 다시 한 번 고마워 커피로 돌아 가자

Reinforcement Learning: Bringing Together Computation, Behavior and Neural Coding

>> MSR에 앤을 맞이하게 된 것을 기쁘게 생각합니다 알고 있었어

앤 부교수 버클리의 심리학과에서 그녀는 CCN 연구소의 책임자이며, 전산인지 신경 과학 내가 명령을 받았어? 네 >> 그녀는 놀라운 일을 해냈습니다 오늘 아침 그녀에게 말하면서, 나는 그녀가 무엇에 대한 보완적인 관점을 제공한다는 것을 깨달았다 마누엘 블룸 (Manuel Blum) 의식이있는 튜링 머신으로 2 주 정도 돌아 왔습니다

글쎄요, 여기에는인지 과학자가 있습니다 우리는 일하는 기억에 대한인지 과학의 견해를 우리에게 알려줍니다 나는 몇 년 전에 당신의 논문 중 하나를 어떻게 읽었는지 기억한다 인간의 보강 학습의 대부분은 실제 기억력 대 실제 기억력 나는 더 많이 듣고 싶어한다

RL 계산, 신경 부호화를 결합합니다 >> 맞아 >> 이야기를 기대합니다 >> 좋아 고맙습니다

초대해 주셔서 감사합니다 여기에있는 것이 매우 흥분됩니다 나는 종종 사람들과 이야기 할 기회를 갖지 못한다 인공 지능과 나는 우리 모두가 할 수 있다고 생각한다 우리의 토론에서 더 많은 이익을 얻으십시오

그래서, 정말 좋습니다 그래서 저는 두 부분으로 구성된 이야기를 준비했습니다 그리고 그것은 1 시간이기로되어 있습니다 그러나 나는 많은 방해를 기대한다고 들었다 정말 환영합니다

항상 만들기가 어렵습니다 사람들이 아는 것과하지 않는 것, 그러니 언제든지 질문하십시오 우리가 그렇게한다면 첫 부분을 통해, 나는 매우 행복 할거야 그래서, 좋습니다 괜찮아

괜찮아 그래서, 제 실험실에서, 제 연구실은 전산인지 신경 과학 (Computational Cognitive Neuroscience) 그리고 나는 정말로 가져 가려고 노력했다 시도하고 이해할 수있는 세 가지 각도 인간이 어떻게 결정을 내리고 배우는 지 저는 강화 학습에 중점을 둡니다 내가 생각하기 때문에 나는 그것을 아주 빨리 정의 할 것이다

실제로 다른 공동체와 다른 것을 의미합니다 AI 전체 커뮤니티가 AI를 의미합니다 모듈화하여 수학 및 컴퓨터 과학 커뮤니티 적용 누가 강화 학습과 무언가를 의미합니다 보면서인지하는 군중이 있습니다 행동 및 다른 의미, 신경 과학 관중들은 다시 다른 것을 의미합니다

물론 이것은 모두 관련된 것입니다 그러나 그것도 다르다 내가 얘기하려고하는 매우 중요한 방법 괜찮아 그래서, 아마 나는 필요가 없습니다

너희들에게이 부분을 설명해라, 계산 적어도 내 외부 관점에서 생각하면, 그것은 실제로 그 알고리즘을 학습하는 클래스입니다 정책을 찾으려고하고있다 매우 구체적인 비용 함수를 극대화합니다 또는 비용 기능을 최소화 할 수 있습니다

너는 그 종류에 상당히 실망 할거야 내가 사용하는 강화 학습 알고리즘의 그것은 본질적으로 가장 간단합니다 당신은 당신이 가치의 추정치를 얻는 곳을 생각할 수 있습니다 예측 오류를 보상하고 값을 업데이트합니다 그래서, 대부분의 나의 보강 학습 알고리즘은 현재로 제한 될 것입니다

죄송합니다 심리학인지인지 과학 분야에서, 우리는 보강 학습을 일련의 행동으로 생각하며, 또한이 동작을 조사하는 데 사용하는 일련의 작업도 제공합니다 그게 우리가 근본적으로하는 모든 것입니다 피드백에서 배워야한다 그것은 강화 또는 준비 중입니다

이 공정한 게임을 강화 비트 학습이라고 부릅니다 괜찮아 그래서 저는 여기서 예를 든다 그것은 인간조차도 아닙니다 이것은 단순한 산적 작업을 배우는 설치류 동물입니다

여기의 색은 두 도둑 중 어떤 것이지? 주어진 시간에 최고입니다 텍스트의 크기가 우리에게 알 수 있습니다 동물이이 선택에 대한 보상을 받았는지 여부 당신은 동물이 녹색이 ​​좋을 때 녹색을 선택하는 것을 배우고, 오렌지색이 좋으면 오렌지색 등 그래서, 이것은 일종의 우리가 바라는 보강 학습 행동

여기서 흥미로운 점은, 집계 된 동작을 플로팅하는 경우 여기 점선입니다 나는 도적 중 하나를 선택할 확률을 계획했다 이것은 정말 잘 캡처 된 수 있습니다 잘 전에 보았던 간단한 알고리즘으로 그래서 이것은 알고리즘이 어디에서 왔는지입니다 컴퓨터 과학은 행동을 포착하는데 도움이되었습니다 그래서, 여기 우리는 두 도둑에 대한 행동 가치를 가지고 있습니다, 그리고 그것은이 행동을 아주 잘 포착하고 있습니다

괜찮아 그래서 사람들은 그것들을 관련 있다고 생각합니다 공동체의 마지막 1/3은 신경 과학자들입니다 강화 학습은 매우 구체적인 장소를 가지고 있습니다 신경 과학자의 심장에 성공 사례 지난 20 년간 전산 신경 과학

그 이유는 우리가 뇌 영역을 확인했기 때문입니다 및 도파민을 코딩하는 뉴런을 갖는 영역, 뭔가를 인코딩 한 우리가 보상 예측 오류라고 생각하는 것에 매우 가깝습니다 네가 아는 것과 아니 겠니? 괜찮아 좋아, 좋아 제가 여기에서 플로팅하고있는 것은, 각 라인은 단일 신경 세포의 발사이며, 상단이 집계 됨 이것은 동일한 유형의 여러 번 재판을 통해

여기서 보시는 것은 보상을받는 동물입니다 그 도파민 뉴런이 스파이크를 증가시킨 것을 볼 수 있습니다 그래서, 그들은 "오, 내가 기대했던 것보다 더 나은 것이 여기에서 일어났습니다 " 잠시 후 동물은이 보상을 예측하는 법을 배웁니다 그래서 파블로프의 실험을 생각해 볼 수 있습니다

종은 음식을 예측합니다 그래서 그것이 바로 CS가 의미하는 것입니다 당신이 그것을 얻을 때, 이것은 당신이 도파민 신호를 얻는 곳입니다 따라서 긍정적 보상 예측 오류입니다 그런 다음, 당신이 보상을받을 때, 당신은 그것을 기대하고 있으며 도파민 신호가 없습니다

그런 다음, 동물이 보상을 기대했지만 그것을 얻지 못했을 때, 깊은 신호가 있습니다 그래서이 뉴런 세트는 정확히 무엇을 인코딩 당신은 보상 예측을 원할 것입니다 사람들은 더 멀리 가고, 회로를 보았고, 누가 도파민 뉴런과 대화하는지 보았다 본질적으로 그들이 배운 것은 거기에 정말 잘 정의 된 회로가있다 도파민 뉴런을 사용하는 뇌에서, 이 보상 예측 오류가있는 사이에 소성을 조절하는 상태를 인코딩하는 뉴런, 당신이 하천을 선택하도록 돕는 뉴런과, 본질적으로 인코딩 된 것처럼 보였습니다

이 방정식은 도파민과 뉴런의 도움을받습니다 네 >> 그래서, 심리학자와 같은 Brandwatch [들리지 않는 사람]에게서 들었습니다 그는 도파민이 아직보고되지 않았다고 말했다 하지만 실제로 그것은 화학 물질입니다

커뮤니티 구축을 장려하는 데 사용됩니다 그녀는 최근의 신경 과학은 실제로이를 향해 지적합니다 그래서, 당신이 이것으로 무엇을 맡을 지 궁금합니다 >> 그래서, 확실히 그것은 보상을 인코딩하지 않습니다 여기에서 볼 수 있습니다

권리? 당신은 당신이 여기에 보상을 얻을 때, 당신은 신호를 얻고, 여기에 보상을 받고 싶습니다 당신은 신호를 얻지 못합니다 그것은 그 논문들의 집합들입니다 사람들은 보상 보상으로 도파민으로 가득 차 있습니다 종이 세트 후에, 그들은 보상보다 보상 예측 오류라고 느낍니다

이것은 매우 확고하게 확립 된 발견입니다 항상 생각보다 복잡합니다 보상 예측 오류만큼이나 간단하지 않습니다 그러나 공동체 건설은 내가 전에 들었던 어떤 것이 아닙니다 그것은 학습을 장려하고, 협회를 장려하며, 그래서 그것은 소성을 장려한다

그래서 그것은 학습을 장려한다 뭔가를 다른 것과 연관 시키려면, 어쩌면 그것은 당신이 의미 한 것입니다 >> 네, 제가 가진 질문입니다, 이것은 아마도 조정과 지연의 더 많은 것입니다 >> 아뇨 그래서, 사람들은 그 모든 실험을했습니다

그들은 인과 관계를 시도했습니다 당신이 할 수있는 많은 방법이 있습니다, 예를 들면, 도그마 뉴런을 강제로 발사하고 나서 당신은 행동에 영향을 미친다 당신은 사람들이 실제로 개입하게 만듭니다 회로의 모든 작은 장소 및 이것은 매우 강력한 발견입니다 그것보다 더 복잡합니다

이 아주 간단한 이야기, 테일러 확장에 대해 생각한다면, 첫 번째 학위가 맞아 확실히 그 후에는 약간 쉬울 수도 있지만 괜찮습니다 그래서 우리는 이런 종류의 회로를 구현합니다 알고리즘의 첫 번째 approximation

그래서, 다시, 그것은 장소입니다 사람들은 "음, 놀랍습니다 당신은 알고리즘을 취할 수 있습니다 컴퓨터 과학과 뇌 설명 " 그래서 그 때문에,이 성공적인 링크 때문에 사람들이 생각하는 세 가지 한 가지로서 학습 강화 학습 그리고 비록 현장 실제로 그것이 옳지 않았던 모든 시간을 가지고 있지 않습니다

제비 뽑기가 우리가 그렇게 생각해야만하는 다른 것, 예를 들면, 당신이이 알고리즘을 포함한 두뇌를 생각할 때, 당신은 아무데도 말하지 않습니다 어떤 상태 공간 또는 어떤 행동 공간 이 방정식이 작용하는, 좋아 우리는 그것을 모릅니다 예를 들어 다른 뇌 영역이 그 역할을 담당합니다 이것이 매우 중요한 결과를 초래할 수도 있다는 것 우리가 배우는 방법 등

이 알고리즘은 공정하게 특정 무언가를 최적화하는 거지? 이 미래의 할인 보상의 합계의 기대 가치 그러나 그것은 매우 가능합니다 그래서 당신의 행동의 일부는 다른 종류의 비용 함수 또는 이익 함수, 어떤 경우에 우리는 모든 종류의 알고리즘을 잘 활용하려면, 알았지? 그래서 제가 이해하려고 노력한 이유는, 인간 학습을 이해하고 싶다면 또는 그 문제에 대한 동물 학습, 우리는 생각할 필요가있다 계산에서 두뇌의 두 부분 모두 오늘 제가하려고 노력하고 싶은 것은 이것에 대한 두 가지 예를 들면서, 하나는 전송 일반화이고 다른 하나는 방법론에 관한 것입니다

두 가지 시스템이 행동에 기여합니다 인간의 학습에 초점을 맞춘다 내가 실제로 생각하기 때문에 실제로 두 번째 것으로 시작할 것입니다 너는 이것에 매우 흥미가있을거야 특히 내가 말한 것을 줘서 이전 대화와 시간이 있다면 다른 것에 대해서 이야기 할 수 있습니다

하지만 우리가 첫 번째 작업을 수행하면 괜찮습니다 괜찮아 그래서 소개하겠습니다 우리가 이전에 말했던 회로 강화 학습 시스템을 구현합니다 뇌에서 매우 잘 이해 된 기억과 학습 시스템, 그래서 여기 당신은 이렇게 뇌를 자르고, 당신은 녹색의 피질을 가지고 있습니다

피질 밑에 원소가있다 전구 인 뇌에서 더 깊다 이 보강 학습 계산을 수행하는 데 중요합니다 괜찮아 그래서 이것은 하나의 시스템입니다, 우리가 알고있는 하나의 네트워크 보강 학습을하는 것이 좋습니다

그러나 심리학자들은 매우 잘 알고 있으며, 우리가 다른 기억 체계를 가지고있는 아주 오랜 시간 예를 들어 이 다른 구조로 인코딩 된 에피소드 메모리 해마, 일화 기억, 사람들은 대개 메모리의 종류의 예제를 제공합니다 너는 오늘 아침에 주차 한 곳을 기억하고, 당신은 그것을 매우 정확하게 알 수 있습니다, 그것은 어제 주차 한 것을 방해 할 필요가 없습니다 그러나 당신이 그것을 필요로하지 않을 때 당신은 아마하지 않을 것입니다 더 이상 기억하지 마, 알았지? 그런 다음 또 다른 메모리 시스템이 있습니다

그래서 분명히 일하는 기억 지난 주 또는 2 주 전에이 소식을 들었습니다 작업 메모리는 약간 다릅니다 이 시스템은 당신이 적극적으로 기억하려고 노력합니다 무언가를 할 수 있고 아주 적은 금액 만 할 수 있습니다 매우 짧은 시간 동안 정보의 그리고 그것은 간섭의 대상이 될 것입니다, 알았죠? 여기 고전적인 예가 있습니다

네가해야 할 전화 번호 당신이 그것을 사용할 때까지 적극적으로 기억하고 당신의 기억에서 아주 빨리 사라진다 좋아, 그래서 우리는 세 가지 시스템 모두와 첫 번째 중요한 질문은 우리가 가지고있는 것입니다 3 개의 메모리 시스템 및 우리는 주어진 시간에 단 하나의 결정만을 내린다 그래서 우리는 어떻게 작동하는지 이해해야합니다 우리가 알아내는 것을 배울 때 함께, 우리가 선택하게 만들려고, 알았어

그래서이 첫 번째 시스템은 심층 강화 학습 시스템 최근에 AI RL을 인수 한 그들은 매우 유사한 계산을하는 것처럼 보였습니다 장기 기억 또는 에피소드 기억이 있습니다 또한 최근에 침략의 침대를 만들었습니다 AI 강화 학습 영역으로 그래서 여기 나는 두 개의 논문을 결정하고있다 하지만 너희들도 알고있다

이것을 포함하는 당신 자신의 연구 그러나 나는 그 어떤 증거도 보지 못했다 AI 커뮤니티는 많은 것을 생각하고 있습니다 어떤 기억이 학습에 기여하는지 그래서 나는 반박하는 것을 좋아합니다

>> 단순히 LSTM이 작업 메모리의 한 예라고 말할 수 있습니다 >> 그들은 무한한 능력을 가지고 있습니다 >> 뭐라구? >> 그들은 본질적으로 무한한 능력을 가지고 있습니다 그래서 그 의미에서 그들은 일하는 기억이별로 없습니다 >> 실제로, 무한대보다는 작습니다

솔직히 말해서 수십 번의 등반 단계에 불과합니다 >> 맞아 나는 능동 유지 보수에 관해서이 점을 물었다 의미에서, 그리고 통합 나는 작업 기억과 몇 가지 중요한 차이점이 있다고 생각한다

따라서 작업 기억은 유지할 수 있다고 생각합니다 아주 정확하게 한 조각 자체 정보 또는 몇 가지 정보, 제 생각에는 상당히 별개입니다 다른 것들이하고있는 감각으로 모든 것을 통합 할 때 우리가 완전히 확신 할 수없는 공간 결국 그것은 어떤 정보입니까? >> 시연 된 것이 있다고 생각합니다 이 모든 기회는 할 수없고 그럴 수 있습니다 소설 협회를 저장하여 일정 기간 동안 목표를 유연하게 유지하십시오

그들은 오직 가지고있는 정보 유형만을 저장합니다 수십만 단계의 시간 단계에 걸쳐 교육을 받았습니다 >> 맞아 또한 내가 일하는 기억을 다음과 같이 생각할 때 내부 표현 인 무언가 우리가 운영 할 수있는 예를 들어, 저는 당신에게 줄 수 있습니다

숫자와 다른 번호를 기억하고 그때 기억하게, 내가 너에게 물어 본 후에, 그 제품을 내게 주십시요 그 표현을 조작하기 위해 그들을 조작하십시오, 그렇습니다 >> 그래서, 그들이 프레스에 의해 액세스하는 명시 적 외부 메모리 저장 그 주목은 작업 기억의 경우가 아니라는 것입니다 물론, 의도하지 않았습니다 작업 기억으로 한계가있다

그러나 그것은 단지 유지하는 것입니다 무엇이 운영되고 있는지 예, 그렇기 때문에 관련성이 있다고 생각합니다 어떤 의미에서 내 생각 엔 당신이 맞다

내가 지금까지 가지고있는 질문은 어떤 이유에서인지, 우리는이 제한을 가지고있을 수 있습니다 진실한 제한 또는 그것은 무언가 일 수 있었다 인간인지에 유용하다 그리고 만약 그렇다면, 나는 이것을 AI에 내장 된 것을 보지 못했지만 당신이 알고 있다면, 그렇습니다 >>주의 모델, 또한 작업 기억을위한 이전, 그들 모두는 실제로 이성을 나타내고있는이 느낌을 가지고 있습니다 어떤 길을 설명하다

당신은 그것이 무엇을 할 것인지를 모른다 제 질문은 당신은 어딘가에 가서 읽기를 시도하는 것입니다 그 다음에 앞으로 나아가서 돌아가서 그것을 반복하십시오 따라서 인스턴스를 만들어 서클에 추가 할 수 있습니다 일하는 기억은 혼자서 도움이되는 목적으로 생각했습니다

그게 네가 계속 돌아가는 것과 마찬가지야 앞으로는 제한이있을 것입니다 추론의 여섯 번째 감각보다는 오히려 추론을 촉진하십시오 >> [들리지 않음] 나는 그것에 잘 연상시킬 수는 없지만 그렇습니다 >> 그래서, 단지 이 그림에서 [들리지 않음]

>> 마지막에이 질문으로 돌아가시겠습니까? 나는 마커스에 기반한 쇼핑몰에 내가 할 일은 실제로이 질문이 나오게 될 거의 99 % 신뢰도입니다 내 이야기와 나는 언제나처럼 느낀다 전에보다 잘 설명하고, 하지만 그 전에 그걸 다시보고 싶다면, 나는 행복 할거야 예? >> 그럼, 이것에 장기 기억을위한 법이 있습니까? >> 장기 기억 인 경우 나는 멍청 해 >> [들리지 않음] 너는 약속했다

그것은 중요한 메모리와 메모리의 두 가지 시스템 스타일입니다 >> 장기 기억은 매우 모호한 용어로 보입니다 맞습니까? 에피소드 메모리는 장기적이고 강화 학습은 또한 그러한 종류의 피질골에서 벗어날 수있는 장기간의 연관성 내가 아는 한 알다시피 대뇌 피질에 이르기까지, 그래서 저는 그것들을 둘 다 생각하고 있습니다 장기간에 기여하다 장기 기억의 창조에 최소한, 반면 이것은 매우 단기간입니다 기억 속에 머물러있는 사람들은 기억을 상당히 다른 방식으로 다시 말하지만 근사치입니다

많은 액면가로 받아 들여지지 않습니다 좋아요, 그래서 제가 지금 집중하고있는 것은 학습 기억에있어 어떻게 역할을하는지에 대해 알아 봅니다 사람들은 실제로 인간 학습에서 너무 많이 보지 않았습니다 좋아, 너를 줬어 직감은 이미 있지만 더 정확하게 만들 것입니다

운전하는 법을 언제 배웠는지 기억한다면, 너 한테 많은 지시를 받았어 신중한 학생이라면, 음, 처음에는 적극적으로 명심하십시오 예를 들어 속도 제한, 선회 할 때 신호를 기억하십시오 더 많은 것을 방해하는 것을 기억하는 것 4 방향 정거장을 다루는 법에 대한 규칙, 또는 미국의 빨간 불빛, 또한 더 많은 것을 방해합니다 자전거 타는 사람을 죽이지 않는 법

괜찮아 그래서, 당신은 이것을 매우 적극적으로 기억하려고 노력할 것입니다 당신은 당신의 마음 속에 이것을 유지할 것입니다 좋아, 나는 25보다 빨리 갈 필요가 없어 처음에는 변함없이 일어날 일은, 당신은 그 중 일부를 잊을거야, 그리고 최악의 상황은 과속 또는 그와 유사한 것을위한 티켓을 얻을 것입니다

이것은 당신이 배우는 두 가지 방법을 보여줍니다 당신은 적극적으로 정보를 유지하고 그것을 적용하려고 노력하고 있습니다 그게 일하는 기억이고, 당신은 또한 당신이 엉망이되거나 격려가 잘된다면, 그게 보강 학습입니다 나는 그들과 트레이드 오프의 두 가지 다른 측면에 있다고 생각한다 첫째, 점진적 통합 정보 습득 가치관 또는 우리가 적용하려고하는 정책

그런 의미에서, 그것은 유연하지 못하다 그러나 이것에 대한 긍정적 인 점은, 그것은 매우 넓은 수용력입니다 강화 학습을 통해 많은 것을 배울 수 있습니다 그것은 장기적으로 견고하며, 그리고 그것은 상당히 어려움이 있습니다 다른 방향에서, 일하는 기억은 매우 빠르게 학습의 원샷 종류입니다

정보를 매우 정확하게 저장하며 유연합니다 우리는 정보에 대한 작업 메모리에서 작업을 수행 할 수 있으며, 단점은 리소스 또는 용량 제한을 통한 것입니다 보유 할 수있는 정보의 양은 제한되어 있으며, 그것은 시간이 너무 제한적이며, 그것은 힘이납니다 그것은 우리가인지주의를 기울여야 만하는 것입니다 내가하고 싶었던 것은 개발하려고 노력하는 것이다

실험 프로토콜은 그것들은 학습과 개발 중에 함께 일한다 이것을 포착 할 수있는 전산 모델 지금 실험 프로토콜을 설명 할 것입니다 사실 아주 간단합니다 당신이이 실험에 참여했다면, 컴퓨터 화면에 항목이 표시됩니다

예를 들어, 호박 실제로 이것은 완벽한 시즌입니다 그런 다음 키를 눌러 선택을하고, 키보드의 세 가지 키 중 하나를 사용하여 그리고 나서 당신은 이 이미지에 대한 올바른 키를 선택했는지 알려줍니다 그런 다음 다른 항목을 볼 수 있습니다 이 과정을 반복하게됩니다

여러 번의 시련과 한 블록 동안 그것을 반복 할 것입니다 예를 들어, 당신은 호박과 녹색 콩 15 번 각각 시간이 지나면이 피드백 정보를 여기에서 사용하게 될 것입니다 각 항목에 대해 올바른 조치를 취하는 방법을 배우십시오 >> 각 항목마다 올바른 조치가 하나 있습니까? >> 네, 한 가지 올바른 행동이 있습니다

항목 당 하나의 올바른 조치가 있습니다 둘 이상의 항목에 대해 현재 필요한 조치를 수정하십시오 피드백은 결정적입니다 그래서, 완벽한 기억이 있다면, 너는 이것을 시도한다, 너는 그것을 시도한다, 너는 그것을 시도한다 당신은 끝났고, 그러면 당신은 완벽합니다

>> 사람들은 몇 장의 이미지를 볼 수 있습니까? >> 완벽한 질문 일부 블록에서, 사람들은 이와 같은 두 개의 이미지를 보게됩니다 다른 블록에서는 3 개, 4 개, 5 개의 이미지까지 6 개 좋습니다 실제로 중요한 조작입니다

고전적인 강화 학습 실험을함으로써 나는 사람들의 선택에 대한 반응으로 의견을 제시하고 있지만, 나는 학습의 일부를 배우는 강화 학습을 테스트한다 그래서, 피드백의 역사가 선택에 얼마나 많은 영향을 주는지 봅니다 그러나 이것을 조작함으로써, 내가 정한 크기라고 부르는 것, 사람들이 알게 된 이미지의 수, 나는 작업 메모리의 부하를 조작한다 기억을 일 관하여 정말로 잘 알려진 것은, 그것은 많은 정보를 유지합니다 따라서 이것은 영향을 미친다

이 블록과 다른 블록 말이 돼? 우리가 잘 지내고 있는지 확인하고 싶습니다 > 아마 내가 뭔가를 놓친 것 같아 각 이미지 다음에 사용자 응답, 또는 잠재적으로 긴 일련의 이미지 이후 >> 아니요, 사용자가 매번 대답합니다

>> 아마 우리는 다음에 무엇을 말할 것인가? 기준은 사용자가 어떤 버튼을 선택할 것인지, 그것이 무엇을 해야하는지 >> 그래서, 처음에는 그들이 선택하려고합니다 그들은 정보가 없기 때문에 무작위로 >> 버려 졌어? 사용자 추적기? >> 그렇습니다 그것은 본질적으로 버려졌습니다

문맥적인 3 개의 완장 >> 사용자는 올바른 행동이 하나만 있다는 것을 알고 있습니까? >> 네 지시 사항 피드백이 진실하다는 것을 분명히합니다 결정적이지만 블록에서 변경되지 않는 단 하나의 올바른 조치 그 정보는 자극은 다른 자극에 유익하지 않습니다 >> 그렇다면 첫 번째 시도에서 운이 좋을 수 있습니까? 아마 그 사용자는 동등하게 평가되지 않는다

조금 더 탐험 한 사람에게? >> 네, 그래서 이것이 제가하는 이유입니다 많은 다른 블록들이 그렇게 평균적으로, 당신은 사슬에서 시작해야합니다 모두가 될 예정이 아니라면, 거기 물론 소음 네 >> 나는 할당 시간이 무작위 이미지라고 생각한다

또는 그들은 그들이 있다고 가정하기 시작합니다 이 구조에 대한 어떤 논리? >> 그래서 인간은 항상 거기서 가정합니다 그들이 말한 경우에도 논리적 구조입니다 존재하지 않는다 그래, 나는 그들이 추론 할 수 없다고 말한다

예를 들어, 자주 발생하는 일 그들이 3 개의 심상을 가진 구획에서 일 때이다, 사람들은 거기 있다고 생각하고 싶어한다 이미지와 액션 간의 일대일 매핑 나는 분명히 그런 경우가 아니라고 말한다 저것은 저것을 추론 할 수 없다 >> 그러나 종종 그들은 왼쪽 버튼이 야채와 오른쪽 버튼 풍경입니다

그들은 그것을 가정해서는 안됩니까? >> 아니 >> 왜냐하면 그들이 논리를 찾기 시작한다면, 그러면 전체에 영향을 미칠 것입니다 나중에 실험 해보세요 우리가 여기서 말하는 완전히 다른 연습을 사용하십시오 네

그것은 피드백으로부터 스스로를 교정 할 것이고, 하지만 내가 가져 갔어 이런 종류의 편견을 최소화하려고 많은주의를 기울이십시오 예를 들어 세트의 이미지가 같은 범주에 있고 서로 뭉친 시각적 구조는 없습니다 완전히 없애는 것은 완전히 불가능합니다 이런 종류의 추론

그것은 실제로 제 이야기의 두 번째 부분입니다 구조에 대한 사람들의 검색입니다 >> 분명한 교차 연구가 없는지 확인하려면? 네 또 다른 질문? 괜찮아 그래서, 당신이 내 학습을 듣는다면, 초 단순 보강 학습 모델 이 작업에 적용하십시오

따라서 보상 예측 오류가있는 자극과 키의 값을 업데이트하는 데 사용합니다 이 실험에서 예측이 가능합니다 당신은 하나의 자극을 배우고 있습니다 다른 자극 들과는 완전히 독립적입니다 효과 오프셋 크기가 없습니다

따라서이 모델을 시뮬레이션하면 내 디자인 입력과 함께이 실험을 여기에 그러나 그들은 주제에 적합합니다 여기에 모델의 성능을 플로팅하면, 그래서 확률은 올바른 행동을 함수로 선택합니다 그래서 이번에 이것은 주어진 아이템을 몇 번이나 본 것입니다

그것은 세트의 크기를 예측합니다 상관 없어요 분명하니? 맞아 Q 값을 저장하고 있기 때문이야 녹색 콩과 완전히 독립적으로 호박을 위해

괜찮아 이것은 명백한 끔찍한 예측입니다 참가자를 볼 때, 이것이 그 모습입니다 사람들은 3 분의 1과 달리 글쓰기를 시작합니다 그들이 배워야 할 때 그들은 최적에 가까운 두 가지가 있습니다

그들은 3 번 시도한 다음 더 풍부한 점근 적 행동과 그 다음에 더 큰 세트 크기, 전반적인 학습 곡선이 점진적으로 증가합니다 괜찮아 따라서 이것은 다음에 의해 설명 될 수있는 효과입니다 보강 학습의 고전적인 형태는 사람들이 보통 사용하고 나서 당신은 할 수 있습니다 이 보강 학습 모델에서 모든 종류의 트릭을 수행하십시오

예를 들어, 또는 간섭을 추가하거나 추가 할 수 있습니다 많은 다른 메커니즘과 당신이 여전히 강제 수 있는지보십시오 캡처하는 단일 보강 학습 모델 행동과 나는 성공하지 못했습니다 그래서, 이것은 당신이 할 수있는 최선의 방법입니다 각 시험판에서 Q 값을 잊어 버리십시오 당신은 세트 크기의 경미한 효력을 얻을 것이다, 당신이 두 가지를 배울 때, 평균적으로 두 번의 시련을 볼 수 있습니다

반면 여섯 가지를 배우는 동안, 6 번의 시련을 평균적으로 봅니다 그래서 잊을 시간이 더 많습니다 괜찮아 그러나 그것은 분명히 포착되지 않습니다 행동의 질적 패턴

네 >> 그래서, 두 가지 자극을 보여주는 흰색 그래프에, 파란 곡선, 빠른 학습 거기에 표시됩니다 그것은 두 가지 사물의 이미지 사이의 일반화 때문입니까? >> 아니, 완벽한 메모리로 기대하는 패턴입니다 그래서, 이것은 호박을 처음 보는 시간입니다 두 번째로 당신은 호박을 본다

세 번이나 호박을 보았습니다 당신은 3 개의 열쇠가 있기 때문에, 이것은 최적의 단추입니다 그래서, 만약 당신이 완벽한 기억을 가지고 있다면, 나는 이것을 기억합니다 나는 그것을 시도한다 나는 그것을 시험해 본다

이것이 올바른 방법입니다 >> 그럼, 왜 완벽한 기억, 두 개가 2 개가있는 것보다 여섯 개가 더 좋았습니까? >> 그럼 이들은 인간입니다 그래서, 이것이 제가 보여주고있는 생각은, 우리가 두 가지를 기억하려고 할 때 이것은 여전히 ​​존재합니다 우리의 작업 기억 용량은 유능한 사람이 그것을 완벽하게 사용하는 법을 배웁니다

그럼, 완벽하게 기억해 이것은 호박을위한 것이고 이것은 녹색 콩을위한 것입니다 그러나 우리가 그걸 넘어 서면, 그것은 우리의 작업 기억 용량을 넘어선 다 그래서, 우리는 완벽한 기억을 가질 수 없습니다 >> 그래서, 그게 자극이야

작업 메모리에 문제가 있습니다 네 그래서, 강화 학습은 바로 그것입니다 알파가 충분히 크지 않으므로 시간이 오래 걸리나요? >> 물론 그렇습니다 더 큰 알파를 가질 수 있습니다

더 큰 Softmax 온도와 완벽한 RL을 가질 수 있습니다 매개 변수는 다음과 같습니다 이 동작에 가장 적합한 매개 변수 나는 그것이 무엇을 말하고 있는지 정확히 기억하지 못한다 말이 돼? 네 >> 그것은 강화 학습이 실제로 이루어지는 것을 의미합니까? 인간 학습보다 낫지? >> 그것은 매우 의존적입니다

환경에 관해서는 나중에 이야기 할 것입니다 그러나 그렇다고해도 그렇지 않을 수도 있기 때문에, 그러면 당신은 당신이 당신의 능력 안에있을 때, 너가 밖에있을 때보 다 더 나빠질거야 강화 학습을 사용할 때 >> 대부분의 경우에 당신이 취하면, 적어도 4, 4 자극 이상 네

>> 자극 RL, 인간보다 낫다 >> 미안해 나는 무엇이 원하는지 안다 당신은 이것에 비해 이것을 플로팅하고 있습니다

>> 네 >> 이것은 이것에 맞는 매개 변수에 맞는 게임입니다 권리 그래서, 나는 다시이 모델을 더 좋게 만들거나 더 나쁘게 만들 수 있습니다 붕괴를 0으로 놓고 학습 률을 그 중 하나는 예를 들어 완벽하게 배울 것입니다

따라서, 비교할 점이 없습니다 이 두 가지를 비교할 때, 질적 패턴, 퍼짐, 설정된 크기로 동작이 변경되는 방식은 인간보다 가장 적합한 맞춤 보강 학습 모델 네가 가질 수있는 것 그래서, 그 말이 맞는가요? 네 >> 고맙습니다 괜찮아

그래서, 그 아이디어는 여기에 그게 내가 너를 보여주고 있다고 생각한다 나는이 과제에서 배우는 행동을 설명 할 수 없다 강화 학습이있는 모듈 만 있습니다 나는 일하는 기억에 대해서도 생각해야한다 괜찮아

그래서, 그렇게하기 위해서, 모듈이있는 모델을 개발했습니다 그게 보강 학습이 그 전에도 나중에 얘기 할 작업 메모리 모듈 그런 다음 참가자들이 배우는 정책이나 정책이 끝났다고 가정합니다 복용은 두 전문가의 정책이 혼합 된 것입니다 그래서 우리가이 두 가지 학습 시스템을 가지고 있다는 생각입니다

의사 결정 시스템과 그들이 섞일 것이라는 점, 선택을 위해 함께 모여라 괜찮아 따라서 작업 메모리의 모델 우리가 일하는 기억에 대해 아는 것에서 오는 것입니다 학습 영역 외 의사 결정의 영역 네

>> 두 번째로, RL이 작동합니다 네 >> 당신이 전에 묘사 한 것과 똑같은가요? 네 >> 그것은 인간보다 조금 더 나은 행동을합니다 극적으로 설정된 크기의 효율성을 보여주지 않습니다

>> 정확하게 심지어 더 간단합니다 이거 야 >> 알았어 네

괜찮아 >> 가정은 순수한 강화 학습 문학 부패의 효과는 보이지 않았다 그래서, 나는 잊어 버린 것이라고 생각합니다 보강 학습보다는 일하는 기억의 속성 괜찮아

그래서, 일하는 기억이하는 것은, 저는 고정 된 수의 아이템을 가지고 있다고 가정 할 것입니다 우리는 일하는 기억을 유지할 수 있습니다 그래서, 예를 들어, 세 가지로 용량 매개 변수로 매개 변수화하십시오 글쎄요, 이것이 제가 모델링 할 방법입니다 이것은 잘 말하자면, 3 개 중 3 개 내가 기억하려고하는 항목 중 작업 메모리에 완벽하게 저장 3 명은 저장되지 않을 것입니다

나는 기술적 인 이유로 정확히 할 수 없습니다 그래서, 대신에 내가하는 일 기억이 완벽한 정책을 가지고 있다고 상상해보십시오 시간이 지남에 따라 하나의 재판이지만 부패 그러면이 아이템을 사용할 수있는 확률, 내 결정이 쇠퇴하기 때문에 용량보다 작아지면 크기가 설정됩니다 괜찮아 그래서, 노력하고있는 항목의 수가 최대라면 기억하기는 용량보다 적습니다

반대의 방식으로 감소한다 >> 그럼, 그냥 작업 메모리 정책을 나타냅니다 이는 우리가 볼 때 왼쪽의 직사각형에있는 이미지와 세 가지 선택 사항이 그게 무엇인지 결정합니다 올바른 선택인가요? 아니면 사용자가 보여주는 선택입니까? >> 그래서 그것은 그것이 마지막 시도 정보 일 것입니다 >> 아마 틀렸어

>> 어떤 것이 잘못되었을 수도 있습니다 글쎄, 그렇지 않을거야 피드백이 결정 론적이기 때문에 잘못되었습니다 그러나 그것은 잘못된 것을 선택하지 않는 것을 기억할 것입니다 >> 그래서 그것은 최적의 정책이 아닙니다

그들이 한 일의 일부 정보 일 뿐이라고 생각합니다 그것은 기억한다 그들이 보상을 받았는지 여부에 상관없이 네 그래서, 그것은 조금 합류하고 있습니다, 실제로 모든 S입니다

그래서, 그것의 뒤에 조금 더 자세하게 갈 수 있습니다 기본적으로 우리의 모델링, 작업 메모리는 동일합니다 내가하는 것처럼 학습 속도가 1 인 보강 학습 모델 그래서 압축 된 정보를 가지고 있지만이 부식도 있습니다 이는 정책이 악화됨을 의미합니다

더 많은 개입 시도가 나온다 이것은 내가 어떻게 사용할 것인가를 말해 준다 작업 기억 대 강화 학습 세트 사이즈에 따라 감소합니다 그리고 이것은 여기에 혼합 무게로 들어갈 것입니다, 내가 작업 메모리를 사용할 가능성이 얼마나 큰지 [들리지 않음]에 대해 말하고 있습니다 괜찮아

그래서,이 모델은 몇 가지 무료 매개 변수는 내가 두 참가자의 행동에 다시 맞출 수 있습니다 그런 다음 그 매개 변수에 적합하면, 나는 그들 모두를 다시 시뮬레이션하고 참가자들과 비교할 수 있으며, 본질적으로 우리가 우리보다 행동이 훨씬 낫다 이전의 강화 학습 모델 괜찮아? 그래서, 이것은 이 모델이 도움이된다는 것을 보여주는 한 걸음 만 인간 학습을 이해하고 많은 다른 사람들이 검증을 한 후에 우리가 정말로이 두 모듈이 필요하다는 사실 인간 학습을 설명하기 위해, 그러나 나는 당신에게 세부 사항을 지루하게하지 않을 것이다 네

>> 내가 할 수있는 자연스러운 일은 다음 단계가 될 것입니다 다른 매개 변수를 변경하고 누군가 자신의 말을 바꾸십시오 그것으로 성공하지 못한다 하지만 나는 심리학에서 그것을 안다 실험은 종종 보상받지 못합니다

그 실험을 해봤 니? >> 그래서이 실험의 버전을 실행했습니다 사실 내가 이것에 대해 이야기 할 것 같아 이 실험의 버전을 실행했습니다 올바른 것으로 얻은 보상을 조작하십시오 따라서 우리는 여전히 0을가집니다

출력이 정확한지에 관한 결정적 정보, 그리고 나서 우리는 1 점 대 2 점을 변화시킵니다 확률 론적으로 그리고 그것은 혼합 성공이다 사람들을 실제적으로 만드는 것은 매우 어렵 기 때문에 특히 그러한 오랜 기간 동안 보상에 신경을 쓰면, 여기 참가자들은 900 회의 실험을합니다 그래서, 그들이 얻을 수있는 단일 지점 하나의 재판은별로 영향을받지 않습니다 그래서 우리는 사람들은 그것에 많은 관심을 기울이지 않습니다 그래서, 우리는 더 열심히 일해야합니다

그 점들에 대해 더 많은 인센티브를 주려고 노력하십시오 우리가 거기 가고 싶다면, 그러나 나는 너무 많이하지 않았다 >> 지금 우리는 이미지의 순서를 가지고 놀고 있기 때문에 이것은 정말로 평균적으로 이런 일이 일어날뿐만 아니라, 그러나 그들이 완벽하게 떨어지는 이미지를 계속 보게되면, 그리고 나서 성능이 떨어지며, 실제로 예측할 수 있기 때문에 이것에 기초한 더 복잡한 일들 네 그래서 내 모델은 지금까지 Q 메모리는 실제로 꽤 나쁩니다

평균적인 모델이라고 생각합니다 그게 내가하고있는 일이야 더 나은 예측을 찾기가 매우 어려웠습니다 그래서 지금 당장은 어려운 일이 있습니다 3의 수용량 및 나는 6 개의 것을 기억하는 것을 시도하고있다, 나는 세 가지를 우선적으로 할 것인가? 거기에 아주 좋은 정보는 없습니다

어떻게 이런 일이 일어나고 있는지, 그리고 이것은 내가 여기서 볼 수있는 일입니다 하지만 찾기가 실제로 매우 어려웠습니다 참가자들이 그렇게하고있는 패턴 >> 그러나 계속해서 행동하면 어떻게 행동할까요? 잠시 동안 같은 세 이미지를 얻는다면, 다음 네 번째, 그리고 다음에 잠시 동안 같은 3 개를, 그리고 나서 5 번째로, 그들을 보여주는 다른 방법 정보를 수집하고 얼마나 오래 걸릴지 확인하십시오 당신이 아주 다른 모델 행동을하기 때문에 배우십시오

이미 가지고있는 모델을 사용해도됩니다 네 >> 더 잘 맞는 것을 볼 수 있습니다 네 기본은, 그래서 이것들은 모두 생각하는 실험들입니다

많은 어려움이 있습니다 그들 중 일부는 우리가 실제로 우리가 작업 기억에주는 무게 그래서 나는 이것을 끝내고, 하지만 여기있는 최대 값은 하나가 아니라는 것을 알 수 있습니다 실제로 매개 변수 2와 함께 우리는 사람들이 주어진 정책에 대해서도 고정 된 혼합 무게

하지만 시간이 지남에 따라 그들은 말할 수 있습니다 보강 학습이 예측할 때 더 좋아지기 때문에, 강화 학습은 더 느리게 배울 것입니다 하지만 언젠가는 잘 배웠고 부패에 민감하지 않았습니다 이는 시간이 지남에 따라 더 나은 예측자가 될 것이라는 것을 의미합니다 어느 지점에서 작업 메모리가 [들리지 않음]이기 때문에, 우리는 할 수있는 한 그것을 마지막으로 선택할 수도 있습니다

따라서 매우 복잡한 역학 관계가 있습니다 실제로 거기에서 일어나는 시간에, 그게 왜 더 복잡한 지 실제로 이해하는 것처럼 보입니다 어떤 작업 기억이 좋아요 네 >> 기존 데이터를보고 어떻게 확률 올바른지에 따라 다릅니다

그들이 특정 이미지를 본 이후의 시간? >> 물론 그렇습니다 그것은 신문에 있습니다 나는이 프리젠 테이션에 넣지 않았다 하지만 지연의 큰 효과가 있습니다 시간과 설정된 크기로 상호 작용합니다

따라서 더 높은 세트 크기에서는 지연 효과가 더 큽니다 그래서, 더 잊어 버리고 그것을 우리는 시간의 경과에 따라 사라진다 일하는 것을 멈추는 사람들 메모리와 병렬을 대신 사용하여 시작합니다 >> 그래서 우리는 사람들이 이전에 이미지를 본 적이 없다면 무작위로 탐색합니다 >> 네, 그건 기본 가정입니다

>> 우리는 사람들이하고 있는지, 그래서 나는 이런 문제에 접근하려는 누군가를 볼 수있다 어떤 일을했는지 ​​기억하기 쉬울 수도 있습니다 과거는 기본적으로 체계적으로 탐구 될 것입니다 그래서 실제로 무작위로 선택하는 것보다 당신은 내가 전에 그것을 보지 않았다면 말할 수 있습니다, 나는 중요한 것을 명중했습니다, 나는 전에 그것을 보았다, 나는 열쇠 2를 쳤다

나는 사이클을 선택해야한다는 것을 안다 >> 그래서 사람들은 분명히 그렇게합니다 실제로 누군가가 작성한 멋진 종이가 있습니다 실제로는 출판하지 않는 독일, 그러나 bioRxiv에, 조금 더 찾고 있었어 정확하게 이런 종류의 체계적인 방정식에서

그 일은 분명히 일어나고 있습니다 몇 가지 이유로 여기 모델링하지 않습니다 하나는 거대한 개인차가 있다는 것입니다 그래서 당신은 4 분의 1처럼 말하는 것처럼 끝내야합니다 내 참가자는 왼쪽에서 오른쪽으로이 작업을 수행합니다

그리고 1 / 4 분기는 이것을 오른쪽 스윕으로합니다 그래서 그것은 아마도 그것에 의한 변종은 아마도 그 기억 인 관심사의 핵심 발견을 수정하고, 로드 효과, 우리가해야만하는 것이 왜인지 배우는 것입니다 모델을 만들 때 익숙하다 인간 학습은 항상 더 많은 것이 될 것이라는 점입니다 그리고 당신의 모델은 절대로 좋지 않을 것입니다

따라서 특정 측면에 집중해야합니다 혼란 스러울 정도의 규모와 그 혼란 여부에 대해 생각해보십시오 당신의 발견과 이것에 영향을 줄 것입니다 제가 생각하기에 매우 흥미로운 일입니다 그러나 실제로 가지지 않을 것이다

내가 결론을 내리는 하류 효과 >> 어떤 영향인지 궁금하다 단순히 작업을 수행하기 때문에 작업 메모리의 효율성에 달려있다 >> 아마도 그래, 가능해

네, 그래서 일을 좀 덜 효율적으로 만들 수 있습니다 괜찮아 그래서 이것이 우리가 진짜인지를 확인하려고 시도 할 수있는 한 가지 방법입니다 그리고 두뇌와 관련된 것은 신경 신호를 살펴 보는 것입니다 그래서, 이것은 뇌파 모자를 쓰고 있습니다

EEG에 대해 아는 사람이 있습니까? 괜찮아 큰 그래서 저는 두 줄 요약을 드릴 수 있습니다 뇌파, 두피에있는 전극이야 완전히 고통스럽고 완벽하게 안전합니다

전기 활동을 측정합니다 생성 된 두피에 뇌의 활동에 의해 뇌파는 시간이 지나치게 정확하기 때문에 훌륭합니다 밀리 초 정밀도로 문제를 해결할 수 있습니다 상황이 어디에서 일어나고 있는지 아는 것은 끔찍한 일입니다

그래서 너는 아무것도 결론 지어서는 안된다 그걸 기반으로 두뇌의 위치에 대해, 하지만 신경 신호는 주어진 신호에 민감하며, 이미 유익한 정보가 될 수 있습니다 뇌에서 어떤 계산이 일어나고 있는지 괜찮아 작은 신호이고 신호 대 잡음 비율은 끔찍합니다

그래서 우리는 많은 시련이 필요합니다 당신은 이런 모양의 것을 얻게됩니다 그래서, 0 시간이 당신의 관심사입니다 예를 들어, 여기서 자극의 표현, 그런 다음 변경 사항을 나타내는 구불 구불 한 선을 얻습니다 자극에 대한 반응으로서의 전압

이것은 초입니다 상황은 100, 200, 300 밀리 초에 발생합니다 반응 시간은 여기 어딘가에 있습니다 좋아, 사람들이 행동을 취할 때 그래서 우리는 무엇이 일어나고 있는지를 볼 수 있습니다

의사 결정 과정 전에 결정 괜찮아 나는 이것을 볼 수있다 따라서, 이것은 450 건이 넘는 평균입니다 모든 재판을 여기서 볼 수 있습니다

그래서 이것은 전압을 색으로 구분 한 것과 같은 것입니다 각 행은 시험 버전이고 x 축은 다시 시간입니다 괜찮아 당신이 그것을이 방법으로 볼 때, 당신은 신호가 있다는 것을 알 수 있습니다 당신은 여기 깊은 곳을 보았고 여기에 피크가 있습니다

그것은 상당히 반복되어 우리는 이것이 뇌에서 중요한 계산에 해당합니다 괜찮아? 그러나 분명히 많은 소음이 있습니다 괜찮아 그래서, 나는이 신호를 취할 수있다 나는 이것을 상당히 큰 데이터로 가지고있다

이것은 여기 하나의 전극입니다 나는 뇌 위에 464 개의 다른 전극을 가지고 있는데, 그리고 나는 "글쎄, 내가 신호를 볼 때, 내 두 전문가와 관련이있는 신호가 어디에 있습니까? 나의 보강 학습 전문가와 나의 일하는 기억 전문가 " 괜찮아 그러기 위해서, 나는에서 추출 할 수 있습니다 계산과 관련된 모델 구성 요소

예를 들어 Q 값 또는 보상 예측 오차 보강 길이 신호 및 작업 메모리에 대해, 나는 예를 들어 설정된 크기를 볼 수 있습니다 그것이 작업 기억에 중요한 요소이기 때문입니다 괜찮아 그래서, 나는 각 재판을 위해 그 변수들을 취할 수 있습니다 본질적으로 여러 회귀를 시도 할 수 있습니다

따라서 모든 시험에서 전압을 설명해보십시오 주어진 시점과 전극을 함수로 내가 아는 예측 자의 그게 말이 되니? 괜찮아 그래서, 내가 그것을 할 때, 나는 나에게 말하는 회귀 가중치로 끝난다 얼마나 좋은 회귀 자인가? 관심있는 시점과 신호를 설명하고, 그리고 이것이 얼마나 일관성 있는지 보려고 노력하십시오 시간과 전극을 가로 질러 참가자

괜찮아 그래서 그 방법입니다 그래서 여기에 음모를 꾸미려고하는 것은 결과입니다 그래서 자극에서부터 선택의 시간에 이르기까지, 그것에 집중하고 강화 학습 과정 또는 작업 기억 과정 그래서, 내가 그렇게 할 때, 약 300 밀리 초, 여기에 전극 수를 찾았 어 강화 학습 과정에 민감한 특히 여기서 Q 값 강화 학습 과정에 의해 예측 된, 그리고 작업 기억 과정에 민감한 두뇌는 어디에도 없습니다

괜찮아? 나중에 500 밀리 초를 조금 더 보면, 나는 그 반대를 발견한다 나는 많은 전극을 민감하게 느낀다 크기를 너무 작게 설정 작업 메모리 프로세스 및 보강 학습 과정이 아닌 괜찮아 그래서, 그것은 그것을 보여주는 방법입니다 나는이 두 가지 과정을 격리했다

그것은 우리가 뇌에 대해 알고있는 것과 일치합니다, 결정의 강화 학습 종류는 쉽고 빠르며, 어떤 의미에서 매우 매우 자동화 된, 반면 이것은 더 노력하기 쉽습니다 뇌가 할 수있는 시간이 더 많이 걸립니다 실제로 그것에 적용되는 계산 괜찮아 그래서, 내가 모델을 통해 행동에서 추출한 방식, 뇌와 관련이있다

그게 말이 되니? 괜찮아 그래서 우리는이 두 프로세스를 검색 할 수 있음을 보여줍니다 그리고 그것들은 뚜렷한 것입니다 하지만 그럴 수 있습니다 그래서, 나는 이것을 사용할 수 있습니다

조금 더 잘 이해하려고 노력한다 계산은 후드에서 발생합니다 그래, 그럴거야 그래서 우리가 어떻게하는지 보여 드리겠습니다 그 전에, 우리가 본 것 같아

여기에있는 두 개의 프로세스는 서로 다른 거래의 끝 작업 메모리가 최적화되었습니다 정보를 매우 정확하게 저장하기 위해, 매우 빨리, 그러나 장기간에, RL은 저장을 위해 최적화된다 장기적으로는 많은 일들이 필요하지만 거기에 도착하기 위해 더 많은 시간 괜찮아

그래서이 줄에서 내가 가진 다음 질문은 연구는 그들의 상호 작용이 무엇이냐고 묻는 것이 었습니다 먼저, 어떻게 그들이 그들이 어떤 의미에서 선택을 위해 경쟁 할 것인지 결정할 것입니다 그러나 더 중요하게, 이 두 프로세스가 얼마나 독립적인지 일반적으로 두 가지 프로세스가 있다고 생각할 때 트레이드 오프의 다른 끝에있는 전문가들, 우리는 그들이 가능한 한 독립적이어서 그들이 할 수 있기를 바랍니다 그들 자신의 일자리를 잘 지낸 다음 사용하기에 더 유용 할 때마다 사용됩니다

그래서, 나는 그것이 사실인지 알기 위해 노력했다 또는 그들 사이에 상호 작용이있는 경우 그렇게하기 위해, 나는 그 신호에 다시 집중할 것입니다 여기 평균 신호입니다 이것은 단지, 두뇌의 신호는 의 활동과 상호 관련이있다

이 작업에서 보강 학습 모델에 의해 예측됩니다 참가자들이 피드백을받을 때도 똑같은 일을 할 수 있습니다 그리고 나는 뇌의 영역을 발견했다 나는 그것을 말하면 안된다 나는 두뇌에서 어떤 신호를 발견했다

피드백에서의 보상 예측 오차와 관련된다 괜찮아 그래서, 나는 그 신호들과 나는 그것들을 조금 더 보게 될 것이다 신중하게 배우고 그들이 학습의 함수로서 어떻게 진화하는지보십시오 다시, 보강 학습 및 작업 메모리는 독립적이며, 강화 학습과 관련이 있다고 생각하는 신호는 또한 독립적이어야한다

작업 메모리 프로세스와 특히 세트 크기와 무관해야합니다 괜찮아 그래서, 이것이 정말로 강화 학습 시스템을 나타내는 Q 값이면 다음과 같이 보일 것입니다 권리? 올라갈 무언가처럼 보일 것입니다 과거 보상 및 설정된 크기와 별개로 우리의 예측 오류 때문에 우리가 도움이 될 것입니다

과거 보상과 함께 세트 크기와 독립적이어야합니다 그래서, 그 말이 맞는가요? 여기 전제? 괜찮아 그래서, 나는 그것을 볼 수 있습니다 각 재판에서 신호를 추출 할 수 있습니다 다르게 다시 계획하십시오

그래서 내가 여기서 플로팅하고있는 것은 무엇인가? 의미에서 신경 학습 곡선입니다 그래서, 그것은 관련된 신호입니다, 이 지역에 있습니다 강화 학습 과정에 민감합니다 의 함수로 그것을 그리기 이전 보상 수 참가자는 지금까지 현재 이미지를 경험했습니다 당신이 보는 것은 이것이 올라간다는 것입니다

그것이 당신이 Q 값에 대해 기대하는 것입니다 그래서, 그것이 제가 신호를 선택한 방식입니다 따라서 정상적인 현상입니다 하지만 당신이 보는 것은, 그것은 더 천천히 올라간다 더 낮은 세트 크기 또는 가장 어려운 학습 문제는 어려운 문제보다 괜찮아? 그래서, 그것은 큰 방법으로 채워질 수 있습니다

본질적으로 이것이 보여주는 것은, 죄송합니다 방울이 아니라 증가합니다 이 선은 잘못되었습니다 따라서 EG Q 값 신호는 증가합니다 낮은 세트 크기는 높은 세트 크기보다 느립니다

그래서, 우리가 이것을 해석 할 수있는 방법은, 어떻게 든 낮은 세트 크기로, 우리는 학습을 위해 작업 메모리를 사용하고 있습니다 용량 내에 있기 때문에 가능합니다 어쩌면 어떻게 든 이것이 보강 학습을 가로막는 것일 수 있습니다 괜찮아 학습률이 낮 으면이 일이 일어납니다

또는 그런 것 그런데, 나는 피드백의 때에 똑같은 것을 보았다 보상 예측 오차, 우리가 차단하고 있다고 상상한다면 보강 학습 신호, 보상 예측 오차는 높게 유지되어야한다 권리? 너는 배우지 않기 때문에 대신에 우리가 말하는 것은 그것입니다

보상 예측 오류는 떨어지며, 예측 오차를 코드하는 뇌의 신호 보상의 경험으로 떨어 뜨린다 그러나 높은 세트 크기보다 낮은 세트 크기에 대해서는 더 빨리 떨어집니다 괜찮아 따라서 작업 메모리가 RL을 차단하고, 그렇지 않으면 우리는 그 반대를 기대할 것입니다 우리는 보라색 선이 오렌지 선을 넘을 것으로 예상합니다

대신에 여기 보이는 것은 그것이, 이것은 더 빨리 떨어지고있다 더 빨리 배우고있는 것들 괜찮아 그래서 실제로 보입니다 작업 메모리는 결과가 무엇인지 알고 있습니다

그리고에 기여하는 것 같다 이 보상 예측 오차의 계산 "라고 말하면서 호박에 대한이 행동을 선택하십시오 나는 보상받을거야 "알았지? 그래

>> 더 빨리 떨어지는 것이 아니라, 그것은 5와 6 개의 이미지를위한 것입니다 그것의 모두는 도처에 더 높다 권리? 그것은 단지, 모든 것이 같은 의미를 갖는 것은 아닙니다 첫 번째 관찰 시점 >> 이것은 실제로 다르지 않습니다

>> 알았어 고마워 네 네 그건 좋은 지적이야

괜찮아 우리는 실제로 이것에 대한 훨씬 더 정확한 통계적 증거, 하지만 여기서 보여주지는 않았지만 그래 괜찮아 따라서, 보강 학습을 다음과 같이 생각하는 대신 이 폐쇄 루프 시스템은 자체 보상 예측 오류를 내며, 이것은 우리로 하여금 작업 기억을 생각하게 만든다 이 보상 예측 오류에 기여하는 것으로 나타납니다

하지만 재밌 네요, 그렇죠? 작업 메모리가 더 빨리 학습되므로, 실제로 보상 예측 오류로 엉망이 될 것입니다 RL을 느리게 실행하십시오 네? >> 거기에 그림 그래서 우리는 이미 알고 있습니다 당신은 측정 된 것처럼 더 높은 활동을 기대할 것입니다

여기보다 낮은 학습보다는 더 많은 학습을 위해 >> 아니, 우리는 여기에서 같은 것을 기대할 것이다 >> 동일? >> 그래, 보상을 받았기 때문에 진실로 동등하다 따라서 강화 학습이 한 경우 우리가 정한 크기에 신경 쓰지 마라 설정 한 크기와 작업 내역의 상호 작용을 기대하지 마십시오

>> 글쎄, 네가 말한 사실을 언급했을 뿐이야 반대의 차이가 있었고 예상했을 것입니다 >> 이것은 여러분이 다음과 같이 기대했을지도 모르기 때문입니다 : 다양한 작은인지 계정을 가지고 "오! 사람들은 더 신경을 쓰지 않고 있습니다 더 쉽거나 그럴 것입니다 >> 신호가 낮을수록 더 쉬울 수 있었을 것입니다

>> 네, 맞아요 그래서 우리가 원했던 이유입니다 이것은 실제로 행동과 관련이 있음을 확인했습니다 그래서 이것은 매우 명확한 예측을합니다 강화 학습 신호가 존재하면 작업 메모리가 사용 중일 때 둔화, 본질적으로 Q 당신이 배우고있는 가치는 그들이 그렇지 않은 것보다 약하다

우리가 테스트 할 수있는 방법은 이전과 같은 실험을하는 것입니다 그래서 이것은 이전과 같은 실험을 보여주고 있습니다 우리는 높은 세트 크기보다 낮은 성능을 기대하며, 그러나 우리는 잠시 후에 할 수 있습니다 실험이 끝나면 놀라움을 선사합니다 사람들에게 "오! 이제 당신은 당신이 본 모든 이미지를 거쳐 돌아갈 것입니다

80 개의 이미지를 보았습니다 올바른 선택을 내리다 나는 당신에게 어떠한 피드백도주지 않을 것입니다 " 괜찮아 그것은 무엇이 남았는지 보는 길입니다

배운 정책 이전에는 더 이상 메모리를 사용할 수 없습니다 그 이상이기 때문에 작업 메모리의 용량 및 시간 범위 그래서 우리가 조사 할 수있는 방식으로 보강 학습 시스템에 남아있는 것이 무엇인지, 정책과 이것이 예측하는 바는, 우리가 배운 강화 학습 시스템 낮은 셋트 사이즈에서 더 나 빠지고 우리가 실제로 덜 기억하는지 우리는 이전보다 더 잘 수행했습니다 반대의 경우도 마찬가지입니다 사람들이 일반적으로 내놓을 모든 예측

괜찮아 그래서이 실험을했을 때, 나는 내가 배울 때 기대했던 것을 가지고있다 그래서,이 4 분위수의 ns = 3 대 ns = 6 학습 종료, 여기서 ns = 3과 ns = 6 사이의 차이를 플로팅하고 있습니다 그래서 이것은 긍정적입니다 그것은 이전과 똑같습니다

그리고 테스트를 할 때, 너는이 반전을 얻는다 이 좋은 상호 작용 어디서, ns = 6 성능을 실제로 설정합니다 사이즈 비율보다 낫네, 알았어 그래서 완전히 뒤집 혔어, 알았어 그래서, 어떻게 든 일하는 기억은 그것이 당신에게 만들어 졌던이 영향력을 가졌습니다

에서 몇 가지를 배우는 것이 더 쉽습니다 처음이지만 너를 만들었 어 장기적으로 잘 배우지 못한다 괜찮아 그래서, 이것과 다양한 내가 당신에게 보여주지 않은 신경 계산의 다른 측면들, 이것이 대신에 일어난 일이라고 생각하게 만든다

폐 루프, 작업 메모리 시스템은 다양한 기대에 기여 보상 예측 오차와 가치의 계산이 어디에서 엉망이되는지 보강 학습 시스템에서 일어나고 있습니다 그게 말이 되니? 괜찮아 그래서 이건 내가 지금 왜 지금 실행중인 실험 내 연구실은 이해하려고 노력하고있다 왜 이런 일이 일어날 지 그래서, 당신이 그것에 대해 생각할 때 정말로 혼란 스럽습니다

목표가 보강 학습 시스템은 장기적으로 강한 무엇인가 그래서 손쉽게 벗어나기 시작했습니다 백그라운드에서 이 간섭은 본질적으로 너야 강화 학습 방지 그 일을 제대로 수행 할 수 있습니까? 그 일을 할 수 있다는 것 중에서, 너는 나중에 잘 기억하게 해준다 네

>> 그래서, 사실, 나는 그것이 정확하게 말하고 있는지 확신하지 못한다 나는이 특별한 예에서, 그것이 증거를 제공하지만 그것은 명확하지 않습니다 피험자들이 말했습니다 이 텍스트 포스트에서 테스트해라 당신은 아무런 피드백도주지 않을 것입니다

너를 암기하는 목표가있다 "고 말했다 그래서 저는 단기간에 시스템을 최적화하는 것입니다 우리는 실제로 그것이 잠재적으로 최적이라는 것을 알았습니다 내 작업 메모리를 사용하고 있습니다 네

>>이 작업을 최적화하기 위해서 네 >> 그럼, 그 후에 다른 작업을해야합니다 네 >> 목표 게시물을 약간 옮기는 것 같습니다

>> 나는 그래,하지만 질문은, 내가 땅에서 뛰어 다니는 것을 신경 쓰게된다면, 왜 차선책으로 운영해야합니까? 내가 될 수 있다면, 단기적으로, 정상적인 방법으로 운영하는 것이 낫습니다 어디서든 더 빨리 배울 수 있기 때문에 작업 메모리가 실패하고 장기적으로이 실험에서, 주위에 빛을 가지고있는 것이 더 낫습니다 너 자신의 길을 배울 때 더 잘 기억할 수있을 것입니다 그래서이 실험에서, 내가 참가자들에게 말했더라도, 어쨌든 더 좋을 것이다 일하는 기억이 그것과 간섭하지 않도록, 왜냐하면 만약 네가 네가 사용할 수 있다고 가정한다면 이러한 간섭을 일으키지 않고 작업 메모리를 사용할 수 있습니다

>> 내 말은, 당신은 보상 학습이 비용이 들지 않는다고 말했고, 의식적 사고처럼 생각하지는 않지만, 뇌 기능에 대한 증거가 있기 때문에 비용이 많이 든다 >> 네, 좋은 질문입니다 나는 그것에 대한 긍정적 인 증거가 없습니다 수많은 증거가 있습니다 우리를 만드는 수많은 지표가 있습니다

그것이 사실이라고 생각하십시오 그 중 하나는 이것이 공유 된 시스템이라는 것입니다 많은 종을 가로 질러, 그것은 매우 오래된 것이고 그 때문에 우리는 그것이 백그라운드에서 실행중인 시스템, 본질적으로 쉽게 차단할 수는 없지만, 실제로 이것은 우리의 가설 중 하나에 대한 선형입니다 이것은 실제로 방법을 통해 시스템을 차단하는 방법 일 수 있습니다 로터리 방식으로, 오른쪽으로

당신이 본질적으로 말하는 것처럼, 나는 이것을 예측했습니다, 그것을 배우는 것을 괴롭히지 마라 그러나 그것은 아직도 배우고있다, 올바르게 그것은 단지 예측 오차가 0 인 학습입니다 근본적으로 그리고 그 때 질문은 잘이다, 어떤 환경에서 이것을 상상할 수 있을까요? 강화 학습을 끄기에 유용합니까? 괜찮아 그래서, 우리가 스스로에게 물을 수있는 질문은, 잠재적 이득은 무엇인가? 이런 식으로 작업 메모리를 끄는 것, 우리가 발견 한 특정한 방법으로? 왜 그럴까? Lacunar 레이더와 이 보상 예측 오류이지만 실제로는 기대에 기여하다 우리 시스템이 가지고 있으며 그것이있을 수있는 이것은 학습 단계 이전에도 유익하다

이제 성능이 향상 될 수 있습니다 우리는 이미 그 비용에 관해 이야기했습니다 그래서 문제는, 보강 학습이 직업 이래 직업인가, 기능은 최적화에 도움이됩니다 짧은 실행보다는 장기간의 실행, 그게 우리가 여기 간섭하는 이유 였어 알았어 그래서, 그것은 진화의 부산물로서 완전히 차선책이 될 수 있습니다

우리는 아마 진화론, 왜냐하면 우리는 우리는 그것을 심리학에서 생각합니다 그래서 우리는 환경이있을 것이라고 생각하고 있습니다 이것이 실제로 도움이되는보다 현실적입니다 네 >> 가능한 한 가지 가설 마음과 나는 이것이 맞는 지 궁금해

여러분이 보았던 효과는 작업 메모리가 일반적으로 계산을 수행하다 여러 시간 단계로 메모리에 전달됩니다 그래서, 이미지를 보는 것 사이에서 – 네 >> 사용자는 생각할 수 있습니다 네 >> – 방금 본 내용, 조금 뒤에서 본 내용 그래서 작업 메모리에 의존합니다

그리고 그들이 생각하는 것 또한 RL 경로에 의해 사용될 수 있습니다 네 그래서, 당신은 생각하고 있습니다 그래서, 우리는 매우 강력한 증거가 없다 예, 좋은 생각입니다

그래서, 그 아이디어는 시련 사이에서 일어나는 일을 오프라인으로하는 것 우리는 실제로 그것으로 큰 증거가 없습니다 인간 또는 심지어 동물에서 일어나는, 하지만 그건 사람들이 생각하는 것입니다 잠재적으로 일어나는 일 그러면 당신은 옳을 것입니다 >> 시험에서 평균 사이의 시간은 어땠습니까? >> 그것은 두 번째 순서였다

그래서 꽤 빨랐습니다 네, 상당히 빠른 속도로 진행되는 실험이었습니다 참가자가 더 많은 시간을 남겨두면 참가자가 실제로 더 잘 수행됩니다 그래서, 우리는 그런 일이 아마도 일어나고 있다고 생각합니다 하지만 그래, 좋은 생각이야

우리가 생각할 수있는 또 다른 아이디어는, 작업 메모리는 학습을 위해 최적화되어 있습니다 빠르고 유연하며 잠재적으로, 네가 선택하는 데 가장 좋은 시간이야 많은 변화하는 환경에서 작업 메모리 시간, 어떤 경우에는 실제로 융통성없는 학습을 강화하는 학습, 네가 이걸 사용하고 있기 때문에 실제로 너를 해칠지도 모른다 환경이 변할 때 힘들게 지내는 것이 힘들다 그래서, 그것은 더 잘 적응할 수있는 방법 일 수 있습니다

그래서 우리는 지금 이것을 시험하려고합니다 괜찮아 그래서, 우리는 분명히 가지 않을 것입니다 두 번째 부분에 시간이있다 그래서 저는 제 결론으로 ​​넘어갈 것입니다

네 >> [들리지 않음] >> 아니, 아닐거야 그래서 나는 내 결론으로 ​​도약 할 것 같아 그래서, 당신이 연구의 한 예를 원한다면 내 연구실에서 내가 무엇을 이해하려고하는지 뇌 시스템이 무엇에 기여하는지에 대한 계산이 인간의 보강 학습 정말로 그 핵심 포인트는, 그것을 여러 시스템으로 생각하는 것이 매우 중요합니다

단순한 단일 시스템과 상호 작용하는 다중 시스템 그것은 제공 할 수 있습니다 다른 환경에서 매우 흥미로운 역 동성 나는 너희들이하는 연구에서 많은 유익을 얻었고, 인지 및 신경 과학과 같은 시간이 지남에 인공 지능 연구의 영감, 우리가 모델 기반 강화 학습을 도입 한 것처럼, 및 옵션 계층 강화 학습 프레임 워크, 부분적으로 관찰 가능한 마르코프 결정 과정 및 기타 물건은 그 냅에서 직접 나오고 그런 것들 그러나 나는 또한 잠재력이 있다고 생각한다

역효과 인식을 생각할 때, 그 행동은 잠재적으로 더 나은 인공 지능을 알려줄 수 있습니다 예를 들어, 작업 메모리 내가 말하지 않은 다른 예 일반화,주의 계획, 탐사 등, 인간이하는 방식 더 나은 알고리즘을 알릴 수 있습니다 또한 두뇌를보고 어떻게 보는지 두뇌는 이러한 시스템을 구현하여 뭔가를 말해 줄 수도 있습니다 그래서, 다시 한 번 나는 그 부분에 대해서 당신과 이야기하지 않았습니다 내 연구,하지만, 예를 들어, 우리는 우리가 알고있는 이러한 도파민 성 체계를 가지고 있습니다

보상 예측 오류와 같은 것을 구현한다 그 값을 배우는 데 도움이됩니다 우리가 도파민에 대해 더 많이 배우면 민감한 것에 대해 배우고, 우리는 먹을 것을 기대하지 않을 것입니다 보상으로 오는 것을 알기위한 창문, 인간의 학습에 중요한 보상 기능은 무엇입니까? 그래서, 사람들은 그렇게 해왔습니다 예를 들어 목표 설정이 도파민 또는 우리가 손익을 다르게 대우하는 경우, 그 불확실성은 도파민이나 참신 등에 영향을 미친다

그렇기 때문에 이러한 정보는 잠재적으로 우리 경호원에게 다시 들어갈 수있는 피팅입니다 좋아, 그러고 싶다 내 실험실에서 공동 작업자를 인정한다 당신의 위대한 질문에 대해 대단히 감사합니다 >> 나는 기쁘게 생각합니다

>> 정확히 당신이 처음에 준 신경 RL과 AI RL 간의 TD 학습 관계, 그 반대의 것을 생각해 낼 수 있습니까? 나타나는 무언가 아주 적합하지 않은 신경 연구 아니면 우리는 AI와의 통신이 없습니다 >> 네 내 말은, 나는 행동에서 더 생각할 수있다 내 일의 두뇌 측보다 하지만 그것은 내 이야기의 두 번째 부분이었을 것입니다 그래서 나머지 반쪽은 연구하려고합니다

인간이 어떻게 더 재미있는 행동을 배우는 지, 계층 적 행동과 어떻게 이것이 우리로 하여금 일반화 할 수있게 하는가? 그래서, 예를 들면, 나는주고 싶습니다 나는 전에이 방에가 본 적이 없다 그럼에도 불구하고 나는이 방에서 어떻게 행동해야하는지 완벽하게 알고 있습니다 회의실입니다 나는 그것과 관련된 일련의 행동들을 가지고있다

내가 즉시 다시로드하고 사용할 수 있다고 그리고 그것이 아주 다른 것처럼 보였다고하더라도 내가 그걸하는 법을 알기 전에 내가 본 모든 회의실 그래서,이 추론에 대해 아주 높은 수준이 있습니다 그래서, 제 작품의 일부는 우리가 어떻게 창조하는지 이해하려고 노력했습니다 학습을위한 구조 매우 흥미로운 무엇인가 나는 그곳에 보여줄 수있었습니다 그것은 정말로 창조 과정입니다

참여자, 우리는 조금 더 일찍 이야기하고있었습니다 참가자들이 구조를 찾고 자주 존재하는 것보다 더 많은 구조를 찾는다 실제와 구조를 만듭니다 이것은 매우 비용이 많이 드는 과정입니다 실제로 그 행동은 뭔가입니다

그렇지 않으면 나는 그것이 우리가 얼마나 빨리 배우는지에 대한 비용이 있음을 보여 주었고, 우리가 얼마나 효율적으로 결정을 내리는 지, 그러나 그것은 매우 큰 이익을 가져옵니다 창조의 선 아래로 우리가 일반화 할 수있을 정도로 유연한 표현 그들을 옮기고 당신이 일반화와 이전에서 보았던 모든 것을 인공 지능은 창조보다는 발견이었으며, 그래서 나는 다시 보지 못했다 나는 완전히 틀릴지도 모른다 실제로 잘못 입증되는 것을 좋아합니다

그러나 나는 보지 못했다 정말로 AI는 자신보다 더 많은 일을해야합니다 보다 복잡한 표현을 만드는 것 해야한다 나중에 더 잘 배우기 그게 제가 어른들뿐만 아니라, 그러나 나는 8 개월 된 유아에서 그것을 보았습니다 다른 사람들은 설치류에서 그것을 보았습니다

그래서 이것은 학습의 중요한 핵심 요소처럼 보입니다 윤곽을 그리는 것의 한번 탐험을 해보니 전략의 높은 수준의 종류, 낮은 수준에서 탐구하는 대신, 에서 탐험해볼 수 있습니다 보다 전략적인 수준에서 그리고보다 체계적인 방식으로 >> 보통 AI와 네트워크를 가질 수있는 AI 그것이 지나치게 맞추는 경향이있을 때 요구되는 것보다 큰 용량 그래서 네가 어떻게 할 수 있는지 모르겠다 실제로 수출 증대를 장려한다

>> 나도 몰라, 그게 너의 직업이야 응, 나도 몰라 나는 그것에 대해 생각하려고 노력했다 정말 힘들 것 같아요 네

그러나, 그것은 같다 행동에서 정말 중요한 부분입니다 그렇습니다 >> 우리는 메모리로 모델링하는 것과 같이 나는 들리지 않는다 어떤 실험을했는지 궁금 해서요

순차적 의사 결정 작업보다는 문맥 브랜딩 작업 또는 트리거가 아닌 경우 이러한 유형의 변경을 처리하는 방법에 대한 통찰력 네 그래서, 그것은 모델 기반으로 되돌아갑니다 모델 기반 강화 학습에 대해 생각하고 있습니까? >> 또는 모델을 기반으로하거나 모델을 사용하지 않아도됩니다 RL, 모든 종류의 물건? 네

나는 순차적 인 의사 결정에 많은 노력을 기울이지 않았다 지금 실제로 테스트 중입니다 옵션 계층 강화 학습 프레임 워크 인간이 선택권을 어떻게 건설 했는가에서 그것은 아주 유망하다, 하지만 그게 제가 한 유일한 순차 학습 과제입니다 내가 그 짓을 한 이유는, 모두가 아는 것입니다 더 많은 무료 보강 물건을 기본으로 한 모델에 대해서, 맞습니까? 네

>> 그래서, 실제로 복용하고 있습니다 전산인지 신경 과학 공동체 지난 몇 년간처럼 쓰나미로 사람들이 시작했다 학습을 자유롭거나 모델 기반 강화 학습 그런 특정 전투에서 직접 가져 왔습니다 제가 보여 주려고했던 것은 그것이 정말 구별이 너무 조잡합니다 이런 종류의 작업에서, 순차적 실행이 없습니다

어떤 계획, 앞으로 계획 수 없습니다 즉, 모델 기반 모델 무료는이 작업에서 똑같은 일을 할 것입니다 그럼에도 불구하고 우리는 여전히 그게 정말로 중요한 해리입니다 모델을 연구하는 사람들 강화 학습과 인간은 말했다, 잘 그것에 종사에 의존하고 그것은 사실입니다, 하지만 이것이 내가 생각하는 것 그 모델 기반 강화 학습 가지고있는 아주 큰 일이다 그것의 많은인지 적 작은 조각들 그것은이 깨끗한 해리가 아니라는 것입니다

들판이 그것을 가장하려는 척하고있다 그래서 나는 뒤로 물러서서 조금만 노력하려고합니다 간단한 작업에서도 청소기를 사용할 수 있습니다 그 질문에 대답합니까? 네 네가 한 말처럼 들렸다

구조를 필요로하는 인간은 근본적으로 우리가 또한 우리가 배우려고 노력하고있는 것들에 지나치게 맞습니다 >> 그 이상입니다 네 >> 그 이상입니다 그래서, 확실히 그 중 일부가 있습니다, 이 멋진 실험이 있습니다

그것은 매우 간단한 실험이며, 사람들은 단지 1과 0의 흐름을 보게됩니다 제 생각에는 흑백 점이나 그런 것 같아요 그러나 모든 의도와 목적을 위해 그것은 스트림입니다 무작위로 추출 된 이진 변수의 값은 25입니다

반응 시간 만 보시면, 당신은 당신이 1, 0, 하나, 제로, 사람들은 무엇을해야합니까? 말하기는 1을, 오른쪽은 0보다 적게합니다 그래서, 그것은 배우는 것이 아니며, 결정의 여지가 없습니다 가능한 한 빨리 누르십시오 화면에 표시되는 내용을 따르십시오 여러분이 보는 것은 시퀀스의 다양한 지역 구조입니다

비록 무작위 적이라 할지라도 그것은 아마 1, 0, 그리고 제로는 훨씬 더 빨라지고 응답을 보낼 것입니다 그들이 삽입 될 때보다 하나 그 후 0 또는 11이있는 경우, 그들은 대답하는 것보다 훨씬 빠릅니다 그래서, 그런 의미에서 정확히 overfitting은 다음과 같이 말합니다 이 지역 구조는 생각보다 규칙적입니다

우리는 다음 것을 예측하고 있습니다 이 매우 로컬 구조를 기반으로합니다 그것은 지나치게 적합합니다 우리는이 방식으로도 통합 할 것입니다 내가하는 일의 유형은 우리가 기본적으로 존재하지 않으며 필요하지도 않다

질문을하지 않고서는 설명하기가 약간 어렵습니다 하지만 과도한 것 이상입니다 그곳에있는 것보다 더 많은 구조를 만들고 있습니다 그래, 미안해 네? >> 그래서, 그들이 그들이 할 때 꽤 빨랐다

제로, 하나의 제로, 그런 것들 네 >> 비용이 있었나요? 어떤 사람들은 더 느린가? 그것은 하나의 0, 1의 0, 0이됩니까? >> 네 네 그것은 양방향으로 진행됩니다

그건 상당히 표준적인 훈련입니다 그것이 어디에서나 전송할 수 있습니다 긍정적이고 부정적인 양도를 할 수 있습니다 마찬가지로, 만약 당신이 혜택을 누릴 신청할 수있는 상황에 처해 있으며 비용이 있습니다 >> 그래, 내가 없었다면 말할거야

>> 네, 실제 비용이 있습니다 이것의 정말 중요한 측면입니다 즉각적이고 장기적인 비용 모두가 실제 비용입니다 죄송 해요 >> 그래서, 끝내고 싶다면, 우리는 수행 할 필요가 없습니다

좋아, 그냥 생각하고 있었어 그것의 더 많은 것을 얻으려고 노력하는 것은 이것이 굉장한 발견임을 알게 해줍니다 네 >> 사물의 AI 측면에서 본 많은 작품 적어도 우리는 샘플의 복잡성과 왜 이런 것들의 옵션을 구축하는지 작업 분포에 비해 샘플 복잡성을 낮출 수 있습니다 네

>> 나는 당신의 가설에 대해 궁금합니다 실제 비용 함수는 당신이 쫓아 가고있는 것일 수도 있습니다 >> 그래, 그래 적어도 세 가지 가설이 있습니다 거기서 나는 그것을 다시 끌어 당기지 못한 채 미래의 일을한다

하나는 두 가지 방법 중 하나로 액자화할 수 있습니다 하나는 우리가 버블 링을하기 전에 구조를 가지고 있기 때문에, 우리가 잘못 입증 될 때까지 우리는 그 구조를 구축하게 될 것입니다 그 통계는 우리가 살고있는 환경 그것이 장기적으로 유익 할 것으로 기대하십시오 어느 것이 당신을이 프레임으로 만들 수 있을까요? 능력 함수 – 빼기, 나중에 내면화하는 능력 또 하나는 일종의 분열과 정복 과정입니다

구조를 자주 만들면 여러 가지 간단한 선택을하기 하나의 복잡한 선택보다는 오히려 그래서, 그것은 길일지도 몰라 더 다루기 쉬운 방식으로 문제를 해결할 수 있습니다 다른 하나는 간섭이며 간섭을 낮추는 것입니다 그게 당신이 창조한다면? 비슷한 내용의 프리젠 테이션, 당신은 그 표현들을 조금씩 끌어낼 수있을 것입니다

더 많은 방법으로 학습 할 때 방해를하기가 더 힘들다 약간 비슷하지만 문맥 하지만 비슷한 종류가 필요합니다 나는 이것을 많이 생각한다 프랑스어 키보드와 나는 노트북 거의 동일하게 보이고있는 노트북을 가지고있다 영어 키보드와 그들 사이의 간섭은 끔찍합니다

그래서 저는 그것들을 똑같이 사용하지 않기 때문에 그런 것 같아요 그러나 만약 내가 그랬다면 나는 아마도 매우 감당할 수있을 것이다 하나에서 다른 것으로 빠르게 전환 할 수 있습니다 네? >> 한 가지 구체적인 질문 이 추가 구조는 내가 생각하기에 방법에 관하여 다만 황홀 케하다 당신의 전체적인 이야기와 연구 의제는 훌륭하다고 생각합니다 Microsoft의 이야기에 감사드립니다

그러나, 그것은 당신이 방금 준 설명에 기초하여 저를 공격합니다, 추가 구조는 보다 복잡한 표현의 보강 학습 문제의 상태 공간 >> 실제 행동 공간에서의 상태 >> 그래서 행동 상태, 행동 공간 그래서, 당신이 어떻게 구체적인 예를 들어 줄 수 있습니까? 인간 배우가 행동 공간에 대한보다 복잡한 표현, 그것은 조건부 행동 공간과 같을까요? 그래서 두 가지 행동처럼 고유 한 각 액션과는 반대로 네 이것은이를위한 최고의 슬라이드는 아니지만, 그러나 나는 그것을하려고 노력할 것입니다

>> 괜찮아 >> 미안, 이것은 하나, 알았어 나는 항상 가지고있다 슈퍼 간단한 Y 문제와 나는 좋은 예를 보았습니다 컴퓨터와 다른 운영 체제 전에 그리고 나는 여기에 왔고 리눅스가 있다는 것을 깨달았다

내 프레젠테이션에는 Windows가 아닌 Mac이 포함되어 있습니다 그래서 나는 조금 자신을 부끄럽게 여긴다 그래서, 당신이 이것을 배우면, 당신의 상태 공간은 그 6 개의 이미지와 여기 네 가지 행동이있어 그 6 개의 협회를 배울 수 있습니다 내가 한 것에서 대신에 당신을 보여주는 일은 사람들은 할 가능성이 더 큽니다

그래서, 당신은 여기서 사실 적색과 회색의 모양은 똑같은 수정 작용을합니다 사람들이 배우고, 예를 들어 여기서는 규칙을 선택하기 위해이 경우, TS는 태스크 세트의 약자로, 당신이 원한다면 작업 집합은 기본적으로 또는 정책을 의미합니다 그래서 사람들은 색상에 대한 응답으로 로프를 선택하고, 그리고 나서 그들이 로프를 선택했을 때, 그들은 그것을 사용하여 모양에 대한 정책을 세웁니다 그것은 형상 행동의 물건이다 그래서, 당신이 이것을 생각할 수있는 방법입니다

행동은 무엇입니까? 본질적으로 당신은 이것을 설명 할 수 있습니다 사람들은 두 개의 주 및 활동 공간을 통해 RL을 병렬로 수행합니다 그래서 여기에 가치를 배우는 하나의 루프가 있습니다 에 대한 대응 행동 도형에 응답하기위한 동작을 선택하는 정책, 저는 여기에있는 우리의 네트워크와 관련해서 이것을 골자로하고 있습니다 그러나 그것은 정말로 중요하지 않습니다

에서 작동하는 다른 보다 추상적 인 상태와 행동 공간 컨텍스트 규칙 상태 및 작업 공간이 있습니다 그런 다음 종속성을 만들어야합니다 그들 사이에,하지만 그래 그래서, 그것은 본질적으로 동일한 RL 계산이 일어날 수 없다는 것입니다

그 두 가지 상태와 행동 공간은 평행하게 사람들이 어떻게 배울 것인가에 관해 행동의 전체를 설명하십시오 >> 그래서 나에게 좋아 보인다 이 세상의 빨간 실험적 변형은 어떻게 될까요? 인간 의사 결정자들은 동적 시스템 급속하게 변화하는 것 대 그렇지 않은 것이다 네 >> 기본적으로 이러한 규칙 그러한 상황에서 더 많은 비용이 소요됩니다

>> 그래, 그래 그래서, 그것은 맞을 것입니다, 그래서 그렇게 할 때 당신은 길을 가져야 만합니다 사람들이 그 자산을 선택하고 있는지 확인하십시오 또는 그들이하고있는 자신을 설득하는 규칙 그것도 훨씬 더 어려워 질 것입니다 움직이지 않는 환경에서는 이미 매우 어렵습니다

움직이는 환경에서는 더욱 어려워 질 것입니다 그래서, 그것은 요점입니다 복잡한 인간 학습 학습 너는 항상이 트레이드 오프를 가지고있다 보다 복잡한 실험을 통해 더 재미있는 행동이지만 그 단점에서 비롯됩니다 참가자들이하는 일을 추측하기가 매우 어렵다

그래, 그래, 네 말이 맞아 >> 고맙습니다 >> 앤 감사합니다 [알아들을 수 없는]