AI Institute "Geometry of Deep Learning" 2019 [Workshop] Day 1 | Session 3

>> 기조 연설을 위해 MSR에 Leon을 환영하게되어 기쁩니다 그는 소개가 필요 없습니다

몇 가지 주요 사항을 설명하겠습니다 나는 매우 행복했다 실제로 올해 튜링 상 수상자 신경망에 대한 레온의 기본 연구에 대해 90 년대 초에도 확률 적 그라디언트에 대한 대규모 학습에 대한 그의 연구 그는 항상 출발에 대한 깊은 통찰력을 가지고있었습니다 추론을 배우고 보간에서 외삽으로 그는 오늘 나에게 제목을 말해 구매 그의 기조 연설은 볼록성이 될 것입니다 그는 단지 볼록성에 대해 말해 줄 것입니다 더 이상 고민하지 않고 레온에게 가져 가라

>> 저를 초대 해주셔서 감사합니다 오늘 아침에 많은 것을 보았 기 때문에 사과하고 싶습니다 매우 세련된 대화와 방금 마무리했습니다 그래서 나는 그것이 있기를 바랍니다 내부의 무언가가 어리 석고 잘만되면 당신은 저에게 말할 것입니다 제목이 AI의 지오메트리 였기 때문에이 대화의 동기는 몇 년 전 지오메트리와 관련이 있다고 생각했습니다 2016 년과 17 년에 작성된 것 같습니다 >> 마이크 >> 마이크가 켜져 있지 않습니다

>> 마이크가 켜져 있지 않습니까? >> 작동합니다 >> 작동합니다 알았어요 우리는 출판 된 논문을 썼습니다 조금 애매하지만 남자 형제 때문에 모호하지 않아야 아이젠만 형제입니다 커널은 40 주년을 맞았습니다 지나가고 이해하려고하는 것에 대한 많은 기초 총의 토폴로지와 무슨 일이 일어나고 있는지, 우리는 매우 이상한 이론을 가지고있었습니다 단순하고 어쨌든 우리는 그 이름을 알아볼 수있을만큼 똑똑했습니다

"알라 카르 트 볼록"하지만 너무 많이 생각하지 않아서 단순하고 또한이 정리로 얻은 결과 때문에 나는 그것을 잘 찾지 못한다 지는 경계에 만족하지 않습니다 하지만 최근 몇 년 동안 신경 접선이있는 논문 및 관련 논문 신경망에서의 최적화 이 아이디어로 돌아갈 때마다 아주 간단하게 생각하기 때문입니다 적어도 그것은 내 직감을 말한다 여러분과 공유하고 싶습니다 이것이 유용한 도구인지 확인하십시오

무언가를 극도로 말하는 주장 새로운 것이지만 그것을 보는 흥미로운 방법입니다 요약하자면 문맥 최적화에 대해 이야기하겠습니다 물고 토론하다 근사 속성에 대해 말하는 것, 글로벌 최소화 및 매개 변수화 바이어스 세 번째 부분에서 그때 당신이 나에게 1 시간 슬롯을 준다는 것을 깨달았습니다 나는 무엇에 대해 이야기하려고합니다 처음부터 종이도 기하학이 또 다른 예를 제공합니다 매우 다르며 그 결과를 계속 사용할 수 있습니다 처음에는 아주 느리게 시작해야하는데 우리가 거의 증명할 수있을 정도로 간단합니다 한 가지를 제외한 모든 것이 중요합니다

배경; 저는 세련된 미터법 공간에서 일하고 있습니다 좋은 미터법 공간을 생각해보십시오 곡선은 단지 0,1이라고합시다 내 공간으로 연속하고 두 점을 연결하고 콤팩트하기를 원하기 때문에 감마 서브 트리 T라고 부릅니다 따라서 미터법 공간의 커브에는 많은 것이 있습니다

전 분야가 있습니다 메트릭 지오메트리를 사용하여 대부분 단축 할 것입니다 내가 정말로해야 할 유일한 것은 내가 필요하다는 것입니다 제한 속도 곡선은 실제로 Lipschitz를 거의 의미합니다 그것에 대한 많은 배경이 있습니다 상수 속도에 대해 말할 수 있기 때문에 커브와 일정한 측지선으로 이동합니다 이 모든 사업은 기본적으로 내가 만들면 곡선의 파라미터 T에서 약간의 움직임 미안하지만 난 그냥 할거야 두 점 사이의 거리가 너무 멀지 않다 크고 빨간 볼록도를 정의하겠습니다 곡선 군 C를 가정하고주었습니다

나는 그것이 무엇인지 압니다 그들에 대해 아무 말도 하지마 내 공간의 부분 집합은이 곡선 군과 볼록한 관계입니다 모든 쌍 x, y에 대해 하나씩 x를 연결하는 곡선이 있습니다 y로 완전히 연결되어 있습니다 기본적으로 나는 내 세트에 머무를 수 있고 다음 중 하나를 사용하여 x에서 y로 갈 수 있습니다 내 곡선과 나는 말한다 실제 함수는 모든 곡선에 대해 C에 대해 볼록합니다

곡선에 대한 F의 제한은 모든 DAB에 대해 볼록합니다 기본적으로 당신은 정상적인 볼록 함을 가지고 있습니다 첫 번째는 내 가족이 곡선은 유클리드 공간의 선분이며 이것은 정상적인 볼록 함입니다 두 번째는 비대칭입니다 나는이 볼록한 구조를 보았습니다 하나의 커브와 실제 함수는 모든 커브에서 볼록합니다

두 점을 연결하는 곡선이 여러 개인 경우 두 번째 정의가 더 까다 롭습니다 내가 유일하게하기 때문에 조금 약화시킬 수 있습니다 끝점 사이를 볼록하게 볼 수 있습니다 기본적으로 어떤 T에 대해서도 감마 T의 F는 감마 0의 F와 감마 1의 F의 혼합물 아래 그림과 같이 조금있을 수 있습니다 신경 쓰지 않을 것이고 결과는 매우 간단합니다

F가 커브 패밀리에 볼록한 효과 인 경우입니다 비용 함수 인 경우 곡선의 끝점에 대한 끝점 대류 효과 기본적으로 모든 레벨 세트는 C에 제한 속도 곡선 만 포함 된 경우 모든 지역 최소값은 세계적입니다 기본적으로 볼록성의 필수 속성은 원하는 모든 곡선이있는 설정에서 유지됩니다 말이 되나요? 이것의 증거는 매우 간단합니다 레벨 세트에 속하는 X와 Y를 입력하면 기본적으로 X의 F는 M보다 작습니다 Y의 F는 M보다 작습니다

F는 커브 패밀리에 대해 볼록한 관계이므로 안에 연결되어있는 커브가 있습니다 F F는 끝 점이 볼록하므로 나는 감마 T의 F가 1-Fx의 T + T보다 작다고 생각합니다 Y의 F와 T의 F와 Y의 F가 모두 M보다 크므로 감마 T가 내 레벨 세트에 속한다는 것을 의미합니다 따라서 레벨 세트는 연결되기 전에 경로로 연결됩니다 이제 지역 최소값에 대한 두 번째 부분입니다

나는 포인트가 있다면 로컬 최소값이라고 말했다 그런 공 공의 모든 포인트는 공의 중심보다 크거나 같습니다 모순에 의한 추론, Y가 있다고 가정 Y의 F가 X의 F보다 작도록 X를 Y에 연결하는 곡선을 만듭니다 속도가 제한되어 있어야합니다 속도가 제한되어 있기 때문에 이 속성은 Lipschitz 속성입니다 제한 속도이므로 2K 이상 엡실론을 사용하면 2K 이상의 감마 엡실론의 F가 더 큼 X의 F 인 감마 제로의 F보다 하지만 종말점 볼록성을 가지고 엄격한 불평등과 반대 불평등, 따라서 불가능합니다 그러므로 내 지역 최소의 모순은 위에있을 수 없습니다 F의 다른 지점에서의 가치 지금까지 매우 간단합니다

간단한 머신 러닝 예제를 보자 연속 기능인 X 일부 입력 공간에서 일부 출력 공간으로 부분 집합 X는 기능 군입니다 그것은 일부 세타에 의해 매개 변수화되었습니다 파라 메트릭을 쓰지 않았습니다

커널이나 물건을 갖고 싶어 손실 L을 보자 첫 번째 주장에서 볼록하고 이것은 내 모델의 출력입니다 훈련 예제, 그리고 f, 그래서 손실과 함께, 나는 2F를 가질 것입니다, 미안합니다 내 경험적 교차 함수는 f입니다 그래서 f 기본적으로 모든 기능에서 경험적 손실을 계산합니다

혼합물 만 나타내는 곡선을 만들겠습니다 함수 공간에서 직선 세그먼트 일뿐입니다 즉, 내가 지금 말할 것은 평면 볼록 인수로 얻을 수있는 것 나중에 살펴 보겠습니다 따라서 비용 함수 f는 내 곡선과 사소하게 볼록합니다

기본적으로 출력 공간에 커브를 그립니다 예를 들어 내 네트워크의 손실이 볼록하기 때문에 이것은 볼록하고 문제 없습니다 따라서 함수 군이 곡선에 대해 볼록한면이라면 정리가 적용되며 선형 모형에 적용됩니다 대포 모델의 경우에도 마찬가지입니다 그리고 공식 네트워크도 거의 마찬가지입니다

왜 거의? 내가 매우 풍부하게 패러미터를한다면 과도하게 매개 변수화 된 것이 여기에 적합하지 않다고 말해서는 안됩니다 풍부하게 매개 변수화 된 신경망 근사 특성이 좋습니다 글쎄, 당신은 내 선형 혼합물을 근사 할 수 있습니다 직선에 가까이 갈 수 있습니다 그러나 이것은 A를 증명하기에 충분하지 않습니다

B가 일반적으로 거의 A가 거의 B를 의미한다는 것을 의미하지는 않습니다 그것은 너무 좋을 것이고 이것은 커브가 유용 할 수있는 곳입니다 내 네트워크가 대략적으로 잘 될 수 있다는 것은 무엇을 의미합니까? 글쎄, 나는 단순화 할 것입니다 나는 F가 있다고 말할 것입니다 감마 세타 t

그래서 기능 혼합물에 가까운 내 가족 기본 2 차 거리 인 감마 t 기본적으로 F에서 G로가는 선을 정의합니다 기능 공간에서 내 두 기능 나는 시가를 정의하고 다른 시가 이후로 나는 그것을하는 가족의 기능을 가지고 있습니다 이 시가가 존재한다는 것을 증명하면 이것은 성가신 일입니다

할 수 없습니다 클릭 만하면됩니다 그렇게하는 페이지는 흥미롭지 않습니다 흥미로운 것은이 r 계수가 여기가 작아지면 네트워크가 커지고 근사치가 좋아집니다 그래서 나는 그것에 머물 것입니다 이제 커브 세트가 이러한 시가 모양 영역에 포함 된 모든 곡선

두 점이 있으면 시가를 그리고 이 안에있는 모든 커브는 내 커브 중 하나입니다 저는 행복합니다 이제 구성에 의해, f는 일련의 곡선에 대해 볼록하다 두 기능마다 시가 안에 곡선이 있어요 f에 속한다고 가정합니다 문제는 이 제품군과 관련하여 비용 함수 끝 점이 볼록합니까? 글쎄, 무슨 일이 일어나면 당신이 할 수있는 고정 도메인에 도메인을 바인딩 어쨌든 레벨 세트가 끝났다고 주장 매우 높은 엔드는 다른 주장과 같은 다른 주장도 있습니다

당신은 손실과 함께 일부 Lipschitz 가정을 만들 수 있음을 알 수 있습니다 기본적으로, 당신은 같은 것을 그것은 기능에 일어나고 있습니다 세타 t의 f가 f의 f보다 작다 혼합물과 약간의 quartic, 람다 t1 빼기 t 람다 Lipschitz의 제품입니다 상수와 내가 가진 L 이것을 적용하면 나는 이것을 얻습니다

부호가 잘못 되었기 때문에 강한 볼록성이 아닙니다 사실, 손실이 Mu라면 이 작업을 수행하는 대신 볼록하게 볼록하게 Mu를 추가 할 수 있습니다 t1에서 t를 빼고 Lambda가 Mu보다 작 으면 완료됩니다 그러나 그렇지 않습니다 볼록하지 않은 기능을 처리해야합니다

거의 볼록한 모양이며,들을 수 없습니다 여기의 두 번째 부분이 있습니다 내가 거의 볼록 최적화라고 부르는 정리 익숙한 곡선을 존중하기 위해 F가 볼록합니다 각 곡선에 대해 비용 함수 이와 같은 것을 만족 시키십시오 더 이상 빨간색으로 작동하지 않습니다

볼록한 검증 [들리지 않음] 지금 말할 수 있으면 증명하기가 매우 간단한 것입니다 m이 최소값보다 크면 f plus Lambda 함수의 에 등장하는 람다 그런 다음 레벨 세트가 연결됩니다 기본적으로 제한 속도, 구속 조건도있는 경우 그것은 어떤 지역 최소 세계 최소값보다 최대 감마입니다

왜 그렇게 되었습니까? 다시 매우 간단합니다 따라서 두 가지 점을 고려하십시오 레벨 설정에서 x와 y 그리고 값이 M보다 작은 것은 레벨 세트에서 az를 선택합니다 z의 f는 m에서 감마를 뺀 값보다 작습니다 아래에있는 az를 선택합니다 이제 두 개의 커브를 만들어 보겠습니다

x를 z에 연결하는 것, 또 하나의 z에서 y 사실, 그들은 같은 구조입니다 이 두 커브가 있다면 그런 다음 경로가 있고 경로가 연결되어 있습니다 이 그래프에서보다 쉽게 ​​볼 수 있다고 생각합니다 감마 제로가 x이고 감마 1이 z이면 m은 저의 레벨입니다

나는 그 선 아래에 있지 않을 것입니다 여기 빨간 곡선 아래에 있습니다 z가 x보다 충분히 낮 으면 빨간색 곡선이 모두 M 아래에 있는지 확인할 수 있습니다 따라서 x와 z 사이의 곡선은 전적으로 레벨 세트에 있습니다 마찬가지로 z에서 y까지의 곡선은 전적으로 레벨 세트에 있습니다

따라서 내가 가지고 있다는 결론에 내 레벨 세트에서 x와 y를 연결하는 경로를 찾았습니다 따라서 매우 짧습니다 예 >> 그래서이 시가를 가져 가서 이것의 모든 곡선으로 정의되는 함수 클래스 >> 내 커브 클래스는 시가의 모든 커브입니다

>> 그러나 각 열은 FT에 직접 대응합니다 그런 다음 [비가 청]에 다시 매핑하려면 어떻게해야합니까? >> 각 곡선이 해당합니다 아니요, 여러 개체가 있습니다 나는 가고있는 커브 패밀리를 가졌습니다 볼록한 개념을 원하는 방식으로 사용자 지정할 수 있습니다 사이에 선분이 아닌 내 곡선 군 두 기능은 두 기능 사이에있을 것입니다

시가에서 계속 유지되는 곡선 내 기능 군이 모델 인 것은 볼록합니다 이 곡선 중 하나가 가족 내부에 남아 있다고 말할 필요가 있습니다 내 가정 때문에 모델은 근사 특성이 우수합니다 시가 내용이 근사치 일 정도로 충분합니다 거기에 커브를 만들 수 있습니다

연속성에 대해 약간주의해야합니다 두 번째 부분은 비용 함수가 볼록한 것입니다 하나는 모든 곡선에 대한 제한이 볼록한 것입니다 따라서 특히 우리 가족의 곡선에 대한 볼록한 존중 이 볼록 함을 실제로 완화시킬 수 있습니다

엔드 포인트 볼록을 사용할 수 있습니다 나는 거의 볼록했다 말할 수있다 볼록 함은 계수 Lambda t1 빼기 t 그런 식으로 결함이 있으면 당신이 증명할 수있는 것은 레벨 세트가 연결되었습니다 Lambda를 최적으로 사용할 때까지 Lambda를 원하십니까? 예, Lambda를 원합니다 따라서 하강 알고리즘이 있다면 당신은 레벨 세트를 축소거야 하강 할 때마다 거기에 갈 것입니다 기억이 잘 나면 나는 더 큰 말했다 네트워크는 더 나은 근사치와 내 시가는 작습니다

네트워크가 커지면 이 Lambda는 더 작을 수 있고 더 작아서 전 세계 최소값으로갑니다 예 >> 다음 [들리지 않음] 증거에서 감마가 연결되어 있어야합니다 >> 예, 감마는 Lambda 여야합니다 마지막 순간에 방금 변경했기 때문에 대화에 감마가 너무 많았 기 때문입니다 여기이 감마는 람다 여야합니다

하지만이 감마 -t는 여전히 감마입니다 당신은 참조하십시오 그래서 저는 용어 문제가있었습니다 이 슬라이드는 좋지 않습니다 그러나 실제 아이디어는 여기에 있습니다

기본적으로 m 지점과 Lambda 지점은 m 이하 내가 볼록 결함과 같더라도 나는 그들을 연결 m 아래에 남아있을 수 있습니다 그런 점 하나면 충분합니다 우리가 지금 어디에 있는지 생각한다면 비교적 간단한 방법으로 신경망이 있다면 합리적인 가정을 가진 강력한 근사 특성, 괜찮은, 배달 된 세트는 원하는만큼 느리게 연결되고 CR을 원하는만큼 작게 얻을 수 있기 때문입니다 하강 알고리즘은 꽤 잘 작동합니다 지역 최소 또는 하단에 우리는 단지 시원합니다

그런 말을하는 최근 결과가 있다는 것을 의미합니다 그러나 훨씬 더 복잡합니다 그렇다면 이것으로부터 무엇을 이해할 수 있습니까? 제가 이것에 대해 이야기한다면 이 결과는 독립적입니다 친숙한 기능의 매개 변수화 이것은 중요하지 않습니다 정말로 중요한 것은 익숙한 기능이 충분히 가까이있을 수 있습니다

적절한 곡선으로 연결하거나 또는 적절한 곡선이 잘 될 수 있습니다 가족의 요소에 의해 추정됩니다 어느 쪽이 좋습니까 세타 공간에서 레벨 세트는 볼록하지 않을 수 있습니다 그들은 매우 기괴 할 수 있습니다 그러나 그들은 연결되어 있습니다

그들이 중심에 갈 때 일할 것입니다 그러나 학습 알고리즘은 Theta 공간에서 작동하기 때문에 암묵적인 편견이 무엇이든 학습 알고리즘에 있고 기본적으로 사물을 어떻게 매개 변수화하는지에 따라 그리고 세계 최소의 것들 초과 매개 변수화 된 모델로 반환됩니다 또는 일찍 할 때 어떤 솔루션이 반환되는지 그게 정말 달려있다 학습 알고리즘의 역학에 매개 변수 자체에 따라 다릅니다 어쨌든, 당신은 거의 전 세계적으로 갈 수 있다는 사실과 암묵적인 편견은 연결이 끊어졌습니다 혼합 곡선을 사용할 때 내가 지금까지 한 일입니다 어떤 곡선입니다 직선 또는 직선에 매우 가깝습니다

기본적으로 익숙한 기능이 충분한 근사 특성을 너무 밀접하게 그 기능 중 두 가지의 혼합을 나타내는 합리적인 학습 알고리즘 내 말은, 거리 물건, 결국 세계적으로 가장 가까운 곳을 찾을 것입니다 네트워크가 충분하다면 최근 결과가 많이 있습니다 실제로 베드로는 목록을주었습니다 그것들은 신경 용어와 일치합니다 신경 접선 [들리지 않음] 이 모든 최근 결과는 훌륭합니다

그들은 일반적으로 더 복잡합니다 이 일련의 논문에서 내가 아주 흥미로운 것을 발견 한 것은 프랜시스와 오 얄론 그가 주장하는 게으른 학습 신경 접선 접근이 있습니다 그가 게으른 학습이라고 부르는 것 해결책을 거치는 정권 그러나이 솔루션은 종종 그 솔루션을 일반화하지 않습니다 디커플링이 있기 때문에 이것을 볼 수 있습니다 매개 변수화와 볼록 속성의 볼록 속성 내가 가고 있다고 말할 수 있습니다 기본적으로 결과는 학습 알고리즘이 극복 할 가능성이 있음을 의미 매개 변수화 및 따르기 복잡한 수준을 설정하고 솔루션에 도달하십시오

그러나 이것이 좋은 아이디어는 아닙니다 특히, 당신이 많은 경우 소셜 공간이 큰 솔루션 과도하게 매개 변수화 된 네트워크에서 일반적입니다 그것은 또한 이상한 것과 연결된 매우 강한 모양, 학습 알고리즘은 특정 매개 변수화에 도달 할 수 있음 고려할 최소값보다 더 나은 최소값 당신은 단지 고려할 수 있었다 어떤 제약도없이 반대 의견을 제시합니다 이제 이것은 문제에 따라 결정될 것입니다 매개 변수화가 실제로 문제와 관련이 없는지 여부 따라서 우리가 가질 수 있습니다 대신 좋은 해결책을 제시 할 암묵적 편견 기본적으로 솔루션의 여전히 달성 가능합니다

특정 문제 여야합니다 또는 다른 곡선을 사용할 수 있습니다 다른 커브를 사용하는 것은 어떻습니까? 예 >> 우리가 다시 갈 수있는 곳이 있습니까? 자연스러운 그라디언트를 암시하는 것으로 생각하십니까? >> 자연스러운 그라디언트는 약간 다릅니다 당신이 고려하는 자연적인 그라디언트 매개 변수화 된 공간, [들리지 않는] 공간

그래서 당신은 밖을 보지 않습니다 여기서는 전체 공간에 지오메트리를 정의하지 않습니다 함수를 정의한 다음 모델의 하위 세트를 정의합니다 볼록 속성이있는 모델의 하위 세트를 원합니다 내 비용 함수는 일부 곡선에 대한 볼록 특성

어쨌든 바깥을 보면 파라 메트릭 모델을 사용하면 나에게 중요한 것은 매개 변수화가 아니라는 것입니다 그러나 실제로 친숙한 기능의 기하학 올바른 목표를 볼 때 네 >> [들리지 않음] 따라서 자연스러운 그라디언트를 연결할 수 있습니다 내 형상을 관련 시키면 자연 그라데이션을 정의하는 나머지 매니 폴드 커브 세트의 커브 지오메트리에 나는 그것이 연결이 될 것이라고 생각합니다

그것은 당신이 어떻게 움직일 수 있는지 알려줍니다 >> 네 그러나이 경우 첫 번째 재산이 있습니다 익숙한 기능의 볼록 함은 기본적으로 달성됩니다 당신은 단지 내부를보고 있기 때문에 두 번째는 문제를줍니다 여기 트릭은 둘 사이의 균형을 잡을 수 있다는 것입니다 내가 가족 때문에 문제가 생겼을 때 함수는 볼록한 것이 아니 었습니다

그들은 선을 근사 할 수있었습니다 "좋아, 더 많은 커브를하겠습니다 " 다른 부분을 가진 플레이어는 그래서 어려움을 한 손에서 정리 모형의 다른 손 기능의 볼록 함과 가족의 볼록 함 그래서 나는 언제 그것을 썼는지 몰랐습니다 하지만 그것은 매우 간단하지만 강력한 도구입니다

그러나 이것은 내가 지금 생각하는 것입니다 아마도 틀 렸습니다 나는 내가 틀렸다면 많은 사람들이 말해 줄 수 있다고 생각했습니다 그래서 그것은 저에게 기회를줍니다 실제로 논문에 무엇이 있는지 토론하십시오 이 논문에서 이것은 논문의 마지막 부분에있었습니다

내가 아주 좋아하지 않는 결과를 제공하기 위해 그 단점에 대해 이야기하겠습니다 하지만 흥미로운 부분이 있습니다 암시 적 모델에 관한 것입니다 GAN, VA 같은 것 또한 좋은 예입니다

내가가는 예가 매우 다른 종류의 곡선과 혼합을 사용하십시오 사실, 나는 그것이 작동하지 않는 혼합물을 보여줄 것입니다 암시 적 모델에 관심이있는 이유는 저는 단어의 중요한 속성을 찾고 싶습니다 있는 것보다는 특정 분포에 따라 다릅니다 변하지 않는 중요한 속성을 찾고 싶습니다 분포 변화에 특정 종류 또 다른 이야기입니다

하지만 기본적으로 엔지니어링 된 모델 대신 배포 보안을 통해 최근 모델과 매우 가깝거나 내부에 있으며 모든 거리를 사용할 수 있습니다 중요한 속성을 나타내는 매우 간단한 모델을 사용하고 싶습니다 그러나 데이터 배포가 현실적인지는 신경 쓰지 않습니다 그래서 사이의 거리 실제 분포와 모형의 분포 내가 최소화하려고하는 것은 정말 중요합니다 이 최대 가능성을 원한다면 좋은 도구가 아닙니다

간단한 모델이 무엇입니까? 몇 가지 관찰되거나 잠재 된 변수와 관련된 것 분포가 퇴화되고 저 차원 매니 폴드로지지됩니다 그것은 밀도가 없다는 것을 의미합니다 따라서 밀도 추정이 없습니다 그래서 그 해결 방법 사용하여 간단한 모델을 보강하는 것입니다 노이즈 모델과 노이즈 모델을 조정할 때까지 원하는 결과를 얻고이를 감독되지 않은 학습이라고합니다

그것은 실제로는 아니지만 나는하고 싶습니다 노이즈 모델을 추가 할 필요가 없는지 알고 하지만 재미있는 거리를 찾으십시오 올바른 속성이 있습니다 아직 찾지 못했습니다 그러나 몇 가지가 있습니다 암시 적 모델링은 관찰 된 데이터를 가지고 있다는 것입니다 분포 Q로 흐르는 나는 내가 알고있는 배포판을 가지고있다 매개 변수화 된 기능을 통해 앞으로 모수 분포를 만들기 위해

샘플을 얻을 수 있습니다 기본적으로 두 개의 샘플러가 있습니다 데이터 인 하나는 무제한 인 또 다른 하나입니다 Theta를 최적화하기 위해이 분포를 비교하고 싶습니다 좋은 점은 저 차원지지를 가질 수 있습니다

기본적으로 이것은 매우 좋습니다 매니 폴드 지지율이 낮은 분포를 나타냅니다 수학으로 쓸 수 있습니다 흥미로운 것은이 # 표기법입니다 운송 문헌에서 일반적입니다 G-Theta # Mu를 보시면 중 하나에 대한 푸시를 의미 함수 G-Theta를 통한 분포 Mu 많이 사용하겠습니다

그것은 퇴화 분포에 좋습니다 이제 분포를 비교하십시오 너무 똑똑해지기 전에 문헌에 무엇이 있는지보세요 분포를 비교하는 것에 관한 큰 문헌이 있습니다 기본적으로 강력한 토폴로지를 생성하는 것이 있습니다 총 변형과 같이 밀도가 필요한 쿨백-라이 블러

그것은 필요하기 때문에 거리가 아닙니다 밀도, 비대칭, 가능하면 무한 에 사용되었던 Jensen Shannon GAN의 첫 번째 버전 실제로 작동하지 않기 때문에 아무도 사용하지 마십시오 비대칭에는 밀도가 필요하지 않습니다 제곱근은 실제로 적절한 거리입니다 그러면 더 최근의 것들이 있습니다 Wasserstein-1이 있습니다

Wasserstein 거리는 모두가 알고 있거나 설명해야한다고 가정합니까? 시간이있어 설명 할 수있을 것 같습니다 그래서 저는 두 개의 분포 P와 Q를 가지고 있습니다 이것이 제가 WL, Peyre 소개에서 취한 그래프입니다 두 개의 분포 P와 Q, 그리고 나는 한계 P와 Q의 합동 분포를 구하고 공동 분포는 어디에서 보조금을 운송해야합니다 하나의 분포에서 두 번째 분포를 만들 확률 그래서 파이는 최소 이상입니다 모든 공동 배포 일부 비용 함수의 한계 P와 Q가 있습니다

운송비가 비싼 지 아닌지를 알려줍니다 이원성 정리로 최고야 모든 Lipschitz의 하나의 기능 X의 F 분포에 대한 기대 Y의 F의 두 번째 분포에 대한 마이너스 기대 항상 정의되어 있습니다 기본 공간의 측정법과 관련이 있습니다 밀도가 있거나 Lipschitz의 기능 중 하나 그것은 Wasserstein GAN에게 영감을주었습니다

거의 Kantorovich이지만 약간의 성공을 거두었습니다 때 나를 놀라게 한 또 하나 내가 처음 봤는데, 나는 무지하기 때문에 Diane Bouchacourt의 논문에서 그것이 Szekely의 에너지 거리입니다 네가있는 기괴한 일이야 기대하다 두 분포 지점 사이의 거리 두 번 곱하기 분포 차이 내부를 제거합니다 당신은 보여줄 수 있고 나는 그것을하지 않을 것입니다 이것은 동일하다 기본적으로 여기서 사용하는 거리와 또는 MMD 방법에서 사용하는 커널

최대 평균 불일치 MMD는 기본적으로 동일한 역할을합니다 다시, 당신은 Wasserstein과 에너지 거리를 모두 가지고 있습니다 MMD, 주 토폴로지를 정의하십시오 어쩌면 그들은 정말 의존 아래의 미터법 공간 분포 >> DiscoGAN의 경우 근사치 신경망과 함께이 최고 아니면 대포보다 더 똑똑한 일을합니까? >> 그들은 캐논보다 똑똑하지 않습니다

이제는 미터법을 MMD-GAN이라고하는 새로운 방법으로 작성했습니다 왜 대포로 똑똑한 일을하지만 또한 적대적인 용어로도 사용됩니다 사실, 그는이 정의를 벗어납니다 따라서 동일한 지오메트리를 갖지 않았습니다 이제 분배 공간에서 혼합물을 살펴 보겠습니다

P0, P1의 경우 최대 분포 Pt는 두 분포의 혼합물입니다 나는 배포판이 있다고 가정합니다 생성기에 의해 암시 적으로 정의됩니다 혼합물이 볼록하다고 생각합니다 아마도 볼록한 혼합물이라고하면 혼합물 세트에 대한 주요 볼록한 존중 그밖에

그것이 의미하는 바입니다 기본적으로 모든 혼합물에 대해 세타 T는 G-Theta T를 통해 Mu를 밀면 내 분포가 나옵니다 문제는 P0과 P1이 0이 아닌 여백을 가진 G-Theta 지원 T2 세타 T보다 불연속 또는 Theta에서 G-Theta 로의 불 연속적입니다 두 경우 모두 배우기가 매우 어려울 것입니다 불연속 기능을 배우는 것은 재미가 없기 때문에 최적화

증거는 간단합니다 두 개의 분포 P0을 취합시다 G-Theta 공급 장치가있는 P1 여기에 약간의 여백 Mu 모든 Epsilon 양성에 대해 그러나 Z의 G-θ 0은 작다 따라서 G- 쎄타 제로의 출력은 항상 P0의 공급 장치에 속합니다

G-Theta 제로를 통해 Mu를 앞으로 밀면 P0이 구현되기 때문입니다 모든 Epsilon, Z의 G-Theta Epsilon, Epsilon 확률로 P1의 공급원에 속합니다 작은 규모이지만 관리가 있다면 Z의 일부는 P0의 공급 P1의 P0 공급 즉 Z가 있으므로 Z의 G-θ 0과의 거리 Z의 G- 세타 엡실론이 우리의 4 명이 Epsilon 인 방법에 관계없이 U 따라서 이것은 본질적으로 확률 공간을 커브하는 혼합물, 이 두 분포 사이에 곡선을 만들고 싶습니다 당신은 어딘가에 끊을 연속성이 있습니다

연속 할 수 없습니다 그래서 이것은 혼합 곡선이 일치하지 않습니다 암시 적 모델의 기하학 전혀 다른 곡선이 필요합니다 변위 곡선으로 이동하는 동안

검색 시간으로 돌아가서 P0에서 P1까지의 운송 계획 한계가 P0 및 P1 인 공동 분포입니다 우리는 최적이라고합니다 DXY에 대한 DP의 기대 공동 분포에 대한 기대는 최소입니다 지수 P는 어설 션 P 거리 중 하나입니다 같은 그림이 여기에 있습니다 이제 유클리드의 경우 기본 공간이 아닌 경우 측지선을 따라야하는 것이 더 복잡합니다

간단한 사례를 살펴 보겠습니다 변위 곡선은 Pt를 정의 할 것입니다 최적의 운송 계획을 통해 혼합물을 추진하는 것 즉, 최적의 운송 계획을 세웁니다 배포부터 시작하여 이민자 권한을 갖겠습니다

P 음식 운송 계획을 따르면 저는 Q로갑니다하지만 교통 수단에서는 난 그냥 떨어 뜨릴거야 분수 T와 내가 어떤 분포를 얻었는지 보라 이제 P_0이 G_Theta_0이라고 가정 해 봅시다 [들리지 않음] G_Theta_0 및 P_1을 통해 mu를 앞으로 밀기 u G_Theta_1의 푸시 포워드 글쎄, 내가 둘 다 앞으로 밀면 공동 배포가 있습니다

그것이 교통 계획입니다 두 가지의 조합을 추진하면 이 운송 계획에 대한 변위 곡선이 있습니다 기본적으로 가족이 G_Theta 함수는 근사치가 충분히 강합니다 이것은 최적의 계획에 가깝습니다 그래서 실제로 필요했습니다 G_Theta_0을 원하는 것으로 가져갈 수 있기 때문입니다

>> 알겠습니다 >>이 최적의 변위는 u로 G_Theta_t에 가깝습니다 기본적으로 다시 한 번 경고를하면 복잡 할 수 있습니다 나는 여기에 지나치게 주장하고 싶지 않습니다 난 그냥 말할 때 G_Theta 제품군은 충분히 풍부하고 근사치입니다 변위 곡선이 패밀리 내부에있는 것이 당연합니다 기본적으로 변위 볼록성은 자연 명목 볼록 암시 적 모델에 의해 정의 된 배포 제품군

그러한 가족은 일반적으로 논쟁 때문에 혼합 볼록한 그들이 있다면 그것들을 쓸모 없게 만드는 불연속성이 없습니다 가족과 비교할 수 있습니다 파라 메트릭 밀도 함수로 정의됩니다 파라 메트릭 밀도 기능이 있으면 파라 메트릭 밀도 함수가 근사 특성이 높고 근사 할 수있는 기회 중첩 또는 혼합물이며 여기에서 무시됩니다 혼합 곡선의 경우 밀도를 추정 할 때 매우 자연 스럽습니다

그러나 암시 적 모델이 있으면 자연 곡선은 실제로 변위입니다 문제는 변위가 볼록한 비용 함수는 무엇입니까? 그것은 또 다른 쓰레기이기 때문입니다 우리는 암시 적 모델링을 알고 있습니다 몇 가지 사실을 알려 드리겠습니다 첫 번째는 Wasserstein과 MMD가 얼마나 다른지입니다

글쎄, 나는 강력한 토폴로지를 제쳐두고 또한 불연속 문제가 있기 때문입니다 Wasserstein 논문의 주제였습니다 나는 Wasserstein과 에너지 거리를 취합니다 이중 형식을 설명하면 매우 닫힙니다 다른 유일한 것은 sup [들리지 않음]입니다

Lipschitz_1 기능에서 하나의 Lipschitz 경계인 기능 Wasserstein과 MMD에 대한 [들리지 않음]에 내가 무지하기 때문에 [들리지 않음] 예, 정말 가깝습니다 나는 그것이 꽤 큰 차이라는 것을 발견했다 Lipschitz_1이 분명히 더 큽니다 RKHS로 많은 것을 근사 할 수 있기 때문이 아닙니다

RKHS Bohr은 Lipschitz_1 Bohr와 가깝습니다 어쨌든 측지학에 대해 토론 할 수 있습니다 분배 공간이 갖추어 진 경우 에너지 거리 또는 MMD 거리 가장 짧은 경로를 보여줄 수 있습니다 두 분포 사이의 혼합 곡선입니다 가장 짧은 길을 보지 않았다는 것만 빼고 거리를 최소화하면 최단 경로는 꽤 볼록성 측면에서 중요합니다 분포 공간이 Wasserstein_P와 같을 때 가장 짧은 경로는 변위 곡선입니다

Wasserstein_1에는 둘 다 있고 모든 종류가 있습니다 약간 변위되는 하이브리드 커브의 약간의 혼합물 공간의 다른 부분 또는 다른 반전 Wasserstein_1에는 많은 측지학이 있습니다 통계적 속성, 내가 사이에 예상 거리를 보면 종점에 대한 분포 Q 및이 경험적 근사치 에너지 거리는 그것은 n 이상에 있습니다

Wasserstein에게 그것은 n에 대한 차원이고 d에 대한 차원입니다 재앙입니다 이것은 Sanjeev가들을 수없는 좋은 예입니다 그의 영역에서 이것이 완전히 도달했습니다 완전히 희망이없는 것 같습니다

그러나 당신이 그것을 실행할 때 무슨 일이 일어나고 있습니까? 실제로 ED MMD는 치수가 작을 때 잘 작동합니다 이것이 [청취 불가] 논문에있는 내용입니다 [들리지 않는] 용지가 다릅니다 높은 차원에서 매우 빨리 붙습니다 Wasserstein 훈련은 꽤 잘 작동하는 것 같습니다 나는 그것이 매우 쉽고 매끄 럽거나 전부라고 말하지 않을 것입니다

그것은 정상적인 신경망뿐만 아니라 작동하지만 작동의 기울기입니다 예를 들어서 그것은 전형적인 침실입니다 이러한 모든 초기 이미지 혁신 문제에 사용됩니다 이것들이 예입니다 MMD 교육을 받으면 특정 신경망, 당신은 그 세대를 얻습니다 Wasserstein 거리로 훈련하면 이 네트워크를 얻을 수 있습니다

그게 왜 힌지가 가장 끔찍한 통계적 속성 작품을 훨씬 더 잘 생각할 수 있습니다 나는이 사진이 보면, 그것은 일종의 미인 대회입니다 그렇게 많이 말하지 않습니다 그러나 여전히 볼 수있는 일관된 효과입니다 그것의 많은 세트, 거기에 뭔가가 있습니다

어떻게 일이 잘못 될 수 있습니까? 괜찮아 이것은 예입니다 균일하고 매우 간단하며 완전히 구성되었습니다 그러나 그것은 그것을 보여주기 위해 만들어졌습니다 상황이있을 수 있습니다 지역 최소값과 Wasserstein_1과 같은 에너지 거리는 그렇지 않습니다 구성 예입니다

그렇게하도록 설계되었습니다 그러나 최소한, 그것은 당신이 얻을 수있는 개념 증명입니다 에너지 거리가있는 지역 최소 당신은 Wasserstein과 함께하지 않습니다 이제 저는 가족의 볼록함에 대해 이야기했습니다 거리 함수의 볼록함에 대해 [들리지 않음] 제가 최소화하려고하는 것은 DQ, P_Theta입니다

비용 함수 P를 DQ로 P, 그것은 볼록한가요? 변위 볼록합니까? 혼합 볼록은 일직선이므로 작동하기 쉽습니다 변위 볼록은 먼저해야하기 때문에 더 복잡합니다 이것은 일반적으로 미터법 공간에서는 사실이 아니라고 확신합니다 L1 거리를 갖춘 L2를 가져 가십시오 이것이 맨해튼입니다 거리를 제외하고는 거리의 이산화없이

측지선은 가장 간단한 방법으로 세로로 가로로 가로로 이동합니다 여기이 십자가는 L1입니다 L2에 L1 거리를 장착하면 볼록합니다 죄송합니다 세트와 관련하여 볼록합니다

측지선이며 L2의 L1 메트릭에 사용됩니다 그러나 두 볼록 세트의 교차점은 볼록하지 않아도 연결되지도 않습니다 또한 거리를 0으로 설정하면 여기이 두 곡선이 측지선이라는 것을 알 수 있습니다 파란색은 볼록하지만 거리를 0에 가깝고 빨간색은 그렇지 않습니다 따라서 기본적으로 제공되지 않습니다

알았어요 Wasserstein 거리 변위 볼록하지 않습니다 여기에 반례가 있습니다 원에서 균일 한 Q B는 중앙에서 회전하는 스틱에서 균일합니다

스틱의 길이는 LL입니다 PL과 Theta 사이에 Q의 플롯 Wasserstein을 표시하면 세타에 의존하지 않기 때문에 회전 비대칭은 L에만 의존하고 감소합니다 기본적으로 스틱이 클 때 Wasserstein 거리가 더 작습니다 실제로는 매우 직관적입니다 이제 스틱을 약간 돌리고 P1과 P0 사이의 변위 보간

여기에 PT가 있습니다 하지만이 PT는 곡선을 따르지 않습니다 그것은 직선을 따르고 있습니다 여기이 도트 도트 선은 직선입니다 즉, 회색 세그먼트는 P0 및 P1보다 약간 짧습니다

조금 짧기 때문에 Wasserstein 거리가 더 큽니다 여전히 희망이 있습니다 기본적으로 당신이 얻는 것, 희망은 당신이 쓸 수 있다는 것입니다 내가 싫어하는 정리 한계가 너무 심하기 때문에 그러나 그것은 심지어 볼록성을 위반하더라도 T의 용어로 묶을 수 있습니다 1 빼기 T 곱하기 이제 G_Theta를 늘려도 무언가가 줄어들지 않습니다

이것이 내가 싫어하는 이유입니다 고정 수량입니다 기능에 따라 다릅니다 증거가 아주 초보적인 접착제 그것은 약간 성가 시지만 실제로는 그리 어렵지 않습니다 그런 다음 거의 볼록한 최적화 정리를 적용 할 수 있습니다 보증이 있다고 결론 내립니다 Wasserstein을 사용하여 암시 적 모델 최적화 그 값이 전 세계 최소값에 가까운 지역 최소값 만 근방은 그다지 좋지 않습니다 내가 신경망에 가지고있는 것 나는 그것을 줄일 수 없기 때문에 근사 함수를 증가시킵니다

내가 대략적으로 근사하더라도 내 기능은 Wasserstein 거리와 관련하여 볼록했습니다 내 기능 군은 Wasserstein 거리를 정확히 고려하여 나는 여전히이 여분의 용어를 가질 것이다 어쨌든, 나는 이것과 거꾸로 있었다 보기 때문에 재미 있다고 생각합니다 중요한 것이있는 예 [들리지 않음]의 기하학 인 기계 학습 배급은 장비 될 수있다 혼합물과 매우 다른 곡선으로

때로는 암시 적 모델 때문에해야합니다 여전히 어떤 종류의 것을 얻을 수 있습니다 이러한 방식으로 볼록성 결과 및 최적화 결과 우리가 논문을 쓸 때 정말이 결과에 흥분했습니다 정리는 나에게 너무 단순하다 하지만 제 관찰은 이런 종류의 실제로 결과는 그렇게 간단하지 않습니다

그들은 문학에서 일반화하기가 훨씬 더 어렵습니다 시간이지나면서 내 마음이 바뀌었던 아마 실제로 생각 이 사소한 정리는 그렇게 나쁘지 않습니다 많은 어려운 결과를 아주 단순하게 만들기 때문입니다 그래서 내 결론은 혼합 곡선에 대한 볼록 함은 로 회귀 모형 최적화 강한 근사 특성 하강 알고리즘은 거의 전 세계 최소값을 산출합니다 이 속성은 정확한 매개 변수화와 무관합니다 암묵적인 편견에 대해서는 아무 것도 말하지 않습니다

매개 변수화와이를 가장 잘 활용하는 방법에 의해 유도됩니다 암시 적 생성 모델에서 변위 곡선에 대한 볼록 함이 더 보인다 혼합 곡선과 관련하여 볼록성보다 자연 스럽습니다 그것은 우리의 잠재력입니다 이미지에 대해 생각하십시오 이미지에서 이미지의 혼합은 쓰레기입니다

몰라 자연 지오메트리의 이미지에는 변위 지오메트리가 있습니다 따라서 사용 가능성이있을 수 있습니다 이상한 곡선과 증명 어떤 종류의 네트워크에 흥미로운 것들, 특히 이미지에서 잘 작동하는 모든 네트워크 그러나 나는 그것을하지 않았으며 어떻게 해야할지 모르겠다 그것 그게 다야

>> 질문 할 시간 >> 네 >> 부분적으로 이해하지 못했습니다 2 일반화에 대해 이야기하기 시작했을 때 나는 파트 1이 훈련에 관한 모든 것을 의미합니다 >> 아니요, 일반화에 대해서는 전혀 이야기하지 않았습니다 >> [들리지 않음]

>> 일반화에 대해서는 아무것도 없습니다 >> 당신은 어떤 점에서 그것이 >> 미안, 2 부 무슨 말인지 알 겠어 >> 맞아 >> 하강 알고리즘이 진행될 수 있도록하는 속성 거의 전 세계적으로 복잡한 속성으로 줄어 듭니다 매개 변수화에 의존하지 않습니다

그러나 매개 변수화는 하강 알고리즘은 다음과 같습니다 우리는 생체 공간에서 일하기 때문입니다 따라서 암묵적인 편견을 만듭니다 그들은 당신이 찾을 솔루션을 결정할 것입니다 일찍 멈 추면 그들은 당신이 멈출 곳을 결정할 것입니다 예를 들어, 솔루션 공간이 있으므로 레벨이 설정됩니다

제로 레벨이므로 연결합니다 그것은 데이터 공간에서 매우 기이합니다 결과에 따르면 해당 수준까지 나는 그들 중 하나에 갈 수 있도록 연결되어 있습니다 그것은 내가 좋은 것에 갈 것이라고 말하지 않습니다 반면에 익숙한 기능이 매개 변수화되는 방식 익숙한 기능이더라도 제로 행렬을 상당히 많이 바꾸고 있습니다

아주 잘 해결책에 도달 그것은 일반화 측면에서 우수합니다 >> 당신은 할 수 있습니다 >> 할 수 있습니다 만약 내가한다면, 이것은 매우 문제에 의존하는 것입니다 그것은 본질적으로 달려 있기 때문에 매개 변수 설정 방법에 대해 >> 커널 방식과 같은 시점에서 이것은 커널이 당신이 [들리지 않음]을 시도하는 것뿐만 아니라 일반화 할 것입니다 >> 아니, 당신은 그 증거를 설정했습니다

>> 알겠습니다 >> 종이를 Francis와 그의 학생의 게으른 학습지 그의 이름을 기억해야합니다 죄송 해요 >> [들리지 않음] >> 알겠습니다 그것이 얼음이나 사자 또는 이와 같은 것인지 확실하지 않습니다 >>이 학생은 [들리지 않음] 학생입니다

>> 알겠습니다 어쨌든 오늘이 논문을 가져 가면 그들은 경험적으로 당신이 따르는 해결책을 보여줍니다 탄젠트 채널은 작업 수에 비해 성능이 떨어지고 논쟁이 있습니다 그러나 그것은 끝입니다 시작 신문은 이런 종류의 게으른 학습은 많은 모델에 나타날 수 있습니다 특정 방식으로 스케일링을 변경할 때 그래서 그것은 희귀 속성이 아니라고 말합니다 일반화 보장 측면에서 많은 것을 제공하지 않습니다 이 솔루션은 매우 좋습니다

그것은 우리가 실제로 알고있는 것들과 상당히 일치합니다 커널 방식이 작동하면 솔루션을 제공합니다 그러나 실제로는 이미지에 대한 CNN뿐만 아니라 일반 좋은 이유 때문에 CNN은 이미지에 매우 적합합니다 >> 그러나 나는 단지 이해하려고 노력하고 있습니다 당신이 무슨 말을하는지 이해합니다 그러나 파트 1은 지금 당신이 말하는 것을 설명하지 않습니다

>> 1 부에서는 세계적으로 가장 가까운 곳으로가는 것은 기하학적 일뿐입니다 그것은 매개 변수화에 의존하지 않습니다 >> 아무 상관이 없습니다 >> 매개 변수화가 직교 관심사에 대한 영향 암묵적인 편견이 중요합니다 이것이 내가 말하는 것입니다

>> 알겠습니다 괜찮아 그 일 >> 내가 말하는 전부입니다 >> 녹음 중입니다 [들리지 않음] >> 내가 설립하려고 에 대한 복잡성 변위 코드 또는 추가 코드 하강 알고리즘으로 무언가를 할 수 있습니까? 문제는이 등급의 곡선에서 볼록합니다

>> 하나, 저는 전혀 몰라요 당신이 그것을하더라도 그것은하지 않습니다 올바른 솔루션으로 안내 할 것입니다 어쨌든 당신이 생각하는 사실은 동시에 매우 강력한 모델 용어 근사화 속성 및 동시에 매개 변수화 측면에서 매우 복잡하거나 유용한 것입니다 그것들을 모두 분리하는 것이 좋습니다 당신은 잘 말할 수 있습니다 이 강력한 모델로 해결책을 찾겠습니다 이제 매개 변수화 작업을 할 수 있습니다 내 문제에 적합하게 만들었습니다

이를 통해 학습 알고리즘의 역학을 바꾸고 있습니다 더 흥미로운 것들을 향해서 >> 매우 동의합니다 적어도 내가 이해하는 한 철학 그러나 레벨 세트가 연결되면 하강 알고리즘은 세계 최소는 직관적으로 매력적입니다 그러나 당신이 가지고 있다면 그것은 분명하지 않습니다 실행할 수있는 하강 알고리즘 연속 시간과 [들리지 않음] >> [들리지 않음]

C 만 내용이 속도 곡선을 제한하는 경우 f의 모든 지역 최소값은 세계적입니다 계속해서 전 세계 최소값을 찾으면 최대 [들리지 않음] 전역을 살펴보십시오 두 번째 부분은 바깥 쪽 가장 나는 그렇게하지 않았지만 같은 종류의 증거입니다 >> 맞아 그러나 세트가 될 수는 없었습니다

아마도 이것은 제한 속도 곡선에 의해 배제 될 것입니다 예를 들어, 물론 당신은 사용하는 지수입니다 당신은 할 수 없습니다 [들리지 않음] 알고리즘 다항식 [들리지 않음] >> 나는 다항식에 대해 말하지 않았습니다 합리적인 방법으로 강하하는 알고리즘이 있다면 당신이 말할 수있는 의미는 최소 지역을 찾을 것입니다, 그러면 새로운 세계를 찾을 것입니다 이것이 내가 의미하는 전부입니다

레벨 세트는 약한 가죽 끈 논쟁입니다 그러나 이것은 내가 추측하는 기하학이라고 생각합니다 예 >> 표면이 평평하다면 기본적으로 하위 수준 집합을 연결할 수있었습니다 그러나 당신은 여전히 ​​글로벌 최적으로 수렴하지 않습니다

>> 이것이 속도를 제한 한 이유입니다 경계 속도에서 일어나는 것은 실제로 그 속도입니다 기본적으로 현지 최소 금액을 취하면 기본적으로 X 지점을 중심으로 나는 내가있는 공간이있다 올라가거나 나는 평평한데 아래에 선을 그려야하는 점 이 평평한 지역의 중심 아래가이 평지에 있기 때문에 어느 시점에서 아래로 가야합니다 종점 볼록성과 모순됩니다 원한다면 아마 자랄 수 있습니다

x와 a1x가 있습니다 내 기능은 평평합니다 나는 아래에 있다고 가정합니다 따라서 x와 y와이 곡선은 속도를 경계로합니다 기본적으로 아래 어딘가에 키를 찾을 수 있습니다 기본적으로 함수의 값은 Gamma_t는이 선형 하강 라인보다 높아야합니다

기본적으로 그들은 선택됩니다 한계 속도는 매우 중요합니다 다른 경우에는 실제로 우리는 나중에 그것이 훨씬 더 단순하다는 것을 알고 있습니다 글쎄, 그것은 실제로 같은 것입니다 Lambda는 아래에 z 지점이 있습니다

당신은 레벨 M을 가지고 있습니다 당신은 x를 가지고 있습니다 여기 평평한 구역이 있고 z로 가고 싶습니다 z가 충분히 낮 으면 당신은 완전히 아래에 호를 가질 것입니다 그러나이를 위해서는 한계 속도가 필요합니다

t를 조금 움직일 때 당신은 큰 변위를하지 않습니다 기능 공간 또는 제한 속도 어 Where 어? 음, 그것은 평평한 지역입니다 한계 속도는 여기 생각합니다 지금 찾으려고하면 나는 그것을 잘못 찾을 것입니다 괜찮아

예 >> 네, 첫 번째 결과는 보편적 근사입니다 찾은 곡선이 연속적임을 어떻게 보장합니까? 모든 점에 대해 근사 기가 있기 때문에 그러나 아마도 별개의 일이 어려울 수도 있습니다 >> 내가 말했을 때 내가 보여줄 방법을 정확히 알고 있기 때문에 당신은 많은 포인트를 찾을 수 있습니다 연속성이없는 기능 아주 쉽습니다

당신은 밖에 갇혔습니다 내가 아직 몰라 죄송 해요 내가 있다고 말할 때 나는 단지 나를 깨달았다 우리가 아직 [들리지 않는] 연속성 문제 함수를 근사하기 위해 바인딩해야 할 수도 있습니다 및 또한 유도체

괜찮아 >> 더 이상 질문이 없으면 Leon에게 감사를 표합니다 >> 고맙습니다

Neural Networks and Deep Learning: Crash Course AI #3

안녕하세요, Jabril입니다 CrashCourse AI에 오신 것을 환영합니다! 지도 학습 과정에서 John Green-bot에게 퍼셉트론을 사용하여 배우도록 가르쳤습니다

하나의 뉴런을 모방하는 프로그램 그러나 우리의 뇌는 1 조 개의 뉴런으로 의사 결정을합니다 그들 사이에! 여러 퍼셉트론을 함께 연결하면 실제로 AI로 더 많은 것을 할 수 있습니다 인공 신경 네트워크라는 것을 만듭니다 신경망은 이미지 인식과 같은 특정 작업에 대해 다른 방법보다 낫습니다

그들의 성공 비결은 숨겨진 층이며, 수학적으로 매우 우아한 이 두 가지 이유 때문에 신경망이 가장 지배적 인 머신 러닝 중 하나 인 이유 오늘날 사용되는 기술 [INTRO] 얼마 전까지 만해도 AI의 큰 과제는 인식과 같은 실제 이미지 인식이었습니다 고양이의 개, 보트의 비행기의 차 우리가 매일 그렇게해도 컴퓨터에는 정말 어려운 일입니다

컴퓨터가 0과 1을 일치시키는 것과 같은 문자 비교를 잘하기 때문입니다 한 번에 컴퓨터는 픽셀을 일치시켜 이러한 이미지가 동일하다는 것을 쉽게 알 수 있습니다 그러나 AI 이전에는 컴퓨터에서 이러한 이미지가 같은 개라는 것을 알 수 없었습니다 서로 다른 이미지가 모두 개라고 말할 희망이 없었습니다

그래서 Fei-Fei Li라는 교수와 다른 머신 러닝 및 컴퓨터 비전 그룹 연구원들은 연구 커뮤니티가 이미지를 인식 할 수있는 AI를 개발하도록 돕고 싶었습니다 첫 번째 단계는 실제 사진으로 분류 된 거대한 공개 데이터 세트를 만드는 것이 었습니다 이렇게하면 전 세계의 컴퓨터 과학자들이 다른 알고리즘을 고안하고 테스트 할 수 있습니다 이 데이터 세트를 ImageNet이라고했습니다 3,300 만 개의 레이블이있는 이미지가 있으며 5,247 개의 중첩 된 명사 범주로 분류됩니다

예를 들어, "개"레이블은 "국내 동물"아래에 중첩되어 있으며 "동물" 데이터를 안정적으로 라벨링하는 데있어서 인간은 최고입니다 그러나 한 사람이이 라벨을 모두 수행 한 경우, 수면 또는 간식은 1 년 이상 걸릴 것입니다! 따라서 ImageNet은 크라우드 소싱을 사용하고 인터넷의 힘을 활용하여 저렴하게 보급했습니다 수천 명의 사람들 사이의 일 데이터가 완성되면 연구원들은 2010 년에 연례 경쟁을 시작하여 이미지 인식에 최고의 솔루션을 제공합니다

토론토 대학교 (University of Toronto)의 대학원생 인 Alex Krizhevsky를 입력하십시오 2012 년에 그는 비슷한 솔루션이지만 신경망을 ImageNet에 적용하기로 결정했습니다 과거에는 성공하지 못했습니다 AlexNet이라고하는 그의 신경망에는이를 차별화하는 몇 가지 혁신이있었습니다 그는 숨겨진 레이어를 많이 사용했는데 잠시 후에 도착할 것입니다

또한 신경망이 수행하는 모든 수학을 처리하기 위해 더 빠른 계산 하드웨어를 사용했습니다 AlexNet은 차기 최고의 접근 방식을 10 % 이상 능가했습니다 20 개의 이미지 중 3 개만 잘못되었습니다 학년으로 볼 때, B는 견고했고 다른 기술은 기음 2012 년 이후, 신경망 솔루션은 연간 경쟁을 극복했으며 결과는 계속 나아지고 있습니다

또한 AlexNet은 신경망에 대한 폭발적인 연구를 시작했습니다 이미지 인식 이상의 많은 것들에 적용됩니다 신경망이 이러한 분류 문제에 어떻게 사용될 수 있는지 이해하기 위해 먼저 아키텍처를 이해합니다 모든 신경망은 입력 레이어, 출력 레이어 및 사이에 숨겨진 레이어 여러 가지 배열이 있지만 클래식 다층 퍼셉트론을 사용합니다 예로서

입력 계층은 신경망이 숫자로 표현 된 데이터를 수신하는 곳입니다 각 입력 뉴런은 데이터의 일부 특성 인 단일 기능을 나타냅니다 이미 많은 숫자에 대해 이야기하고 있다면 기능은 간단합니다 도넛에 설탕 그램처럼 그러나 실제로는 거의 모든 것이 숫자로 변환 될 수 있습니다

소리는 음파의 진폭으로 표현 될 수 있습니다 따라서 각 기능에는 순간의 진폭을 나타내는 숫자가 있습니다 단락의 단어는 각 단어가 몇 번 나타나는지 나타낼 수 있습니다 따라서 각 기능은 한 단어의 빈도를 갖습니다 또는 강아지의 이미지에 라벨을 지정하려는 경우 각 지형지 물은 정보를 나타냅니다

약 픽셀 따라서 회색조 이미지의 경우 각 기능에는 픽셀의 밝기를 나타내는 숫자가 있습니다 입니다 그러나 컬러 이미지의 경우 각 픽셀을 빨간색의 양, 녹색과 파란색으로 결합되어 컴퓨터 화면의 모든 색상을 만들 수 있습니다 지형지 물에 데이터가 있으면 각 계층은 다음 계층의 모든 뉴런에 해당 번호를 보냅니다

숨겨진 레이어라고합니다 그런 다음 각 숨겨진 레이어 뉴런은 얻는 모든 숫자를 수학적으로 결합합니다 목표는 입력 데이터에 특정 구성 요소가 있는지 여부를 측정하는 것입니다 이미지 인식 문제의 경우 이러한 구성 요소는 중앙의 특정 색상, 곡선 일 수 있습니다 상단 또는 이미지에 눈, 귀 또는 털이 포함되어 있는지 여부

이전 에피소드의 간단한 퍼셉트론처럼 각각 예 또는 아니오로 대답하는 대신 숨겨진 레이어의 뉴런은 약간 더 복잡한 수학을 수행하고 숫자를 출력합니다 그런 다음 각 뉴런은 다음 레이어의 모든 뉴런에 번호를 보냅니다 다른 숨겨진 레이어 또는 출력 레이어 일 수 있습니다 출력 레이어는 최종 숨겨진 레이어 출력이 수학적으로 결합되는 곳입니다 문제에 대답하기 위해

이미지를 개로 라벨링하려고한다고 가정 해 보겠습니다 단일 답변을 나타내는 단일 출력 뉴런이있을 수 있습니다 이미지는 개의 이미지입니다 또는 아닙니다 그러나 많은 이미지에 라벨을 붙이는 등의 답변이 많을 경우 많은 출력 뉴런이 필요합니다 각 출력 뉴런은 각 레이블의 확률에 해당합니다 (예 : 개, 자동차, 스파게티 등

그리고 우리는 가장 높은 확률로 답을 선택할 수 있습니다 신경망, 그리고 실제로 모든 AI의 핵심은 수학입니다 그리고 나는 그것을 얻는다 신경망은 일종의 블랙 박스처럼 보이고 수학을하고 답을 내뱉습니다 중간 레이어는 숨겨진 레이어라고도합니다! 그러나 우리는 모범을 통해 일이 일어나고있는 요점을 이해할 수 있습니다

오 존 그린 봇? John Green-bot에게 훈련 된 신경망을 갖춘 프로그램을 제공합시다 회색조 사진에서 개를 인식합니다 이 사진을 먼저 보여 주면 모든 기능에 0과 1 사이의 숫자가 포함됩니다 한 픽셀의 밝기로 그리고이 정보를 숨겨진 레이어로 전달합니다 이제 하나의 숨겨진 레이어 뉴런에 초점을 맞추겠습니다

신경망이 이미 훈련되었으므로이 뉴런은 다음과 같은 수학 공식을 갖습니다 중앙의 특정 곡선과 같이 이미지의 특정 구성 요소를 찾습니다 코 상단의 곡선 이 뉴런이이 특정 모양과 반점에 초점을 둔다면 실제로 신경 쓰지 않을 것입니다 다른 곳에서 일어나고 있습니다 따라서 대부분의 피쳐의 픽셀 값에 0을 곱하거나 칭량합니다 0 여기에서 밝은 픽셀을 찾고 있기 때문에이 픽셀 값에 긍정적 인 무게

그러나이 곡선은 아래의 어두운 부분으로 정의됩니다 뉴런은이 픽셀 값에 음의 가중치를 곱합니다 이 숨겨진 뉴런은 입력 뉴런과 스 퀴시의 모든 가중치 픽셀 값을 추가합니다 결과는 0과 1 사이입니다 마지막 숫자는 기본적으로이 뉴런 사고의 추측을 나타냅니다

개 코라고 불리는 곡선이 이미지에 나타납니다 다른 숨겨진 뉴런은 다른 성분과 같은 다른 성분을 찾고 있습니다 이미지의 다른 부분에서 커브 또는 퍼지 텍스처 이러한 뉴런이 모두 추정치를 다음 숨겨진 레이어로 전달하면 해당 뉴런 더 복잡한 구성 요소를 찾도록 교육받을 수 있습니다 마찬가지로, 하나의 숨겨진 뉴런은 개 코가 될 수있는 모양이 있는지 확인할 수 있습니다

모피 텍스처를 찾은 이전 레이어의 데이터에는 신경 쓰지 않을 것입니다 따라서 0에 가까워 지거나 0에 가까워집니다 그러나“코의 꼭대기”와“하단을 찾은 뉴런에 대해 실제로 신경을 쓸 수 있습니다 코의 "와"콧 구멍 " 그것은 큰 양수로 가중치를 부여합니다

다시, 그것은 이전 레이어 뉴런의 모든 가중치를 합산합니다 값을 0에서 1 사이로 설정하고이 값을 다음 레이어로 전달하십시오 그것은 수학의 요지이지만 우리는 조금 단순화하고 있습니다 신경망은 실제로 "코"와 같은 아이디어를 이해하지 못한다는 것을 아는 것이 중요합니다 또는 "눈꺼풀" 각 뉴런은 주어진 데이터를 계산하고 특정 플래그를 지정합니다 빛과 어둠의 패턴

몇 개의 숨겨진 레이어가 추가되면 하나의 뉴런으로 출력 레이어에 도달합니다! 따라서 이전 레이어의 데이터를 한 번 더 가중 한 후 이 이미지가 개라면 출력 뉴런, 네트워크는 좋은 추정을해야합니다 즉, John Green-bot은 결정을 내려야합니다 John Green-bot : 출력 뉴런 값 : 093 이것이 개일 확률 : 93 %! John Green Bot 안녕하세요! 신경망이 하나의 이미지 만 처리하는 방법을 생각하면 왜 더 명확 해집니다 AI에는 빠른 컴퓨터가 필요합니다

앞에서 언급했듯이 컬러 이미지의 각 픽셀은 3 개의 숫자로 표시됩니다 빨강, 초록, 파랑이 많이 있습니다 따라서 1000 x 1000 픽셀 이미지를 처리하려면 작은 3 x 3 인치입니다 사진, 신경망은 3 백만 가지 기능을 볼 필요가 있습니다! AlexNet은이를 달성하기 위해 6 천만 개 이상의 뉴런이 필요했습니다 계산하는 데 많은 시간이 걸릴 수 있습니다

문제를 해결하기 위해 신경망을 설계 할 때 명심해야 할 사항입니다 사람들은 더 깊은 네트워크 인 더 깊은 네트워크를 사용하는 것에 정말 흥분합니다 숨겨진 레이어, 딥 러닝을 수행합니다 딥 네트워크는 입력 데이터를 더 복잡한 방식으로 결합하여 더 복잡한 구성 요소를 찾을 수 있습니다 까다로운 문제를 해결하십시오

그러나 숨겨진 계층이 많을수록 10 억 개의 계층과 같은 모든 네트워크를 만들 수는 없습니다 더 많은 수학은 우리가 더 빠른 컴퓨터가 필요하다는 것을 의미합니다 또한 네트워크가 깊어 질수록 네트워크가 제공하는 이유를 이해하기가 더 어려워집니다 그것이하는 대답 첫 번째 숨겨진 레이어의 각 뉴런은 입력 데이터의 특정 구성 요소를 찾고 있습니다 그러나 더 깊은 계층에서 이러한 구성 요소는 인간이 묘사하는 방식에서 더 추상적입니다

같은 데이터 자, 이것은 큰 일처럼 보이지는 않지만 신경망이 우리의 대출을 거부하는 데 사용된다면 예를 들어, 우리는 이유를 알고 싶습니다 어떤 기능이 차이를 만들어 냈습니까? 그들은 최종 답변을 어떻게 평가 했습니까? 많은 국가에서 이러한 종류의 결정이 왜 필요한지 이해할 수있는 법적 권리가 있습니다 만들어졌다 그리고 신경망은 우리 삶에 대한 점점 더 많은 결정을 내리는 데 사용되고 있습니다 예를 들어 대부분의 은행은 신경망을 사용하여 사기를 감지하고 방지합니다

자궁 경부암에 대한 Pap 테스트와 같은 많은 암 테스트는 신경망을 사용하여 현미경으로 세포의 이미지, 암의 위험이 있는지 여부를 결정합니다 신경망은 Alexa가 어떤 노래를 연주하고 싶은지 이해하고 Facebook에서 사진 태그를 제안하는 방법 이 모든 일이 어떻게 일어나는지 이해하는 것이 세상에서 인간이되는 데 정말로 중요합니다 지금, 당신은 당신의 자신의 신경 네트워크를 구축할지 여부 그래서 이것은 많은 큰 그림 자료 였지만, 우리가 John Green-bot에게 준 프로그램은 이미 개를 인식하도록 훈련되었습니다 뉴런은 이미 입력에 가중치를 부여하는 알고리즘을 가지고있었습니다

다음에는 신경망에서 사용되는 학습 과정에 대해 이야기하겠습니다 모든 뉴런에 적절한 가중치를 부여하고 왜 제대로 작동하기 위해 많은 데이터가 필요한지 Crash Course Ai는 PBS Digital Studios와 연계하여 제작됩니다 모든 크래시 코스를 모든 사람에게 무료로 제공하려면 영원히 참여하십시오 Patreon의 커뮤니티

신경망 뒤의 수학에 대해 더 자세히 알고 싶다면이 비디오를 확인하십시오 충돌 코스 통계에서 그들에 대해

CXC Ecoverse: Machine Learning? It's not that easy. Neil Sahota Interview, pt. 3

TIM : 인공 지능은 "기계 하는 것으로 배웁니다 " NEIL : 그것은 한 조각입니다, 네

B, 또는 두 번째 작품의 능력 자연어를 이해하는 것 우리가 어떻게 이야기하는지 생각해보고, 속어, 숙어, 특수 용어 항상 다양한 종류의 것들 내가 너에게 말해 준다면, 팀, 나는 푸른 느낌이 든다 고양이와 개가 비가 내리고있어

내가 무슨 말하는지 알지? 내가 기계를 말하면, 기계는 무엇을 생각 하는가? 권리? 나는 육체적으로 푸른 색이야? 작은 동물들이 하늘에서 떨어지고 있습니까? 내 말은, 그건 계산하지 않는 거지, 그렇지? 그러나 AI는 그것을 이해합니다 그들은 상황을 그려 내려고합니다 대화에서 그들은 모든 것을 리터럴 또는 키워드로 그들은 그것을 찾고 있습니다

알다시피, 전반적인 문법, 문법, 의도, 문맥을 얻을 수 있습니다 TIM : 그리고 기계가 이것을 할 수 있다고 말하는 것입니까? 기계가 이것을 할 수 있습니다 그것은 큰 도전이었습니다 실제로, 위험을 무릅 쓰고 많은 사람들이 말했다

"글쎄, 오 답변을 찾아 볼 수 없을까요? 그것은 큰 검색 엔진과 같습니다 " 그들이 말하는 방식을 생각하는 것과 같습니다 위험에 대해 생각해, 그렇지? 그들은 당신에게 대답을주고, 당신은해야합니다 질문을 찾아라 그것은 훨씬 더 복잡합니다

우리가 당연하게 생각하는 동안 이런 식으로 말하면 컴퓨터가 대단히 어렵습니다 자연 언어 처리는 기본적으로 우리가 지금 말하고있는 것처럼 원시 입력은 기계가 전달되는 내용을 이해합니다 핵심 단어를 넘어, "알았어, 문법적으로 구조가 뭐니? 여기에서 중요한 운전자는 무엇입니까? 전에 말한 것은 무엇입니까? 무슨 상처가 뒤따라 왔니? " 단어 자체를 넘어 정보를 그려야합니다 우리, 인간에 관해서, 우리의 의사 소통의 90 %는 실제로 비언어적이다 우리가 선택한 단어에 대한 것들이 있습니다

우리의 목소리는 실제로 의미를 전달합니다 기계는 그것을 알아 내려고 시도해야합니다 맞아, 그건 아니야 그렇지 않아 그것에 두 번째 자연

(금속 clang) (금속 whooshing) (금속 whooshing) (우싱) (전자 줌 노이즈) (뒤집기 우싱)

공지영 그녀는 3 명의 남편을… 작가, 영화 감독, 이해영 교수! 공지영 4번 이혼? 왜 이혼에 대한 진실을 숨기나요?

공지영 그녀는 3 명의 남편을 작가, 영화 감독, 이해영 교수! 공지영 4번 이혼? 왜 이혼에 대한 진실을 숨기나요? 공지영 고소, 공지영 이혼 4번 이유? 공지영 남편들 이혼이유에도 관심 공지영, 김부선 통화녹취 게시자 고소

“진실은 게으르고, 거짓은 부단히 노력” 공지영 고소가 또 한번 여배우 김부선씨와 이재명지사에 대한 이목을 끌게 만들어 버렸다 공지영 작가는 자신과 배우 김부선씨와의 통화녹취 파일을 최초로 인터넷에 게시한 사람을 고소하겠다고 밝혔다 또한, 공지영 작가는 21일 “진실은 게으르다”는 의미심장한 글을 자신의 페이스북 등에 게시하기도 해 논란은 이어질 전망이다 공지영 작가는 앞서 지난 20일 페이스북에 ‘낙지사전과4범찢자’란 아이디의 트위터 게시글을 링크하고 자신과 김씨의 통화파일을 유포한 최초 인터넷 게시자를 고소하겠다는 의사를 밝혔다

공지영 “진실은 게으르고, 진실 아닌 건 부단히 노력하나니” 공지영 작가는 페이스북을 통해, 2009년 출간한 자신의 소설 <도가니>에 나오는 구절인 “진실은 게으르다” 는 부문을 게시하기도 했다 공지영 작가는 “진실은 게으르다 진실 아닌 것들이 부단히 노력하며 모순을 가리고 분을 바르며 부지런을 떠는 동안 진실은 그저 누워서 감이 입에 떨어지기만을 기다리고 있는지도 모른다 이 세상 도처에서 진실이라는 것이 외면당하는 데도 실은 그만한 이유가 있는 것이다”는 글귀를 올렸다

공지영 작가는 그 동안 이재명 경기지사와 김씨와의 이른바 ‘여배우 스캔들 의혹’과 관련해 김부선씨의 주장을 지지해왔다는 점에서 공지영 작가와 배우 김부선씨의 주장을 ‘진실’로, 이를 부인하고 반박하는 이재명 지사 쪽에 대해 ‘진실 아닌 것’으로 구분해 비판한 것으로 해석될 여지도 있어 보인다 김부선과 통화 녹취 발췌 게시자 고소 ‘김부선, 이재명에 미안’ 공지영 작가는 지난 20일 페이스북에 ‘낙지사전과4범찢자’란 아이디의 트위터 게시글을 링크하며 “오랫동안 별 활동이 없던 이 자는 이전 트위터 게시물을 모두 지워 자신의 게시물을 없애고 트윗네임을 이렇게 바꾼 후 10월 4일 저와 김부선 녹취 발췌를 트윗에 올렸다 이 자를 고소합니다

이 자에 대해 아시는 분 제보 주세요”라고 자신과 김씨의 통화파일을 유포한 최초 인터넷 게시자를 고소한다고 밝혔다 이 녹취파일 발췌본에는 김부선 씨가 이재명 경기도지사의 특정한 신체부문 특징으로 '점'이 있다고 밝혀 이 지사가 의료진으로부터 신체 검증을 자처하는 등 파문이 일었던 내용이라고 한다 공지영 작가는 또 “제가 이것을 건넨 사람은 이00씨ㅡ 함께 폭로하자고 조른 그분은 지금 저를 차단하고 연락 두절 상태ㅡ 그분이 김부선씨가 불안하니 함께 대처방안을 연구해보자는 취지에서 비밀 엄수를 약속하고 건넸어요ㅡ 비밀 엄수하겠다는 약속들 캡처 있습니다ㅡ 이분은 자신이 변호사 심리상담사 등 파일 건넨 다섯 명을 후에 알려왔지요 물론 제 허락 없이 말입니다 이분에 대한 고소도 검토 중”이라고 녹취파일이 유출된 경위도 설명했다

또한, 공지영 작가는 “김부선 강용석 측은 저와 이00씨를 고소하겠다고 노발대발했고 저는 김부선씨에게 정말 미안했습니다 ㅡ 녹취 사실을 후에 알렸고 분당서 제출 건도 알렸지만 미안한 것은 미안한 것이지요 이 파일이 이재명 지사 측에 불리했을 테니 ㅠㅠ 그에게도 인간적으로 미안했습니다 법정용으로 녹음한 것이었으니까요”라고 이 사건과 관련된 김씨와 이 지사에게도 미안한 마음을 표현하기도 했다 공지영 이혼 4번 비난의 목소리

최근, 불거진 공지영 김부선 이재명 논란으로 공지영에 대한 비난도 상당히 많이 이어지고 있다 어떤이들은 공지영 작가에게 “이혼 세 번에 네 번째 애인도 있는 추잡스런 여자”라는 비난까지 서슴치 않고 있다 결혼과 이혼 등 공 작가의 사생활을 성적으로 비하하는 경우가 가장 많았다 정모씨는 SNS에서 “이혼 세 번한 여자 대단해”라며 “아이들 X족보네”라고 공 작가의 이혼에 대해 언급했다

홍모씨도 “4번째 결혼은 언제 할 건지 그냥 아주 조금 궁금함”이라며 “애인은 있을 것 같은데 영화배우 김지미 씨는 4번의 결혼과 4번의 이혼으로 알고 있음”이라고 공 작가는 또 결혼해도 이혼할 것이라는 것을 암시하는 듯한 말을 남기기도 했다 이모씨도 “공지영 때문에 파탄 난 가정이 수십 집이라고 들었다”며 “나에겐 증거가 없으니 공지영을 조사하면 된다 내가 분명 들었으니 사실일 것”이라고 말했다 이씨는 그러면서 “사회분란과 청소년에 악영향을 끼쳤을 수도 있으니 공지영을 구속 수사하라! 아님 말고”라며 무책임한 발언도 했다

김모씨는 “보자보자하니까 미친X 두 마리가 선거판을 쓰레기로 만들고 있네”라며 “미친X이면 미친X답게 정신병원에 있지 뭔 개XX 왈가불가 소설을 쓰고 있냐”고 욕을 퍼붓기도 했다 공지영 남편들, 이혼이유? 공지영 작가가 소설 작가로서 보다는 이슈들로 더욱 유명해를 치르고 있다 더욱이 김부선 이재명 사건으로 치욕스런 비난관 공지영 이혼이유, 남편들, 4번의 이혼이란 연관검색어까지 생산해내며 이슈의 핵심에 서고 있다 결론먼저 말한다면, 공지영 4번이혼은 사실이 아니다

공지영은 3번의 결혼과 3번의 이혼을 했다고 한다 공지영 작가의 첫번째 남편인 위치철씨는 "논리야 놀자"라는 책으로 굉장히 잘 알려진 작가이다 위기철 작가는 이후로도 많은 책을 냈고, 아홉살 인생이 베스트셀러 반열에 오른 적도 있다고 한다 공지영 작가의 전남편 위기철씨는 학생운동, 노동운동에 참여하고 관심이 많았던 것으로 알려져 있다 공지영 작가의 두 번째 남편은 고 오병철 감독으로 공지영 작가의 소설 무소의 뿔처럼 혼자서 가라를 통해 인연을 맺었다고 한다

공지영 작가의 세번째 남편은 이해영 교수로 진보적인 학자로 정평이 나있는 분이다 공지영 작가의 전남편 이해영 교수는 방송인 허수경씨의 세 번째 남편이기도 하다 과거 방영된 MBC '휴먼다큐-사람이 좋다'에서는 허수경이 남편 이해영과 달달한 결혼생활을 즐기는 모습이 공개됐다 허수경 남편인 이해영 교수는 한신대 국제관계학부 출신으로 정치외교학자 겸 한신대학 교수 및 저술가로, '독일은 통일되지 않았다', '한미 FTA 하나의 협정 엇갈린 진실',

'낯선 식민지 한미 FTA'등의 저자이기도 하다 직업만 들었을때는 딱딱할 것만 같은 느낌이다 하지만 이해영 교수의 취미는 아내를 위해 클라리넷을 연주하는 것이라고 허수경은 "저를 무척 아끼고 좋아해주는 것만으로 고맙다"면서 "너는 뭐가 문제야 이렇게 따지지 않고, 그냥 좋아해준다"고 말했다 허수경은 "남편에게 사랑받고 있는 느낌이 든다

그건 상당히 행복한 기분"이라면서 남편 이해영 교수에 대한 애정을 드러냈다 한편 이해영 교수는 허수경의 세 번째 남편이다 앞서 허수경은 집안의 반대, 성격 차이 등으로 두 번의 이혼을 겪은 바 있다 결혼이 죄가 아니듯 이혼도 대중의 비난 대상이 될수는 없다

더욱이, 이혼을 몇번했다 결혼을 몇번했다는 것이 어찌 개인을 비난할수 있는 이유가 될수는 없는 것이다 단지, 공지영 작가의 사회적 이슈에 대한 의견 그것만을 놓고 따져야 할 것이다 공지영 전남편들은 3명이나 돼죠 공지영은 3번이나 이혼을 하면서, 무척 불행했다고 고백합니다

또한, 공지영 이혼사유를 살펴봐도 폭력, 폭행 등이 난무하기에, 남편에게 맞지 않고 이혼하기를 백번 잘했다고 생각할 수 있죠 그런데, 그 남편들의 입장에서 보면, 조금 다른 점이 있네요 소설가 작가 공지영 나이는 54살, 고향 서울 공지영은 결혼 생활에 대하여 이렇게 고백합니다 공지영은 "친한 기자와 이야기를 하다가 '난 성이 다른 3명의 자녀들을 키우고 있다'고 우연히 말했다

(친분을 믿고 그랬는데), 다음날 아침에 언론사 일면에 보도가 되었다 처음에는 크게 당황했지만, 결과적으로 담담하게 받아들이기로 했다 공지영은 "사실 (세번째) 이혼 사실을 숨기기 위하여 7년동안 노력했는데, 정작 언론에 이것이 공개되고 난 뒤에는, 오히려 통쾌하더라 공지영은 "7년동안 사람들의 비판이 무서워서 이혼 사실을 숨기고 쥐죽은 듯이 살았는데, (이혼 사실이 공개된 다음에는) '오히려 앞으로 나서자'라는 생각이 들었다" 사실 공지영은 이혼사유로 전남편의 폭력을 이유로 꼽습니다

공지영은 "고인이 되신 분(공지영 두번째 남편 오병철)이 1995년 영화에 실패했을 당시에, 저의 전재산 10억원을 다 날렸어요 당시 영화 제작과 관련된 깡패같은 사람들에게도 협박당하고요 공지영은 " 그때 정신과를 찾아갔는데, (정신 치료를 하면서) 큰 도움이 되었어요 그때 나 스스로를 사랑하고 아끼는 법을 알게 되었죠 공지영은 "전남편은 저의 귀가시간을 계속 체크하고, 또 제가 밖에 나가 누구를 만나면 꼭 이야기해야 하고

(저와 결혼한) 남자들이 다 그랬어요 공지영은 "두번째 남편에게 맞았지만 그때는 두번째 남편이 딴따라(영화 감독)인데다가, 운동권출신도 아니었기 때문에 그냥 제가 사람을 잘못보고 결혼한 거라고 생각했어요 공지영은 "그래서 세번째 남편으로 명문대를 나와서 안정된 직업(교수)을 가진 사람이었는데, (중략) 만약 제가 어릴 때부터 폭력적인 사람을 보고 자랐다면, (남자의 폭력에 대하여) 경계심이 있었을 텐데, (공부 많이 한) 교양인은 절대 그럴 리가 없다고 너무 쉽게 생각했죠 공지영 세번째 남편이 바로 이해영 교수입니다(공지영 이해영 폭력)(공지영 이해영 이혼사유)(공지영 이해영 이혼이유) 그런데 허수경의 말은 좀 다르네요(이해영 공지영 허수경)

허수경은 "사실 그동안 실질적인 결혼 생활을 하고 있다 남자친구가 아니라 (아이) 아빠인 거다" 허수경은 "남편은 나보다 나이가 5살이 많고 대학교에서 국제 관계학 학문을 가르치는 교수이다 제주도를 자주 오가면서 알게 되었다

" 허수경은 "남편이 (과거에 대한) 분노를 술이나 맞서 싸우는 걸로 푸는 것이 아니라, 제주도 여행이나 클라리넷 악기 연주로 푸는 것이 마음이 들었다 허수경은 이해영을 교양인, 지성인이라고 평가하네요 사실 사람에 대해서 한쪽 말만 듣고 평가할 수는 없죠 아마 공지영의 결혼 생활에서 전남편들외에 공지영의 잘못 역시 상당하지 않았을까 합니다

손뼉도 마주쳐야 소리가 나듯이, 부부가 모두 잘못을 했을 때, 부부싸움이 커지게 되니까요 공지영 남편들 세번째 남편 젊었을때 사진 이혼 4번 최근 공지영 이재명 의 사건으로 인하여 관심들이 급증하며 공지영 의 관련 검색어에 세번째 남편 젊었을때 사진 이혼 4번 이라는 연관 검색어들이 화제가 되었습니다 공지영은 1963년 서울 특별시에서 태어났으며 어렸을때 부터 집안이 꽤 유복했다고 합니다 아버지는 유학까지 다녀왔으며 덕분에 성공하여 식모를 두고 그때 당시에 보기 힘들었던 자가용도 가지고 있을 정도로 부유해서 그 동네에서는 모르는 사람이 없을 정도로 유명 인사였다고 합니다

공지영 의 젊었을때 는 부유한 집안에서 자라서 천진난만한 성격이라서 학생운동 과는 거리가 멀었다고 합니다 공지영 의 학생운동 의 시작은 당시에 연애 중이었던 첫 번째 남편의 위기철의 영향을 받아서 시작을 하게 된 것이라고 추측이 되고 있습니다 공지영 의 이혼은 4번이 아니라 3번 의 이혼이 있었다고 합니다 공지영 의 남편들 로는 공지영 의 첫번 째 남편은 위기철로 대학교 2학년 때의 2년차의 선 후배 관계였다고 합니다 학생 운동권의 커플이자 공지영 의 첫사랑으로 결혼에 성공하며 6년만에 이혼하였습니다

이혼 사유로는 가사 분담에 따른 문제에 불화와 폭력으로 인하여 이혼을 하였다고 합니다 이 둘 사이에 딸 한명이 있습니다 위기철이 10년 간 딸을 키우다가 재혼 후 뉴질랜드로 이민을 떠났습니다 그 후 두번째 오병철 이며 영화 감독으로 공지영 의 소설 <무소의 뿔처럼 혼자서 가라>를 영화화 하며 충무로의 주목을 받았습니다 이 둘은 1993년에 결혼을 하였으며 1995년에 이혼하였습니다

그 이후 오병철 은 2005년에 47세의 나이로 식도암에 걸려서 사망하여서 두번째 이혼을 하였습니다 세번째 남편 으로는 이해영 교수로 1997년에 결혼을 하였으며 2004년에 이혼을 하였습니다 이 교수는 이혼 한 후 제주도와 서울을 오가며 홀로 생활을 하였습니다 일부의 언론에 따르면 제주도에 살고 있던 방송인 허수경과 서로의 처지가 비슷하며 공감하며 서로의 상처를 어루 만져주며 결혼에 골인한 것으로 전해졌습니다 두 사람의 결혼 연도는 아직 확인되지 않았습니다

현재 두 부부는 가정을 꾸리며 행복하게 살고 있습니다 이러한 일들이 공개가 된 이야기로는 과거 MBC'무릎팍도사'에 출연하며 세번 결혼한 사연들에 대해서 당당하게 이야기 하였던 적이 있습니다

Machine Learning – Part 3 – Human Face 3D Relighting – Flame 2020

모두들, 화염 학습 채널 허가 Machine Learning Series의 2 부에서

우리는 기계 학습을 계속 보았습니다 그리고 또 다른 발전기에 대해 논의했습니다 인간의 얼굴을 감지 할 수있는 그런 다음 깊이 맵이나 법선 맵을 추출합니다 3 부에서는 "얼굴 맵"생성기를 계속 사용합니다 그리고 그것이 사용될 수있는 몇 가지 다른 예를보세요 Action 3D 컴포 지터에서 3D 조명을 사용하는 것은 물론 인간의 얼굴을 다시 바라보기 위해서 따라오고 싶다면 제 2 부 끝에서 저장 한 설정을 다시로드하십시오 그리고 그것은 계속할 수있는 미디어와 노드를 갖게 될 것입니다 빠른 요약으로서

기계 학습 "얼굴지도"발전기 인간의 얼굴을 감지하도록 훈련 받았다 이전 예제에서 법선 맵이 Action의 서페이스에 적용되었습니다

그리고 "얼굴 분석"사용하기 불꽃이 얼굴의 법선을 결정했습니다 나는 또한 너에게 상기시키고 싶다 얼굴 인식이 제대로 작동하려면

눈, 코, 입을 볼 수 있어야합니다 이것은 기계 학습 모델이 훈련 된 방법입니다 이러한 구성 요소 중 하나라도 누락 된 경우

얼굴을 감지 할 수 없습니다 이걸로 옮겨서 3D 선택은 법선 맵을 사용하여 얼굴에 적용됩니다 그리고 이것은 어떤 그레이딩이나 룩 개발을 위해 이미지 고립을 만듭니다 지금이 시점까지 당신이 처리 한 모든 예제 가까이 다가왔다

그리고 이것들은 인간의 얼굴 탐지와 잘 작동합니다 그러나 배치로 돌아가는 중 그리고이 소스 클립을 보면 상황은 조금 다릅니다

여기에 우리는 모델의 긴 장면을 가지고 있습니다 그리고 그 총의 끝으로 승무원 중 한 명이 프레임에 들어갑니다 ALT + 2를 사용하여 제공된 Action 노드로 이동하십시오 그리고 우리는 어떻게 될지 살펴볼 것입니다 시간의 이익을 위해

법선지도 분석이 이미 이미지에 적용되었습니다 그리고 MasterGrade를 사용하는 선택이 있습니다 법선 맵과 이미지 격리를위한 Gmask 조합 이것을 처음부터 어떻게하는지보고 싶다면

이 시리즈의 제 2 부를보십시오 이제 Manager에서 법선 맵을 확장하면 그리고 컨트롤을 위해 그것을 선택하십시오 그것은 "얼굴 분석"으로 설정됩니다

다른 예제와 마찬가지입니다 그러나 결과보기 위로 마우스를 가져 가면 선택한 법선 객체 뷰어에 대해 F8 키를 누릅니다 프레임에서 얼굴을 감지 할 수 없다는 것을 알 수 있습니다

이것은 기계 학습 때문입니다 전체 프레임을 사용하여 얼굴을 감지하고 있습니다 F4를 사용하여 결과보기를 보는 중

얼굴은 프레임의 작은 부분 만 차지합니다 설상가상으로 프레임에 얼굴이 여러 개있을 수도 있습니다 너는 영향을 미치고 싶지 않을지도 모른다

얼굴에 법선 맵 생성기를 집중 시키려면 당신은 그것을 제약해야합니다 F8을 사용하여 법선지도 객체 뷰어로 다시 전환

분석 메뉴로 전환하십시오 다음으로 "관심 지역"을 활성화하십시오 조절 상자 사용하기

모델의 얼굴을 감싸도록 축소하십시오 결과보기와 객체 뷰어간에 전환 할 수 있습니다 대략적인 견적을 제공합니다 시간대를 닦으면 분석이 업데이트되어 관심 영역 만 사용됩니다 더 집중된 지역 더 정확한 얼굴이 될 것입니다

깊이 맵 및 법선 맵용 상자에 애니메이션을 적용 할 수 있습니다 그러나 이는 모션 벡터 맵에는 적용되지 않습니다 시간을두고 앞서 나가는 중 관리자에서 선택을 선택하면 F8을 사용하여 객체 뷰어를 표시합니다 3D selective이 법선 맵을 사용하는 방법을 볼 수 있습니다 그리고 그것은 얼굴 주위에 Gmask로 제한됩니다

선택을 다시 선택하면 선택적 3D AOV 컨트롤로 이동할 수 있습니다 그리고 얼굴의 조명 방향을 조정하십시오 F4를 누르고 컨트롤을 다시 조정하면 샷의 컨텍스트에서 얼굴이 어떻게 다시 켜지는지 확인할 수 있습니다 그래서 이것은 다양한 작업에 적합합니다 그리고 모든 그레이딩 또는 VFX를 통해 선택 사항을 제공합니다

결과에 영향을 미친다 그러나 이것은 2D 처리 파이프 라인입니다 즉, 픽셀 기반 쉐이더 효과를 적용하는 중입니다

하나의 이미지에 직접 표시됩니다 3D 액션 합성 환경을 이용하려면 이미지를 재 릴레이하는 3D 조명뿐만 아니라 당신은 사물을 약간 다르게합니다

그래서 배치로 돌아가십시오 그리고 Batch Schematic에서 최종 클립을 선택하십시오 여기에서 3D 조명을 사용하여 얼굴을 더 정확하게 다시 조명합니다

배치 노드 bin으로 이동 작업 노드를 드래그합니다 CONTROL + N이있는 미디어 노드 만들기

소스 클립을 빨간색 전면 입력에 연결하십시오 작업 노드 선택 ALT + 2를 눌러 2면보기를 표시하십시오 이제 초기에 얼굴 인식 프로세스는 동일합니다 매니저에서 표면 선택 문맥 메뉴를 통해 법선 매핑을 적용합니다 자료 확장 그리고 컨트롤을위한 법선 맵을 선택하십시오 법선 모드를 MEDIA INPUT 에서 변경하십시오 분석을하기

결과보기를 가리키면 F8을 사용하여 Normals Object 뷰어로 전환 할 수 있습니다 이 경우 얼굴 인식이 잘 작동했습니다

그리고 제약 조건도 필요하지 않습니다 F4를 사용하여 결과보기로 돌아갑니다 이제이 시점에서 Action 노드 bin으로 갔다면

그리고 빛을 3D 합성물로 끌어 왔습니다 법선이 얼굴을 다시 바라 보는 모습을 볼 수 있습니다 정말로 시원한 방법으로 당신은 다른 창조적 인 아이디어를 위해 이것을 사용할 수 있습니다

그러나 이상적으로는 나머지 부분을 놓치고 있습니다 이 문제를 해결하려면 주변 광원으로 빛을 사용합니다 그리고 다시 조명을위한 두 번째 빛을 추가하십시오

주변 광이 먼저 와야한다는 것을 기억하십시오 재 점등을위한 다른 조명 전에 그래서이 조명의 객체 메뉴로 전환하십시오 그리고 타입을 Ambient로 변경하십시오 다음으로 음영을 0 %로 설정하십시오 그래서이 빛은 표면의 원래 픽셀 값을 다시 가져옵니다 추가 쉐이딩없이 카메라 뒤에있는이 빛을 Z 공간으로 밀어 낼 수 있습니다

그런 다음 3D 합성물에 두 번째 빛을 추가하십시오 이 빛은 이제 그들의 법선을 기반으로 얼굴을 다시 조명하고 있습니다 이제 이런 종류의 쓸모있는 그러나 픽셀 값은 빛의 각도 만 해석합니다 그리고 그들의 육체적 입장을 고려하고 있지 않습니다 3D 합성의 관점에서 다시 말해서, 픽셀은 3D 공간에서의 위치를 ​​모릅니다 따라서이 작업을 올바르게 수행하려면 표면에 FACE DEPTH MAP을 생성해야합니다 Manager에서 서페이스 선택 문맥 메뉴를 사용하면 Z- 깊이 맵을 추가하십시오 미디어 입력을 FACE ANALYSIS로 변경하십시오

그래서 Z-depth 패스가 생성됩니다 그리고 원할 경우 Object 뷰어에서이를 볼 수 있습니다 이제 결과 뷰어를보고

Z 심도 패스는 아무 것도하지 않는 것처럼 보입니다 3D 공간에서 VERTICES를 바꾸려면 Flame에게 알려야하기 때문입니다 Z-depth 패스를 기반으로합니다 깊이 전달이 실제로 무엇을하는지 보여주기 위해 3D 공간에서 카메라에서 멀리 빛을 밀어 빛은 그녀의 얼굴에 빛나는 진짜 빛처럼 행동합니다 그리고 배우의 얼굴까지의 거리에 따라 조명을 현지화 할 수 있습니다 예를 들어, 빛의 확산을 줄일 수 있습니다 그리고 회전의 비트와 함께 그것을 재배치 그녀의 얼굴의 위쪽 절반 만 밝게합니다 조명 프로필 컨트롤로 전환하는 중

빛의 가장자리를 부드럽게 할 수 있습니다 그래서 빛을 움직일 수 있습니다 현실적인 행동을 취하십시오

이미지 표면에 3D 선택 물을 사용하는 것은 불가능합니다 이것을 더 창조적으로 취하십시오 조명을 통해 효과를 투사 할 수 있습니다

라이트 박스 쉐이더 사용 Manager에서 두 번째 빛을 선택하십시오 문맥 메뉴를 불러옵니다 라이트 박스 추가를 선택하십시오 Noise3D를 선택하십시오 그래서 소음의 효과는 빛을 통해 투사됩니다

그리고 그녀의 얼굴에 마치 특정 필터가있는 위치에 빛이있는 것처럼 Lightbox의 관점에서 더 재미있는 내용 셰이더 메뉴로 간다면

그리고 셰이더를 바꾸기로 선택하십시오 LINEAR GRADE라는 새로운 라이트 박스가 있습니다 이 쉐이더는 MasterGrade와 일치하는 선형 그레이딩 기능을 제공합니다 그러나 3D 조명을 통해 투사됩니다

그래서 이것은 염두에 두어야 할 것입니다 3D 합성물 내에서 장면 선형 소재를 다시 배치하는 경우 마지막으로 Machine Learning Series의 2 부에서 등급 매기기 및 개발 방법을 배웠습니다 2D 이미지에서 3D 선택 사용

이 비디오에서, 당신은 똑같은 일을하는 법을 배웠습니다 그러나 3D 합성 환경에서 3D 조명을 사용합니다 그래서 그것들은 두 개의 분리 된 프로세스와 파이프 라인입니다

그러나 두 가지를 결합하는 것을 막을 수있는 방법은 없습니다 채점 및 촬영 전개를 완벽하게 제어 할 수 있습니다 이미 3D 재 연결을 완료하셨습니다 표면 선택

문맥 메뉴를 불러옵니다 MasterGrade에 Selective를 추가하도록 선택하십시오 기본 이익을 빨간색으로 밀어 넣으십시오

그런 다음 톤 메뉴로 전환하십시오 그림자를 버리십시오 하이라이트를 따라 가면서 대비로 재생하려면

이것은 전체 이미지에 영향을줍니다 그리고 그 위에 조명이 투영됩니다 선택을 그녀의 얼굴로만 제한하려면

열쇠를 가릴 수도 있고 가릴 수도 있습니다 근데 얼굴 법선이 있으니 얼굴 깊이 맵은 물론 둘 중 하나를 선택할 수 있습니다

3D AOV로 전환 그리고 풀다운 메뉴를 클릭하십시오 Range, Distance, Near / Far는 Depth Map을 사용합니다

노멀은 노멀 패스를 사용합니다 얼굴 깊이 패스로 결과를 봅시다 따라서 거리 유형으로 전환하십시오 매니저에서 Selective를 선택하면 선택적 개체보기로 F8 키를 누릅니다 금액 증가 깊이에 따라 얼굴을 격리 할 수 ​​있습니다

그리고 이득을 증가시킬 수 있습니다 더 많은 강도로 이미지에 영향을 주도록하십시오 F4를 사용하여 결과보기를 보면 Manager에서 선택 기능을 켜고 끌 수 있습니다

그리고 선택 작품이 어떻게 작동하는지 볼 수 있습니다 3D relighting과 연계하여 나는 또한 Selective를 약간 흐리게 만들 것이다 조금 더 섞어서 사용하도록 도와줍니다 대신에 Normals 맵으로 Selective를 시도하려면

Selective Object 뷰어로 다시 전환하십시오 Type을 Normals로 변경하십시오 이제 조명 방향을 조정할 수 있습니다 격리를 조정할 값 중 하나를 선택합니다

F4를 사용하여 결과 뷰어로 전환하면 선택 사항을 계속 조정할 수 있습니다 그리고 법선지도가 어떻게 보이는지보십시오 얼굴의 음영을 조절할 수 있습니다

다시 한번, 이것은 3D 조명과 결합됩니다 채점과 개발을 통해 당신에게 많은 통제력을 부여합니다 이제는 Machine Learning에 대한 시리즈를 마칩니다

우리는 당신이 기술을 사용하여 즐기시기 바랍니다 필요한 경우 나중에 비디오에 예제가 추가 될 것입니다 다른 기능, 워크 플로우를 확인하는 것을 잊지 마세요

Flame 2020의 향상된 기능 의견, 피드백 및 제안은 언제나 환영하며 감사하겠습니다 향후 비디오를 위해 Flame Learning Channel에 가입하십시오

보고 주셔서 감사합니다

Why Google? – How Google does Machine Learning from Google Cloud #3

기계 학습을하는 방법에 대한이 과정은 기계 학습에서 일하는 Google 직원이 가르칩니다 그렇다면 왜 Google 및 Google 직원이 ML에 대해 알아볼 수 있습니까? Google에서는 기계 학습과 거의 모든 제품을 적용합니다

우리는 우리가 배운 것을 공유 할 수 있도록이 과정을 가르치고 있습니다 우리는 당신이 기반으로하는 것을보고 흥분합니다 이 과정에서 배우는 것 물론 Google Cloud를 구축하시기 바랍니다 기계 학습은 우리의 방식을 완전히 바꿔 놓았습니다

Google은 비즈니스를 수행하며, 새로운 제품 및 기존 제품에 접근하는 방법, 우리가 어떻게 제품을 디자인하고, 우리가 새로운 도전에 어떻게 접근하고 있는지 많은 사람들이 Google 서비스, 사진, YouTube, Gmail, Inbox를 사용하면 매일 이러한 Google 서비스와 상호 작용할 수 있습니다 이러한 모든 서비스는 다음과 같은 이점을 제공합니다 어떤 경우에는, 그들은 기계 학습에 의존합니다 우리는 기계 학습을 얼마나 많이 사용하는지 추적합니다

특히 깊은 학습 그리고 지난 몇 년 동안, 우리는 4,000 개 이상의 TensorFlow 기계 학습 모델을 생산했습니다 그 말을 네가 들었다, 4,000 Google에서 생산중인 TensorFlow 기계 학습 모델은 4,000 개가 넘습니다 2012 년에, 그 수는 0에 가깝습니다

그리고 2016 년 말까지, 우리는 4,000을 넘고 있습니다 그래서이 전문 분야에서, 우리가 사용하는 기술을 사용하는 방법을 배우게됩니다 이 과정에서는 엔지니어가 기계 학습을 제품에 주입시키는 방법에 대해 설명합니다

Advanced Machine Learning Day 3: Neural Architecture Search

>> 좋은 아침입니다 이 수업에 참여해 주셔서 감사합니다

내 이름은 Debadeepta Dey입니다 나는 MSR의 연구원이며 내 배경은 실제로는 로보틱스 강화 학습 기계 일반적으로 학습합니다 오늘, 나는 얘기하고있을거야 당신에게 무엇에 대한 간단한 개요를 주려고 신경망을위한 AutoML의 최첨단 기술입니다 자동 신경망 검색 그리고 나는 이 훨씬 더 비공식적 인 토론 중심, 부담없이 질문하십시오

이것은 분명히 내가주는 이야기 일 뿐이라고 생각하지 않습니다 이것은 훨씬 더 교실 스타일로되어 있습니다 그러면 잘하면 우리는 모두 배울 수 있고 또한 당신이 볼 수 있듯이 이것은 꽤 뜨거운 주제입니다 많은 열린 문제가있다 그리고 이것은 또한 매우 그들은 Microsoft와 확실히 관련이있는 Beck 회사입니다

우리는 Azure ML을 가지고 있기 때문에 우리는 AutoML 오퍼링을 갖고 싶습니다 또한 잠재적으로 우리에게 많은 수익을 창출하게 만듭니다 그래서, 내가 시작하기 전에, 하지만 훨씬 더 많은 사람들이 적어도 한 명 당 손의 쇼로서의 수업은 편안하게 할 것입니다 길쌈 신경 네트워크 (convolutional neural networks)는 재발 성 신경 네트워크 (recurrent neural network)이다 당신이 그것을 사용했거나 들었습니다

그것에 대해 또는 적어도 아주 기본적인 수준을 이해, 하나, 좋아 좋아 어쩌면 너는 어떤 사람과 놀지 않았을거야 텐서 유동관에서 CNTK et cetera, good 얼마나 많은 사람들이 당신이 편안하다고 말합니까? MDP와 같은 용어로, 폭탄 DP, 숨겨진 마르코프 모델

기본적인 자기 보강 학습을하자 정책 그라디언트 방법, 보강, 알았어 내가 묻는 이유는 강화 학습이 꽤 많이 사용되기 때문에 당신이 오늘 건너 올 것 인 서류의 많은 작은 조각 적어도 Neural Architecture 연구 논문에서 적어도 이해하는 것이 중요합니다

의 기본 자체 정책 기울기 방법 무엇을 감사하기 위해서 그 논문들은하고 있으며 궁극적으로 우리는 그렇게 할 것입니다 내가 그 사건을 만들거야, RL은 최고의 타자가 될 수 없습니다 많은 신경 디자인에도 불구하고 네가 원하는 문학 검색을하면 찾으십시오 최신 결과는 모두 실제로 그렇지 않은지 확인합니다 매우 놀랍지 만 때로는 그것이 지역 사회가 움직이는 방법입니다

우리에게는 집단적인 DNA와 기억이 있습니다 그래서 신경 건축물 검색을 공식화하는 것입니다 예를 들어, DenseNet의 아키텍처를 보여주는 표입니다 이제 DenseNet은 얼마나 많은 사람들이 DenseNet이 무엇인지 압니까? 괜찮아 그래서 ResNet? 좋아, 훨씬 더 많은 사람들

좋아, 좋아 그래서 ResNet과 DenseNet은 그다지 다르지 않으므로 ResNet, 3 ~ 4 년 전 MSR 문제에서 나왔다 확실히 훌륭한 건축물을 가지고있다 그러나 기본적인 생각은, 헤이 연결 및 능력을 건너 뜁니다 정체성을 예측하는 것은 좋은 생각입니다

그래서, ResNet 보이는, 내가이 부분을 사용하는 것을 보자 이사회의 이사회는 DICE에 의해 방해 될 것입니다 그래서 몇 개의 레이어가 있다고 가정 해 봅시다 입력 이미지 또는 무엇인가 어떤 입력 X는 가장자리의 중심을 말하며, 보통 길쌈 신경 네트워크 이것은 표준 피드 전달 네트워크입니다 이러한 것들은 길쌈 (convolutional), 풀링 (pooling)과 같을 수 있습니다

Max-pooling, Average pooling 같이 그런 다음 때로는 거기에 같은 우리가 원하기 때문에 다운 샘플링은 일반적으로 풀링을 수행하지만, 때때로 우리는 가질 것이다 차원 감소 조작과 유사합니다 ResNet이 말한 것과 똑같은 반복과 반복, "이봐,이 연결을 건너 뛰는 것이 좋다" 왜? 네트워크가 허용되기 때문에 자체 용량을 선택하는 것 왜냐하면 네트워크가 실현된다면 실제로이 레이어가 필요하지 않기 때문입니다

우리는 이것을 완전히 우회 할 수 있습니다 매우 작은 가중치가 0의 비율 인 것처럼 거의 배우십시오 거기서 정체성을 배우고 당신은 많은 유연성을 가질 수 있습니다 그런 다음 DenseNet이 나왔습니다 CVPR 2017 너는 무엇 대신에 연결 왜 모든 레이어를 연결하지, 연결되는 대신에 모든 것을 그것 앞에있는 것, 전에 모든 걸 연결시켜 줘

그래서,이 남자는 다음과 같이 연결됩니다 이것은 이것에 연결하는 것을 묘사하는 것과 마찬가지로, 이것과 이것 등등 이것이 DenseNet이 한 일입니다 그게 바로 그 다음에 정말 훌륭한 결과를 보여주기 때문입니다 하지만 당신이 갖고 싶어하는 것이 필요합니다

이런 종류의 네트워크로 많은 일을 해냈습니다 그런 다음 왜 그런지 생각하면 그들이 옳다고 생각하는 구체적인 수치 왜이 조밀 한 블록 출력면은 일곱 번 십자가일까요? 누가 할 수있는 가장 좋은 일은이 조밀 한 블록에 있어야한다는 것입니다 네 번째 Dense 블록에는 16 개의 레이어가 있어야합니다 그런 다음 DenseNet 169에서 32 개 레이어 등이됩니다 뉴욕에있는 MSR을 방문했을 때 이걸 가지고 있었는데, 나는 요한과 이야기하고 있었다

존 랭 포드와 존 랭 포드는 이론적 인 많은 ML도 있습니다 존, 우리가 말한이 블록을 봤어 너는 실제로 생각하기 시작 했어 AutoML에 대해서 그리고 올해는 4 월입니다 그리고 요한은 어떻게 이런 생각을하게 될지 전혀 모릅니다

나는 이것도 생각할 수 없을 것이다 왜 그런가요? 순서대로이 특정 세트는 훌륭한 결과를 제공합니다 내가 아는 것처럼 내가 읽을 수있을거야 어떻게 든 ResNet이 실제로 작동한다는 것을 발견했습니다 전에 온 것들과는 반대로 VGG, AlexNet 등의 ResNet

그래서 우리는 모든 것을 모든 것이 그 것이었다 그러나, 그것은 보였다 그리고 우리는 단지 일을했다 그것이 실제로 수행 한 것을 발견했다 그러나 그것은 매우 만족스럽지 않은 것처럼 보입니다

내가 새 데이터 세트를 줄 경우 상상력이 아닌 이미지가 아닌, MS coco 데이터 세트 및 많은 사람들이 프로덕션 환경에서 작업합니다 귀하의 데이터 세트는 고객이 고유 한 데이터 세트 또는 데이터 세트를 소유하고있어 제품의 부작용으로 만남 우리가 작업하는 표준 데이터 세트가 아닌 학계 비전 기계 학습 커뮤니티 또는 연설 언어 커뮤니티는 표준 데이터 세트를 그들은 해킹하고있다 그래서, 당신은 소비하지 않고 싶습니다 직감을 얻는 10 년 신경망 구조에서 위대한 것을 생각해 내야한다 최신의 예술 공연 너 자신의 신경 구조

그것은 단지 현장 진보를위한 올바른 방법이 아니라는 점을 불만스럽게 생각합니다 이상적으로, 우리는 단지 자동으로 일을하고 싶습니다 나는 꿈처럼 할 수 있어야한다 내가 ImageNet을 생각해 냈다고 가정 해 봅시다 ImageNet 또는 당신이 걱정하는 몇 가지 큰 데이터 세트

당신은 그냥 Azure라고 말하면서 그것을 던지고 싶습니다 이틀 후에 다시 오면 우리가 너를 줄거야 최첨단 아키텍처 옳은가? 아니면 심지어 2 일 만에, 언젠가는 내가 좋아하는 것처럼, 아니면 어쩌면 당신이 예산을 책정했는지, 나는 1 만 달러를 들여 보낼 의향이있다 이 데이터는 나 또는 내 고객에게 매우 중요한 데이터 세트입니다

유효성 검증시 최상의 성능을 원합니다 또는 보류 아웃 테스트는 한 번에 $ 10,000이 부족합니다 사실 현재 경쟁중인 대회가 있습니다 단순한 모델과 같은 실행 최고의 아키텍처가 무엇인지, 또는 100 달러짜리 Cloud Compute에서 얼마나 잘 할 수 있습니다 당신이 이것이 매우 중요한 문제라고 상상할 수 있듯이, 대다수의 세계가 박사 학위를 신경 쓰지 마라

아키텍처 해킹 또는 같이 보냈다하지 않았습니다 네가 원한다면 10 년 동안 많은 직감을 세워라 진정으로 민주화 할 수 있기 위해서 이 모든 것 또한 좋은 원리를 찾는다 그 테이블이 어떨까요? 손으로 직접 작성하지 않고 생성 된 매우 비효율적 인 것처럼 보입니다 그래서이 분야 또는 하위 주제가 아주 중요하고 어떻게 보여줄지 중요하고 힘든 일이되었습니다

나는 너에게 보여줄거야 이 웹 페이지는 Frank Carter와 그의 그룹이 관리했습니다 이것은 아주 좋은 웹 사이트입니다 당신이 AutoML을 계속 사용하고 싶다면, AutoMLorg, 그들은 훌륭한 일을하고 있습니다

그래서, 다음의 목록입니다 신경 건축술 검색과 관련된 논문, 그리고이 사람들은 단지 많은 일을하고 있습니다 아카이브에 올라 오는 모든 종이를 컴파일하십시오 모든 종이가 아닌 모든 종이 좋은 품질의 제품으로 그 논문들은 다른 논문들보다 훨씬 심각합니다 이 설문 조사를 읽는 것이 좋습니다

나는 그것을 슬라이드에 넣을 것이다 얻을 수있는 좋은 방법입니다 실제로 일어나는 일에 대한 간단한 소개 희망을 갖고, 우리는이 수업에서도 많은 것을 빼앗아 갈 것입니다 하지만, 내가 벗어나길 바란다는 것은, 이 설문 조사는 8 월에 나 왔으며 우리는 10 월 중순과 같습니다

이미 3 개의 논문이 더 있습니다 2018 년에이 목록을 보면, 올해의 첫 10 개월 동안처럼 그리고이 목록은 계속해서 반복됩니다 어디 보자 예, 여기서 끝납니다 권리

그래서, 2018 년에, 신경 건축술 수색은 진짜로 벗고 실제로, 2017 년을 보면, 2017 년은 크지 만 2018 년만큼 크지는 않다 2016 년은 훨씬 작아지고 2015 년은 명백하게, 단지 두 개의 서류 만있었습니다 권리 그럼 2012 년 전에 아무 일도 없었어 그때 그리고 2009 년, 2008 년 등등

권리 그래서 2018 년은 신경 건축술 검색의 해 헤이, 놀랍지도 않아! 우리는 실제로 실제로하기 시작했습니다 많은 작업을 개별적으로 우리의 개인적인 경험과 연구원 및 엔지니어의 전문 지식과 군대 그래서 이것을 자동화하는 큰 노력이 있습니다 커서를 다시 가져올 수 있는지 봅시다

알았다 예, 전체 목록을 읽지 않으려면, 하지 말아야 할 것은, 설문 기사를 읽으십시오 그것은 매우 잘 쓰여졌 고 나는 그것을 강력하게 추천한다 그래서 우리가 가서 다이빙하기 전에, 저는 오늘 4 ~ 5 종이에 대해 이야기 할 것입니다 대표적인 것들이며 거의 모든 분야에서 일어나는 것처럼, 이 기술들 중 많은 것들은 Epsilen 같은 신문에서 차이점, 오! 나는이 방법으로이 다른 종이를 왜곡했다

그것은 그렇게하고 그것을 이렇게합니다 그들은 여기 저기에 약간의 이익을 준다는 것을 알게 될 것입니다 그래서,이 수업에서 내가하려고 한 것은 실제로 선택입니다 다른 기술과 같은 4 개의 논문 그들을 다른 기술의 주축으로 생각하십시오

그 중 두 명이 사용할 것입니다 정책 그라디언트 방법을 사용하고 나머지는 그렇지 않습니다 그렇다면 다른 세 사람은 그렇지 않습니다 그러나 처음으로 정말 심각한 논문들, 그들 모두는 사실 Google에서 왔습니다 [들리지 않는] 그룹과 누가 이것을 시도했는지 2016 년 이후에 그들은 모두 강화 학습을 사용했습니다

그들 중 일부는 또한 진화론 적 탐색을 사용했다 그래서, 아주 빠른 프라이머를 주자 내가 정말로 강화 학습을 의미하는 것에 관해서, 이것은이 수업과 관련이 있습니다 분명히 강화 학습은 그 자체의 주제입니다 사람들은 일생 동안 연구를하고 있습니다

그래서, 나는 커버 할 수 없을거야 내가 이것을 위해 예약 한 거의 15 분 안에 무엇이든, 그러나 나는 당신에게 충분한 배경을주고 싶다 너는 왜 감사 할 수 있니? 기술이되는 기술, 왜 그들이 선택 되었는가? 왜 그들이 최고가 아니거나 어쩌면 최고일지도 모르는 경우에, 우리는 올바른 공식을 얻지 못했습니다 그러나 모든 초기 결과, 심각한 결과는 Model-Free RA를 사용한 결과입니다 괜찮아

그래서, 우리는 할 것입니다 내가 가지고있는 슬라이드로 빠르게 빠져 나간다 어디 보자 이 전체 화면보기를 만드는 방법이 있다고 생각합니다 완전한

그래서, 이것은 내 대학원생 시절의 나의 친구입니다 그는 정말 좋은 강의를합니다 그래서 나는 그의 슬라이드를 훔 쳤어 그러나 모든 일은 제프에 의해 이루어졌습니다 이 슬라이드의 경우 아마있는 사람들처럼 들었을거야

강화 학습에 대해 최소한의 마르코프 결정 과정과 같은 폭풍의 계획 권리 그래서 마르코프는 정말로 러시아 수학자였습니다 많이 공식화 된 그 기초가되는 강화 학습은 기반으로하고 계획 방법은 기반으로합니다 마르코프 체인이란 무엇입니까? 권리

그래서 이것들은 매우 간단한 구조입니다 그러나 그들은 매우 강력합니다 따라서 마르코프 체인은 유한 상태의 이산 상태를 가지고 있습니다 이 간단한 예에서, 당신은 S1에 있고 S2는 오직 당신의 유일한 두 상태입니다 우리는 당신이 생각할 수있는 확률 적 전환을 가지고 있습니다

결정 론적 천이의보다 일반적인 형태 예를 들어, 내가 S1에 있다면, 그 다음으로 확률 09로, 나는 확률 01로 자연스럽게 S2로 옮길 것이다 나는 S1에 남아 있고 S2와 마찬가지로 0

8 점을 가지고있다 나는 S1에 가서 S2에 남아 있을지 모른다 권리 그러면이 Markov 속성은 다음과 같습니다 너에게 알리기 위해 주문해라

당신이 다른 어떤 주에서 끝날 가능성은 얼마입니까? 당신이 알아야 할 것은 당신이 현재 어떤 상태에 있는지입니다 맞습니다 이전 주에 대한 기록을 알 필요가 없습니다 이전에 S1이나 S2에서 보낸 시간은 중요하지 않습니다 당신이 지금 어떤 상태인지 아는 한, S1 또는 S2 중 어느 하나 인, 그것은 기회를 완전히 결정한다

당신이 다음에있을 곳의 맞습니다 그리고 종종 Markov 속성으로 불립니다 세상의 많은 것들이 마르코 비안입니다 예를 들어, 날씨는 Markovian이 아니며, 우리 주식 시장은 확실히 Markovian이 아닙니다 네가 아는 것처럼 오늘 주가가 알려주지 않는다

내일은 주식 가격에 관한 모든 것 실제로 좋은 모델링을 할 수있는 기회를 가지려면, 당신은 역사와 아마 더 많은 정보를 알고 싶습니다 권리 날씨와 비슷합니다 그러나 많은 것들이 마르코프 추정치가 보유하고있는 정말 효율적인 알고리즘을 인정합니다

그리고 숨겨진 마르코프 모델이라는 것이 있습니다 숨겨진 마르코프 모델은 마르코프 체인과 정확히 똑같습니다 당신이 어떤 상태에 있는지 모르는 것을 제외하고는, 국가가 너에게서 숨겨지는 것처럼 예를 들어, HMM은 형식주의와 모델링에 많이 사용됩니다 연설을 텍스트 번역으로 상상해보십시오

관찰 할 수있는 것은 모두 오디오와 컴퓨터의 임무는 소리의 파도에서 이것을 번역하다 마이크를 통해 픽업되어 텍스트로 전송됩니다 그래서, 당신은 실제로 무엇을 보지 못합니다 말해지고 있던 낱말은이었다, 어떻게 든 추측해야 해 당신이 얻고있는 이러한 관찰로부터 그들

권리 O라는 새로운 것을 볼 수 있습니다 예를 들어, 당신이 S1에 있다면, 예를 들어, 실제로 그 단어를 말하고 있다면 화요일을 가정 해 봅시다 당신은 실제로 화요일이라는 단어가 무엇인지 보지 못하게하십시오

그것이 당신의 과제라고 추론해야합니다 그러나 소리의 순서를 듣거나 오디오 웨이브 마이크 도착하고 그러므로 당신은 실제로 당신이 S1에 있는지, 당신이 보게되는 누구나는 O1 다, 그리고 당신은 보게된다, 나는 거기에서 빨갛게하는 것을 모른다 그래서 당신은 O2를 보게된다 그리고 당신은 다음의 순서에서 알아 내야합니다 관측은 당신이 무엇을 얻었는지 당신이 들어 왔던 상태의 연속

거기있는 것으로 밝혀졌습니다 동적 프로그래밍과 매우 흡사 한 알고리즘 가장 유망한 경로 순서가 무엇인지 알려줍니다 당신은 당신이 관찰 한 순서대로 주어지지 않을 것입니다 HMM을 풀기 위해서 그것은 즉각적이었다

그러나 다시 한번, HMM 및 마르코프 체인에는 아무런 조치가 없습니다 상태 전이는 사용자의 제어 범위를 벗어납니다 연설을 할 때, 누군가 말한 연설을 듣게됩니다 당신은 무엇을 통제하지 못합니다 그 다음 단어는 당신이 어디에 있을지를 기반으로합니다

MDP 자, 이것은 재미있는 것들입니다 MDP에는 모든 것이 있습니다 그래서, 그들은 주를 가지고 있으며,이 예에서 저는 다시, 이산 상태를 보여 주지만 이 연속적인 상태는 똑같습니다 당신은 연속적인 상태를 나타낼 수 있으며 여기서 행동을 취할 수 있습니다

그래서, 만약 내가 S1에 있고 만약 내가 행동 A1을 포인트 3 확률로 돌아 가기 S1과 포인트 7 확률로 나는 S2로 간다 비슷하게, S2 등등 보상이라는 새로운 개념이 있습니다 제가 보상금을받는다면 보상이 있습니다 S1과 행동 A1을하고 난 S2로 이동했다, 나는 약간의 돈, 약간의 신용을 얻을지도 모른다

예를 들어, 이것이 비디오 게임 인 경우, S2가 승리 상태 인 상태이면 어떻게 든 내가 예를 들어, 모르겠다면, 체스 체스는 많은 주를 가지고 있습니다 예를 들어, 많은 국가가 있고 내 목표는 어떻게 든 행동을 취함으로써 국가 공간을 헤쳐 나간다 어디에서 행동을 취해야합니까? 내 체스 조각과 끝내주는 상태에서 상태의 부분 집합을 가진다

나는 상대방의 왕을 사로 잡았다 그래서, 그것은 제가 가고 싶은 국가가 될 것입니다 내가 어떻게 든 할 수 있다면 내 적의 앞에 성공적으로 달성, 나는 게임에서 승리해야만하는 커다란 보상을 얻는다 그래서, 이것이 보강 학습에서 볼 수있는 것입니다 보상을 극대화하려는이 목표가있다

당신이 얻는 전환, 당신이 국가 공간에서 움직일 때 때로는 보상을 조금씩받습니다 예를 들어, 체스에서, 좋은 대리 중간 보상은 당신이 상대방을 몇 장 붙잡고 있는지 그래서, 당신은 드문 드문 보상이라고하는이 용어에 대해 들어봤을 것입니다 결국 게임을 끝내는 것은 매우 희소 한 보상입니다

중간급 보상을 받고 싶을 수도 있습니다 사람들이 와서 모든 보상 공학에 들어간다 궁극적으로 당신이하는 일과 상관없이, 당신은 MDP를 정의하고 있습니다 MDP는 당신의 상태 공간이 무엇인지를 생각해냅니다 모든 주에서 할 수있는 행동 공간은 무엇입니까? 그런 다음 비디오 게임의 전환 모델을 일반적으로 가지고 있습니다

예를 들어, 체스에서 체스 게임에서, 내 전환은 결정 론적입니다 내가 조각을 움직이면, 내 행동이 폰을 E4로 옮겼습니다 폰을 E4로 이동하면, 폰을 E4로 옮길 확률은 낮습니다 따라서 결정 론적입니다

확률 1로 행동이 성공한다는 것을 의미합니다 상황이 확률적일 수있는 많은 경우가 있습니다 우리는 나중에 그것에 대해 이야기 할 것입니다 그렇습니다 따라서 전환이 있고 전환에 대한 보상이 있습니다

모든 주를 볼 수 있습니다 당신은 어느 주에 있는지 알게됩니다 체스처럼 당신은 국가가 무엇인지 압니다 그것은 보드에있는 모든 조각의 상대적 위치입니다 그것이 필요한 모든 정보이며 대개는 Markovian입니다

현재 위치에 어떻게 도착했는지는 중요하지 않습니다 중요한 것은 당신이 다음에하려고하는 것입니다 따라서 게임 플레이 정책을 보게 될 것입니다 아주 좋은 역사에 의존 할 필요가 없기 때문에, 그렇지 않으면 정책이 매우 어려워지는 경향이 있습니다 당신의 상태 공간이 폭발 할 것이기 때문에 찾아보십시오

그럼 보자 그런 다음 우리는 부분적으로 관찰 가능한 MDP 다음을 제외하고는 MDP와 동일합니다 지금 당신은 당신이 어느 주에 있는지 알지 못합니다 다시 말하지만, 당신은 이 땜질 한 관측 및 관측은 단지이다, 예를 들어 체스는 PAMDP가 아니며 MDP이기도합니다 [들리지 않음]은 PAMDP가 아니라 MDP입니다

PAMDP의 좋은 예는 예를 들어, 로봇의 위치를 ​​파악하기위한 로봇 모션 계획입니다 말하자면,자가 운전하는 자동차 시애틀 도심에있을 때 GPS가 매우 시끄 럽거나 타원 불확실성이 커지면, 당신은 건물 사이에 GPS가 작동하지 않습니다 따라서 위치가 더 이상 직접 존재하지 않습니다 주목할 만한

그러나 당신은 믿음을 가질 수 있습니다 당신은, "오, 나는 스타 벅스를 보았다 나는 국회 의사당이 " 그래서 그것은 당신의 관찰이기 때문에, 그게 네가 볼 수있는 전부 야 귀하의 GPS는 이제 꽤 쓸모가 없습니다 그러나 당신이보고있는 것을 기반으로 당신은 당신의 관찰에 도달 할 수 있습니다

너는 약간의 신념을 가질 수 있을지도 모른다 어떤 상태 또는 어떤 일련의 상태 집합이 될지도 모릅니다 당신은 "오, 내가 본다면 스페이스 바늘과 그 왼쪽에 나는해야한다 이 이웃과 그 밖의 것들에 있으십시오 "그래서, 이것은 다시, 너는 너의 관찰을 봐

당신이 어떤 국가에 있는지 알아 내려고 노력하십시오 그리고 나서 당신이 당신이 어떤 상태에 있거나 당신을 진술하고 있을지도 모릅니다 당신은가는 길을 계획하려고 노력합니다 네 친구 집에 따라서 PAMDP는 일반적으로 많이 사용되며, MDP보다 해결하기가 훨씬 더 어렵습니다

보통, 당신은 풀 수 없습니다 원칙적으로 12 가지가 넘는 문제 그래서 우리에게는 직업 보장이 있습니다 많은 연구가 여기에 있습니다 예

다음은 매우 유용한 차트입니다 그래서, 오디오 상태에 따라 완전히 관찰 가능하고 행동을 취했는지 여부, 마르코프 체인을 가지고 있거나, HMM, MDP 또는 PAMDP 다른 사람이 이걸 빼앗지 않으면 이 수업은 당신을 많이 도와 줄 것입니다 당신이 강화 학습 또는 계획 전문가가 아닌 경우, 이것은 정신 모형이있는 것이 매우 편리합니다 괜찮아

이제 저는 이사회에 남겨 둘 것입니다 그래서 제가 보게하겠습니다 그래서 우리는 MDPs에 초점을 맞출 것입니다 MDP는 다음과 같이 정의됩니다 특정 MDP를 정의하기 위해, 당신은 상태 공간, 행동 공간, 전환, 국가 간 확률, 보상 기능

권리? 그래서 이것, 그리고 일반적으로 완성을 위해, 당신은 우리의 확률 인 S naught와 같을 것입니다 너는 주식 상태가 뭐니? 시작할 것입니다 어쩌면 단일 상태가 아닐지도 모른다 한 무리의 상태에 대한 확률 분포 그래서 이것을 정의한다면 나는 MDP를 정의했다

무슨 뜻이에요? 어쩌면 계획에 익숙한 사람들을 위해, MDP를 해결한다고 말하는 것은 무엇을 의미합니까? 맞춰봐 이 단어를 많이들을 수 있습니다 우리는이 MDP를 해결해야합니다 그게 무슨 뜻이라고 생각하니? >> 보상을 극대화하십시오 >> 물론

권리? 너는 ~하고 싶어 정책에는 두 종류가있다 정책이 떠오른다 4 가지 종류의 정책이있다 그러나 우리의 정책에는 매핑이 있습니다 가장 간단한 정책은 상태에서 조치로의 매핑입니다

내가 원하는 건, 내가 방금 사용할 정책을 알려줘 기호 pi는 매우 일반적인 표기법입니다 말하는 강화 학습 문학에서, 내가 현재의 주 S에 있으면, 나는 어떻게해야합니까? 뭘하니? 예상되는 보상을 극대화하려면 여기서 정책을 취할 때, 그래서 S naught에서 시작한다고 가정 해 봅시다 당신이 그때 행동을 취한 것과 같다고하자 액션 공간을 정의 해 보겠습니다

당신은 왼쪽 아래로 올라가고, 네가 테트리스 게임을하는 걸 모르겠다 또는 일부 그리드 검색, 방 탐색 게임처럼, 그러나 숨겨진 금 냄비가 있습니다 당신은 경로가 무엇인지 알아 내야합니다 나는 거기에 가기 위해 가져 가야한다, 그렇지? 최단 경로 문제와 마찬가지로 정확히 MDP입니다 이제, 나는 행동 A1을 취할 것입니다, 나는 어떤 사람들에게 약간의 보상을 얻을 것이다

그러면 나는 S1을 명중시킬 것이다 내 정책에 따르면, "이봐, 내가 여기서 뭐하고 있니?" 나는 다시 행동 A1을 취할 예정이다 나는 S2에 갈지도 모른다 이번에 A0을 가져 가면 되겠습니까? 그래서 이것은 기본적으로 비슷합니다 나는 이것을 구급차라고 부를 것이다

더 많은 수학적 이름이 있습니다 나는 결코 발음 할 수 없다 그래서 이것은 본질적으로 궤적입니다 그래서 나는 S 노숙자로부터 벗어나고 나는 모든 길로 간다 내가 그걸 연주하고 내가 그걸 위해 연주한다고 말하자

n 단계 또는 일부 지평선 자본금 H 목표에 도달 할 때까지, 또는 시간, 또는 같은, 그만 내 예산이야, 그리고 그것은 나에게 특별한 궤도를 준다 그리고 내가 전환을 할 때마다, 나는 당신의 보상을 보게됩니다 이 MDP를 해결하려는 나의 목표 정책을 생각해 내야한다 모든 보상의 합이 최대화됩니다 권리? 그게 나에게 정책 파이를 주렴

내가 그렇게하면 이러한 행동은 파이에 따르면 S Nothing에서, 나는 S naught의 pi를한다 S naught의 Pi는 "이봐, 당신은 여기 A1을 가져 가야합니다 " S1에서 A1을 가져 가라 나는 S1의 파이를한다 그리고 그것은 나에게 이것을 준다

권리? 내 목표는 A1에서 H까지 극대화하는 것입니다 그래서 파이는 argmax가 될 것입니다 이상 나는 일부 매개 변수를 가지고 말할 여기에 쓰고있는 나의 정책, 쎄타에 대한 argmax, 내가 얻은 쎄타 스타, 파이 스타에 해당 이것은 그것을 극대화하는 정책입니다 자, 다양한 방법이 있습니다

내가 실제로 한 일은 앞으로 많이 뛰어 들었다 내 정책은 일부 매개 변수 theta에 의해 매개 변수화됩니다 그리고이 세타들은 보통 또한 깊은 보강 학습 에서처럼, theta는 신경 네트워크의 매개 변수에서 비롯됩니다 선형 정책에서, 당신은 선형 회귀가있을 수 있습니다, 이산 숫자를하는 경우 분류 자 모두가 말하는 행동 단계는 나에게 세타를 줘 내가 그 정책을 펼치려면, 나는 이것을 극대화 할 것이다

권리? 그래서 보통 이런, 예를 들어 최단 경로 문제 MDP를 해결하는 특별한 경우입니다 거기에 MDP가 무엇입니까? 당신의 MDP는 국가와 행동은 당신이 그들 사이를 어떻게 움직일 수 있는지, 아래쪽이나 오른쪽으로 갈 수 있다고 가정 해 보겠습니다 시작 상태에서 시작하기까지의 비용 최소화 끝 상태도 다음과 같이 포즈를 취할 수 있습니다 그 비용의 부정을 극대화하는 것, 동적 인 프로그래밍을하면, 실제로 MDP를 해결하는 것이 최선의 방법입니다 큰 거대한 동적 프로그래밍 문제를 해결하는 것입니다

그러나 일반적으로 큰 문제가 있습니다 어서 >> T는 무엇입니까? >> 오! T는 전환입니다 >>이 특정 그리드 연구를 의미합니다 >> 그리드 검색

예 우리가 알아 낸 바로는, 그것은 기본적으로 테이블입니다 당신이 상태 S1에 있고 행동을 취한다면 A1은 마치 올라가는 것 같아요 권리? 이것이 내 그리드라고 말하자 나는 여기에있다

T는 기본적으로 나에게 말한다 T의 S1과 이것이 S1이라고 부르 자, 내가 A0 조치를 취해야한다면, 내가 끝낼 다음 주 S는 무엇입니까? 이 경우, 내가 행동을 취하면, 내가 여기 등등으로 가면 나는 올라간다 T는 내가가는 곳, 역학을 정의합니다 >> 그러나 어떤 문제에는 몇 가지 상태가있을 수 있습니다 권리? 그래서 가능성

>> 네 내가 너에게 보여주고있는 건 결정적 상태 전이 확률 내가 아무 것도받지 않으면, 너는 S 프라임으로 간다 하지만 실제로 너와 같을 수도있어 S 소수 또는 확률을 얻는다 권리? 예를 들어, 로봇 공학에서는 종종 로봇에 명령을 내리면, 로봇은 정확하게 실행하지 않습니다

실제로 모든 것을 똑바로 위로가는 대신에, 그것은 일종의 종류의 올라간다 그래서 당신은 실제로 다른 주에서 끝납니다 그래서 보자 좋아, 벌써 11시에 일어나는 일은, 그리고 언제든지 이건 아주 흔한 혼란입니다

Amazure에서 여름 인턴쉽을 위해 인턴을 인터뷰하고, 나는 종종 그들에게이 아주 간단한 질문을한다 좋아요, MDP를 정의 해주세요 그들은 모두 저에게 MDP를 잘 정의합니다 그들이 보강 학습 배경에 있다면, 나는 그들에게 묻습니다 문제를 보강 학습 문제로 만드는 것이 무엇인지 말해주십시오

무엇이 빠졌는가 또는하는 것처럼, 그래서 최단 경로 문제는 나는 너에게 설명했다, 계획 문제이다 권리? 필자는 이산 공간에서 동적 프로그래밍을 할 수 있습니다 당신은 또한 세부적인 연속적인 공간에서 그것을 할 수 있습니다 하지만 역동적 인 프로그래밍을 통해 해결할 수 있습니다 그러면 RL이 필요한 이유는 무엇입니까? 왜 RL의 전체 필드가 ​​존재합니까? 누가 나에게 말할 수있는 것처럼 MDP에서 RL 문제를 해결하지 못했습니까? >> 가능성이있는 피드백

죄송합니다 >> 피드백 >> 피드백? 좀 더 말해 줄 수 있어요? >> 기본적으로, 당신은 당신이 행동을 취한 후에 어떤 종류의 피드백, 전환을 한 후에, 그 피드백에 기초하여, 당신은 다음 행동을 취하거나 증가시키려는 시도의 또 다른 변화, 보상을 극대화하려는 의미입니다 >> 알았어 그래서 중간 보상, 당신은 MDP에서도 그것을 얻을 수 있습니다

권리? 따라서 보상은 MDP 설정에서 알려져 있습니다 권리? 예를 들어, 당신이 진보하고 있다면 최단 경로 문제의 최종 상태, 중간 보상을 얻을 수 있습니다 권리? 그리고 당신도 알기 때문에 당신이 어디에 있는지 정확하게 알 수 있습니다 권리? 그것은 보통 다른 것입니다 보상은 대개 문제가 아니지만, 그것은 좋은 추측 이었지만

그곳에는 많은 상징이 없습니다 그래서 제거 과정에 의해 세 가지가 남았습니다 >> E는 알려져 있지 않습니다 죄송합니다 >> E는 알려지지 않았습니다

>> 네, 그렇습니다 그래서,이, T가 무엇인지 모르는 경우, 다음은 보강 학습 문제입니다 그래서 Chess 나 AlphaGo에 대해 생각해보십시오 모두가 Go와 AlphaGo를 보았습니다 사람들은 깊은 마음을 품었다

그들의 깊은 보강 학습을 사용했고, 하지만 지금은 보강 학습만큼 중요하지 않습니다 알려지지 않은 것을 설명 할 수있는 사람, T가 거기에서 어떻게 알려지지 않습니까? >> 왜냐하면 상태는 보드의 상태이기 때문입니다 그렇게 많은 주들이 없습니다 >> 많은 주들은 괜찮습니다 제 상태 공간은 정말로, 정말로 거대한 것입니까? 그러나 전환이 어떻게 알려지지 않았습니까? >> [보상 할 수없는] 보상

>> 보상을 안다 >> 알아, 상대방 이동, 그렇지? >> 정확히, 내가 행동을 취할 때처럼, 당신이 백인이라고 가정 해 봅시다 널에 점이 있고 너는 행동을 취했다 당신은 이사회의 다음 상태를 보게됩니다 그러나 당신이 모르는 것은 흑인이 할 것입니다, 맞죠? 당신이 그것을 모르기 때문에, 그것은 당신이 전환을 알지 못하는 것처럼 보이게합니다

너는 정확한 상태를 모른다 진화 할 일련의 상태들 당신이 한 일의 결과로 나온 거죠? 그것이 더 이상 존재하지 않는 이유입니다 계획 문제와 그 보강 학습 문제가된다 모든 보강 학습 문제는 시뮬레이터와 상호 작용하는이 풍미 이동의 경우, 보드는 시뮬레이터 그 자체이며, 그것은 매우 멋지다

그리고 그것은 어느 것을 의미한다 시뮬레이터에서 내 연극을 해결할 수 있다면, 시뮬레이터에서 좋은 정책을 생각해 낼 수 있습니다 나는 실세계 문제를 실제로 풀었다 아타리 (Atari)와 같은 비디오 게임, 이동, 체스, 등등, 이 모든 것들은 세상은 당신이 정의한 것입니다 예? >> 네,하지만 체스와의 유추는 정확하지 않습니다

체스 게임 이상으로 당신은 Alpha-beta를 사용합니다, 그래서 나는 전환을 알고 있습니다 이사하기 전에 저는 Alpha-beta를 사용했고 가능한 응답을 찾았습니다 사실, 알파는 그 영향을받을 것입니다 >> 기다려 나는 알파 베타 부분을 이해하지 못한다

>> 알파 베타 그래서, AlphaGo와 같은 현대의 RL 그러나 그것은 빙산의 일각에 불과합니다 그것은 오래된 기계 학습의 핵심입니다 알파 베타 (Alpha-beta) 검색이란 움직임과 가능한 반응이 무엇인지 미리 봅니다

>> 몬테카를로 나무 수색 같이 >> 어떤 깊이 >> 알았어 예, 예 >> 그래서, 당신의 견적을 위해, 실제로, 당신의 자신의 사례금

>> 네 >> 분명히, 당신은 어떤 휴리스틱 스 (heuristics)와 전략 (strategy) 그 아주 유한 번호를 어떻게 정의할까요? 이동의, 그리고 당신은 얻을 RL은 모든 전체 최적화를 사용하고 있습니다 이 과정은 그 이상이 아닙니다 즉, 체스는 RL 문제가 아닙니다

>> 당신은 아직도 변화를 모르기 때문에 나는 동의하지 않을 것입니다 >> 당신이 동의하지 않는 것을 압니다 >> 네,하지만 공식화할지 여부 그것은 RL 문제 또는 아닙니다 것과 같이 분리 된 문제점이고, 실제로, 신경 건축학 검색에서 보여 드리겠습니다 RL 문제로 공식화되어서는 안되며, 많은 사람들이 그랬던 것처럼, 맞습니까? 내 체스, 나는 국가, 행동, 전환 및 보상을 가지고 있으며, 나도 몰라 전환은 내가 무슨 일이 있는지 모르니까, RL을 할 수 있지, 그렇지? AlphaGo에서도 예를 들어, 당신은 가치 함수 추정을 다음과 같이 수행합니다

당신이하기 전에 매번하고, 앞으로 많은, 많은 단계를 시뮬레이션 할 수 있습니까? 그런 다음, 신경 네트워크는 당신을 줄이기 위해 인도하고 있습니다 예를 들어, 귀하의 분기 요인 >> 우수한 깊이, 구체적으로하자, 질문은, 무엇이 문제를 RL 문제로 만드나요? >> 나는 체스가 절대적으로 RL 문제라고 주장한다 >> 글쎄, 이것은 정확히 우리가 동의하지 않습니다 >> 이건 꽤 바이너리라고 생각해

사실, 나는 이것이 철학적 논쟁이라고 생각하지 않는다 >> 그것은 철학적 논쟁이 아닙니다 꽤 바이너리처럼 보입니다 >> 네, 네 >> 그렇지 않습니다

>> 나는 그것이 확실하다고 확신한다 >> 알았어 >> 그래, 이제 우리는 최소한 갖고있어 문제를 보강 학습 문제로 만드는 것의 맛, 이제 우리는 한 가지 방법을 매우 빨리 통과 할 것입니다 나는 이것을 완전히 파생해야 할 시간이 얼마나되는지 모른다

그래서 나는 적어 두겠다 기억하십시오, 우리는 최대화하고 싶습니다 정책에 대한 완전한 보상, 내 누적 보상은 무엇입니까? 나는 그것을 극대화하고 싶다 나는 J 세타 (J Theta)라고 적어 두겠다 맞지? 나는 할인 조항을 사용하지 않을 것입니다

RI, T는 내 큰 수평선에 1과 같습니다 나는 그것을 극대화하고 싶다 내 정책은 S에서 A로 간다 나는 확률 론적 정책과 정책 구도를 가질 것이다 주에서 특정 행동으로가는 대신에, 나는 상태에서 [들리지 않는 것] 이상의 확률 분포로 갈 것이다

내가 원하는 것은 그라디언트를 취하는 것입니다 내 누적 보상, 그리고 나서 내가 어디서 구불 구불하게 사용할 지 내 궤적, 구불 구불 한 R 나는 다른 펜을 사용할거야 Squiggly의 R은 어디에 있습니까? 기억해라, 나는 S naught에게서 떠나 간다 나는 어떤 행동을 취한다

그 다음 나는 S1에 간다 그리고 나는 또 다른 행동을 취한다 등등 그리고 나서 나는 내가받는 모든 행동을 요약 할 것입니다 내가가는 큰 R이 여기 있습니다

그래서, 왜 이것의 그라디언트를 취하고 싶습니까? 그래야 그라디언트 강하를 할 수 있기 때문이죠 의 매개 변수 공간에서 내 정책과 내가 그라데이션 상승을 생각 해낼 때까지, 내가 정말로 좋은 정책을 생각해 낼 때까지, 그렇지? 어떤 것은 매개 변수화와 같습니다 예를 들어 신경망을 사용하는 경우, 내 신경망이 나에게 준다 내가 정책을 수행 할 때 정말 좋은 상을 받았습니다 그래서 나는 이것을 시타 그라데이션으로 다시 쓸 수 있습니다

R 타우, 내가 이것을 사용하고있는 곳은 가능한 모든 탄도 당신은 당신의 국가 공간을 차지할 수 있습니다 자, 이것은 정말 안좋은 것 같습니다 모든 가능한 탄도는 나의 지평선에서 기하 급수적이다 그리고 나서 나는 매우 큰 상태 공간을 가질 것입니다 그러나이 용어 때문에 보이는 것만 큼 나쁘지는 않습니다

궤적을 잡을 확률 정책의 현재 매개 변수화가 주어지면, 다음과 같이 적어 둘 수 있습니다 괜찮아 그래서 다시, 우리는 이것으로 돌아 간다, 그렇지? 그것은 특정한 궤적을 겪은 것과 같습니다 나는 그게 무엇인지 적어두고있다 내가 처음에있을 확률 상태는 내가 S-naught에서 그 시간을 고려해 행동 A-naught를 취할 것이고, 내 현재의 정책을 감안할 때 시간을 계속 곱해 내가 S-naught에있을 여러 가능성 내가 아무런 행동을하지 않고 S-naught를했다는 점을 고려할 때

이렇게 그런 다음이 일은 이 용어로 써야한다 괜찮아 나는이 용어를 안으로 옮길 수있다 쎄타에 관한이 기울기처럼, 그리고 당신은 이것이 모든 T 그라디언트의 합계 이 주어진 Theta의 세타 확률은 R-squiggly입니다

나는 다른 용어가 0이 될 것이기 때문에 그 안에 들어갈 수 있습니다 그리고 그것은 Tau의 기울기입니다 나는 번식하고 나누기 위해 갈거야 권리? 나는이 양을 곱하고 나눕니다 그럼, 이걸 사용할거야

나는이 합계를 취할 수있다 이 물건을 꺼내서 기대로 씁니다 다시 말하지만, 아마 당신과 쎄타를 괴롭힐 것입니다 그래서 이것은 다시 기대에 맞게 다시 작성하는 것과 같습니다 그러면 다음과 같은 이유로 나는이 용어를 쓰고 있는데,이 용어를 보라

궤도의 확률의 기울기 궤도의 확률로 나눈 값은 확률 로그로 써라 왜냐하면 내가이 용어를 사용하면이 용어를 나에게 줄 것이다 정말 좋은 속임수입니다 일단 로그의 관점에서 작성하면, 나는 이것을 확장 할 수있다 이 용어가 주어진다면 이것의 확률을 기억하십시오

그래서, 제가 제품 인 것들을 기록한다면, 나는 이것들의 대부분이 있기 때문에 매우 멋지다 추가를 얻는다, 이런 식으로 다가올거야 모든 timesteps에 대한 합계의 로그, st의 b는 St – 1로 주어진다 마이너스 1에서 t log Pi를 합한 합계, St times R의 구불 구불 한 너는 내가이 모든 조건들을 모으고 있다는 것을 알 수있다 따로 따로 수집해야합니다

내가 그라디언트 용어를 내부에 넣으면, 이들 중 어느 것도 쎄타에 의존하지 않습니다 이 모든 것은 0이 될 것이고, 이것 만이 세타에 달렸습니다 그래서, 모든 것을 잘 고쳐 쓰면, 내가받을거야, 그 세타는 [알아들을 수 없는] 당신이 그것을 쓰는 방법에 따라 이것의 변종이 있습니다 이것을 정책 기울기 정리라고합니다

이것은 기본적으로 그라데이션을 해제하는 방법을 말합니다 정책 쎄타의 매개 변수와 관련된 정책 그리고 당신의 정책은 확률 적이어야합니다 너 잘 지내고, 이 보상 함수와 관련하여 기울기입니다 그러나 당신이 볼 필요가있는 것은 그것이 이 그라디언트는 당신의 정책 매개 변수의 세타는 아주 좋습니다

여기서 주목해야 할 아주 좋은 점은 당신이 당신의 주 분포의 파생물을 가져옵니다 이것은 매우 편리하게 제공되며, 수학이 그런 식으로 작동한다는 것은 아주 좋습니다 그걸 명심한다면 나는 실제로 알고리즘을주지 않았다 방금 그라디언트를하는 법을 말했어

그라디언트를받는 방법을 알고 있다면, 그러면 Theta-new는 기본적으로 Theta-old와 같습니다 나는 기본적으로 그라데이션 강하 스타일의 것을 더할 수있다 약간의 단계 크기 Theta J-Theta에 관한 알파 배수의 그라디언트 나는 이것을 할 수있다 내가 그것을 아플 때까지 이걸 계속 반복해라

나는 수렴하거나 좋은 정책을 찾는다 이제 우리는 궁금해하기보다 실제로 신경 아키텍처 검색을 수행하지 않았습니다 지금까지는 걱정하지 마십시오 정책 기울기 정리를 이해한다면, 처음 두 논문은 10 분입니다 저기에 그걸 남길거야

다음은 몇 가지 학습 자료입니다 우리는 이걸 뒤쫓을거야 그래서 나는 이걸로 시작하고 싶습니다 여기에서 일어나는 일은 신경 구조 검색을 할 수 있다는 것입니다 이것을하는 것이 현명하지 않을 수도 있습니다

그러나 이것은 2016 년에 일어난 일입니다 Neural Architecture Search는 정책 기울기 문제로 제기되었지만, RL 문제처럼 이제 상태 공간을 살펴 봅시다 당신의 상태 공간은 가능한 모든 신경 구조 또는 몇 가지 상태 공간을 정의하고 가능한 모든 아키텍처는 공간입니다 그래서 모든 S는 이제 특별한 아키텍처입니다

자, 당신의 행동은 기본적으로 당신이 선택하게됩니다 당신은 한 주에서 다른 주로 이사하게됩니다 그래서 당신은 거의 임의로 전환 할 수 있습니다 너는 무엇을 알지 못한다는 것을 제외하고는 행동은 당신에게 좋은 보상을 가져다 줄 것입니다 그것을 더욱 어렵게 만들기 위해, 그래서 당신은 보상 기능을 아주 잘 압니다

보상 기능은 "나는 네가 내게 주길 바래 궁극적으로 좋은 아키텍처의 결과로, 내가 걱정하는 데이터 세트의 정확성을 말해 보겠습니다 " 나는 사실을 알고있다 그래서, 내가 문제를 일시 중지하면 정책 구배 강화 학습으로서, 그 다음에 정책을 세울 것입니다 내 정책은 여기있을거야, 그들은 RNN 인 컨트롤러를 호출하고 있습니다

이 컨트롤러가 무엇을 할 것인지, 확률 P로 아키텍처 A를 샘플링 할 것인가를 기억하라 왜 샘플링 아키텍처입니까? 우리의 정책은 확률 적이기 때문입니다 확률 론적 정책이 필요해 정책 기울기 정리가 작동하도록합니다 그래서 사람들이 같은 이유입니다

"좋아, 이제 우리는 아키텍처를 샘플링 할 것입니다 우리는 확률 P로 아키텍처를 샘플링 할 것이고, 우리는 자식 네트워크를 훈련 할 것입니다 그 건축물과 함께, 당신이 볼 때까지 정기적 인 신경망 훈련을해라 당신의 정확성 또는 네거티브 오류를 입력 한 다음 그라디언트를 계산합니다 " 이제 질문은, "여기에있는이 그라데이션을 어떻게 계산할 것인가? 내가 가지고 있기 때문에 나는 그것을 여기에서 줬다

그 기대 기간은 나를 " 괜찮아 그래서,이 신문이 가지고있는 것 done은 기본적으로 다시 수학을 씁니다 그러나 그들은 기대 대신에 샘플 견적으로 바꿨지, 그렇지? 그래서, 이것이 우리가 극대화하려는 것입니다 그래서, 그들은 삐걱 거리는 대신에 이것을 쓰고 있습니다 그리고 그것을 만들면 더 많은 공간이 필요합니다

나는 매개 변수를 내고 싶다 그와 같은 나의 기대 된 보상 내가 취할 내 궤도에서 최대화된다 이것은 동일한 파생물입니다 그것이 실제로 어떻게 될지에 관해서, 이것은 또한 이것이 강화라고 불리는 인정 알고리즘이며, 오늘날에는 여러 가지 변종이 있습니다 그리고 나는이 기대를 정확하게 평가할 수 없기 때문에, 샘플링 문제로 바꾸겠다

나는 표본 추출 만 할거야, 이것이 견본 추정치입니다 권리? 그래서 제가 할 일은, 내 컨트롤러를 샘플 아키텍처에 사용할 예정이며, 모든 아키텍처를 훈련 시키십시오 그런 다음 내가 얻은 보상이 무엇인지 확인하십시오 다시 연결해, 맞지? 귀하의 K가 M과 1 대 1의 관계는 기본적으로 모두입니다 당신은 당신이 샘플링 한 것들입니다

이것은 평균을 구하는 M에 의한 것입니다 그 기대치의 샘플 견적 인 그런 다음 그라디언트 단계를 밟습니다 RNN과 내가 어떻게하는지 안다 어떻게해야하는지 알 수 있습니까? 내가 다시 소품을 할 수 있기 때문에 권리? 그라디언트를받는 방법을 안다

신경 네트워크에서 내 매개 변수의 그래서 저는 대신 할 것입니다 그래서 저는 컨트롤러가 RNN이 될 것입니다 이것은 아키텍처를 샘플링 할 것입니다 이제 문제는 어떻게 될 건데? RNN의 샘플 아키텍처? 따라서 도메인 전문 지식이 필요한 곳입니다

실제로 그렇게 어렵지는 않습니다 나는 RNN을 펼칠거야 상기 RNN의 각 단계에서, RNN을 풀어 놓고있는 것처럼 순차적으로 샘플을 만들겠습니다 필터 높이, 필터 폭, 보폭 (stride height), 보폭 (stride width) 등이있다 그래서 기본적으로 정의를위한 레이어가 이것에 의해 제공됩니다

권리? 이렇게 이것은 1, 2, 3, 4, 5입니다 이 5 개의 숫자는 나에게 길쌈 층을 정의한다 높이, 너비, 내 보폭, 너비, 및 필터의 수를 나타냅니다 그래서, 제가 이것을 샘플링 할 수 있다면, 다음 5 개의 언 롤링이 또 다른 레이어가됩니다 권리? 그래서, 나는 쌓아 올릴 수있어, 알았어

나는 표본 추출한다 나는 RNN을 실행하여 20 번 말해 보자 그래서 나는 20 층 신경 구조를 얻는다 권리? 그리고 나서 저는 20 층 신경 구조를 취할 수 있습니다 가서 다른 GPU에서 훈련 시키면, 보상을 참조하십시오

컴백하고 내 정책 기울기 정리에 연결, 하고 견본 견적은 내가 이것들을 많이 가지고 있기 때문에, 그런 다음 RNN에서 그라데이션 단계를 수행하십시오 일어나는 컨트롤러 그것은 정확히 그들이 한 일입니다 그들은 신경 구조를 노출시켰다 이 보강 학습 문제로서, 속도를 높이기 위해 이것은 모든 공학이 들어오는 곳입니다

당신은 다음과 같은 매개 변수를 갖게 될 것입니다 당신의 RNN은 많은 병렬 매개 변수 서버 컨트롤러에는 많은 복제본이 있습니다 이 모든 일은 이것 모두에서 가장 어려운 부분, 가장 시간이 많이 걸리는 부분이 다가오고 있습니다 많은 기대감을 표본 여기서 말하는 샘플은 아키텍처 샘플링을 의미하며, 그것을 끝까지 훈련 시켜라

예를 들어 제가 ImageNet을 주면, 3 일이 걸릴거야 권리? 따라서 하나의 샘플이 매우 비쌉니다 따라서 8000 개의 GPU가 있다면, 당신 매니저는 2 천만 달러를 불 태우면서 괜찮습니다 가서해라 권리? 그것은이 큰 테이크를 가지고 있기 때문에 이것을 실행하십시오

이것은 희망을 갖기 위해해야 ​​할 모든 기술입니다 충분한 샘플을 얻고 이것을하는 것 그런 다음 몇 가지 엔지니어링이 있습니다 건너 뛰기 연결을 다시 유도하기 위해해야 ​​할 일 권리? 이것은 다시 중요하기 때문에 이것은 약간 까다로워지기 때문에, 우리는 적어도 ImageNet C410에서의 이미지를 알고 있습니다

공명하고 밀도가있는 그물 스타일 아키텍처 건너 뛰기 연결이 잘되어있는 경향이 있습니다 그래서, 검색 공간을 디자인한다면 우리가 처음 보았던 것과 같이 연결을 건너 뛰는 것을 인정하고, 그러면 당신이 떠나고 있다는 것을 알게 될 것입니다 인간의 전문 지식과 같은 많은, 우리는 건너 뜀 연결 도움을 알고있다, 정말로 그들은 그것들을 극적으로 빠르게한다 모든 좋은 일들이 일어난다 그래서 여섯 번째 풀기를 소개 할 것입니다

목표가 정당한 앵커 포인트를 호출하려고합니다 만약 당신이 N 층에 있다면, 어느 쪽이 N-1 층에 연결될 것인가? 그래서 당신은 건너 뛰기 연결을 샘플링하는 것입니다 그래서 이것은 정의되어 있습니다 이제 당신은 조밀 한 신경 공간으로 돌아갑니다 따라서 가능한 모든 건너 뛰기 연결 귀하의 검색 공간의 일부가되기 전의 것들

그래서, 이것은 어디에 검색 공간 해킹이 발생합니다 당신이 당신의 검색 공간을 너무 크게 만들면, 너는 가지 않을거야, 너의 수색 공간은 거대한 당신은 모든 것을 검색 할 수 없을 것입니다 그럼 너가 할 때 – 너무 많이 – 알았어 이제 해킹이 필요한지 확인하기 위해 더 많은 해킹이 필요합니다 샘플링중인 네트워크는 유효한 네트워크입니다

몇 가지 숫자를 생각해내는 것부터 기억하십시오 모든 RNN이 수행하는 작업은 5 ~ 6 개 튜플 또는 레이어와 연결을 정의하기 위해 한 번에 다섯 개의 튜플, 그런 것들은 실제로 함께 작동하지 않을 수도 있습니다 예를 들어, 계층 N에서, 내가 필터의 수와 보폭 높이가 확실하다 특정 텐서 크기가 들어가기를 기대한다 왜냐하면 그게 들어 가지 않으면, 그것은 단지 계층 N – 1 때문입니다

완전히 다른 모양이며 호환되지 않습니다 당신은 행렬 곱셈을 할 수 없습니다, 그렇죠? 그래서 실제로 일을하기 위해서, 이것들은 당신이 해킹하는 것들입니다 해킹 중 하나처럼 건너 뛰기 연결이 있어야합니다 그들은 깊이 차원을 따라 연결되고, 그런 식으로 걱정할 필요가 없습니다 예를 들어 합계를 원한다면 작동하지 않을 것입니다

당신은 텐서 스 (tensors)를 가지고있을 수도 있습니다 완전히 다른 모양입니다 어떻게 합치셨습니까? 그런 다음 레이어 하지만 – 만약 당신이 단지 그것을 연결하는 것처럼 그것은 단지 밖으로 작동합니다 당신이 푹 빠져있는 한 당신은 무엇을 가지고 있더라도 상관 없습니다 연결을하는 데 필요한 모든 것, 맞습니까? 작은 것이 나오고 커다란 것이 있다면, 모든 것을 0으로 채 웁니다

그것을 같은 크기로 만드십시오 연결하여 이제 좋은 커다란 텐서를 그리고 나서 그걸 앞으로 나눕니다 괜찮아 그래서, 당신은 이것 모두를하고 당신은 많은 전기를 사용합니다, 그리고 네가 따라 오니, 이것은 C410에있다 그래서 C410은이 이미지 데이터 세트입니다

ImageNet과 달리이 모든 NAS 작업에서 많이 사용됩니다 ImageNet보다 훨씬 작습니다 그래서 당신은 실제로 당신이하고있는 모든 평가를 기억합니까? 샘플링 아키텍처와 마찬가지로 그런 다음 그라디언트 단계를 수행하면 일반적으로 수행 할 수 있습니다 반나절이라면 빠른 GPU를 사용하고 잘 설계해야합니다 따라서 ImageNet의 경우 4 일을 기다릴 필요가 없습니다

그래서, 네, 알고리즘의 다양성, 그들은 좋은 결과를 얻는다, 그렇지? 그 당시 꽤 예쁜 365처럼 좋았습니다 그리고 이것들은 아키텍처에 대한 매개 변수 잘 수행 한 발견했다 괜찮아 그런 다음 언어 모델링 작업을 수행했습니다

우리의 방법을 보여 주기만하면됩니다 작동 할 수있는 이미지에만 적용되는 것은 아닙니다 Penn Treebank는 언어 데이터 세트입니다 나는 NLP 전문가가 아니기 때문에 나는 할 수 없다 그것에 대해 많이 말하지만 그들은 적어도 보여줍니다

그들은 매우 – 그래서 여기에는 혼란이라는 용어가 있습니다 정확성과 정확성을위한 대리인으로 생각하십시오 낮은 것이 더 좋으며 실제로 가장 낮은 것 중 하나를 얻습니다 이것은 컸다, 그렇지? 그래서 그 당시, 이것은 실제로이 Neural Architecture Search에서 시작되었습니다 엄청난 양의 일, 이 숫자에서 우리가보고있는 지수 구배 그들이 일하기 때문에 여기에서 끝내고있는 서류들과 일들, 갑자기 자동으로 검색을 완료하면 예, 많은 GPU들, 우리는 실제로 실제로 인간을 때리는 아키텍처를 자동으로 발견 할 수 있습니다

이것은 좋은 소식입니다 왜냐하면 그건 내가 가질 필요가 없다는 것을 의미하기 때문입니다 10-15 년의 신경 건축 경험 해킹 직감을 개발하기 위해서 괜찮아 하지만 사실 그 중 하나가 그 세부적인 내용은 실제로 사용 된 것입니다

거의 8000 GPU처럼 몇 개월 동안 그리고 그들은 최소한 그들은 무엇입니까 보고했는데 그건 내가 취할 것을 의미 할거야 지금 필라델피아를 사용하는 사람들을 위해 필라델피아의 모든 것, 오늘은 10,000 명 밖에 안되죠? 따라서, 비록 이것이 나에게도 어렵다 필라델피아의 모든 사람들이 6 개월 동안 나에게 헌신 했지, 그렇지? 그래서 다행히도 상황은 많이 좋아졌고, 훨씬 더 효율적입니다 올해 2 월에 나온 다른 논문이 있었는데, 첫 번째 버전이며 호출됩니다

효율적인 신경 아키텍처 검색 또는 ENAS와 실제로 많이 달성합니다 그래서 이것은 우리가 본 첫 번째 NAS 종이처럼 뛰었습니다 첫 번째 NAS 논문에서이 숫자는 36, 374 정도였습니다

이것은 CIFAR-10에서 훨씬 낮습니다 Penn Treebank에서 이전 NAS가 624를 가졌던 것과 같습니다 이것이 가장 좋은 부분입니다 하나의 단일 Nvidia 1080Ti GPU, 그러한 시간은 16 시간 미만이며, 그 (것)들을위한 수천 GPU 시간이었다

그래서 이것은 거의 3 배의 감소와 같습니다 그럴 때 그래서 이것은 괜찮습니다 이제 데스크탑 GPU 하나를 사용하여, 실제로 할 수있는 것보다 더 나은 결과를 얻을 수 있습니다 전에 해

트릭이란 무엇입니까? 트릭은 내가 공유 할 것입니다 모든 실험을 통한 계산 그래, 알았어 이전 작업에서 주목했다면, 큰 시간을 소비하는 단계는 무엇 이었습니까? 큰 시간을 소비하는 단계는 실제로 계산을 한 번 수행합니다 당신은 모든 보상과 들어오는 모든 보상의 견본, 그것은 매우 작은 단계이기 때문에, 컨트롤러를 업데이트하는 데는 1 ~ 2 분 정도 소요됩니다

큰 시간은 훈련이었다 샘플을 얻으려면 완성과 병행하는 모든 것들 내가 하나를 샘플링 한 것처럼, 컴퓨터로 보내라 훈련시키다, 다른 건축물을 샘플로 만들다, 기차를 타러 다른 건축물을 견학하고 기차에 가십시오 이제 모든 것들은 많은 시간과 많은 계산을 필요로합니다

따라서 GPU 시간이 엄청나게 많은 이유는 바로이 때문입니다 모두가하고 있기 때문에 앞으로 prop와 back prop는 서로 독립적입니다 자,이 아이디어는야만적이고 완전히 미친 듯이 들릴 것입니다 그러나 그것은 어떻게 든 여기에서 작동합니다, 내가 보내지 않으면 어떻게 될까? 모든 것을 꺼내서 독립적으로 실행하십시오 내가 가진다면? 이 거대한 계산 그래프 그 커다란 거대한 계산 그래프에서 샘플을 얻습니다

그러나 모든 무게를 공유하고, 모든 교육 및 배경 작업 수행 왜냐하면 이것은 장난감의 예입니다 그러니까 이것이 내 큰 계산 그래프라고 가정 해 봅시다 기본적으로 이것은 내 검색 공간을 정의하고 나는이 붉은 분파처럼 이것을 시식 할 것이다 화살표는 하나의 네트워크입니다 그런 다음 – 나는 밖으로 놓을 것이고 나는 그것을 여기 위에 놓을 것입니다

그런 다음 파란색의 화살표가 생겼다고 가정 해 봅시다 이것은 아마도 이렇게 될 수 있습니다 이것에서 다른 견본, 그게 내 다른 네트워크 다 그럼,하지만, 대신에 그들을 훈련 모두 다른 GPU를 가진 다른 컴퓨터에, 나는 그들을 함께 훈련시키고 무게를 나눌 것입니다 예를 들어,이 가장자리가 일반적인 경우 두 샘플링 된 아키텍처 사이에서, 그들은 실제로 같은 텐서를 공유 할 것입니다

그들은 동일한 매개 변수를 공유하지 않습니다 미안하지만, 텐서가 아닙니다 그들은 실제로 완전히 독립적이지는 않습니다 그러나 이것은 매우 나빠 보인다 네가 같아야하지만 -하지만, 내가 실제로 그것들을 개별적으로 훈련한다면, 내가 얻을 수있는 가중치 집합은 1과 2를 연결합니다

어쩌면 그 건축물은 특정한 지형을 가지고 있기 때문에, 그것은 전문화 될 것이고 이것에 매우 유용해서는 안된다 그리고 이것은 마치 당신이 저에게 이것을 제안하는 것처럼, 나는 그 소리가 미친 듯이 들릴 것입니다 그것은 모든 사람을 실제로는 차선책으로 만들 것입니다 그 것들은 그들의 건축을 전문으로해야한다 그러나 어쨌든 그것은 사실이 아닙니다

그렇다면 이것은 큰 머리를 찰과상처럼하는 순간이었습니다 그들은 증거가 없으며, 이론적 증거가 여기에 있습니다 그러나 그들은 그것을 보였다, 헤이, 우리의 동기는 기본적으로 멀티 태스킹 학습입니다 신경망과 마찬가지로, 어떻게 여러 가지 다른 작업을 할 수 있으며 네가 할 수 있다면 더 잘 일반화해라 동시에 여러 작업, 그러한 멀티 태스킹 동기에 기초하여, 우리는이 길을 따라 시작했고 우리는 우리가 실제로 발견 할 수있는 것은 매우 잘할 것입니다

그래서, 예를 들어, 여기처럼 샘플을 좋아하는 사람이 어떤지, 여기에서도 정책 기울기 방법을 사용하고 있습니다 그들은 여전히 ​​RNN 인 컨트롤러를 가지고 있습니다 그러나 레이어드처럼 – 이렇게하면됩니다 재발 성 신경 네트워크 이것은 특정 세포가 어떻게 보이는지입니다

이것은 검색 공간입니다 들어오고있다 이 모든 작업 옵션은 샘플을 얻은 것처럼 보이고, 세부 정보를 읽을 수 있습니다 세부 사항은 정말 지루하지만 예 예를 들어, 자동으로 컨볼 루션 신경망 설계, 그럼이 골격을 고칠 수 있어요

및 외부 구조 및 수 있습니다 각 레이어가 어떤 작업을 수행해야하는지 샘플링하십시오 그들이 한 또 다른 트릭은 우리 대신에 – 좋아 매크로라고 불리는이 용어가 있습니다 NAS 논문을 살펴볼 때 많이 필요합니다

어떤 매크로가 의미하는 것은, 검색 의미, 난 아무것도주지 당신은 매우 작은 네트워크처럼 시작합니다 토폴로지 순서를 강화하지 않을 것입니다 네트워크를 성장시킬 수있는 것처럼 추가, 빼기를 원하는대로 할 수 있습니다

이 거대한 검색 공간에서 샘플을 얻을 수 있습니다 임의로 모양이 잡힌 큰 네트워크와 괜찮습니다 우리는 그 공간에서 수색을 좋아할 것입니다 일을 좀 더 다루기 쉽도록 만들기 위해, 사람들이 시작한 것은 마이크로 검색이라고합니다 그래서 그들은 수정합니다 – 예를 들어, 오, 안돼, 나는 그것을 떨어 뜨렸다

좋아, 내가이 방법으로 사용할거야 예를 들어, 알았어 공명을 기억 하는가? 공명은 좋은 생각처럼 보입니다 검색 공간을 이와 같이 정의하면 어떻게 될까요? 이봐, 이미지가 들어오고, 나는 이걸 가지고있어 나는 갈거야

외부 골격 인 공진 구조를 수정하십시오 이것은 내 매크로 아키텍처가 될 것입니다 나는 그것을 고치 러 갈거야 나는 이것이 자유의 정도라고 생각하지 않을 것이다 그러면 제가해야 할 말은 무엇을 여기에 가야한다는 것입니다

네트워크를 허용하는 모든 것, 이 전체 샘플링 비즈니스 검색 절차가 내가해야 할 계층의 종류를 말해 주시겠습니까? 네가 여기서 무엇을 가질 수 있니, 여기, 여기, 등등 등등 더 많은 것을 다루기 쉽도록하기 위해서, 내가 묻는 건 그게 전부 야

나는이 모든 것이 같은 층을 가질 것이라고 말해야한다 그 레이어 유형이 무엇인지, 어떤 레이어이든간에 여기서 샘플링을하고 있습니다 정확하게 여기에서 복제 할 것입니다 그래서, 이것들은 검색 공간을 줄이는 모든 방법입니다

하지만 주목해라, 나는 내가 있음을 알아 차린다 마이크로 또는 셀 검색을 수행하라 당신이 방금 세포를 찾고 당신이 고치고 있기 때문에 고정 된 외부 골격 디자인 어떤 인간 전문가가 발견 한 좋은 것 당신은 사실에 의존하고 있습니다

당신에게 좋은 매크로를 주었던 인간 전문가 이미지의 경우와 마찬가지로, 언어에 대한 많은 연구가 이루어졌습니다 많은 연구가 이루어졌으며, 그래서 당신은 당신이 집중할 수있는 좋은 매크로 아키텍쳐를 가지고있을 것입니다 반면에 완전히 새로운 데이터 세트를 제공하더라도 데이터 세트가 이전의 많은 일이없는 다른 영역, 당신은 무엇이 올바른 매크로인지 알지 못할 수도 있습니다 그래서 일을 다루기 쉽도록 만드는 것이 있습니다

거기에 인간의 도메인 지식 주입이 많이있다 검색 공간을 좋게 만드는 NAS 논문 좋아, 우리가 이런 종류의 일이 잘된다는 것을 의미하는 것처럼, 그래서 이런 종류의 것들의 범위 내에서 arg max가 무엇입니까? 그것이 많은 논문이하는 일입니다 그래서 그들은 그 트릭을 사용합니다 그들은 우리가 매개 변수를 공유 할 트릭을 사용합니다 우리는 다른 구성 요소에서 모든 것을 실행하지 않을 것이며, 그리고 알았어 그들은 마치 ENAS라고 불리는 것처럼 생겨납니다

다양한 팁과 트릭 그 숫자에 도달하기 위해서, 하지만 그들은 매우 효율적입니다 맞습니까? 괜찮아 예를 들어, 이것은 발견 된 네트워크입니다 ENAS는 또한 매크로 에서처럼 할 수 있습니다 그래서 그들은 이것이 하나의 매크로 결과임을 보여줍니다

그리고 나는 모른다 나는 결코이 건축술을 직접 손으로 디자인하지 않았을 것이다 이것은 실제로, 정말로 잘합니다 많은 이미지 분류 작업 건너 뛰기 연결이 전체 곳곳에 어떻게 있는지 주목하십시오

왜 그들이 될지는 단지 무언가 일뿐입니다 그 자동 검색 절차가 좋은 발견 이들은 기억과 같은 세포, 세포 것입니다 이들은 자동으로 발견되는 별난 세포입니다 다시 말하지만, 만약 당신이 저에게 하나를 디자인하도록 요청했다면, 나는 그런 멍청한 것들을 생각해 냈을 것이다

괜찮아 그래서,이 두 논문 보강 학습 기반, 맞습니까? 그래서, 그들이 기본적으로 말했던 곳에, 우리는 이것을 상호 작용 문제로 간주 할 것입니다 우리는 전환이 어떻게 될지 알지 못합니다 그리고 우리의 보상은 차별화됩니다 그래서, 우리는 이것을 가질 것입니다, 내가 어떻게 해야할지 모르기 때문에 보상은 차별화되지 않는다

존경심으로 보상을 차별화하다 컨트롤러의 파라미터에 적용됩니다 나는 오직 존경심으로 나의 보상을 차별화 할 수있다 개인적인 것에, 내가 샘플로 할 네트워크, 정책 그라디언트를 사용해야합니다 그게이 신문이 된 방법입니다 이제 막대한 양의 논문이 있습니다

실제로 강화 학습을 사용하지 마십시오 또는 특히 정책 기울기 그래서, 하나는 프로 그래 시브 신경 아키텍처 검색이라고합니다 나는 많은 걸 건너 뛸거야 세부 사항은 우리가 시간이 없어 질 것이기 때문에, 직감을주고, 여기서 직관은 "네트워크"를 성장시킬 것입니다

제어기가없고, RL도없고, 하지만 내가 할 일은 나는 작은 세트에서 시작하려고한다 이들은 부모 네트워크 일 수 있습니다 거의 하나 또는 두 개의 레이어처럼 나는 그들을 평가할 것이다 그들 중 어느 쪽이 잘하는지 보아라

나는 어느 것이 잘하는 지에 근거하여 그 다음에 추가 할 수 있습니다 나는 그들을 확장 할 수있다 그래서, 이것은 당신에게 유전자 알고리즘 또는 혁명적 스타일 알고리즘, 그들이 좋은 부모라면, 그 때 잘 한 그들, 그들 자녀들은 유망 할 수도 있습니다 우리는 단지 어떤 아이들이 잘했는지를 볼 것입니다 다음 경우에만 하위 집합을 가져옵니다

차세대를위한 부모의 다음 집합 그런 다음 다시 확장 한 다음 다시 잘라내십시오 모든 유망한 것, 유망한 사람들 만 지키십시오 이러한 단계의 단계와 같은 각 단계에서, 그냥 레이어를 추가하는 것입니다 레이어를 샘플링하고 추가합니다

모든 큰 시간을 기억하십시오 신경 건축술에 간다 특히 안으로 같이 찾으십시오, 좋아, 나는이 모든 것을 네트워크처럼 여기있다 각 점은 특정 네트워크 아키텍처입니다 훈련에는 많은 시간이 필요합니다 그래서, 그들이 말한 것은, 우리는이 "Predictor" 그것은 예측하려고 노력할 것입니다

학부모의 공연과 아이들을 창조하기 위해 추가 된 돌연변이, 그 (것)들을 훈련하지 않으면 성과는 일 수있다 이제 이것은 닭고기와 달걀 문제와 함께 이렇게됩니다 따라서 알고리즘은 매우 유사합니다 이걸 조금 훈련하면, 약간의 데이터 수집, 그것이있을 수있는 또 다른 예측자를 훈련시키다 다른 신경망 또는 작은 신경망, 이러한 것들이 얼마나 잘 수행 될지 예측합니다

우리가 그들에게 한 적은 양의 훈련에 대해서, 그리고 그들이 완전히 훈련받은 다른 네트워크의 과거의 역사는, 최고 K 만 가져 가세요 당신은 그들을 완전히 훈련시키지 않고 커다란 K를 똑딱 거리게됩니다 그게 당신에게 많은 시간을 절약 해줍니다 그것은 매우 간단한 절차이며 NASNet과 비교됩니다 그것은 첫 번째 종이와 이것 저것이었습니다

그렇다면 이것은 진보적 인 NASNet입니다 그들은 잘한다, 그들의 수색 시간은 매우 더 낮다 그것은 아이디어입니다, 나는 너무 많은 숫자에 매달 리지 않을 것입니다 그들은 또한 ImageNet에서 시도했습니다 그들은 ImageNet에서 실제로 검색하지 않습니다

모두가하는 일은, 그들은 CIFAR에서 검색합니다 그들은 훌륭한 건축물을 찾습니다 그런 다음 그들은 단지 추가, 모든 세포를 복제하십시오 그들은 네트워크를 더 크게 만들고, 그런 다음 ImageNet에서 교육합니다 그래서, 그것은 표준 트릭입니다

에 직접 검색 ImageNet은 많은 시간을 필요로합니다 괜찮아 그래서, 나는 3 분 더 기다렸다가 다트를 통과했다 지금까지 제가 가장 좋아하는 종이이기 때문입니다 지금은 [들리지 않음]에서 검토 중입니다

내가 검토 중이라는 이유는 회의가 어떻게 작동하는지 안다면 [들리지 않음] 완전히 공개 된 리뷰입니다 익명화 된 저자는 예외입니다 이것은 정말 멋진 종이입니다 컨트롤러 없음, 중간 성능 없음 당신이 갈라지기 때문에 문제가있는 예측

내가 말할 수있는 한 그것은 그 이전의 모든 것을 능가합니다 그것은 CIFAR-10에서 예술 수준을 달성하며, 그리고뿐만 아니라, 나는 GPU 하루에 Penn Treebank를 생각한다 아주 좋았어 RL 문제가 실제로 도움이되는 것처럼 맹목적으로 문제를 던지지 않는 곳 여기의 속임수는, 나는 계속 이완을 할거야

신중한 최적화 문제 기억하십시오 내 목표는 어떻게 든됩니다 ~의 공간을 통과하다 신경망 아키텍처 및 좋은 하나를 찾으십시오 신경망 아키텍처는 분리되어 있으며, 그들은 서로 유사 할 수도 있고, 하지만 그것은 연속적인 공간이 아닙니다

마찬가지로 이것이 하나의 아키텍처라면, 그 옆에있는 아키텍처는 특정 층 또는 일부 레이어 또는 이것 저것의 특정 매개 변수화, 심지어 "다음"이 의미하는 것을 정의하는 것이 어렵습니다 맞습니까? 마찬가지로 작은 추가 거리를 의미 할 수도 있습니다 여기, 우리가하려고하는 것은 이것이 마치 세포와 같은 것이라고 상상해보십시오 다시 DARTS가 대부분 셀을 수행합니다 나는 내가 말할 수있는 한 그들이 매크로를한다고 생각하지 않는다

나는이 세포 안에서 알아 내려고 노력할 것이다 내 세포에 네 가지 일이 있다면, 나는 먼저하려고 노력할 것이다 이 셀을 연결하는 작업은 무엇이되어야합니다 나는 이것으로부터 샘플링을 가정하지 않을 것이다 가능한 모든 작업이 특정 셀 아키텍처 및 그 (것)들을 훈련해서 그 (것)들을 평가하십시오

나는이 모든 작업이 공존 할 수 있다고 가정 할 것입니다 그래서, 이것은 어머니 세포의 종류입니다 내가 할 일은, 가중치가 있고, 그런 다음이 가중치를 넣으십시오 그게 얼마나 가능성이 높습니까? 3 개는 컨볼 루션 층에 의해 연결되어야하며, 또는 견인층에 의해, 또는 감소 층 또는 무언가에 의해 그럼 나는 알파 하나를 넣을거야

알파 2, 알파 3이 넘었습니다 이것은 나에게 또 다른 그래프를 준다 그래서 그것은 지속적인 이완입니다 그렇지 않으면 내가 가질 수있는 이산 미분 문제의 그런 다음,이 Bi-level Object of Optimization을 실행할 것입니다 나는 좋은 알파를 찾고 싶다

알파의 체중이 아주 좋은지 기억하십시오 이 녹색 선이 더 두꺼운 것을 의미합니다 알파의 무게가 작은 경우, 다음은 아마도 이것이 이 둘 사이를 연결하는 올바른 작동이 아닙니다 그럼 내가 할 일은 먼저 알파에 대한 최적화를 실행하십시오 마찬가지로 무작위로 가중치를 초기화하고, 알파를 통해서만 소품을 돌려라

다른 모든 가중치를 일정하게 유지하면서, 그리고 어느 것이 밖으로 이기기 시작하는지 보아라, 이것은 Alphas를 시각화 한 것입니다 그런 다음 알파 (Alpha)에 대한 최적화를 중단하고, 어떤 사람이 어떤 무게를 가지고 있느냐에 따라, 실제 뉴럴 네트워크 아키텍처 이상으로 최적화 이 알파의 특정 인스턴스에 의해 인정됩니다 그래서 이것은 건축을 제외하고는, 저는 당김으로써 매우 강하게 하나 하나를 연결하려고합니다 아주 조금 Convolution Layer를 말하자 축소 층 (Reduction Layer)이 거의 없습니다

나는 항상 테이블에 모든 가능성을 유지하고있다 그 무게는 어느 쪽이 다른 쪽보다 가능성이 높습니다 이 아키텍처를 감안할 때 실제로 그 안의 매개 변수 값을 최적화하고, 그리고 나서 나는 앞뒤로 갈 것입니다 나는 약간의 알파를 할 것이고 약간의 가중치를 할 것이다 약간의 알파 조금의 무게, 이 Alphas 중 하나가 될 때까지 정말로 중요하게 좋아지기 시작합니다

그런 다음 ArgMax 아키텍처로 사용하려고합니다 그래서 이것에 대한 좋은 점은 별도의 컨트롤러가 없다 정책 그라디언트 일을 통해 훈련하십시오 모든 아키텍처 검색은 다음과 같이 상각됩니다 순방향 및 역방향 전파 동작은 한 번에 모든 아키텍처에 걸쳐 상각되어, 그것은 매우 멋지다

ENAS 트릭과 마찬가지로, 네가 있기 때문에 더 좋았어 가능한 모든 아키텍처를 동시에 유지합니다 그런 다음 끝에, ArgMax를 꺼내는 것뿐입니다 그래서 기본적으로, 이것은 알고리즘이 어떻게 생겼는지, 걱정하지 마세요, 그것은 가중치를 업데이트하고 아래로 내림으로써, 알파를 일정하게 유지하는 것, 가중치를 업데이트하면됩니다 너의 표준 등받이 작전

그런 다음 아키텍처를 업데이트합니다 Alpha의 공간을 내려가는 Alpha, W를 일정하게 유지하고 어느 것이 다시 단지 소품인가? 그러나이 단락에 그런 다음 끝에 한 번 당신이 어느 것을 발견했는지, 당신은 ArgMax 인 것만으로 모든 모서리를 대체합니다, 남아있는 가장 두꺼운 선 보시다시피, 그들은 정말 최고의 결과를 가지고 있습니다 GPU 검색 시간이 불과 4 일 만에 그들은 2

83이됩니다 ENAS는 꽤 비슷합니다 그러나 나는 마지막 숫자가 이것에 더 낫다고 생각한다 ENAS는 여기서 4 일 대신에 05 일을 검색했지만, 그러나 지금까지 나는 생각한다

숫자가 단지 진짜이기 때문에 이것은 가장 좋은 방법입니다, 모든 것이 정말 좋으며 하나의 GPU 만 있으면됩니다 DARTS에는 이미 확장 기능이 있습니다 나는 사람들이 일하기 시작한다는 것을 알고있다 일반적으로 좋은 생각입니다 RL을하지 말고, RL의 번호를보고, 검색 비용은 정말 당신을 걱정 해야하는지, CIFAR의 마지막 숫자는 아닙니다

이것은 6 개월 동안 당신에게 헌정 된 모든 관계자들을 태우고 있습니다 그것은 당신이 찾고있는 종류의 것입니다 CIFAR와 마찬가지로, 아키텍처를 찾는 좋은 방법이 아닙니다 그렇다면 현재의 모든 논문과 같은 많은 열린 문제가 있습니다 CIFAR 10, 100, ImageNet, 비전 또는 하나의 NLP 데이터 세트, RV는 몇 가지 데이터 세트로 수렴되는 전체 분야입니다

그리고 나서 이 부분 공간 해킹은 우리가 좋은 매크로를 가지고 있다고 가정함으로써, 돌아 다니면서 셀 검색을 사용하여 검색 공간을 다루기 쉽도록 만듭니다 그래서, 당신이 올바른 매크로 아키텍처가 무엇인지 모르십니까? 더 이상 마이크로를 할 수 없습니다 여기 우리 그룹의 티저 결과가 있습니다 우리는 실제로 레이어를 추가하여 신경망을 성장시킵니다 우리가이 일을하도록하기 위해 사용하는 많은 트릭이 있습니다

어제 악용 당일에 있었던 사람들을 포함하여, 우리는 많은 exploit trick 알고리즘을 사용합니다 파레토 프런트 (Pareto Front) 어느 정도의 정확성, 당신은 매개 변수 측면에서 낮아질 수 있습니다 음모를 꾸미면 파레토 프론트의 일부가됩니다 그래서 우리는 훈련을하면서 파레토 프론트를 조사했습니다 우리는 우리가 극도의 문제를 제기 할 수 있음을 보여줍니다

우리는 저기있는 매크로입니다 적은 양의 검색, 꽤 좋은 숫자 우리는 다트가하는 것보다 훨씬 더 일반적입니다 DARTS가 마이크로를하고 있습니다 매크로를하고 있습니다

우리는 얻을 수있다 에 비해 좋은 성능 DARTS 및 기타 모든 Google 논문 이들은 티저이며, 우리는 여전히 많은 것을 운영하고 있습니다 실험의, 그러나 그렇습니다, 더 많은 질문에 행복하게, 우리는 초과 근무, 그러나 운 좋게 우리에게는 즉시 수업이 없다 음, 필자는 NAS를 살펴 보았지만, 인간 영역 전문가들의 시대, 엔지니어링과 시행 착오를 많이하는 것처럼, 곧 끝날거야

끝나야합니다 우리가 거기 앉아서는 안되는 것처럼, 좋아, 어쩌면 나는이 레이어를 이것을 대체해야한다 일자리를 내보내고, 이틀 후에 다시 와서 무슨 일이 일어나는지 보아라 특히 우리가 시작할 때 매우 만족스럽지 않습니다 새로운 데이터 세트 및 작업을 위해 어디에서나 신경망을 사용합니다

>> 따라서 매개 변수 공유를 사용하는 메소드, 당신은 그들이 그렇지 않은 사람들과 어떻게 비교되는지 아십니까? 실적면에서 공유를 위해 축소 했습니까? 그들은 실제로 전혀 공유하지 않고 무엇인가를 잃고 있습니까? >> 아니, 바로 그게 놀라운 일이야 그들은 실제로 잃지 않고 더 잘합니다 다트 (DARTS)가 있다면 매개 변수 공유를하는 것으로 가정 할 수 있습니다 모든 네트워크가 NAS에 있기 때문에, 효율적인 NAS는 매개 변수 공유를 수행하고 있으며, 그들은 실제로 더 잘하고 그 시간은 100 x 더 적습니다 어떤 슈퍼 카운터 직관적 인 결과입니다, 그러나 당신이 그들의 결과를 믿는다면, 나는 그들이 그것이 좋은 사람들이라고 믿습니다

>> 가능한 범위는? 위에 공유하고 오버레이하는 것과 같은 다중 아키텍처는 일종의 강화입니다 아키텍처의 일부 신호, 이게 옳은지 더 확신하니? >> 네 매개 변수 값과 같은 특정 종류의 비율 값이 생각할 수있는 한 가지 방법은 이 모든 다른 아키텍처는 동일한 공통 에지에서 규칙 화를 강제합니다 가장자리가 지나치게 맞지 않아요 네가 얻은다면 다른 아키텍쳐로 당신이 그들을 독립적으로 훈련했다면, 그래서 멀티 태스크가있다

정규화 영향이 나타나고 있으며, 그리고이 가중치가 잘해야하기 때문에 그 가장자리를 공유하는 모든 아키텍처에서 그래서, 실제로 도움이 될지도 모르지만, 나는 손으로 훨씬 덜 정규화 할 필요조차 없다 또한 나는 이것이 인상적이라는 인상을주고 싶지 않습니다 모든 마술과 모두가 봐야 할 마술 그냥 DARTS를 구현하면 끝난다 그 숫자를 얻으려면, 도메인 엔지니어링이 많이 진행되고 있습니다 너가 그 컷 아웃과 같은 테이블에서 본다면 너는 그 이유를 알지

이 경로 확대 및 드롭 경로, 이것은 모든 팁과 트릭은 파이썬 노트를 보면서 만 본다면, 찾을거야, 알았어이게 아니야 그냥 맞는대로 간단하고 다시 와서, 당신은 그 수를 얻기 위해이 모든 속임수를 써야합니다 그러나 그것은 마치 연구자들과 같습니다 오, 내 사람들이 너보다 낫다

그 게임에 들어가는 거지? 예 >> 이미 언급 했겠지만, 그러나 그것은 정확히 무엇에 관한 것인가? 너무 빨리 훈련 할 수있는 다트? >> 암시 적으로 그 사실 모든 매개 변수 공유, 그리고 아키텍처에 가중치 그래서, 그들은이 지속적인 이완을 가지고 있습니다 이 이산 검색 공간의 그래서 주어진 서브 그래프와 같이 특정 아키텍처이지만 모두 유지됩니다 그들은 모두 동시에 모두 보관됩니다

이 기차에서 샘플을 가져온 다음 다시 돌아 오는 것이 아닙니다 모두는 동시에 모든 시간을 지켜야하며 이렇게하면됩니다 아키텍처 파라미터에 대한 최소화 최소화, 그리고 그들을 인정하는 네트워크 속도를 통해 매개 변수 네, 그것을 공유하는 것입니다 차가운 느낌, 자유롭게, 나는 같은 회사에있어

나에게 질문 및 기타 등을 이메일로 보내, 슬라이드가 SharePoint에 이미 올라 있다고 생각합니다 슬라이드를 가져올 수 있습니다 그 설문지는 아주 좋습니다 관심이 있다면 열려있는 많은 문제를 해결할 수 있습니다 내가 좋아하는 것이 매우 솔직하다

Advanced Machine Learning Day 3: Neural Program Synthesis

>> 저는 MSR AI의 연구원입니다 나는 주로 프로그램 합성이나 더 일반적으로 다양한 방법으로 기존 기술을 결합하는 방법 좋은 구식 인공 지능에서, 기호 검색, 논리 형성, 프로그램을 분석하는 방법, 그리고 심화 학습, 강화 학습, 신경 기술 및 모든 우리가 요즘 가지고있는 고급 기계 학습

오늘의 강의는 일반적으로 현장의 개요이며, 당신이 할 수있는 방법의 개관 귀하의 제품에 프로그램 합성 (Program Synthesis) 당신이 그것으로부터 혜택을받을 수있는 방법, 그것의 모든 다른 응용, 그것은 일반적으로 그것에 관한 것입니다 시간 중 언제든지 질문 할 수 있습니다 우리는 대략 머무를 예정입니다 높은 수준과 당신에게 많은 포인터를주고, 그래서 관심이 있다면 한 시간 내내 특정 주제, 오프라인에서 따를 수 있으면 언제든지 환영합니다 좋습니다

괜찮아 자, 시작하겠습니다 프로그램 합성은 무엇이며 왜 우리는 프로그램을 생성하기를 원합니까? 프로그래밍은 재미 있고, 왜 자동화 하는가? 글쎄, 1950 년대 인공 지능 초기에, 사람들이 모인 1960 년대 우리가 AI가되기를 원하는 것에 대해 함께 이야기 했습니까? 이 용어는 무엇일까요? 자동으로 코드를 작성하는 것이 문제였습니다 핵심 기능으로 지정 우리는 컴퓨터가 가능하기를 원합니다 그 당시에는, 그것은 기본적으로 1 초를 의미했습니다

바깥 쪽 스위치를 끄 겠어 당신이 필요 이상으로 빨리 가고 싶지 않기 때문입니다 궤도에 그래서 그 당시에, 그것은 기본적으로 우리가 컴퓨터에 줄 것을 의미했습니다 우리가 우리 프로그램이하기를 원하는 것에 대한 어떤 종류의 명세

컴퓨터가 우리에게 정렬 루틴을주기를 원하면, 우리는 정렬 함수가 배열에서 입력을받는 무언가와 다른 배열을 생성한다 그것은 원래 하나의 순열이고, 그러나 그것은 또한 분류됩니다 그 아이디어는, 우리는 이것을 적어두고, 그것을 컴퓨터에주고, 그리고 그것은 우리에게 조각을 되 돌릴 것입니다 그 명세를 만족시키는 코드 당시에 많은 문제 사양이 있었기 때문에, 조금 야심 찬 것 같아

우리는 우리가 할 수있는 지점까지 결코 갈 수 없었습니다 자동으로 웹 브라우저 또는 Cortana 또는 [들리지 않음] 현대적인 프로그램 합성은 여전히 ​​떠남과 그렇지 않은 경우에도 다른 응용 프로그램 웹 브라우저 크기의 응용 프로그램을 제공하십시오 지금은 조금 달라 보입니다 그래서 오늘날의 프로그램 합성에는 크게 세 가지 요소가 있습니다 첫 번째는 여전히 사용자 의도로 시작한다는 것입니다

우리가 지난 몇 년간 발견 한 것은 사람들은 일반적으로 좋아하지 않는다 논리적 완성 사양 쓰기 우리가 원하는 것을 넘어서 처음부터 항상 빠져 나올 수있는 것은 아닙니다 그러나 또한 힘드네 의도를 지정하는 다른 방법이 있습니다 (예 : 당신은 당신이 당신의 프로그램을 원하거나, 자연 언어로, 영어로, 프로그램의 행동을 기술하십시오

한편, 우리에게는 프로그램 공간이 있습니다 그것은 가능한 프로그램의 모든 공간을 당신은 당신의 의도를 만족시키는 것을 선택하기를 원합니다 당신은 그것이 존재하고, 말하며, C #과 같은 범용 프로그래밍 언어의 모든 프로그램 또는 파이썬 또는 더 자주보다, 실제로 도메인 특정 언어를 작성합니다 특정 업무 및 목적을 위해 이 언어로 된 프로그램을 선택하라고 말합니다 이 두 구성 요소는 모두에 대한 입력입니다

목표가있는 검색 알고리즘 실제로 올바른 프로그램을 찾을 수 있습니다 역사적으로 이것은 대개 몇 가지 검색입니다 열거 형 또는 추론 형 논리 검색, 하지만 요즘 우리는 신경망을 사용할 수 있으며 우리가 주된 경우에서 보게 될 것처럼이 일을 공정하게 수행하십시오 이 조합에서 프로그램이 나옵니다 다른 프로젝트가 다른 조합을 선택합니다

이 세 가지 구성 요소 중 우리는 여러 가지 예를 보게 될 것입니다 이 응용 프로그램을 선택하면 여러 응용 프로그램이 있습니다 글쎄, 우리가하고 싶은 말을하자 사용자로부터의 질문 및 생성 그 질문에 대한 해석 명령을 입력 한 다음 쿼리를 충족시키는 방법을 계획하십시오 그래서 대화 형 에이전트에 대한 대화 시스템을 제공합니다

마이크로 소프트가 최근 인수 한 시맨틱 머신즈 (Semantic Machines) 프로그램 합성 기술을 그들의 주요 회화 시스템에서 백 엔드 Excel의 Flash Fill에 익숙한 사용자 몇 사람 좋은 기본적으로 살펴 보겠습니다 플래시 나중에 약간 채우세요,하지만 아이디어는, 스프레드 시트에 많은 양의 데이터가있는 경우 올바른 형식으로 정리하고 표준화하려는 경우, 자신의 정규 표현식을 많이 쓰는 대신에, 당신은 몇 가지 입출력 예제를 줄 수있다

당신이 변환하기를 바라는 것의 문자열 대 문자열 프로그램을 제공합니다 예제에 따라 데이터를 정리합니다 그것은 동일한 패러다임의 또 다른 인스턴스입니다 또는 우리는 모든 방법으로 갈 수 있고 실제로 말할 수 있습니다 범용 코드 생성, 생각하면 IntelliSense 또는 자동 완성과 같은 단 한마디도 아닌 수준에서 토큰이지만 완전한 표현식이 더 많습니다

거기에서 당신의 의도는 현재의 프로그램 프로그램은 모든 표현식을 공백 당신이 프로그래밍하고있는 언어로 그래서 이것으로 일반적인 개요를 마칩니다 다음은 몇 가지 더 많은 응용 프로그램을 집중적으로 살펴보고, 이 특별한 선택은 이 구성 요소와 우리는 여러 가지 방법으로 이 응용 프로그램을 만족시키고 구현하십시오 우리는 전통적인 논리적 인 것에서 시작할 것입니다 그것을 매우 높은 수준으로 가져갑니다

너는 어떻게 가져 가니? 입출력 예제 및 프로그램 검색 그것은 프로그램 합성이라고 불립니다 우리는 이것에 대한 장단점을 다룰 것입니다 그런 다음 추가하는 방법에 대해 더 많은 기계 학습 기술을 믹스와 여러 프로젝트에 대해 이야기 기호 구현을 결합하는 프로그램 합성과 신경 프로그램 질문 있니? 우수한 그럼, 계속 나아가 자 글쎄, 만약 당신이 예제로 프로그래밍에 대해 이야기하고 있다면, 아마 어쩌면 시작하자

그것의 가장 유명한 마이크로 소프트 응용 프로그램, 플래시 채우기 Microsoft Excel의 기능입니다 프로그램 종합의 광범위한 산업 응용 프로그램을 시작했습니다 기본적으로, 당신이 할 수있는 것은 "이봐, 스프레드 시트에 많은 양의 데이터가 있는데 느낌이 들지 않으면 원하는 변환을 작성하는 것과 같습니다 이 자료 전부를 나 혼자서

" 이 경우처럼, 올바른 형식으로 이름을 결합하면, 나는 단지 하나 또는 두 가지 예를 줄 수있다 나는이 변화를 원한다 이 경우 두 번째 행에 주어진 한 예가 충분하고 플래시 필이 올 것이다 뒤를 채우고 나머지를 채운다 당신이 원하는 것이라고 생각하는 템플릿에 따라 귀하의 데이터

뒤에 생성되는 실제 템플릿 이 장면은 다소 비슷하게 보입니다 이 프로그램은 문자열 – 문자열 변환의 특정 언어 그래서,이 경우에, 당신이 합계하기를 원하는 것, 성을 가지고 쉼표를 추가하십시오, 이름 편집, 공백 추가, 다음의 하위 문자열을 추가하십시오 중간 이름은 첫 번째 문자부터 시작한다 마지막 대문자로 끝나는, 모든 것을 점으로 추가하십시오 당신이 그것을 본다면, 실제로 데이터가 두 가지 형식으로 있음을 알 수 있습니다

따라서, 통행료를 완수하기 위해서는, 아마 두 번째 예제를주고 싶을 것입니다 플래시 채우기 (Flash Fill)는 프로그램을 수정하고, 중간 이름의 존재 여부에 따라 그래서, 그것은 만족스러운 프로그램입니다 스프레드 시트의 작업을 구체적으로 설명합니다 이것에 대해주의해야 할 몇 가지 우선, 프로그램은 Excel 수식 언어가 아닙니다

이 프로그램은 C #이 아닙니다 이 프로그램은 BASIC이 아닙니다 이 프로그램은 특정 언어로되어 있습니다 Flash Fill의 디자이너가 순서대로 등장했습니다 그 일의 공간을 충당하기 위해 이 기능, 문자열 – 문자열 변환에 유용합니다

도메인 특정 언어 또는 DSL 예제 작업에 의한 대부분의 프로그래밍에 중요합니다 그것은 당신에게 필요한 전문성을 제공합니다 만드는 일없이 작업 공간을 충당한다 문제가 너무 힘들어 에 무한한 수의 프로그램이 있습니다

범용 언어이고 그에게 희망이 없다 너무 많은 정보가 있기 때문에 올바른 정보를 찾을 수 있습니다 우리가 묘사 한 일반적인 원칙 여기서 Example by Programming 또는 PB라고 부릅니다 이것은 프로그램 합성의 한 가지 맛입니다 우리는 나중에 이야기에서 몇 가지를 더 보게 될 것입니다

그리고 예를 들어 [들리지 않음] 플래시 채우기가 시작되었습니다 믹스가 널리 널리 알려지게되었습니다 당신은 똑같은 원리를 취하고 그것을 구현할 수 있습니다 웹 페이지에서 데이터를 선택하거나, 테이블을 변환하거나, 자동으로 연결, 데이터 변환 하나의 JSON 스키마에서 다른 JSON 스키마로, 구문 패턴을 기반으로 데이터를 클러스터링합니다 같은 형식의 여러 가지가 많고 많습니다

PB는 훌륭하게 작동하지만 작동하게하려면, 몇 가지 문제를 극복해야합니다 그래서, 당신은 이미이 예제에서 그들이 무엇인지 알 수 있습니다 예를 들어, 1 위 규칙, 누군가 당신에게 예제를 주었다면, 당신은 그들을 만족시켜야합니다 그것이 사용자가 기대하는 것입니다 바로 다음 슬라이드에서, 우리는 실제로 그것이 어떻게 일어나는지를 볼 것입니다

둘째, 예제는 훌륭합니다 그러나 하나의 예제가 실제로 반드시 제약 할 필요는 없다 당신 문제는 충분하다 첫 번째 예에서 모든 것을 만족시킵니다 일부는 모호합니다

심지어 그러한 경우에도, 우리는 올바른 것을 얻으려면 두 가지가 필요했습니다 이상적으로, 우리는 의도 된 프로그램을 배우고 싶습니다 예제를 만족시키는 것뿐만 아니라, 우리는 사용자의 마음을 읽을 수 없으며, 그래서 우리는 여기서 더 똑똑한 것을 할 필요가 있습니다 우리가 의도 한 프로그램을 얻을 수 있다고하더라도, 우리가 어떻게 그 사실을 확실히 알 수 있습니까? 사용자가 예제를 계속 제공 할 수 있기 때문에? 멈추고 말할 때를 어떻게 알 수 있습니까? 이것은 분명히 같은 프로그램입니다 당신의 모범은 실제로 어떤 것도 변화시키지 않습니까? 이제 내가 보여준 과정 이전 슬라이드에서 대화 형, 그것은 사용자와 앞뒤로 의사 소통합니다

실시간으로 발생하기 때문에, 당신은 그것의 모든 반복이 매우 빠르길 원합니다 DSL 디자인은 약간의 예술입니다 과제 공간을 충분히 표현할 수 있어야하지만 여전히 간결하게 프로그램 합성은 몇 초 안에 완료됩니다 예를 들어 Flash Fill의 경우, 이것은 발췌입니다 그것은 완전한 DSL이 아니며, 하지만 기본적으로 계층 적으로 작동합니다

말하자면, 프로그램은 단일 조각 또는 여러 조각의 연결 단일 조각은 상수 문자열 또는 2 개의 위치에 근거하는 입력의 1 개 (살)의 부분 캐릭터 라인 이들 각각의 위치는 인덱스에 기초한 문자열의 절대 위치 또는 정규 표현식 기반 문자열의 위치 그것을 둘러싼 정규 표현식 쌍을 기반으로합니다 당신은 이것들을 디자인 할 수 있습니다, 그런 식으로 점점 더 많은 사업자를 붙잡아 라 근본적으로 당신의 상상력 일뿐입니다

그것은 당신이 글자 그대로 쓰는 것입니다, 문맥이없는 작은 언어의 문법, 네가 그것을 만든다면 충분한 것을 표현할만큼 표현력이 있어야 충분합니다 지금까지 질문이 있습니까? 예 >> 모순되는 사례로 무엇을합니까? >>이 설정에서는 예제가 황금색, 사용자가 오타 또는 무엇인가를 만든 경우, 그러면 당신은 그냥 빈 세트에서 벗어날 것입니다 그러나 실제로 할 수있는 일 실제로, 그것은 불만족 스럽기 때문에, 두 가지 예에서 프로그램 집합을 합성하는 것입니다 혼자서 한 가지 예를 든다면, 나머지는 가능할 수 있습니까? 사실 일관성있는 프로그램을 제공합니다

그러면 사용자에게 가리키고 말할 수있는 메커니즘이 제공됩니다 당신은 이것에 오류를 만들었습니다 다른 무엇보다도 일관성이 없습니다 >> 서면으로 작성해야합니까? 실제 프로그래밍 언어에 대한 발견? >> 네 따라서 각각에 대한 구현이 필요합니다

이 연산자를 사용하면이 프로그램을 실행할 수 있습니다 이 경우, 여러분은 이것이 Csharp의 몇 줄과 같다고 상상해보십시오 그렇다면 실제로 어떻게 올바른 프로그램을 찾으십니까? 당신은 문법을 가지고 있습니다 이제 우리는 이러한 예제를 확실히 만족시키는 프로그램을 원합니다 원칙을 한 슬라이드에서 설명하려고합니다

나중에 조금 더 복잡하게 만들 것입니다 예를 들어 Flash Fill을 실행 예제로 사용합시다 우리는 의도의 일부 명세로 시작합니다 예를 들어, 우리는 이러한 입출력 예를 몇 가지 가지고 있습니다 이 문자열을 번역하기를 원합니다

그 끈과이 끈 하나에 검색하는 모든 시점에서 다음을 수행합니다 따라서 검색은 문법 전체에서 맨 아래로 진행됩니다 이전 슬라이드에서 보여주었습니다 그래서, 당신은 건물에있을 것입니다

귀하의 프로그램은 추상 구문 트리의 순서대로 전에 AST라는 용어를 보지 않았다면, 그것은 기본적으로 저는 이전 슬라이드에서 보여준 프로그램입니다 그래서, 우리가 여기에 몇 조각의 일부 연결이 필요합니다 이들 중 일부는 상수이고, 이들 중 일부는 하위 문자열입니다 물론, 우리가 검색을하는 동안, 우리는 아직 그것을 모른다

그래서, 모든 시점에서, 우리는 부분적인 프로그램을 가지고 있습니다 예를 들어, 검색 중이 순간에, 우린 이미 어떻게 든 결정 했어 알았어 프로그램의 왼쪽 부분은 상수 "To"콜론 공간이어야하며, 그러나 우리는 옳은 부분이 무엇이어야하는지 아직 모른다 그래서, 이것은 구멍으로 시작합니다

이것은 부분 프로그램의 일부 구멍입니다 처음에는 루트에 불과합니다 이전 프로그램에서, 우리는 이것들이이 구멍이라는 것을 알고 있습니다 나머지를 위해 순서대로 만족해야한다 그것을 원래의 것을 만족시키는 것

다시 말하지만 처음에는 이것이 우리에게 주어지는 원래의 예제 일뿐입니다 원리를 재귀 적으로 설명하여 적용 할 것입니다 상단의 구멍과 아래의 모든 구멍 우리가하고 싶은 것은 다음과 같습니다 첫째, 문법을보고 말하기

가능한 운영자가이 시점에 나타날 수 있습니까? 예를 들어, 우리는 여기에서 그것을 결정했다 우리는 또 다른 연결을 원한다 다른 옵션이 있습니다 이제 두 개의 구멍이있는 프로그램이 있습니다 concat의 왼쪽 부분과 concat의 오른쪽 부분

다시 말하지만, 어떤 프로그램이 거기에 나타나야하는지 아직 알지 못합니다 그러나 그들이 무엇이든, 이들 예에 기초하여, 왼쪽 하나는 순서대로 A와 B를 출력해야합니다 전체 프로그램이 만족할 수 있도록 구멍과 오른쪽 구멍은 L과 O를 출력해야합니다 우리가 한 것은 예제를 전파 한 것입니다 프로그램 내내 맨 아래로, 당신은이 규칙을 쓰는 것을 상상할 수 있습니다

몇 줄의 코드 이 규칙은 기본적으로 다음과 같습니다 내가 준 출력 예제를 보라 나는이 시점에서 프로그램 운영자가 concat임을 안다 이제, 구성 요소에 대한 명세는, 출력 문자열을 알려진 가능한 위치로 나눕니다

이러한 분할 중 일부는 우리에게 올바른 프로그램을 제공해야합니다 이 경우, 빈 문자열을 무시하면 단 하나의 분할 만 존재합니다 그러나 여러 가지가있을 수 있습니다 그래서, 이렇게 보입니다 본질적으로, 몇 개의 빛

예? >> 프로그램이 빈 문자열을 줄 수 있습니까? >> 본질적으로 검색 속도를 높이십시오 실제로이 도메인의 경우, 거의 절대 그렇지 않다 올바른 프로그램은 실제로 우리에게 빈 문자열을줍니다 특정 사용자 작업의 경우 인 것으로 밝혀진 경우, 당신은 언제나 돌아가서 재 합성 할 수 있습니다 이 과정은 이제 계속됩니다

모든 구멍이 끝날 때까지 줄기가 끝날 때까지, 당신이 전체 프로그램을 얻을 때까지 그래서, 무엇에서 벗어나 죠? 첫째, 그것은 건설에 의해 정확합니다 전파 절차가 유효하고 건전한 경우, 당신은 당신이 나간 프로그램 적어도 그것들을 만족시켜야한다 당신이 만족하고 싶지 않다면 예제는 실제로 이상적으로 선호되지만, 살펴볼 순위 함수를 통합하고자합니다 프로그램을 통해 당신에게 몇 가지 점수를줍니다

이 프로그램은 일반화 될 가능성이 높습니다 이 순위 지정 기능을 기계 학습 할 수 있습니다 슬라이드에는 몇 가지 포인터가 있습니다 순위 지정 기능이있는 경우, 당신은 전체 탐색 과정에서 그것을 전파 할 수 있습니다 실제로 최고의 핵심 프로그램을 배우고 단 하나의 좋은 프로그램 만 배우는 것은 아닙니다

마지막으로,이 원칙이 적용됩니다 많은 다른 사업자와 도메인에 이르기까지 방금 문자열 변형에 대해 보여주었습니다 그러나 모든 데이터 변환에 대해 동일하게 상상할 수 있습니다 웹 페이지, 당신은 그것을 지명한다 필요한 것은 예제를 전파하는 방법뿐입니다

본질적으로 심지어 대략 오퍼레이터, 많은 경우에있어서, 효율적으로 쓸 수 있습니다 예 >> 그것은 지수 적 복합체처럼 보입니다 >> 네 우리는 그것을 조금만 커버 할 것입니다

괜찮아 이 원칙을 적용 하시겠습니까? 우리는 당신이 도메인 특정 언어를 적어 둘 수 있습니다 이러한 전파 규칙을 적어 두십시오 그들은 정말 짧고 단순합니다 그리고 그것은 당신에게 합성기를 침을 뱉을 것입니다, 그래서 당신은 스스로 플래시의 복사본을 만들 수 있습니다

몇 시간 또는 며칠 만에 채우십시오 그것은 12 개의 다른 장소에 적용되었습니다 다양한 영역에서 회사 내부 및 외부 이러한 도메인 중 상당수는 이미 프레임 워크에 통합되어 있으며, 그래서 필요한 모든 것이 예제 데이터에 불과하면 그 중 하나는 상자에서 꺼내 사용할 수 있습니다 하지만 그렇지 않으면, 기본적으로 어떤 일이 발생하는지는 모든 합성 전략을 가진 프레임 워크 연역적 서지와 언어의 정의를주고 특정 신디사이저를 생성합니다 이러한 도메인 특정 언어에 맞춰 조정됩니다

그 중에서도 이제 빌드 할 수 있습니다 앱 및 서비스 및 UI 경험, 실행 시간이 예제를 입력하고 사용자를 위해 프로그램을 뱉어 내십시오 괜찮아 나는 돌아 가지 않을거야 산문 그래서 만약 당신이 시점에서 질문이 있으시면, 너는 언제든지 물어볼 것이다

>> 오픈 소스? >> 오픈 소스가 아닙니다 아직 오픈 소스가 아닌 회사 내부의 오픈 소스 예 그래, 지금 당연한 질문이 들었다 그것은 훌륭한 검색 절차지만 많은 검색 절차, 그것은 작은 결점이 있습니다

천천히, 기하 급수적으로 느리게, 모든 지점에서 당신이 될 것이기 때문에 당신의 사양을 가능한 경우로 나눠서 당신이 그것을 어떻게 만족시킬 수 있으며 매우 빠르게 성장할 수 있습니다 그럼, 우리는 이것에 대해 무엇을해야합니까? 프로그램에 대한 현대적인 접근 방식을 제시합니다 서로 다른 두 세계의 힘을 결합한 합성 통계 및 기호 연역적 검색을 먼저 빠르게 만드는 것에 대해 이야기 해 봅시다

연역적 검색이란 무엇입니까? 전체 검색 공간이 있습니다 다른 지점이 많이 있습니다 일부 지점이 확실히 덩크 할 수는 없다 예제를 만족시키고, 적절한 프로그램을 찾으려고 그들을 탐험하게 될 것입니다 글쎄, 그렇다고 꼭 그런 것은 아닙니다

그래서, 당신이 어떤 개별적인 문제를 보았다면, 너는 인간으로서 너를 즉시 볼 수있다 이론적으로 실용적인 경우에도 이러한 분기는 실행 불가능합니다 그래서, 여기에있을 수는 없습니다 이 사양을 만족하는 하위 문자열 프로그램 만 여기에 결장이있어 입력 할 콜론이 없습니다

이것은 단일 하위 문자열 추출을 만족할 수 없습니다 적어도 무언가를 연결해야합니다 그래서, 당신이 이것을 안다면, 왜 우리가 이것을 할 수있는 신경 네트워크를 가르 칠 수 없습니까? 이를 수행하는 데는 두 가지 접근 방식이 있습니다 하나는 더 얕고 다른 하나는 더 깊이 얕은 하나는 구현하고 훈련하기가 매우 쉽습니다

DeepCoder라고합니다 당신이 종이를 보길 원한다면 원리는 간단합니다 우리는 우리의 예제를 제공하고 우리에게 줄 신경 네트워크에 그들을 공급 에있는 통신 수에 대한 분포 믿음이 나타나는 언어 만족하는 프로그램 이 예제들과 일단 우리가이 분포를 가지면, 우리는 가장 가능성이 적은 부분을 볼 수 있습니다 우리가 방금 그들을 제거하는 방법에 대해 배포 및 말 검색에서, 네트워크 신념 이러한 경로는 예제를 만족시킬 수 없으며 본질적으로 그것입니다 이것을 훈련시키고 싶다면, 당신이 필요로하는 유일한 것은 임의의 작업과 프로그램도 너무 자주 그리고 각 프로그램에서 너에게 충분 해

연산자 세트를 추출하여 이 네트워크가 존재한다고 말하면이 네트워크는 존재하지 않습니다 자, 이것은 이미 꽤 잘리고 잘 작동합니다 그러나 당신은이 과정을 알 수 있습니다 검색 공간을 시작하기 전에 만 실행됩니다 그러나 검색 연속 재귀 적으로 전체 트리에 걸쳐

우리가 사용하지 않는 것 같아 기회는 우리가 할 수있는만큼 자주 당신이 시작 단계가 아닌 모든 단계에서 그렇게한다면, 너는 우리가 부르는 무엇인가에 도착한다 신경 유도 연역 검색 기본적으로,이 방법의 모든 단계에서 우리가 갈 검색 부분 검색 상태를 이어 받아 피드 그것을보고 재주문 할 네트워크에 통신 수 및 저희에게주십시오 다음 단계에서 분기를 통해 다른 분포

이제, 당신은 그것을 차단할 수 있습니다 검색의 또 다른 부분이며 매 단계마다 그것을해라 당신이 올바른 프로그램에 도착할 때까지의 길 괜찮아 자, 실제로 기술적으로 어떻게 보이나요? 당신이하고 싶은 것은 다음과 같습니다

그래서, 첫 번째로하고 싶습니다 중간 검색 결과의 완전한 데이터 세트를 작성하십시오 없이 프로그램 합성을 실행하십시오 어떤 신경 네트워크 또는 어떤지도없이 모든 지수 공간을 탐색하자

이전 결과를 수집하고 이 검색 지점에서 우리가 K 연산자와 우리 사이의 선택 입력 및 출력 예제의 이러한 스펙을 가지고 있었고, 우리는 우리에게 준 모든 K 가지를 살펴 보았습니다 K 최고 수준의 프로그램 및 우리가 가진 순위 함수 H에 따라 이용 가능한 프로그램 P1에는 그 점수가 있었고, 프로그램 K는 그 점수를 받았다 우리가 원하는 것은 선택하는 것입니다 프로그램의 점수를 최대화 할 지사 그것이 그 점수입니다

이 프로그램은 일반화되고 의도 된 것입니다 그래서, 우리는 배울 것입니다 입력으로 취할 수있는 예측 모델 이 상태의 지점 ID와이 점수가 얼마나 좋은지를 대략적으로 나타냅니다 명확히하기 위해 지사를 선택하는 것만은 아닙니다 이 점수를 사용하고 싶습니다

점수가 일정하지 않기 때문에, 그들은 실제로 의미가 있습니다 이 범위의 점수는이 프로그램이 그 가능성이 높으며 그 범위의 점수는 그럴 것 같지만 그리 많지는 않다는 것을 말하십시오 따라서 점수를 최적화하고 싶습니다 이 과정에서 제곱 오차 목적을 사용하여 훈련하십시오 실제로 사용하는 모델 아키텍처는 작업에 따라 다릅니다

예를 들어, 문자열에 대해서는 말할 것입니다 "나는 나의 입력 예를 가지고있다 내 출력 예제가 있습니다 한 번에 한 문자 씩 그들을 임베드 할 것입니다 가시 STM 4 입력 및 생산물 ID별로, 나는 그것을 먹을거야

나에게 프로그램 점수를내는 다중 레이어 퍼셉트론 "이라고 말했다 이 파이프 라인은 각 프로덕션마다 독립적으로 실행할 수 있습니다 각 연산자 및 다음 몇 가지 최상위 순위의 것들을 선택하십시오 이 과정을 통해 몇몇 [들리지 않음]이 있습니다 좋은 부분은 잘 구현된다면, 그것은 수색을 더 높은 품질의 프로그램과 비생산적인 가지를 제거합니다

그들은 목표에 이르지 못합니다 단점과주의해야 할 사항, 만일 당신이 나무 전체의 어떤 지점에서 잘못 선택한다면, 당신은 지회를 제거하려고합니다 올바른 프로그램을 마치면 끝납니다 그래서, 만약 당신이 그것을 원하지 않는다면, 너는 항상 고르고 싶지 않아 이 모델이 예측 한 최상의 분기

당신은 그 중 몇 개를 고르고 싶습니다 이상적으로는 별과 같은 가지와 가지를 구현합니다 탐구하기 위해 검색 프로세스의 최전선 인 맹목적으로 최선의 예측을 선택합니다 괜찮아 그래서, 그 첫 번째 접근 방식은 스토리지와 신경계를 결합합니다

끝까지 가면 새의 눈으로 볼 때 하늘을 보아라 근본적으로 일어난 것은 우리가 완전히 논리적 인 절차를 가졌지 만, 상징적 인 검색 과정을 발견했습니다 신경 네트워크를 사용하여 그것을 안내하는 방법 음, 명백한 질문은 : 왜하지 않는가? 당신은 처음에 신경망을 배우고 배우려고합니까? 어떤 경우에는 작품이 작동하지 않는 것으로 밝혀졌습니다 우리는 어떻게해야하는지 몇 가지 예를 보게 될 것입니다

당신은 신경 네트워크의 올바른 아키텍처를 설계합니다 만약 당신이 전체 프로그램 합성 문제를 풀고 싶다면 신경망을 사용하는 것에 대한 명백한 단점은, 설명을 전달할 수 없다 프로그램에 참여한 모든 운영자의 100 % 보장 할 수는 없습니다 그 프로그램은 그 프로그램에 의해 신경망이 갈 것이라고 방출은보기를 만족시키기 위하여려고하고있다, 그리고 예제를 만족시키는 것을 잊어 버리고, 컴파일 할 것입니다

원하는 경우 그 신경 네트워크는 검색 프로세스의 핵심에 있어야하고, 상징적 인 프로세스를 사용하여이를 안내 할 방법이 필요합니다 네트워크를 알려주는 구성 요소가 있어야합니다 이것이 당신이하는 방법입니다 프로그램이 컴파일되고 그 (것)들을 예제를 만족시키는 방법입니다 이제 다른 몇 가지 도메인에서이를 수행하는 방법을 살펴 보겠습니다

이것이 가장 잘 묘사 될 수있는 설정, 우리 마음의 많은 사람들에게 사랑하는 분이 십니다 SQL 쿼리를 작성합니다 오랫동안 꿈꿔 왔던 에 대한 프로그램 합성 커뮤니티 오랜 시간이 걸릴 수있는 뭔가가 질문을하다 주어진 테이블과 침을 뱉다 실제로이 질문에 해당하는 SQL 프로그램, 그래서 당신 스스로 그것을 쓸 필요가 없습니다 우리가 가지고있는 것으로 밝혀졌습니다 당신이 그것을 사용한다면, 일종의 기계 번역 문제로 표준 인코더 디코더 주목 포인터, 그래서 STM은 입력으로 받아들입니다

하나의 시퀀스와 다른 시퀀스를 출력합니다 그 중 몇 가지가 있습니다 이 아키텍처는 이미 옳다 예를 들어, 그것은 당신에게 말할 수 있습니다, 좋아요, 단어의 삽입에 따라, 이것은 자회사의 가치가있다 시간 속성 및이 열 이름 또한 시간 속성에 관한 것입니다

아마도 이번 달은 올해와 일치해야합니다 나는 너에게 말할 수있다 이 열은 숫자를 포함하므로 서문과 여기에 마지막으로 한 마디가 있습니다 그래서 종종 마지막에 해당합니다 이 경우에는 max 데이터베이스를 기반으로합니다

이 상수가에 나타납니다 테이블 그래서 그것은 또한 프로그램에서 아마 나타나야한다, 그것이 질문에도 나타난다면 이 것은 통계적으로 꽤 안정적으로 발견 될 수 있습니다 세부 사항이 필요하면, 예를 들어이 논문을 찾아 볼 수 있습니다 따라서 구체적으로 구현하는 방법 이 경우 시퀀스 – 시퀀스 아키텍처 당신이 STM을 모른다는 것입니다

스키마, 열 이름을 인코딩합니다 질문을 인코딩 한 STM이 있습니다 모든 지점에서 디코더 LSTM은 세 가지 중 하나를 출력 할 수 있습니다 열 이름을 출력하거나, 당신이 실제로하고 싶은 것은 우리가 살펴볼 사본과 메커니즘 열 이름의 모든 토큰 그들 모두를 개인 배포하고 가장 좋은 것을 고르십시오 아니면 그냥 상수 토큰을 출력 할 수도 있습니다

이 경우, 당신은 단지 softmax 분포를 가지고 있습니다 문법에 나타날 수있는 모든 상수, 등호 (equal sign) 또는 운영자 (operator max) 또는 그와 같은 것 또는 특정 값을 원한다면, 그건 또 다른 복사본과 메커니즘입니다 질문의 낱말에 배급을보고, 스키마의 단어 대신 자, 만약 당신이 그것을 구현, 당신은 그것이 어느 정도는 작동한다는 것을 알게 될 것입니다, 비 유적으로 말하는 방식의 80 %를 얻는 것처럼

그러나 언급 한 바와 같이 실제로 생성하는 프로그램이 정확합니다 자,이 경우, 우리는 예제가 아닌 명세로서 자연어를 사용합니다 그래서, 말할 길이 없습니다 "프로그램을보고 프로그램이 건설을 통해 사양을 만족 시켰는가 " 그러나 적어도 우리는 유효한 SQL이고 올바르지 않을 가능성이있는 프로그램을 생성하고, 컴파일 및 실행, 우리는 신경망이 프로그램을 만들 가능성이 높습니다

에서와 같이 언어로 표현 된 의도를 충족시킵니다 이 보증이 거기에 존재하기를 원한다면, 신경 네트워크 위에 무엇을 추가하고 싶습니까? 실행 지침이라고 부르는 것입니다 실행 지침은 많은 HOC 필터링 기준 세대가 신경 회로망의 유효 기간은 유효한 프로그램입니다 구체적으로 무엇을 의미합니까? 자,이 예제를 보겠습니다 스키마가 있습니다

우리에게는 질문이 있습니다 우리는 모든 것을 처리하는 신경망을 가지고 있습니다 한 번에 하나의 토큰이 우리에게 SQL 쿼리를 출력합니다 그러나 실제로, 이미 알고있는 것처럼 표준 아키텍처를 기반으로 HFML과 기계 번역 및 기타 등등, 일반적으로 단일 예측을 출력하지 않습니다 빔 검색 (beam search)과 모든 단계에서 여러 예측을 출력 할 수 있습니다

시간이 지남에 따라 이러한 해독과 생성, 당신은 말할 것입니다, "이 시점에서 상위 50 개의 예측을 제공하십시오 그들의 확률은 지금까지 생성 한 접두어 그런 다음 상위 50 위권을 제외하고 모두 제거하려고합니다 다음 시간 단계로 이동하십시오 또한 최고 예측 등을 요구하십시오

" 너비가 50이 아니라 하나 인 경우, 욕심 많은 단일 토큰 생성 사실은 꽤 허약합니다 왜냐하면 다시, 생성 중에 단일 토큰이 잘못되어 다른 어떤 것보다 낮은 확률, 당신은 올바른 프로그램을 재구성하지 않을 것이며, 이것이 사람들이 빔 서치 (Beam Search)와 같은 것을 구현하는 이유입니다 빔 서치가 우리에게주는 또 다른 사실은, 예? 질문 있니? 괜찮아 빔 서치가 우리에게주는 또 다른 사실은, 이 부분적인 프로그램을 보는 방법입니다 낮은 확률의 것들을 제거 할뿐만 아니라, 좋은 일은 없을 것입니다

그래서 구체적으로 여기서 몇 가지 사례를 살펴 보겠습니다 괜찮아 합계가 있고 CT가 있습니다 구문 오류입니다 CT를 합산하는 법을 모르겠습니다

이 전체 프로그램을 갖고 있다면, 너는 그것에 줄 수 있었다 SQL 컴파일러는 컴파일 할 수 없다고 알려줍니다 그러나이 단계에서도, 당신은 이미 부분적인 프로그램을 볼 수 있습니다, 컴파일러에주고 그것을 알려줍니다 우리는 이미 구문 오류입니다 그래서 빔에서 제거 할 수도 있습니다

여기와 같아 이것은 구문 오류가 아닙니다 이것은 기술적으로 유효한 SQL이지만 실행하려고하면, 이미 빈 세트를 줄 것입니다 예를 들어, SQL dialect가 ORS를 허용하지 않으면, 그때 너는 끈질 기게 더욱 더 많은 조항들이 이 프로그램은 출력을 더 비게 만 만들 것입니다 대부분의 경우, 질문은 실제로 답할 수 있습니다

그래서 당신은하지 않기로 결정할 수도 있습니다 출력이 비어있는 것으로 보증 된 프로그램을 출력하십시오 답할 수있는 질문을 허용하려면, 괜찮아요, 그냥 포함시키지 마세요 그 특별한 필터링 기준 그래서 SQL은 실제로 어떤 언어 든 문법을 가지고 있습니다

어느 시점에서든, 당신이 프로그램을 생성 할 때, 마지막 토큰을보고 "Okay, 내 문법에 따라, 도달 토큰이 원칙적으로 다음 위치에 나타날 수 있음을 알고 있습니다 " 방금 '어디서'를 생성했는지, 그 다음 것은 열 이름이어야합니다 다른 연산자 나 다른 어떤 것도 될 수 없습니다 실제로, 그것은 당신이 물건을 생성 할 때, 당신은이 분석을하고 싶습니다 다음 위치에 올 수있는 일련의 토큰을 제시하고, 다른 모든 것들은 출력 어휘에서 제외됩니다

그들에게 빼기 가면을주십시오 무한대로 설정하여 네트워크에서 선택하지 못하게 할 수 있습니다 그게 당신에게 아주 간단한 방법을 강요합니다 프로그램을 시공으로 컴파일하기 이 기술은 실제로 훈련에 통합 할 수 있습니다

추론에만 국한되지 않고, 그래서 당신이 네트워크를 훈련 할 때마다, 모든 시점에서, 유효한 토큰 중 하나만 선택하면됩니다 문법에서 가능한 모든 것들은 아닙니다 프로그래밍 언어로 작동합니다 프로그래밍 언어는 문법을 많이 사용합니다 자연 언어라면 그렇게하기가 조금 더 어렵습니다

괜찮아 질문이 있으십니까? 또 다른 좋은 방법은 프로그래밍 언어 세계에서 통찰력을 사용하고, 나는 같은 문제에 대해 이것을 설명하려고한다 언어를 사용하고 SQL 또는 SQL과 같은 것을 출력하는 것 우리는 스케치 생성에 대해 이야기 할 것입니다 그래서, 직관적으로, 당신이 인간으로서 프로그램을 작성할 때, 당신은 보통 그것을 항상 쓰지 않는다

내가 지금 설명했던 것처럼 끝에서 끝까지 당신은 당신의 컴퓨터에 앉아서 "Okay"라고 말하지 않는다 나는 정말로 열심히 생각했다 이것이 올바른 프로그램입니다 나는 그것을 쓸거야, 말단과 이야기하기 시작한다

그리고 첫 번째 시도에서 올바른 것 "입니다 내 말은, 가끔 이런 일이 일어난다는거야 그러나 우리가 원하는만큼 빈번하지는 않습니다 대부분의 경우 어떻게됩니까? 당신이 단계적으로 그렇게하는 것입니다 당신은 목표 프로그램의 골격을 쓰고, 그리고 그 구멍을 채우십시오

경우에 따라 돌아가서 반복합니다 그 뼈대와 아마도 맞을지도 이전에 쓴 몇 가지 부분과 다음 구멍을 채우는 등등 따라서, 프로그램 합성을위한 신경 네트워크 아키텍처가 있습니다 그 과정을 모방하고 노력한다

인간 프로그래머들이 어떻게 작동하는지에 가깝게 만들기 위해서, 놀라 울 정도로 효과적입니다 가장 간단한 방법은, 세대를 두 단계로 분리하는 것입니다 무엇이 스케치 된 생성 및 프로그램 생성이라고 불렀습니다 스케치는 구멍이있는 프로그램입니다 이것은 프로그램이 다음과 같이 보일 것입니다

템플레이트 그러나 어떤 특정한 leafs없이, 상수, 분할 된 프로그램으로 만들 변수 여기에서와 같이, 이것이 생성하고 싶은 표현이면, 이것은 모든 항공편을 선택하는 함수입니다 출발 시간이 미안해 미안해 그것은 비행이고 본질적으로 그것입니다 따라서 모든 상수를 제거하십시오

이 프로세스의 변수를 사용하면 템플릿을 얻을 수 있습니다 템플릿은 선택하는 함수입니다 출발 시간이 무언가보다 적은 모든 항공편 따라서 프로그램 생성을 두 단계로 나눕니다 첫 번째 LSTM은 이 스케치와 두 번째 LSTM, 우리는 그것을 스케치에서 조절하고 침을 뱉을 것이다

그 스케치를 채울 구체적인 방법 이를 구현하는 몇 가지 다른 방법이 있습니다 여기서 가장 간단한 것은 LSTM이 두 개있는 것입니다 하나는 스케치의 토큰을 넣을 수 있습니다 그것이 프로그램의 토큰을 넣을 수있는 곳입니다

대상 프로그램이 실제로이 스케치에 나타나는 경우, 그것은 이전의 것에서 그것을 복사 할 것이고, 그렇지 않다면, 새로운 것을 생성합니다 그래서, SQL을위한 것이 아니라, 이 아이디어는 기본적으로 거의 모든 프로그램 생성 프로세스가 길다 너와 함께 할 수 있듯이 무엇이 스케치를 구성하는지에 대한 특별한 정의 괜찮아 이 시점에서 질문이 있습니까? 우리는 당신의 상징적 인 것에서부터, 우리는 발표의 마지막 부분에 다가 가고 있습니다

질문 없습니다 우수한 그럼, 얘기하자 신경 프로그램 합성에 관한 우리가 검색을 사용할 수없는 경우 자, 여러분 중 일부는, 음, 왜 우리는이 모든 방법으로오고, 기계 번역에서의 방법론 프로그램 생성에 적용하려고합니다

내 말은, 거기에는 몇 가지 유사점이 있습니다 그러나 정확하게 동일한 작업이 아닙니다 그리고 당신 말이 맞습니다 그래서 그것은 관점이었습니다 처음에는 기계 학습 커뮤니티의 말하자면, "프로그램은 단지 단어의 순서 일뿐입니다

우리는 일련의 단어들을 다루는 방법을 안다 같은 아이디어를 적용 해 봅시다 " 그것은 작동하지만 몇 가지 문제가 있습니다 프로그램은 자연 언어와 매우 다릅니다 그들은 키워드, 의미론을 가지고있다

우리는 그것이 잘 정의되어 있다는 것을 알고 있습니다 실행 가능하지만 그것은 신경망에 알려져 있지 않습니다 프로그램은 자연 언어 문장보다 훨씬 더 스파 스합니다 봐, 많이 프로그램의 식별자는 거의 사용되지 않습니다 누군가 그 (것)들과 함께 나왔다

소스 코드에서 몇 번이나 사용됩니다 분포는 매우 긴 꼬리가 있습니다 자연어 배포에는 긴 꼬리가 있습니다 하지만 긴밀한조차도 마찬가지입니다 실제로, 신경망이 보이지 않는다면 특정 식별자를 사용하는 충분한 예, 그것은 그것으로 무엇을 해야할지 모른다

프로그램의 거리 의존성이 훨씬 큽니다 봐, 우린 아마 얘기 했어 장거리 의존성 문제 및 자연어 LSTM이 발명되었고 다른 기술들, 자연 언어 문장에서 장거리는 무엇을 의미합니까? 20 단어처럼 프로그램의 장거리는이 파일이 어딘가에 있음을 의미합니다 다른 하위 디렉토리는 아마도 지금 쯤 잊어 버렸지만 갑자기 그걸로 함수를 호출합니다

그래서 사람들이 많이 깨달았을 때, 낱말의 연속에서 낱말의 나무에 졸업하는 것을 시도하고 순서대로 AST 전체를 처리하려고 시도했습니다 그들이 생성하는 프로그램에 구조를주고, 하지만 그것도 사용하지 않습니다 모든 알려진 풍부한 정보 프로그램의 소스 코드에서 사용할 수 있습니다 따라서 현재의 접근 방식은 프로그램을 그래프로 인코딩합니다 이것은 두 세계의 장점을 가져다주는 것입니다

그래프 란 무엇을 의미합니까? 그래서, 구체적으로, 우리는 우리 프로그램의 특정 위치에 해당하는 노드가 있어야합니다 및에 해당하는 가장자리 구문 론적 관계뿐만 아니라 의미 론적 프로그램의 변수와 사용 방법이 다릅니다 그걸 보여줄거야 몇 가지 슬라이드에 많은 세부 사항이 있으므로 걱정하지 마십시오 이 접근법에 대한 좋은 점은 정적 분석 알고리즘을 실행할 수 있으며, 존재하는 것과 같다

우리가 수십 년 동안 알고 있던 컴파일러, 모든 의미 정보를 얻으십시오 그런 다음 신경망이 잘 활용할 수 있도록 퍼가십시오 프로그램이 언제인지 알 수 있습니다 실행 파일 및 실행 파일 인 경우 그럼 우리가 어떻게하는지 봅시다

우리는 분석하려고하거나 이런 식으로 보이는 프로그램을 생성하십시오 이 프로그램의 모든 위치, 당신은 그것을 거대한 그래프의 노드로 나타낼 것입니다 그런 다음 다른 유형의 이러한 노드를 서로 연결하는 가장자리 가장자리의 유형은 무엇이며 무엇이 무엇입니까? 우리가 원하는 의미 론적 관계 이 표현으로 인코딩할까요? 예를 들어 가장 확실한 것은 구문입니다 이것은 당신이 이미보고있는 것입니다

예를 들어, "다음 토큰"이라고하는 단일 유형의 가장자리, 네가 얻을 수있는 것은 모서리와 연결된 노드 단어의 단일 시퀀스에 해당하는 이것이 바로 LSTM이 입력 및 출력으로 취하는 것입니다 그것이 당신의 기준입니다 단일 다른 유형의 가장자리를 추가하는 경우, 추상 구문 트리 자식, 우리는 이제 시퀀스 관계와 트리 관계 모두 이것의 위에 AST 자, 이제, 이것은 이미 여러분에게 제공합니다 프로그램을 보는 두 가지 다른 방법, 구조 및 파일에서의 순서

그러나 그것은 충분하지 않습니다 우리는 실제로 무엇을 이해하고 싶습니까? 프로그램은 마치 어떻게 생겼는지를 보여주지 않습니다 그렇게하는 방법은 데이터 흐름에서의 의미 적 가장자리 따라서 Data Flow 프레임 워크에 대해 들어 보지 못했다면, 그들이하는 일은 그들이 프로그램을보고 그들이 생각해내는 것입니다 관계의 근사치 변수가 실행되면 프로그램 전체에 변수가 흐를 수 있습니다 예를 들어, 알겠습니다

지금이 변수를보고 있습니다 언제 마지막으로 쓰여졌 을까? 예를 들어 여기서 찾고 있다면, 잘 마지막 어쩌면 주변 어딘가에 쓰기, 여기 또는 여기 나는 지금 루프의 반복을 알지 못했다 그래서 나는이 두 모서리를 모두 추가 할 것입니다 이 위치를보고있는 경우, 언제 마지막으로 쓸 수 있니? 다시, 여기 또는 여기

그냥 모두 추가하십시오 특정 입력에 대해 분석하지 마십시오 이것은 모두의 일반화입니다 또 다른 가장자리 변수가 마지막으로 사용 된시기는 언제입니까? 읽기 대신 쓰기와 비슷하지만 비슷합니다

또 다른 하나는 내가 과제를보고 있다면 특정 변수는 등에서 계산됩니다 동일한 그래프에 추가합니다 결정적으로 그리고 이제는 인코딩하는 표현이 있습니다 두 구문의 혼합으로 프로그램 우리가 가지고 있지 않은 의미와 의미 이전에 프로그램을 보았던 접근법에서 전에 실행 가능한 객체가 아닌 구문 객체와 동일합니다 자,이 모든 것들을 얻은 후에 중요한 부분은 물론입니다

이 그래프를 모두 어떻게 처리 했습니까? 신경망과 실제로 그것을 밖으로 어떤 종류의 이해가? 그것에 대해 이야기 해 봅시다 그래서 RNN부터 시작하겠습니다 RNN은 우리의 기준선이며, 그래서 우리가 텍스트와 같은 구조화 된 데이터를 가질 때, 우리는 매우 간단한 알고리즘을 사용하여 그것을 처리했습니다 우리는 소위 반복 단위 (recurrent units) 벡터를 기반으로 한 계산을 수행하는 셀 개별 단어가 있다면 프레젠테이션 우리는 그것을 하나의 순서로 처리합니다 말하자면, 대표를 맡자

단어의 메시지로 그것을 포함, 벡터 및 각 시간 단계에서, 반복 단위는이 메시지를 변형 할 것이며, 그것을 다음 사람에게 건네 줘, 다시 그것을 변형시킬 것이기 때문에, 그것을 이웃 사람에게 넘겨 준다 그래서이 시점에서의 작업은 그냥 당신의 현재 표현, 프리픽스와 프로세스에서 프리젠 테이션 패스를 가져 가라 그리고 나서 더 나아가고 그것은 끝날 때까지 계속됩니다 RNN은 본질적으로 RNN을 알고 있습니다 이제이 구조체에 가장자리를 더 추가하면, 우리는 이제 그래프 구조 데이터를 체인 만 가지고있는 것이 아닙니다

그렇다면이 계산 방법을 어떻게 채택할까요? 이제 더 이상 단순한 질서가 없습니다 글쎄, 어떻게하는지 보자 그래프와 그래프로 시작하겠습니다 프로그램의 위치 인 상태를 가지며, 단어와 마찬가지로 삽입이 포함되어 있습니다 예를 들어, 다음과 같이 말할 수 있습니다

식별자 변수 단어로 포함되어 있으며 벡터로 나타냅니다 우리는 또한 가장자리가 있습니다 그래서 우리는 여러 종류의 모서리를 가지고있었습니다 각자가 될거야 또한 특정 되풀이 단위로 표현됩니다

이제 우리는 각 노드마다 반복적 인 유닛을 가진 구조를 가지고 있습니다 이 텍스트와이 노드의 표현과 마찬가지로, 이 텍스트와 마찬가지로 하나가 아닌 여러 유형의 모서리가 있습니다 그래서, 아이디어는 당신이 가져가는 것입니다 노트 상태가되면 통과하게됩니다 모든 이웃에 대한 에지 네트워크

한 번에 모든 이웃 그래서, 노드 상태를 통과시키고, 가능한 모든 이웃과 그 지식에 따라 그렇게하십시오 이제 주어진 노드에 하나 이상의 메시지가 도착했습니다 하나 대신 RNNs의 경우가 아니라, 그래서 당신은 그것을 모으는 어떤 방법이 필요합니다 소리는 대개 잘 작동하지만 음료 또는 다른 것들로 실험

그래서 재발 성 단위 다시 노드의 현재 표현을 취하고, 에서 도착 메시지를 가져옵니다 이웃과 그 표현을 업데이트합니다 구조는 RNN과 매우 유사하며, 그것은 단지에서 발생합니다 두 개 이상의 노드에서 발생하며 둘 이상의 노드에서 발생합니다 우리는 모든 가장자리 유형에 대해 별도로 수행하고 있습니다

모든 노드를 동시에, 우리는 우리의 프리젠 테이션을 노드와 정보를 사용 이웃을 계산하기 위해서 당신이 여러 번 그렇게한다면, 여러 개의 다른 레이어에 대해 네트워크를 풀고, 이제 우리는 에 기반한 홀 프로그램 구조 전반에 걸친 메시지 전파 괜찮아 그래서 이것은 GNNs에 관한 것입니다 자연스러운 질문은 이것이 모두 합성과 관련이있는 것입니다

글쎄, 그것이 우리에게주는 것이 인코딩하는 좋은 방법이라고 봅니다 프로그램이 있다면 특별한 좋은 표현 문법을 이해할 수있는 프로그램, 그 의미론뿐만 아니라, 이 인코딩 방법을 현재 사용중인 프로그램에 적용 할 수 있습니다 컨디셔닝하고있는 프로그램뿐만 아니라 생성 네가 조건을 정할 일이 있다면 예를 들어, 프로그램 완료를 원한다고 가정하십시오 너는 특정한 프로그램을 가지고 있고 너는 길을 원한다

특정 지점에서 앉으세요 사용자가 입력하고 제안을 제공합니다 IntelliSense만이 아니라 단일 토큰 IntelliSense 구멍 식 수준의 IntelliSense 이 설정에는 예제, 언어, 의도 표현은 여기 내 프로그램의 맥락이다

그 문맥의 가장 확률이 높은 완성은 무엇입니까? 그래서 원칙은 실제로 이제 너는 인코딩이 비교적 간단하다는 것을 알았습니다 당신이 말하는거야, "자 이 컨텍스트를 그래프 신경망을 사용하여 인코딩합니다 " 우리가 그것을 인코딩 한 후에 우리는 Hole 노드에서 어떤 표현을 얻습니다 이것은 우리가 시작하는 벡터가 될 것입니다

우리 프로그램과 표현을 생성한다 그 주변 변수의 순차 생성 프로 시저에 전달 그것은 생성 된 코드를 우리에게 줄 것입니다 이 표현은 여기에 있습니다 생성 된 절차는 다음과 매우 유사합니다 이미 본 연역적 검색, 방금 신경망을 사용하여 구현했습니다

논리 검색 대신 근본적으로 다시 하향식 표현을 만들 것입니다 위에서 아래로 왼쪽에서 오른쪽으로 메시지 전달 및 전달을 사용하여이 작업을 수행하십시오 논리 파생 대신 그래프 신경망의 여기서부터 시작하겠습니다

구멍에 초점, 우리는이 구멍에서 확장되어야 할 것을 선택하고 싶습니다 우리는이 시점과 같은 작품을 가질 수 있습니다 마이너스 또는 플러스 또는 함수 및 기타 등등에 대한 호출 연역적 검색 변칙과 마찬가지로 제작되었지만 거기에서 우리는 그것들 모두를 확장했다 여기서 우리는 그들을 선택하는 softmax 만 가질 것입니다

다음 구멍에 집중하고, 그것을 확장하고, 이제 터미널 노드가 생겼습니다 그래서 터미널 노드에서 변수를 선택합니다 의미에 해당하는 가장자리를 추가하고, 마지막 사용 엣지와 같이 전파된다 문맥에서 변수 노트를보고 말하면, 어디에서 마지막으로 사용했는지, 동일한 프로세스를 왼쪽에서 오른쪽으로 단계별로 계속 진행하십시오 이 특정 설정을보고 적용하면, 너는 실제로 네트워크를 얻는다

놀랍게도 작은 스 니펫을 보는 것이 좋다 코드 생성 및 생성 모든 지점에서의 표현과 그 순위 예를 들어, 이미 본 예제를 보자 때때로 그것은 정확하지 않습니다 그래서, 예를 들어, 여기 오른쪽 표현 첫 번째 점 대신에 두 번째 점에 나타납니다

그러나 그들의 확률은 그다지 다르지 않다 때로는 놀랍도록 좋지만, 이 식과 마찬가지로 오른쪽 하나는 문자 변수입니다 어떤 상수와 비교되어야한다 그것은 당신에게 올바른 상수를 생성 할 수 있습니다, 그러나 그것은 일정해야한다는 것을 알고 있습니다 그래서 나는이 시점에서 결론을 짓겠다

그것은 여러 다른 것들에 대한 상위 수준의 개요입니다 이 특별한 것들이 당신에게 흥미가 있다면, 여기 링크가 좋습니다 그래서 설문지는 맨 위는 아마도 전체 분야에서 가장 좋은 부분 일 것입니다 다루는 상징적 인 부분을 다룹니다 신경 섹션 및 많은 특정 프로젝트 및 응용 프로그램, 당신에게 관심있는 것에 따라

내가 너를 체크 아웃하는 것이 좋습니다 특정 프레임 워크는 사람들이 특정 적용 방법을 간소화한다 최종 사용자 중심 애플리케이션에서의 프로그램 합성, 프로와 스케치가 가장 인기있는 두 가지입니다 그래서 그들을 사용하십시오 다음과 같은 몇 가지 블로그 게시물이 있습니다

최근의 연구 및 논문 및 결과를 원하는 경우 우리가 가기 전에, 나는 너와 함께 떠나고 싶어 이 이야기 전체에 걸친 이러한 테이크 아웃 프로그램 종합은 전체적으로 특정 애플리케이션 도메인에서 프로그램을 생성하고, 이를 구현하기 위해, 세 가지 주요 구성 요소가 필요합니다 프로그램 언어를 정의하고, 사양을 취하는 방법을 정의하고, 당신이이 수색에서 어떻게하는지 정의하십시오 그들 모두를위한 몇 가지 특별한 선택이 있습니다

당신의 명세가 예제라면, 그래서 당신은 가능한 한 그 (것)들을하고 당신은 그것을 빨리하고 싶다 열거 형 또는 연역 형 검색 보통 그렇게하는 좋은 방법입니다 그것은 귀하의 프로그램의 정확성을 보장하며, 최소한 예제와 관련하여, 그러나 항상 가장 효과적인 방법은 아닙니다 그래서 속도를 높이고 싶다면, 신경 유도 된 수색은 그것을하는 좋은 방법이다 다른 사양의 경우, 당신이 필요로하기 때문에 어디서 검색을 할 수 없는지 언어 감각을 키우거나 프로그램 컨텍스트의 감각 또는 다른 도메인 신경 네트워크가 더 효과적인 방법입니다 인코딩, 신경 네트워크를 사용합니다

이것들은 우리의 현재 또는 그래프 기반의 것들이며, 프로그램의 복잡성에 따라 다릅니다 당신은 실행 정확성을 포기합니다 따라서 부분 프로그램 실행 또는 인위적으로 추가 된 구조 프로그램을 컴파일하기 위해 프로그램이 컴파일됩니다 힌트가 도움이됩니다 어떤 프로그램도 생성하고 싶지는 않습니다

프로그램이 무엇인지에 대한 암시가 있다면 그것을주십시오 올바른 프로그램의 스케치를 작성할 수 있다면, 그것을 작성하십시오 문법이있는 경우 프로그램을 생성하는 언어, 그 문법을 네트워크에 전달하십시오 예를 들어, 사용할 수있는 토큰을 제한하는 것 부분적으로 생성 된 프로그램을 기반으로 각 위치에서 순위 함수를 훈련 할 수 있다면 어떤 프로그램을 다른 프로그램보다 우선시 할 수 있습니다 그것은 또 다른 히트 다

사람들이 만든 프레임 워크가 있습니다 특정 종류의 프로그램 합성 다른 설정에서 활용할 수 있습니다 이것으로 프로그램 합성의 고수준 개요를 마칩니다 행복하게 질문을합니다 고맙습니다

질문이 있으십니까? 예 >> 강도 옵션을 쓸 수 있습니까? 나는 당신이 순위를 매기는 방법을 다뤘다고 생각하기 때문에 에 신경 네트워크를 사용 노드 레벨이지만 프로그램 레벨에는 없습니다 >> 네 따라서 순위 함수는 다음과 같습니다 프로그램을 입력으로 받아들이는 것, 선택적으로 입력으로서 작업을 취하고, 인풋과 예를 들어 만족시키고 자하는 결과물

출력은 여덟 가지 종류의 점수입니다 이 프로그램은 아마도 더 일반화 될 수 있습니다 그걸 훈련시키고 싶다면, 당신이하고 싶은 것은 당신의 데이터를 구축하는 것입니다 만족할 수있는 모든 가능한 프로그램 세트 예제를 일반화 할 수 있는지 여부를 표시합니다 보통 그렇게하기 때문에 그렇게 할 수 있습니다

더 많은 입력 데이터 예제 이 사양에 주어진 것보다 스프레드 시트에서와 마찬가지로, 플래시가 실패한 경우, 당신은 "좋아, 상위 두 줄을 기반으로 프로그램을 생성하고 있습니다 하지만 나는 그 프로그램들을 다음과 같이 판단 할 것이다 나머지 행에 대한 행동에 따라 좋든 그렇지 않든간에 " 그건 당신에게 훈련 데이터를 제공합니다 다양한 목적이 있습니다

실제로 학습 문제를 설정하는 방법, 근본적으로 당신이 달성하기를 원하는 것은 좋은 프로그램은 가능한 모든 나쁜 프로그램보다 높아야합니다 따라서 순위 함수에 의해 출력 된 점수는 분리되어야합니다 모든 나쁜 프로그램의 점수에서 더 좋은 프로그램 그것은 무언가에 해당합니다 당신이 말하는 곳에서 최대 – 마진 손실, "나는 사이에 마진을 만들고 싶다 좋은 프로그램과 나쁜 프로그램만큼 가능한 높은 수준

" 그래서 이것은 조정하고 싶다면 그렇게하는 한 가지 방법입니다 전체 프로그램과 작업을 인코딩하고, 그게 너에게주는거야 순위 지정 기능 모든 단계에서이 작업을 수행 할 수도 있습니다 에서 훈련 데이터를 수집 할 수 있다면 검색 프로세스의 모든 레벨 우리가 신경 유도 된 검색에서했던 것처럼 물론, 당신이 훈련을 원하지 않는다면, 나는 당신이 순위 기능을 쓸 수 있다고 생각합니다

사실, 간단한 휴리스틱 스 더 짧은 프로그램은 상수가 적은 더 나은 프로그램 더 나은 yada yada는 이미 당신에게 80 %의 길을줍니다 질문이 있으십니까? 예 >> 관련 질문 당신은 어떻게 보장합니까? 도메인 등급에 따라 생성 된 프로그램의 성능? 생성 된 프로그램은 의식이 조용한 프로그램이나 SQL의 경우, 그것은 글을 돌보지 않는가? 그 시스템 관련, 어떻게 친절하니? 그 지식을 그 세대에 만들어야합니까? >> 네 좋은 질문입니다

그래서 저는 그것을 반복 할 것입니다 문제는 다음과 같은 성능을 어떻게 보장 할 것인가입니다 생성 된 프로그램의 속도는 막대까지이며, 에 해당하는 다른 도메인의 경우 복잡성이나 색인 생성 등의 다른 개념은 무엇입니까? 괜찮아 성과는 또 다른 척도입니다 생성 된 프로그램에 점수를 매길 수 있습니다

우리는 방금 순위 함수에 대해 이야기했습니다 순위 함수는 일반화 또는 프로그램의 적용 가능성 당신은 성능을 위해 비슷한 것을 만들 수 있습니다 프로그램을보고 말하면 "이 통신 수는 실제로있다 이러한 운영자보다 느린 구현 "이라고 말합니다 당신은 두 가지 목표의 혼합을 최적화하고자합니다

간단한 비용 모델을 작성할 수 있습니다 SQL 인덱스의 경우, 다시 말하지만이 열에 대해 인덱스가 있다고 말할 수 있습니다 나는이 연산자들 이러한 연산자보다 효율적입니다 그것이 제 목표의 두 번째 요소입니다 따라서 네트워크는이를 최적화하고, 실제로 올바른 프로그램을 생성 할 수 있습니다

또한 종종 두 단계로 수행 할 수 있습니다 당신이 집합을 생성하는 곳 올바른 것으로 보이는 프로그램, 그 중 가장 효율적인 것을 고르십시오 예 추가 질문? 괜찮아 다시 한 번 고마워 커피로 돌아 가자

Understand Machine Learning in Less than 3 Minutes

3 분 안에 Machine Learning을 이해하고 시작하겠습니다 기계 학습은 컴퓨터 시스템이 데이터로부터 학습 할 수 있다는 생각에 기초한 인공 지능의 한 분야입니다 (일반적으로 엄청난 양의 데이터로부터) 특정 업무를 수행하기위한 최소한의 인간 개입만으로 마지막으로 구체적인 예를 들어 줄 것입니다

당신은 인상적인 응용 범위 때문에 기계 학습에 대해 들어 본 적이있을 것입니다 : 자가 운전 차량, 사기 탐지, 스팸 분류, 이미지 인식 또는 음성 인식 일상 생활에서 Amazon Echo 나 Google Home과 같은 가상 조수에서 볼 수 있습니다 이 경우 기계 학습은 공유 할 수있는 데이터로 인해 가능합니다 조수와의 상호 작용에서 모든 정보 및 휴대 전화의 기타 정보 수집되고 사용되므로 더 나은 권장 사항을 얻을 수 있습니다 당신의 취향에 맞춰서

우리는 종종 기계 학습을 2 가지 범주로 나눕니다 : 감독 학습 및 감독되지 않은 학습 다음은 그 차이를 더 잘 이해할 수 있도록 단순화 된 분류 예입니다 당신은 당신의 컴퓨터에 수천과 수천 개의 과일 이미지를 주며, 이것을 입력이라고합니다 감독되지 않은 학습에서 컴퓨터는 다른 과일이 있음을 나타내는 데이터의 패턴을 찾으려고 시도합니다 예를 들어, 많은 과일이 노란색이며 동일한 그룹에 넣는 것이 좋습니다

그것은 또한 붉은 과일과 그룹을 만들 수 있습니다 그러나, 그것은 과일의 동일한 그룹에있는 빨간 사과와 딸기를 분류 할 수 있습니다 이것은 다소 문제가 있습니다 이것이 감독 학습이라는 대안이있는 이유입니다 컴퓨터에 올바른 관련 이름을 제공합니다 출력이라고하는 과일의 이 경우 컴퓨터는 입력을 매핑하려고 시도합니다 (따라서 이미지) 산출물 (과일의 이름) 가능한 한 최상의 특성을 지니고 있습니다

각 예제에서 다음과 같은 방법으로 학습합니다 당신은 그것을 본 적이없는 이미지를주고,이 사과에 대해 이야기 해 봅시다 아니, 그리고 이것은 내가 전에 배운 바나나라고 말할 것입니다 다음 결과는이 잘못된 대답을 바로 잡기 위해서이며 실제로 사과라고 말합니다 다음 번에 아주 비슷한 사과를 볼 때 올바른 답을 줄 것입니다 그러나 사과가 다른 색깔의 경우에, 틀린 응답을 줄지도 모르다 관련 출력 결과가 다시 한 번 수정됩니다

이것이 기계가 학습하는 방법입니다 따라서 더 많은 데이터를 볼 수 있습니다 지켜봐 줘서 고마워 어떤 제안이나 질문이 있으면 의견에 게시하십시오, 나는 모두에게 회신 할 것입니다 그리고 그 비디오가 마음에 드시면 알려주세요

그런 동영상을 더 많이 구독하는 것을 잊지 마세요 여기서 나는 데이터 과학 개념을 짧은 ​​형식으로 설명하려한다 나중에 보자!