AI Institute "Geometry of Deep Learning" 2019 [Workshop] Day 1 | Session 3

>> 기조 연설을 위해 MSR에 Leon을 환영하게되어 기쁩니다 그는 소개가 필요 없습니다

몇 가지 주요 사항을 설명하겠습니다 나는 매우 행복했다 실제로 올해 튜링 상 수상자 신경망에 대한 레온의 기본 연구에 대해 90 년대 초에도 확률 적 그라디언트에 대한 대규모 학습에 대한 그의 연구 그는 항상 출발에 대한 깊은 통찰력을 가지고있었습니다 추론을 배우고 보간에서 외삽으로 그는 오늘 나에게 제목을 말해 구매 그의 기조 연설은 볼록성이 될 것입니다 그는 단지 볼록성에 대해 말해 줄 것입니다 더 이상 고민하지 않고 레온에게 가져 가라

>> 저를 초대 해주셔서 감사합니다 오늘 아침에 많은 것을 보았 기 때문에 사과하고 싶습니다 매우 세련된 대화와 방금 마무리했습니다 그래서 나는 그것이 있기를 바랍니다 내부의 무언가가 어리 석고 잘만되면 당신은 저에게 말할 것입니다 제목이 AI의 지오메트리 였기 때문에이 대화의 동기는 몇 년 전 지오메트리와 관련이 있다고 생각했습니다 2016 년과 17 년에 작성된 것 같습니다 >> 마이크 >> 마이크가 켜져 있지 않습니다

>> 마이크가 켜져 있지 않습니까? >> 작동합니다 >> 작동합니다 알았어요 우리는 출판 된 논문을 썼습니다 조금 애매하지만 남자 형제 때문에 모호하지 않아야 아이젠만 형제입니다 커널은 40 주년을 맞았습니다 지나가고 이해하려고하는 것에 대한 많은 기초 총의 토폴로지와 무슨 일이 일어나고 있는지, 우리는 매우 이상한 이론을 가지고있었습니다 단순하고 어쨌든 우리는 그 이름을 알아볼 수있을만큼 똑똑했습니다

"알라 카르 트 볼록"하지만 너무 많이 생각하지 않아서 단순하고 또한이 정리로 얻은 결과 때문에 나는 그것을 잘 찾지 못한다 지는 경계에 만족하지 않습니다 하지만 최근 몇 년 동안 신경 접선이있는 논문 및 관련 논문 신경망에서의 최적화 이 아이디어로 돌아갈 때마다 아주 간단하게 생각하기 때문입니다 적어도 그것은 내 직감을 말한다 여러분과 공유하고 싶습니다 이것이 유용한 도구인지 확인하십시오

무언가를 극도로 말하는 주장 새로운 것이지만 그것을 보는 흥미로운 방법입니다 요약하자면 문맥 최적화에 대해 이야기하겠습니다 물고 토론하다 근사 속성에 대해 말하는 것, 글로벌 최소화 및 매개 변수화 바이어스 세 번째 부분에서 그때 당신이 나에게 1 시간 슬롯을 준다는 것을 깨달았습니다 나는 무엇에 대해 이야기하려고합니다 처음부터 종이도 기하학이 또 다른 예를 제공합니다 매우 다르며 그 결과를 계속 사용할 수 있습니다 처음에는 아주 느리게 시작해야하는데 우리가 거의 증명할 수있을 정도로 간단합니다 한 가지를 제외한 모든 것이 중요합니다

배경; 저는 세련된 미터법 공간에서 일하고 있습니다 좋은 미터법 공간을 생각해보십시오 곡선은 단지 0,1이라고합시다 내 공간으로 연속하고 두 점을 연결하고 콤팩트하기를 원하기 때문에 감마 서브 트리 T라고 부릅니다 따라서 미터법 공간의 커브에는 많은 것이 있습니다

전 분야가 있습니다 메트릭 지오메트리를 사용하여 대부분 단축 할 것입니다 내가 정말로해야 할 유일한 것은 내가 필요하다는 것입니다 제한 속도 곡선은 실제로 Lipschitz를 거의 의미합니다 그것에 대한 많은 배경이 있습니다 상수 속도에 대해 말할 수 있기 때문에 커브와 일정한 측지선으로 이동합니다 이 모든 사업은 기본적으로 내가 만들면 곡선의 파라미터 T에서 약간의 움직임 미안하지만 난 그냥 할거야 두 점 사이의 거리가 너무 멀지 않다 크고 빨간 볼록도를 정의하겠습니다 곡선 군 C를 가정하고주었습니다

나는 그것이 무엇인지 압니다 그들에 대해 아무 말도 하지마 내 공간의 부분 집합은이 곡선 군과 볼록한 관계입니다 모든 쌍 x, y에 대해 하나씩 x를 연결하는 곡선이 있습니다 y로 완전히 연결되어 있습니다 기본적으로 나는 내 세트에 머무를 수 있고 다음 중 하나를 사용하여 x에서 y로 갈 수 있습니다 내 곡선과 나는 말한다 실제 함수는 모든 곡선에 대해 C에 대해 볼록합니다

곡선에 대한 F의 제한은 모든 DAB에 대해 볼록합니다 기본적으로 당신은 정상적인 볼록 함을 가지고 있습니다 첫 번째는 내 가족이 곡선은 유클리드 공간의 선분이며 이것은 정상적인 볼록 함입니다 두 번째는 비대칭입니다 나는이 볼록한 구조를 보았습니다 하나의 커브와 실제 함수는 모든 커브에서 볼록합니다

두 점을 연결하는 곡선이 여러 개인 경우 두 번째 정의가 더 까다 롭습니다 내가 유일하게하기 때문에 조금 약화시킬 수 있습니다 끝점 사이를 볼록하게 볼 수 있습니다 기본적으로 어떤 T에 대해서도 감마 T의 F는 감마 0의 F와 감마 1의 F의 혼합물 아래 그림과 같이 조금있을 수 있습니다 신경 쓰지 않을 것이고 결과는 매우 간단합니다

F가 커브 패밀리에 볼록한 효과 인 경우입니다 비용 함수 인 경우 곡선의 끝점에 대한 끝점 대류 효과 기본적으로 모든 레벨 세트는 C에 제한 속도 곡선 만 포함 된 경우 모든 지역 최소값은 세계적입니다 기본적으로 볼록성의 필수 속성은 원하는 모든 곡선이있는 설정에서 유지됩니다 말이 되나요? 이것의 증거는 매우 간단합니다 레벨 세트에 속하는 X와 Y를 입력하면 기본적으로 X의 F는 M보다 작습니다 Y의 F는 M보다 작습니다

F는 커브 패밀리에 대해 볼록한 관계이므로 안에 연결되어있는 커브가 있습니다 F F는 끝 점이 볼록하므로 나는 감마 T의 F가 1-Fx의 T + T보다 작다고 생각합니다 Y의 F와 T의 F와 Y의 F가 모두 M보다 크므로 감마 T가 내 레벨 세트에 속한다는 것을 의미합니다 따라서 레벨 세트는 연결되기 전에 경로로 연결됩니다 이제 지역 최소값에 대한 두 번째 부분입니다

나는 포인트가 있다면 로컬 최소값이라고 말했다 그런 공 공의 모든 포인트는 공의 중심보다 크거나 같습니다 모순에 의한 추론, Y가 있다고 가정 Y의 F가 X의 F보다 작도록 X를 Y에 연결하는 곡선을 만듭니다 속도가 제한되어 있어야합니다 속도가 제한되어 있기 때문에 이 속성은 Lipschitz 속성입니다 제한 속도이므로 2K 이상 엡실론을 사용하면 2K 이상의 감마 엡실론의 F가 더 큼 X의 F 인 감마 제로의 F보다 하지만 종말점 볼록성을 가지고 엄격한 불평등과 반대 불평등, 따라서 불가능합니다 그러므로 내 지역 최소의 모순은 위에있을 수 없습니다 F의 다른 지점에서의 가치 지금까지 매우 간단합니다

간단한 머신 러닝 예제를 보자 연속 기능인 X 일부 입력 공간에서 일부 출력 공간으로 부분 집합 X는 기능 군입니다 그것은 일부 세타에 의해 매개 변수화되었습니다 파라 메트릭을 쓰지 않았습니다

커널이나 물건을 갖고 싶어 손실 L을 보자 첫 번째 주장에서 볼록하고 이것은 내 모델의 출력입니다 훈련 예제, 그리고 f, 그래서 손실과 함께, 나는 2F를 가질 것입니다, 미안합니다 내 경험적 교차 함수는 f입니다 그래서 f 기본적으로 모든 기능에서 경험적 손실을 계산합니다

혼합물 만 나타내는 곡선을 만들겠습니다 함수 공간에서 직선 세그먼트 일뿐입니다 즉, 내가 지금 말할 것은 평면 볼록 인수로 얻을 수있는 것 나중에 살펴 보겠습니다 따라서 비용 함수 f는 내 곡선과 사소하게 볼록합니다

기본적으로 출력 공간에 커브를 그립니다 예를 들어 내 네트워크의 손실이 볼록하기 때문에 이것은 볼록하고 문제 없습니다 따라서 함수 군이 곡선에 대해 볼록한면이라면 정리가 적용되며 선형 모형에 적용됩니다 대포 모델의 경우에도 마찬가지입니다 그리고 공식 네트워크도 거의 마찬가지입니다

왜 거의? 내가 매우 풍부하게 패러미터를한다면 과도하게 매개 변수화 된 것이 여기에 적합하지 않다고 말해서는 안됩니다 풍부하게 매개 변수화 된 신경망 근사 특성이 좋습니다 글쎄, 당신은 내 선형 혼합물을 근사 할 수 있습니다 직선에 가까이 갈 수 있습니다 그러나 이것은 A를 증명하기에 충분하지 않습니다

B가 일반적으로 거의 A가 거의 B를 의미한다는 것을 의미하지는 않습니다 그것은 너무 좋을 것이고 이것은 커브가 유용 할 수있는 곳입니다 내 네트워크가 대략적으로 잘 될 수 있다는 것은 무엇을 의미합니까? 글쎄, 나는 단순화 할 것입니다 나는 F가 있다고 말할 것입니다 감마 세타 t

그래서 기능 혼합물에 가까운 내 가족 기본 2 차 거리 인 감마 t 기본적으로 F에서 G로가는 선을 정의합니다 기능 공간에서 내 두 기능 나는 시가를 정의하고 다른 시가 이후로 나는 그것을하는 가족의 기능을 가지고 있습니다 이 시가가 존재한다는 것을 증명하면 이것은 성가신 일입니다

할 수 없습니다 클릭 만하면됩니다 그렇게하는 페이지는 흥미롭지 않습니다 흥미로운 것은이 r 계수가 여기가 작아지면 네트워크가 커지고 근사치가 좋아집니다 그래서 나는 그것에 머물 것입니다 이제 커브 세트가 이러한 시가 모양 영역에 포함 된 모든 곡선

두 점이 있으면 시가를 그리고 이 안에있는 모든 커브는 내 커브 중 하나입니다 저는 행복합니다 이제 구성에 의해, f는 일련의 곡선에 대해 볼록하다 두 기능마다 시가 안에 곡선이 있어요 f에 속한다고 가정합니다 문제는 이 제품군과 관련하여 비용 함수 끝 점이 볼록합니까? 글쎄, 무슨 일이 일어나면 당신이 할 수있는 고정 도메인에 도메인을 바인딩 어쨌든 레벨 세트가 끝났다고 주장 매우 높은 엔드는 다른 주장과 같은 다른 주장도 있습니다

당신은 손실과 함께 일부 Lipschitz 가정을 만들 수 있음을 알 수 있습니다 기본적으로, 당신은 같은 것을 그것은 기능에 일어나고 있습니다 세타 t의 f가 f의 f보다 작다 혼합물과 약간의 quartic, 람다 t1 빼기 t 람다 Lipschitz의 제품입니다 상수와 내가 가진 L 이것을 적용하면 나는 이것을 얻습니다

부호가 잘못 되었기 때문에 강한 볼록성이 아닙니다 사실, 손실이 Mu라면 이 작업을 수행하는 대신 볼록하게 볼록하게 Mu를 추가 할 수 있습니다 t1에서 t를 빼고 Lambda가 Mu보다 작 으면 완료됩니다 그러나 그렇지 않습니다 볼록하지 않은 기능을 처리해야합니다

거의 볼록한 모양이며,들을 수 없습니다 여기의 두 번째 부분이 있습니다 내가 거의 볼록 최적화라고 부르는 정리 익숙한 곡선을 존중하기 위해 F가 볼록합니다 각 곡선에 대해 비용 함수 이와 같은 것을 만족 시키십시오 더 이상 빨간색으로 작동하지 않습니다

볼록한 검증 [들리지 않음] 지금 말할 수 있으면 증명하기가 매우 간단한 것입니다 m이 최소값보다 크면 f plus Lambda 함수의 에 등장하는 람다 그런 다음 레벨 세트가 연결됩니다 기본적으로 제한 속도, 구속 조건도있는 경우 그것은 어떤 지역 최소 세계 최소값보다 최대 감마입니다

왜 그렇게 되었습니까? 다시 매우 간단합니다 따라서 두 가지 점을 고려하십시오 레벨 설정에서 x와 y 그리고 값이 M보다 작은 것은 레벨 세트에서 az를 선택합니다 z의 f는 m에서 감마를 뺀 값보다 작습니다 아래에있는 az를 선택합니다 이제 두 개의 커브를 만들어 보겠습니다

x를 z에 연결하는 것, 또 하나의 z에서 y 사실, 그들은 같은 구조입니다 이 두 커브가 있다면 그런 다음 경로가 있고 경로가 연결되어 있습니다 이 그래프에서보다 쉽게 ​​볼 수 있다고 생각합니다 감마 제로가 x이고 감마 1이 z이면 m은 저의 레벨입니다

나는 그 선 아래에 있지 않을 것입니다 여기 빨간 곡선 아래에 있습니다 z가 x보다 충분히 낮 으면 빨간색 곡선이 모두 M 아래에 있는지 확인할 수 있습니다 따라서 x와 z 사이의 곡선은 전적으로 레벨 세트에 있습니다 마찬가지로 z에서 y까지의 곡선은 전적으로 레벨 세트에 있습니다

따라서 내가 가지고 있다는 결론에 내 레벨 세트에서 x와 y를 연결하는 경로를 찾았습니다 따라서 매우 짧습니다 예 >> 그래서이 시가를 가져 가서 이것의 모든 곡선으로 정의되는 함수 클래스 >> 내 커브 클래스는 시가의 모든 커브입니다

>> 그러나 각 열은 FT에 직접 대응합니다 그런 다음 [비가 청]에 다시 매핑하려면 어떻게해야합니까? >> 각 곡선이 해당합니다 아니요, 여러 개체가 있습니다 나는 가고있는 커브 패밀리를 가졌습니다 볼록한 개념을 원하는 방식으로 사용자 지정할 수 있습니다 사이에 선분이 아닌 내 곡선 군 두 기능은 두 기능 사이에있을 것입니다

시가에서 계속 유지되는 곡선 내 기능 군이 모델 인 것은 볼록합니다 이 곡선 중 하나가 가족 내부에 남아 있다고 말할 필요가 있습니다 내 가정 때문에 모델은 근사 특성이 우수합니다 시가 내용이 근사치 일 정도로 충분합니다 거기에 커브를 만들 수 있습니다

연속성에 대해 약간주의해야합니다 두 번째 부분은 비용 함수가 볼록한 것입니다 하나는 모든 곡선에 대한 제한이 볼록한 것입니다 따라서 특히 우리 가족의 곡선에 대한 볼록한 존중 이 볼록 함을 실제로 완화시킬 수 있습니다

엔드 포인트 볼록을 사용할 수 있습니다 나는 거의 볼록했다 말할 수있다 볼록 함은 계수 Lambda t1 빼기 t 그런 식으로 결함이 있으면 당신이 증명할 수있는 것은 레벨 세트가 연결되었습니다 Lambda를 최적으로 사용할 때까지 Lambda를 원하십니까? 예, Lambda를 원합니다 따라서 하강 알고리즘이 있다면 당신은 레벨 세트를 축소거야 하강 할 때마다 거기에 갈 것입니다 기억이 잘 나면 나는 더 큰 말했다 네트워크는 더 나은 근사치와 내 시가는 작습니다

네트워크가 커지면 이 Lambda는 더 작을 수 있고 더 작아서 전 세계 최소값으로갑니다 예 >> 다음 [들리지 않음] 증거에서 감마가 연결되어 있어야합니다 >> 예, 감마는 Lambda 여야합니다 마지막 순간에 방금 변경했기 때문에 대화에 감마가 너무 많았 기 때문입니다 여기이 감마는 람다 여야합니다

하지만이 감마 -t는 여전히 감마입니다 당신은 참조하십시오 그래서 저는 용어 문제가있었습니다 이 슬라이드는 좋지 않습니다 그러나 실제 아이디어는 여기에 있습니다

기본적으로 m 지점과 Lambda 지점은 m 이하 내가 볼록 결함과 같더라도 나는 그들을 연결 m 아래에 남아있을 수 있습니다 그런 점 하나면 충분합니다 우리가 지금 어디에 있는지 생각한다면 비교적 간단한 방법으로 신경망이 있다면 합리적인 가정을 가진 강력한 근사 특성, 괜찮은, 배달 된 세트는 원하는만큼 느리게 연결되고 CR을 원하는만큼 작게 얻을 수 있기 때문입니다 하강 알고리즘은 꽤 잘 작동합니다 지역 최소 또는 하단에 우리는 단지 시원합니다

그런 말을하는 최근 결과가 있다는 것을 의미합니다 그러나 훨씬 더 복잡합니다 그렇다면 이것으로부터 무엇을 이해할 수 있습니까? 제가 이것에 대해 이야기한다면 이 결과는 독립적입니다 친숙한 기능의 매개 변수화 이것은 중요하지 않습니다 정말로 중요한 것은 익숙한 기능이 충분히 가까이있을 수 있습니다

적절한 곡선으로 연결하거나 또는 적절한 곡선이 잘 될 수 있습니다 가족의 요소에 의해 추정됩니다 어느 쪽이 좋습니까 세타 공간에서 레벨 세트는 볼록하지 않을 수 있습니다 그들은 매우 기괴 할 수 있습니다 그러나 그들은 연결되어 있습니다

그들이 중심에 갈 때 일할 것입니다 그러나 학습 알고리즘은 Theta 공간에서 작동하기 때문에 암묵적인 편견이 무엇이든 학습 알고리즘에 있고 기본적으로 사물을 어떻게 매개 변수화하는지에 따라 그리고 세계 최소의 것들 초과 매개 변수화 된 모델로 반환됩니다 또는 일찍 할 때 어떤 솔루션이 반환되는지 그게 정말 달려있다 학습 알고리즘의 역학에 매개 변수 자체에 따라 다릅니다 어쨌든, 당신은 거의 전 세계적으로 갈 수 있다는 사실과 암묵적인 편견은 연결이 끊어졌습니다 혼합 곡선을 사용할 때 내가 지금까지 한 일입니다 어떤 곡선입니다 직선 또는 직선에 매우 가깝습니다

기본적으로 익숙한 기능이 충분한 근사 특성을 너무 밀접하게 그 기능 중 두 가지의 혼합을 나타내는 합리적인 학습 알고리즘 내 말은, 거리 물건, 결국 세계적으로 가장 가까운 곳을 찾을 것입니다 네트워크가 충분하다면 최근 결과가 많이 있습니다 실제로 베드로는 목록을주었습니다 그것들은 신경 용어와 일치합니다 신경 접선 [들리지 않음] 이 모든 최근 결과는 훌륭합니다

그들은 일반적으로 더 복잡합니다 이 일련의 논문에서 내가 아주 흥미로운 것을 발견 한 것은 프랜시스와 오 얄론 그가 주장하는 게으른 학습 신경 접선 접근이 있습니다 그가 게으른 학습이라고 부르는 것 해결책을 거치는 정권 그러나이 솔루션은 종종 그 솔루션을 일반화하지 않습니다 디커플링이 있기 때문에 이것을 볼 수 있습니다 매개 변수화와 볼록 속성의 볼록 속성 내가 가고 있다고 말할 수 있습니다 기본적으로 결과는 학습 알고리즘이 극복 할 가능성이 있음을 의미 매개 변수화 및 따르기 복잡한 수준을 설정하고 솔루션에 도달하십시오

그러나 이것이 좋은 아이디어는 아닙니다 특히, 당신이 많은 경우 소셜 공간이 큰 솔루션 과도하게 매개 변수화 된 네트워크에서 일반적입니다 그것은 또한 이상한 것과 연결된 매우 강한 모양, 학습 알고리즘은 특정 매개 변수화에 도달 할 수 있음 고려할 최소값보다 더 나은 최소값 당신은 단지 고려할 수 있었다 어떤 제약도없이 반대 의견을 제시합니다 이제 이것은 문제에 따라 결정될 것입니다 매개 변수화가 실제로 문제와 관련이 없는지 여부 따라서 우리가 가질 수 있습니다 대신 좋은 해결책을 제시 할 암묵적 편견 기본적으로 솔루션의 여전히 달성 가능합니다

특정 문제 여야합니다 또는 다른 곡선을 사용할 수 있습니다 다른 커브를 사용하는 것은 어떻습니까? 예 >> 우리가 다시 갈 수있는 곳이 있습니까? 자연스러운 그라디언트를 암시하는 것으로 생각하십니까? >> 자연스러운 그라디언트는 약간 다릅니다 당신이 고려하는 자연적인 그라디언트 매개 변수화 된 공간, [들리지 않는] 공간

그래서 당신은 밖을 보지 않습니다 여기서는 전체 공간에 지오메트리를 정의하지 않습니다 함수를 정의한 다음 모델의 하위 세트를 정의합니다 볼록 속성이있는 모델의 하위 세트를 원합니다 내 비용 함수는 일부 곡선에 대한 볼록 특성

어쨌든 바깥을 보면 파라 메트릭 모델을 사용하면 나에게 중요한 것은 매개 변수화가 아니라는 것입니다 그러나 실제로 친숙한 기능의 기하학 올바른 목표를 볼 때 네 >> [들리지 않음] 따라서 자연스러운 그라디언트를 연결할 수 있습니다 내 형상을 관련 시키면 자연 그라데이션을 정의하는 나머지 매니 폴드 커브 세트의 커브 지오메트리에 나는 그것이 연결이 될 것이라고 생각합니다

그것은 당신이 어떻게 움직일 수 있는지 알려줍니다 >> 네 그러나이 경우 첫 번째 재산이 있습니다 익숙한 기능의 볼록 함은 기본적으로 달성됩니다 당신은 단지 내부를보고 있기 때문에 두 번째는 문제를줍니다 여기 트릭은 둘 사이의 균형을 잡을 수 있다는 것입니다 내가 가족 때문에 문제가 생겼을 때 함수는 볼록한 것이 아니 었습니다

그들은 선을 근사 할 수있었습니다 "좋아, 더 많은 커브를하겠습니다 " 다른 부분을 가진 플레이어는 그래서 어려움을 한 손에서 정리 모형의 다른 손 기능의 볼록 함과 가족의 볼록 함 그래서 나는 언제 그것을 썼는지 몰랐습니다 하지만 그것은 매우 간단하지만 강력한 도구입니다

그러나 이것은 내가 지금 생각하는 것입니다 아마도 틀 렸습니다 나는 내가 틀렸다면 많은 사람들이 말해 줄 수 있다고 생각했습니다 그래서 그것은 저에게 기회를줍니다 실제로 논문에 무엇이 있는지 토론하십시오 이 논문에서 이것은 논문의 마지막 부분에있었습니다

내가 아주 좋아하지 않는 결과를 제공하기 위해 그 단점에 대해 이야기하겠습니다 하지만 흥미로운 부분이 있습니다 암시 적 모델에 관한 것입니다 GAN, VA 같은 것 또한 좋은 예입니다

내가가는 예가 매우 다른 종류의 곡선과 혼합을 사용하십시오 사실, 나는 그것이 작동하지 않는 혼합물을 보여줄 것입니다 암시 적 모델에 관심이있는 이유는 저는 단어의 중요한 속성을 찾고 싶습니다 있는 것보다는 특정 분포에 따라 다릅니다 변하지 않는 중요한 속성을 찾고 싶습니다 분포 변화에 특정 종류 또 다른 이야기입니다

하지만 기본적으로 엔지니어링 된 모델 대신 배포 보안을 통해 최근 모델과 매우 가깝거나 내부에 있으며 모든 거리를 사용할 수 있습니다 중요한 속성을 나타내는 매우 간단한 모델을 사용하고 싶습니다 그러나 데이터 배포가 현실적인지는 신경 쓰지 않습니다 그래서 사이의 거리 실제 분포와 모형의 분포 내가 최소화하려고하는 것은 정말 중요합니다 이 최대 가능성을 원한다면 좋은 도구가 아닙니다

간단한 모델이 무엇입니까? 몇 가지 관찰되거나 잠재 된 변수와 관련된 것 분포가 퇴화되고 저 차원 매니 폴드로지지됩니다 그것은 밀도가 없다는 것을 의미합니다 따라서 밀도 추정이 없습니다 그래서 그 해결 방법 사용하여 간단한 모델을 보강하는 것입니다 노이즈 모델과 노이즈 모델을 조정할 때까지 원하는 결과를 얻고이를 감독되지 않은 학습이라고합니다

그것은 실제로는 아니지만 나는하고 싶습니다 노이즈 모델을 추가 할 필요가 없는지 알고 하지만 재미있는 거리를 찾으십시오 올바른 속성이 있습니다 아직 찾지 못했습니다 그러나 몇 가지가 있습니다 암시 적 모델링은 관찰 된 데이터를 가지고 있다는 것입니다 분포 Q로 흐르는 나는 내가 알고있는 배포판을 가지고있다 매개 변수화 된 기능을 통해 앞으로 모수 분포를 만들기 위해

샘플을 얻을 수 있습니다 기본적으로 두 개의 샘플러가 있습니다 데이터 인 하나는 무제한 인 또 다른 하나입니다 Theta를 최적화하기 위해이 분포를 비교하고 싶습니다 좋은 점은 저 차원지지를 가질 수 있습니다

기본적으로 이것은 매우 좋습니다 매니 폴드 지지율이 낮은 분포를 나타냅니다 수학으로 쓸 수 있습니다 흥미로운 것은이 # 표기법입니다 운송 문헌에서 일반적입니다 G-Theta # Mu를 보시면 중 하나에 대한 푸시를 의미 함수 G-Theta를 통한 분포 Mu 많이 사용하겠습니다

그것은 퇴화 분포에 좋습니다 이제 분포를 비교하십시오 너무 똑똑해지기 전에 문헌에 무엇이 있는지보세요 분포를 비교하는 것에 관한 큰 문헌이 있습니다 기본적으로 강력한 토폴로지를 생성하는 것이 있습니다 총 변형과 같이 밀도가 필요한 쿨백-라이 블러

그것은 필요하기 때문에 거리가 아닙니다 밀도, 비대칭, 가능하면 무한 에 사용되었던 Jensen Shannon GAN의 첫 번째 버전 실제로 작동하지 않기 때문에 아무도 사용하지 마십시오 비대칭에는 밀도가 필요하지 않습니다 제곱근은 실제로 적절한 거리입니다 그러면 더 최근의 것들이 있습니다 Wasserstein-1이 있습니다

Wasserstein 거리는 모두가 알고 있거나 설명해야한다고 가정합니까? 시간이있어 설명 할 수있을 것 같습니다 그래서 저는 두 개의 분포 P와 Q를 가지고 있습니다 이것이 제가 WL, Peyre 소개에서 취한 그래프입니다 두 개의 분포 P와 Q, 그리고 나는 한계 P와 Q의 합동 분포를 구하고 공동 분포는 어디에서 보조금을 운송해야합니다 하나의 분포에서 두 번째 분포를 만들 확률 그래서 파이는 최소 이상입니다 모든 공동 배포 일부 비용 함수의 한계 P와 Q가 있습니다

운송비가 비싼 지 아닌지를 알려줍니다 이원성 정리로 최고야 모든 Lipschitz의 하나의 기능 X의 F 분포에 대한 기대 Y의 F의 두 번째 분포에 대한 마이너스 기대 항상 정의되어 있습니다 기본 공간의 측정법과 관련이 있습니다 밀도가 있거나 Lipschitz의 기능 중 하나 그것은 Wasserstein GAN에게 영감을주었습니다

거의 Kantorovich이지만 약간의 성공을 거두었습니다 때 나를 놀라게 한 또 하나 내가 처음 봤는데, 나는 무지하기 때문에 Diane Bouchacourt의 논문에서 그것이 Szekely의 에너지 거리입니다 네가있는 기괴한 일이야 기대하다 두 분포 지점 사이의 거리 두 번 곱하기 분포 차이 내부를 제거합니다 당신은 보여줄 수 있고 나는 그것을하지 않을 것입니다 이것은 동일하다 기본적으로 여기서 사용하는 거리와 또는 MMD 방법에서 사용하는 커널

최대 평균 불일치 MMD는 기본적으로 동일한 역할을합니다 다시, 당신은 Wasserstein과 에너지 거리를 모두 가지고 있습니다 MMD, 주 토폴로지를 정의하십시오 어쩌면 그들은 정말 의존 아래의 미터법 공간 분포 >> DiscoGAN의 경우 근사치 신경망과 함께이 최고 아니면 대포보다 더 똑똑한 일을합니까? >> 그들은 캐논보다 똑똑하지 않습니다

이제는 미터법을 MMD-GAN이라고하는 새로운 방법으로 작성했습니다 왜 대포로 똑똑한 일을하지만 또한 적대적인 용어로도 사용됩니다 사실, 그는이 정의를 벗어납니다 따라서 동일한 지오메트리를 갖지 않았습니다 이제 분배 공간에서 혼합물을 살펴 보겠습니다

P0, P1의 경우 최대 분포 Pt는 두 분포의 혼합물입니다 나는 배포판이 있다고 가정합니다 생성기에 의해 암시 적으로 정의됩니다 혼합물이 볼록하다고 생각합니다 아마도 볼록한 혼합물이라고하면 혼합물 세트에 대한 주요 볼록한 존중 그밖에

그것이 의미하는 바입니다 기본적으로 모든 혼합물에 대해 세타 T는 G-Theta T를 통해 Mu를 밀면 내 분포가 나옵니다 문제는 P0과 P1이 0이 아닌 여백을 가진 G-Theta 지원 T2 세타 T보다 불연속 또는 Theta에서 G-Theta 로의 불 연속적입니다 두 경우 모두 배우기가 매우 어려울 것입니다 불연속 기능을 배우는 것은 재미가 없기 때문에 최적화

증거는 간단합니다 두 개의 분포 P0을 취합시다 G-Theta 공급 장치가있는 P1 여기에 약간의 여백 Mu 모든 Epsilon 양성에 대해 그러나 Z의 G-θ 0은 작다 따라서 G- 쎄타 제로의 출력은 항상 P0의 공급 장치에 속합니다

G-Theta 제로를 통해 Mu를 앞으로 밀면 P0이 구현되기 때문입니다 모든 Epsilon, Z의 G-Theta Epsilon, Epsilon 확률로 P1의 공급원에 속합니다 작은 규모이지만 관리가 있다면 Z의 일부는 P0의 공급 P1의 P0 공급 즉 Z가 있으므로 Z의 G-θ 0과의 거리 Z의 G- 세타 엡실론이 우리의 4 명이 Epsilon 인 방법에 관계없이 U 따라서 이것은 본질적으로 확률 공간을 커브하는 혼합물, 이 두 분포 사이에 곡선을 만들고 싶습니다 당신은 어딘가에 끊을 연속성이 있습니다

연속 할 수 없습니다 그래서 이것은 혼합 곡선이 일치하지 않습니다 암시 적 모델의 기하학 전혀 다른 곡선이 필요합니다 변위 곡선으로 이동하는 동안

검색 시간으로 돌아가서 P0에서 P1까지의 운송 계획 한계가 P0 및 P1 인 공동 분포입니다 우리는 최적이라고합니다 DXY에 대한 DP의 기대 공동 분포에 대한 기대는 최소입니다 지수 P는 어설 션 P 거리 중 하나입니다 같은 그림이 여기에 있습니다 이제 유클리드의 경우 기본 공간이 아닌 경우 측지선을 따라야하는 것이 더 복잡합니다

간단한 사례를 살펴 보겠습니다 변위 곡선은 Pt를 정의 할 것입니다 최적의 운송 계획을 통해 혼합물을 추진하는 것 즉, 최적의 운송 계획을 세웁니다 배포부터 시작하여 이민자 권한을 갖겠습니다

P 음식 운송 계획을 따르면 저는 Q로갑니다하지만 교통 수단에서는 난 그냥 떨어 뜨릴거야 분수 T와 내가 어떤 분포를 얻었는지 보라 이제 P_0이 G_Theta_0이라고 가정 해 봅시다 [들리지 않음] G_Theta_0 및 P_1을 통해 mu를 앞으로 밀기 u G_Theta_1의 푸시 포워드 글쎄, 내가 둘 다 앞으로 밀면 공동 배포가 있습니다

그것이 교통 계획입니다 두 가지의 조합을 추진하면 이 운송 계획에 대한 변위 곡선이 있습니다 기본적으로 가족이 G_Theta 함수는 근사치가 충분히 강합니다 이것은 최적의 계획에 가깝습니다 그래서 실제로 필요했습니다 G_Theta_0을 원하는 것으로 가져갈 수 있기 때문입니다

>> 알겠습니다 >>이 최적의 변위는 u로 G_Theta_t에 가깝습니다 기본적으로 다시 한 번 경고를하면 복잡 할 수 있습니다 나는 여기에 지나치게 주장하고 싶지 않습니다 난 그냥 말할 때 G_Theta 제품군은 충분히 풍부하고 근사치입니다 변위 곡선이 패밀리 내부에있는 것이 당연합니다 기본적으로 변위 볼록성은 자연 명목 볼록 암시 적 모델에 의해 정의 된 배포 제품군

그러한 가족은 일반적으로 논쟁 때문에 혼합 볼록한 그들이 있다면 그것들을 쓸모 없게 만드는 불연속성이 없습니다 가족과 비교할 수 있습니다 파라 메트릭 밀도 함수로 정의됩니다 파라 메트릭 밀도 기능이 있으면 파라 메트릭 밀도 함수가 근사 특성이 높고 근사 할 수있는 기회 중첩 또는 혼합물이며 여기에서 무시됩니다 혼합 곡선의 경우 밀도를 추정 할 때 매우 자연 스럽습니다

그러나 암시 적 모델이 있으면 자연 곡선은 실제로 변위입니다 문제는 변위가 볼록한 비용 함수는 무엇입니까? 그것은 또 다른 쓰레기이기 때문입니다 우리는 암시 적 모델링을 알고 있습니다 몇 가지 사실을 알려 드리겠습니다 첫 번째는 Wasserstein과 MMD가 얼마나 다른지입니다

글쎄, 나는 강력한 토폴로지를 제쳐두고 또한 불연속 문제가 있기 때문입니다 Wasserstein 논문의 주제였습니다 나는 Wasserstein과 에너지 거리를 취합니다 이중 형식을 설명하면 매우 닫힙니다 다른 유일한 것은 sup [들리지 않음]입니다

Lipschitz_1 기능에서 하나의 Lipschitz 경계인 기능 Wasserstein과 MMD에 대한 [들리지 않음]에 내가 무지하기 때문에 [들리지 않음] 예, 정말 가깝습니다 나는 그것이 꽤 큰 차이라는 것을 발견했다 Lipschitz_1이 분명히 더 큽니다 RKHS로 많은 것을 근사 할 수 있기 때문이 아닙니다

RKHS Bohr은 Lipschitz_1 Bohr와 가깝습니다 어쨌든 측지학에 대해 토론 할 수 있습니다 분배 공간이 갖추어 진 경우 에너지 거리 또는 MMD 거리 가장 짧은 경로를 보여줄 수 있습니다 두 분포 사이의 혼합 곡선입니다 가장 짧은 길을 보지 않았다는 것만 빼고 거리를 최소화하면 최단 경로는 꽤 볼록성 측면에서 중요합니다 분포 공간이 Wasserstein_P와 같을 때 가장 짧은 경로는 변위 곡선입니다

Wasserstein_1에는 둘 다 있고 모든 종류가 있습니다 약간 변위되는 하이브리드 커브의 약간의 혼합물 공간의 다른 부분 또는 다른 반전 Wasserstein_1에는 많은 측지학이 있습니다 통계적 속성, 내가 사이에 예상 거리를 보면 종점에 대한 분포 Q 및이 경험적 근사치 에너지 거리는 그것은 n 이상에 있습니다

Wasserstein에게 그것은 n에 대한 차원이고 d에 대한 차원입니다 재앙입니다 이것은 Sanjeev가들을 수없는 좋은 예입니다 그의 영역에서 이것이 완전히 도달했습니다 완전히 희망이없는 것 같습니다

그러나 당신이 그것을 실행할 때 무슨 일이 일어나고 있습니까? 실제로 ED MMD는 치수가 작을 때 잘 작동합니다 이것이 [청취 불가] 논문에있는 내용입니다 [들리지 않는] 용지가 다릅니다 높은 차원에서 매우 빨리 붙습니다 Wasserstein 훈련은 꽤 잘 작동하는 것 같습니다 나는 그것이 매우 쉽고 매끄 럽거나 전부라고 말하지 않을 것입니다

그것은 정상적인 신경망뿐만 아니라 작동하지만 작동의 기울기입니다 예를 들어서 그것은 전형적인 침실입니다 이러한 모든 초기 이미지 혁신 문제에 사용됩니다 이것들이 예입니다 MMD 교육을 받으면 특정 신경망, 당신은 그 세대를 얻습니다 Wasserstein 거리로 훈련하면 이 네트워크를 얻을 수 있습니다

그게 왜 힌지가 가장 끔찍한 통계적 속성 작품을 훨씬 더 잘 생각할 수 있습니다 나는이 사진이 보면, 그것은 일종의 미인 대회입니다 그렇게 많이 말하지 않습니다 그러나 여전히 볼 수있는 일관된 효과입니다 그것의 많은 세트, 거기에 뭔가가 있습니다

어떻게 일이 잘못 될 수 있습니까? 괜찮아 이것은 예입니다 균일하고 매우 간단하며 완전히 구성되었습니다 그러나 그것은 그것을 보여주기 위해 만들어졌습니다 상황이있을 수 있습니다 지역 최소값과 Wasserstein_1과 같은 에너지 거리는 그렇지 않습니다 구성 예입니다

그렇게하도록 설계되었습니다 그러나 최소한, 그것은 당신이 얻을 수있는 개념 증명입니다 에너지 거리가있는 지역 최소 당신은 Wasserstein과 함께하지 않습니다 이제 저는 가족의 볼록함에 대해 이야기했습니다 거리 함수의 볼록함에 대해 [들리지 않음] 제가 최소화하려고하는 것은 DQ, P_Theta입니다

비용 함수 P를 DQ로 P, 그것은 볼록한가요? 변위 볼록합니까? 혼합 볼록은 일직선이므로 작동하기 쉽습니다 변위 볼록은 먼저해야하기 때문에 더 복잡합니다 이것은 일반적으로 미터법 공간에서는 사실이 아니라고 확신합니다 L1 거리를 갖춘 L2를 가져 가십시오 이것이 맨해튼입니다 거리를 제외하고는 거리의 이산화없이

측지선은 가장 간단한 방법으로 세로로 가로로 가로로 이동합니다 여기이 십자가는 L1입니다 L2에 L1 거리를 장착하면 볼록합니다 죄송합니다 세트와 관련하여 볼록합니다

측지선이며 L2의 L1 메트릭에 사용됩니다 그러나 두 볼록 세트의 교차점은 볼록하지 않아도 연결되지도 않습니다 또한 거리를 0으로 설정하면 여기이 두 곡선이 측지선이라는 것을 알 수 있습니다 파란색은 볼록하지만 거리를 0에 가깝고 빨간색은 그렇지 않습니다 따라서 기본적으로 제공되지 않습니다

알았어요 Wasserstein 거리 변위 볼록하지 않습니다 여기에 반례가 있습니다 원에서 균일 한 Q B는 중앙에서 회전하는 스틱에서 균일합니다

스틱의 길이는 LL입니다 PL과 Theta 사이에 Q의 플롯 Wasserstein을 표시하면 세타에 의존하지 않기 때문에 회전 비대칭은 L에만 의존하고 감소합니다 기본적으로 스틱이 클 때 Wasserstein 거리가 더 작습니다 실제로는 매우 직관적입니다 이제 스틱을 약간 돌리고 P1과 P0 사이의 변위 보간

여기에 PT가 있습니다 하지만이 PT는 곡선을 따르지 않습니다 그것은 직선을 따르고 있습니다 여기이 도트 도트 선은 직선입니다 즉, 회색 세그먼트는 P0 및 P1보다 약간 짧습니다

조금 짧기 때문에 Wasserstein 거리가 더 큽니다 여전히 희망이 있습니다 기본적으로 당신이 얻는 것, 희망은 당신이 쓸 수 있다는 것입니다 내가 싫어하는 정리 한계가 너무 심하기 때문에 그러나 그것은 심지어 볼록성을 위반하더라도 T의 용어로 묶을 수 있습니다 1 빼기 T 곱하기 이제 G_Theta를 늘려도 무언가가 줄어들지 않습니다

이것이 내가 싫어하는 이유입니다 고정 수량입니다 기능에 따라 다릅니다 증거가 아주 초보적인 접착제 그것은 약간 성가 시지만 실제로는 그리 어렵지 않습니다 그런 다음 거의 볼록한 최적화 정리를 적용 할 수 있습니다 보증이 있다고 결론 내립니다 Wasserstein을 사용하여 암시 적 모델 최적화 그 값이 전 세계 최소값에 가까운 지역 최소값 만 근방은 그다지 좋지 않습니다 내가 신경망에 가지고있는 것 나는 그것을 줄일 수 없기 때문에 근사 함수를 증가시킵니다

내가 대략적으로 근사하더라도 내 기능은 Wasserstein 거리와 관련하여 볼록했습니다 내 기능 군은 Wasserstein 거리를 정확히 고려하여 나는 여전히이 여분의 용어를 가질 것이다 어쨌든, 나는 이것과 거꾸로 있었다 보기 때문에 재미 있다고 생각합니다 중요한 것이있는 예 [들리지 않음]의 기하학 인 기계 학습 배급은 장비 될 수있다 혼합물과 매우 다른 곡선으로

때로는 암시 적 모델 때문에해야합니다 여전히 어떤 종류의 것을 얻을 수 있습니다 이러한 방식으로 볼록성 결과 및 최적화 결과 우리가 논문을 쓸 때 정말이 결과에 흥분했습니다 정리는 나에게 너무 단순하다 하지만 제 관찰은 이런 종류의 실제로 결과는 그렇게 간단하지 않습니다

그들은 문학에서 일반화하기가 훨씬 더 어렵습니다 시간이지나면서 내 마음이 바뀌었던 아마 실제로 생각 이 사소한 정리는 그렇게 나쁘지 않습니다 많은 어려운 결과를 아주 단순하게 만들기 때문입니다 그래서 내 결론은 혼합 곡선에 대한 볼록 함은 로 회귀 모형 최적화 강한 근사 특성 하강 알고리즘은 거의 전 세계 최소값을 산출합니다 이 속성은 정확한 매개 변수화와 무관합니다 암묵적인 편견에 대해서는 아무 것도 말하지 않습니다

매개 변수화와이를 가장 잘 활용하는 방법에 의해 유도됩니다 암시 적 생성 모델에서 변위 곡선에 대한 볼록 함이 더 보인다 혼합 곡선과 관련하여 볼록성보다 자연 스럽습니다 그것은 우리의 잠재력입니다 이미지에 대해 생각하십시오 이미지에서 이미지의 혼합은 쓰레기입니다

몰라 자연 지오메트리의 이미지에는 변위 지오메트리가 있습니다 따라서 사용 가능성이있을 수 있습니다 이상한 곡선과 증명 어떤 종류의 네트워크에 흥미로운 것들, 특히 이미지에서 잘 작동하는 모든 네트워크 그러나 나는 그것을하지 않았으며 어떻게 해야할지 모르겠다 그것 그게 다야

>> 질문 할 시간 >> 네 >> 부분적으로 이해하지 못했습니다 2 일반화에 대해 이야기하기 시작했을 때 나는 파트 1이 훈련에 관한 모든 것을 의미합니다 >> 아니요, 일반화에 대해서는 전혀 이야기하지 않았습니다 >> [들리지 않음]

>> 일반화에 대해서는 아무것도 없습니다 >> 당신은 어떤 점에서 그것이 >> 미안, 2 부 무슨 말인지 알 겠어 >> 맞아 >> 하강 알고리즘이 진행될 수 있도록하는 속성 거의 전 세계적으로 복잡한 속성으로 줄어 듭니다 매개 변수화에 의존하지 않습니다

그러나 매개 변수화는 하강 알고리즘은 다음과 같습니다 우리는 생체 공간에서 일하기 때문입니다 따라서 암묵적인 편견을 만듭니다 그들은 당신이 찾을 솔루션을 결정할 것입니다 일찍 멈 추면 그들은 당신이 멈출 곳을 결정할 것입니다 예를 들어, 솔루션 공간이 있으므로 레벨이 설정됩니다

제로 레벨이므로 연결합니다 그것은 데이터 공간에서 매우 기이합니다 결과에 따르면 해당 수준까지 나는 그들 중 하나에 갈 수 있도록 연결되어 있습니다 그것은 내가 좋은 것에 갈 것이라고 말하지 않습니다 반면에 익숙한 기능이 매개 변수화되는 방식 익숙한 기능이더라도 제로 행렬을 상당히 많이 바꾸고 있습니다

아주 잘 해결책에 도달 그것은 일반화 측면에서 우수합니다 >> 당신은 할 수 있습니다 >> 할 수 있습니다 만약 내가한다면, 이것은 매우 문제에 의존하는 것입니다 그것은 본질적으로 달려 있기 때문에 매개 변수 설정 방법에 대해 >> 커널 방식과 같은 시점에서 이것은 커널이 당신이 [들리지 않음]을 시도하는 것뿐만 아니라 일반화 할 것입니다 >> 아니, 당신은 그 증거를 설정했습니다

>> 알겠습니다 >> 종이를 Francis와 그의 학생의 게으른 학습지 그의 이름을 기억해야합니다 죄송 해요 >> [들리지 않음] >> 알겠습니다 그것이 얼음이나 사자 또는 이와 같은 것인지 확실하지 않습니다 >>이 학생은 [들리지 않음] 학생입니다

>> 알겠습니다 어쨌든 오늘이 논문을 가져 가면 그들은 경험적으로 당신이 따르는 해결책을 보여줍니다 탄젠트 채널은 작업 수에 비해 성능이 떨어지고 논쟁이 있습니다 그러나 그것은 끝입니다 시작 신문은 이런 종류의 게으른 학습은 많은 모델에 나타날 수 있습니다 특정 방식으로 스케일링을 변경할 때 그래서 그것은 희귀 속성이 아니라고 말합니다 일반화 보장 측면에서 많은 것을 제공하지 않습니다 이 솔루션은 매우 좋습니다

그것은 우리가 실제로 알고있는 것들과 상당히 일치합니다 커널 방식이 작동하면 솔루션을 제공합니다 그러나 실제로는 이미지에 대한 CNN뿐만 아니라 일반 좋은 이유 때문에 CNN은 이미지에 매우 적합합니다 >> 그러나 나는 단지 이해하려고 노력하고 있습니다 당신이 무슨 말을하는지 이해합니다 그러나 파트 1은 지금 당신이 말하는 것을 설명하지 않습니다

>> 1 부에서는 세계적으로 가장 가까운 곳으로가는 것은 기하학적 일뿐입니다 그것은 매개 변수화에 의존하지 않습니다 >> 아무 상관이 없습니다 >> 매개 변수화가 직교 관심사에 대한 영향 암묵적인 편견이 중요합니다 이것이 내가 말하는 것입니다

>> 알겠습니다 괜찮아 그 일 >> 내가 말하는 전부입니다 >> 녹음 중입니다 [들리지 않음] >> 내가 설립하려고 에 대한 복잡성 변위 코드 또는 추가 코드 하강 알고리즘으로 무언가를 할 수 있습니까? 문제는이 등급의 곡선에서 볼록합니다

>> 하나, 저는 전혀 몰라요 당신이 그것을하더라도 그것은하지 않습니다 올바른 솔루션으로 안내 할 것입니다 어쨌든 당신이 생각하는 사실은 동시에 매우 강력한 모델 용어 근사화 속성 및 동시에 매개 변수화 측면에서 매우 복잡하거나 유용한 것입니다 그것들을 모두 분리하는 것이 좋습니다 당신은 잘 말할 수 있습니다 이 강력한 모델로 해결책을 찾겠습니다 이제 매개 변수화 작업을 할 수 있습니다 내 문제에 적합하게 만들었습니다

이를 통해 학습 알고리즘의 역학을 바꾸고 있습니다 더 흥미로운 것들을 향해서 >> 매우 동의합니다 적어도 내가 이해하는 한 철학 그러나 레벨 세트가 연결되면 하강 알고리즘은 세계 최소는 직관적으로 매력적입니다 그러나 당신이 가지고 있다면 그것은 분명하지 않습니다 실행할 수있는 하강 알고리즘 연속 시간과 [들리지 않음] >> [들리지 않음]

C 만 내용이 속도 곡선을 제한하는 경우 f의 모든 지역 최소값은 세계적입니다 계속해서 전 세계 최소값을 찾으면 최대 [들리지 않음] 전역을 살펴보십시오 두 번째 부분은 바깥 쪽 가장 나는 그렇게하지 않았지만 같은 종류의 증거입니다 >> 맞아 그러나 세트가 될 수는 없었습니다

아마도 이것은 제한 속도 곡선에 의해 배제 될 것입니다 예를 들어, 물론 당신은 사용하는 지수입니다 당신은 할 수 없습니다 [들리지 않음] 알고리즘 다항식 [들리지 않음] >> 나는 다항식에 대해 말하지 않았습니다 합리적인 방법으로 강하하는 알고리즘이 있다면 당신이 말할 수있는 의미는 최소 지역을 찾을 것입니다, 그러면 새로운 세계를 찾을 것입니다 이것이 내가 의미하는 전부입니다

레벨 세트는 약한 가죽 끈 논쟁입니다 그러나 이것은 내가 추측하는 기하학이라고 생각합니다 예 >> 표면이 평평하다면 기본적으로 하위 수준 집합을 연결할 수있었습니다 그러나 당신은 여전히 ​​글로벌 최적으로 수렴하지 않습니다

>> 이것이 속도를 제한 한 이유입니다 경계 속도에서 일어나는 것은 실제로 그 속도입니다 기본적으로 현지 최소 금액을 취하면 기본적으로 X 지점을 중심으로 나는 내가있는 공간이있다 올라가거나 나는 평평한데 아래에 선을 그려야하는 점 이 평평한 지역의 중심 아래가이 평지에 있기 때문에 어느 시점에서 아래로 가야합니다 종점 볼록성과 모순됩니다 원한다면 아마 자랄 수 있습니다

x와 a1x가 있습니다 내 기능은 평평합니다 나는 아래에 있다고 가정합니다 따라서 x와 y와이 곡선은 속도를 경계로합니다 기본적으로 아래 어딘가에 키를 찾을 수 있습니다 기본적으로 함수의 값은 Gamma_t는이 선형 하강 라인보다 높아야합니다

기본적으로 그들은 선택됩니다 한계 속도는 매우 중요합니다 다른 경우에는 실제로 우리는 나중에 그것이 훨씬 더 단순하다는 것을 알고 있습니다 글쎄, 그것은 실제로 같은 것입니다 Lambda는 아래에 z 지점이 있습니다

당신은 레벨 M을 가지고 있습니다 당신은 x를 가지고 있습니다 여기 평평한 구역이 있고 z로 가고 싶습니다 z가 충분히 낮 으면 당신은 완전히 아래에 호를 가질 것입니다 그러나이를 위해서는 한계 속도가 필요합니다

t를 조금 움직일 때 당신은 큰 변위를하지 않습니다 기능 공간 또는 제한 속도 어 Where 어? 음, 그것은 평평한 지역입니다 한계 속도는 여기 생각합니다 지금 찾으려고하면 나는 그것을 잘못 찾을 것입니다 괜찮아

예 >> 네, 첫 번째 결과는 보편적 근사입니다 찾은 곡선이 연속적임을 어떻게 보장합니까? 모든 점에 대해 근사 기가 있기 때문에 그러나 아마도 별개의 일이 어려울 수도 있습니다 >> 내가 말했을 때 내가 보여줄 방법을 정확히 알고 있기 때문에 당신은 많은 포인트를 찾을 수 있습니다 연속성이없는 기능 아주 쉽습니다

당신은 밖에 갇혔습니다 내가 아직 몰라 죄송 해요 내가 있다고 말할 때 나는 단지 나를 깨달았다 우리가 아직 [들리지 않는] 연속성 문제 함수를 근사하기 위해 바인딩해야 할 수도 있습니다 및 또한 유도체

괜찮아 >> 더 이상 질문이 없으면 Leon에게 감사를 표합니다 >> 고맙습니다