'리듬파워' 지구인 "영화감독의 꿈, 솔로 앨범에 담았다"(일문일답)

그룹 '리듬 파워'멤버 지구인이 화 마니아 최저 독점 콘셉트의 새 앨범 소개 구인은 지난 22 일을 기다렸습니다

ADBC ​​T 무비 몬스터 '무언가 비주얼'을 발표 할 때 앨범 발표를 계속합니다 이날 지구인은 영화 채인과 함께 영화를 보며 새로운 영화를 만들었습니다 지구상의 감독이 꿈을 이루었습니다 '비디오 여행'을 해보십시오 인상파 '진해탕 (박재범 F)

(Feat 보이 비) ','지평 팔 ','주검 (Feat 그는 비평), 'Inter ude', '착오 고, ■ '구인 (Boulogne)'이라는 말은 'B 영화 (B movie)'라고 불린다 ■ 구인 (Boulogne) 이 글을 너무 비방하게해라 'EP'에피소드 '영화'일 ' # 2 번 트랙 '지팔' '미친 니'탈락 후 시아파

복싱을 배웠다 박종 팔 선수 빗대 어 지종 팔이 고우 부다 더라 다른 사람 3 번 트랙, '주성치 (Fea

The Qui tt)'제목 곡목은 주인공이다 4 번 트랙 타이틀 '진흙탕 (Fe t 박재범)'더 멍에가 삐걱 거리다 코미디언 아저씨 장 느낌 음악은 '살아있는 시체들 밤'을 올렸습니다

# 5 번 트랙 '인터뷰'를 할 수 있습니다 (Feat 보이) '전 여친과 사귀고 그 진 후 윤종신의'좋음 감 감성이 더 찌질한 곡 (ADB V) '' '' '' '' '' '' '' '' '' '' '' '' '' '' '', 무비 적부 비주얼 영상 상 캡처]

Get in-depth insights with AI and machine learning data analysis tools

이제 멋진 AI 기능이 추가되었습니다 나는 호텔 리뷰와 함께 여기에 돌아왔다

이전에 가지고 있었던 데이터 세트도 그래서 PowerQuest 온라인 에디터에서 데이터 흐름을보고 있습니다 이제 내가 가지고있는 데이터 세트에서 사람들이 호텔에 대해 남긴 리뷰 또한 이미지를 업로드했습니다 이제 내가 정말로 풍성하게 할 수있는 것들 중 하나 이미 가지고있는이 데이터는 AI 통찰력을 사용하는 것입니다 그리고 이것은 몇 가지 기능을 보여줍니다

나와 함께 사용할 수 있으며 상자 밖에서, 이것들을 사용하십시오 예를 들어 이러한인지 서비스 그래서 언어를 감지 할 수 있었고 중요한 문구를 추출 할 수있었습니다 이 예제에서는 리뷰의 정서에 점수를 매기 고 싶습니다 나는 그걸 고를거야

그리고 난 현장에 넣을 수있어 이 함수를 적용하고 싶습니다 따라서 검토 텍스트에서이 작업을 수행하고 싶습니다 지금은 단지 언어를 넣어야 만합니다 그게있을거야,하지만 우리가 생산에 들어갈 때, 자동으로 감지됩니다

그래서 나는 그 함수를 호출 할 것이다 이것이 실행되는 동안 이것은 실행 중입니다 바로 BI 서비스에서 파워 쿼리에서 내가하고있는 다른 변환과 마찬가지로, 그 함수의 결과가있는 열을 추가합니다 그리고 당신은 그것이 단지 초 걸리는 것을 본다 이제는이 리뷰의 실제 정서 점수를 얻었습니다

이제 데이터 과학자가 있을지도 몰라 내 조직에서 이 놀라운 이미지 태깅 모델 그건 내 유스 케이스에만 해당되는거야 이제 Azure ML과의이 새로운 통합으로, Power BI에서 실제로이를 활용할 수 있습니다 그래서 내 데이터 과학자가이 모델을 만들었습니다 Python에서 Azure ML SDK를 사용하여 그리고 그들은 그 모델을위한 웹 서비스를 만들었습니다

이제 모든 데이터 과학자가해야 할 일 Azure 포털에 들어가서 모델에 대한 액세스 권한을 부여하고, 그리고 그들이 그것을 마치 자마자, 내 기능에 여기에 표시됩니다 전과 마찬가지로 AI 통찰력을 얻으 려합니다 그런 다음 Azure Machine Learning 모델을 사용합니다 보시다시피, 그것이 바로 호텔 이미지 분류 기준이 표시됩니다 그래서 저는 그것을 선택하고, 마찬가지로 쉽게 할 수 있습니다

열, 이미지 열을 선택하십시오 나는 그것을 적용하고 싶습니다 그리고 저는 방금 그것을 호출합니다 이제 이전 단계와 비슷합니다 여기에 기록해두면 내가 선택한 데이터의 모델입니다

여기서 열을 확장하면 두 번째 걸릴 것입니다 그렇게하면 내 데이터 세트에 이미지 텍스트 저것을 보자, 그래서 너는 본다 수영장과 비슷한 사진이 있어요 호텔 객실, 전망을 가지고, 이제 데이터 세트를 다시 저장할 수 있습니다

데스크톱에서 연결 또는 보고서를 작성하십시오 이제 어떻게 생겼는지 보자 그래서 나는 이미 호텔 리뷰에 관한 보고서를 가지고있다 그리고 지금까지, 나는 단지 할 수 있었다 관련있는 리뷰가 포함 된 이미지를로드하고, 얼마나 많은 리뷰가 남았는지 알 수 있습니다

어떤 호텔과 어느 섬에 그러나 그 정서를 추가하고 그 텍스트를 추가함으로써 이 분석을 훨씬 더 흥미롭게 만들 수 있습니다 내가 할 수있는 한 가지는 인스턴스보기입니다 감정 점수, 어, 호텔에 의해 그냥 여기로 끌고 갈거야

막 대형 차트로 만들면 거기에서 볼 수 있습니다 이제 내 리뷰를 실제로 필터링 할 수 있습니다 가장 높거나 낮은 감정을 가진 호텔에 의해 내가 할 수있는 또 다른 일 이미지 텍스트를 가져 오는 것입니다 이미지 텍스트로 새 그래프를 만들고 싶습니다 정서 점수를 더한 다음 다시 막대 그래프로 만듭니다

그래서 지금 당장 나는 이미지는 높고 낮은 정서와 관련이 있습니다 다시 한번 나는 그것을 걸러 낼 수 있습니다 나는 말할 수있다, 해변에있는 이미지를 가진 사람들 일반적으로 높은 감정을 가지고 있으며, 그 호텔들이 어떤 호텔인지 알 수 있습니다 그리고 나서, 더 낮은 정서는 이 경우에, 너는 진짜로 좋아 보이지 않는다

당신이 당신의 휴가에 찾고 싶어하는 것 따라서 이러한 인공 지능 기능을 통해 분석가는 그들의 데이터를 풍부하게하고 그들의 분석에 깊이를 더합니다 그러나 우리는 또한 최종 사용자를 위해 많은 일을하고 있습니다 주로 삶을 편하게하기 위해서 보다 신속하게 통찰력을 발굴 할 수 있습니다 자, 여기에 내가 가진 한 가지 예가 있습니다

하와이의 관광 분석 방문하는 사람의 수를 볼 수 있습니다 다른 섬들, 왜 그들이 방문하는지, 그리고 그들이 지출하는 금액은 얼마입니까? 이것 뒤에 많은 정보 이 보고서에는 직접 표시되지 않을 수도 있습니다 이제 빠른 통찰력으로, 실제로 이해할 수 있습니다 우리는 원래 빠른 통찰력을 도입했습니다

전체 데이터 세트에 대한 통찰력을 얻으려면 하지만 지금 우리는 실제로 집중하고 있습니다 그것은 당신에게 관련된 지점에서, 그래서 당신이보고있는 상황 방문을 날짜와 지역별로 살펴 보겠습니다 내가 이것을 선택하고 마우스 오른쪽 버튼을 클릭하면, 이제는 분석을 사용할 수 있으며 Power BI는 이미 있습니다 어떤 유형의 데이터와 어떤 유형의 그래프인지를 확인합니다

내 다음 깊은 다이빙이 뭔지 알기 그래서 저는 우리가 그 감소를 설명하고 싶다고 말할 수 있습니다, 무슨 일이 일어 났는지 나에게 알려줄거야 그리고이 차트 뒤에있는 것을 감소시키는 요인은 무엇입니까? 예를 들어 여기서 나는 관례, 컨벤션을 방문하는 비즈니스 사람들은, 실제로 올라가고 있지만, 가장 큰 감소는 휴가를 방문하는 사람들에게, 8 월과 9 월을 비교하면 의미가 있습니다 내가 여기서 할 수있는 또 다른 일은 Q와 A를 사용하는 것이다 Q와 A는 이미 사용 가능합니다

Power BI 데스크톱에서도이 기능을 도입했습니다 따라서 보고서에서 바로 사용할 수 있습니다 여기 Q와 A 버튼이 있습니다 내가 원하는대로 디자인에 반영 할 수 있습니다 내가 열면 Q와 A 인터페이스가 생깁니다

그래서 몇 가지 질문이 있습니다 나는 나를 위해 제안되었습니다 그리고 나는 다른 그래프를 볼 수 있습니다 그러나 나는 또한 내 자신의 질문을 제안 할 수 있습니다 하루에 내 지출 대신, 나는 여행 당 지출을보고 싶다

예를 들어 섬에서의 여행 당 지출을 볼 수 있습니다 그리고 이것은 제가 사용할 수있는 시각을 줄 것입니다 하지만 지금 내가 할 수있는 일은 후속 질문을하는 것입니다 그래서 나 자신을위한 서사를 만드는 것 후속 질문을하겠습니다

입력 할 수는 있지만 이제는 동일한 통찰력을 사용할 수있는 옵션을 제공하십시오 빠른 통찰력 엔진, 여기 Q와 A 그래서이 배포판에 영향을 미치는 것을 선택할 수 있습니다 그리고 실제로 그것은 나에게 약간의 통찰력을 줄 것이다 왜 내 데이터 세트에서 이런 일이 일어나고 있는지

당신은 또한 역사에 추가하는 것을 볼 수 있습니다, 너무 천천히 나는 여기에 내 자신의 분석을 구축하고 있습니다 이제 한 가지만 더 추가하십시오 한 달 전에 방금 출시 한 이것이 바로 Python 통합입니다 R과 마찬가지로 이제 Python을 사용할 수 있습니다 시각 자료를 만들뿐 아니라 데이터를 미리 준비 할 수 있습니다

그래서 여기에 당신의 예를 보여 드리겠습니다 파이썬을위한 비주얼을 만드는 법 파이썬 비주얼을 선택하려고합니다 바로 여기 R에요 그냥 여기로 끌고 갈거야

조금 더 크게 만들고, 동일한 데이터 세트에서 몇 가지 데이터가 있습니다 다른 섬의 날씨 그래서 나는 군집을 만들고 싶다 다른 섬의 계절별 기온 하지만 Power BI에서는 그다지 비주얼하지 않습니다 그래서 파이썬을 사용해서 그렇게 할 수 있습니다

나는 모든 항목을 끌고, 이 시각에서 내가 사용하고 싶은 모든 분야, 나는 그 값들로 끌고 갈거야 음, 지수, 계절, 평균 기온 그리고 나는 그들이 요약되지 않았는지 확인하고 싶다 그리고 내가해야 할 일은, 어, 내 대본을 여기에 넣어 라, 물론, 그것을 준비했지만 보시다시피 그것은 단지 몇 줄의 나를위한 떼 짓기 블록을 정의하십시오 나는 지금 그것을 달리고있다

나에게 온도 분포를 보여줘 어, 다른 계절에 내 보고서를 필터링하는 데 사용할 수 있습니다 그것은 모두 그것에 적응할 것입니다 그건 다른 멋진 일이야

Power BI에서 파이썬으로 할 수 있습니다

차에서 들누워 자빠자는 습관은 가지지말라 아침…

차에서 들누워 자빠자는 습관은 가지지말라 아침마다 카풀인자가 차를 탈때면 배게를 찾아사요 그래서 그 배게도 치워버렸습니다 술처묵고 자빠자고 회사와서 졸고 집에가서 처 자빠자고 인생이 술아니면 잠 입니까 카풀이 만땅일때 과연 잘 수 있을까요 터널이 뚤리기를 기다리며 그땐 제가 태우고 다닐 카풀인자가 아니기에

Weights and Biases – Developer Tools for Deep Learning

가중치 및 편견에서 우리는 깊은 학습을위한 개발자 도구를 만듭니다 실험을 쉽게 추적하여 모델을 개선하고 모델을 공유하고 싶습니다

결과 시작하려면 몇 줄을 교육 스크립트에 추가하십시오 문제 없어 사용중인 프레임 워크 또는 인프라에서 손실 및 정확성을 확인할 수 있습니다 모델을 실시간으로 재현 할 수 있으며이를 재현하기 쉽도록 노력할 것입니다 하이퍼 매개 변수, 성능 메트릭, 터미널 로그, 출력을 저장하여 실행 파일 및 자식 상태

맞춤 측정 항목에서 관심있는 항목을 모두 기록 할 수 있습니다 매트 플롯 차트, 히스토그램 및 임의의 HTML에 적용됩니다 실험 결과를 한 곳에서 볼 수 있습니다 런을 정렬하고 그룹화하여 교육에서 어떤 일이 일어나는지 확인하십시오 높은 3 차원 데이터를 이해하기 어렵 기 때문에 도움

우리는 수백만 회의 실행으로 확장하기 위해 대규모 분산 교육을 처리합니다 보고서를 작성하여 자신의 업무를 문서화하고 다른 사람들과 공동 작업하며 결과를 확인하고 전체 팀의 진행 상황을 확인하십시오 우리의 소프트웨어는 항상 무료입니다 학생과 학자 및 회사 라이센스에 비해 저렴합니다 두통 및 연구 재실행 비용

시작하려면 W와 B dot com에 가입하십시오

이병헌 ‘환호가 수줍은 천만감독’

이병헌 감독 9 일 오후 서울 양천구 목동 CG 목동에서 열린 '극한 직업'무대 사와 납득 관객과 만남을 원한다 류승룡, 이동식, 이동휘, 진선 규명, 공명 등 출현 '극한 직감'은 위 치시고 위의 창업은 '마 치킨' 작했다 지난 23 일 개봉했다

s ji @ tvrepo tcokr opyrights ⓒ TV 리포트 이전 전제 – 재배치 금지

Towards Generalization and Efficiency in Reinforcement Learning

>> [음악] 오늘 우리 웬일을 방문하게되어 정말 기쁩니다 나는 여기 많은 사람들이 이미 원자바오를 알고 있다고 생각한다

그의 시간과 Redmond 연구소에서, 하지만 그렇지 않으면, 원 총리는 이론적으로도 매우 흥미로운 연구를 해왔다 경험적, 그리고 모방 학습 및 보강 학습 분야 오늘 그는 우리 중 일부에 대해 이야기 할 예정입니다 일반화에 대한 그의 연구, RL의 효율성 >> 감사합니다 알렉

모두들, 와줘서 고마워 CMU의 웬입니다 오늘 나는 너에게 말할거야 강화 학습에 관한 약간의 정보 일반화 능력과 표본 효율성에 중점을 둡니다 그래서, 내 PhD 경력을 통해, 나는이 문제에 대해 생각 해왔다 : 어떻게 우리는 디자인 능력이있는 알고리즘 일반화하고 또한 샘플이다

복잡한 결정을 내리는 데 필요한 학습 측면에서 효율적입니까? 이 질문에 답하기 위해, 저는 오늘 두 가지 접근법에 대해 이야기 할 것입니다 따라서 첫 번째 방법은 추가 도움을 활용하는 것입니다 이 강연에서 전문가 시위가있을 것입니다 그래서, 우리가 어떻게 사용할 수 있는지 알려 드리겠습니다 알고리즘을 설계하기위한 전문가 시연 순차적 의사 결정 문제를 효율적으로 해결할 수 있습니다

그렇지 않은 문제는 아마도 알고리즘의 보강을 위해 매우 어렵습니다 두 번째 부분에서는 불행하게도 우리는 추가 도움이 필요하지 않습니다 그래서 우리는 문제 인스턴스를 살펴볼 것입니다 그러한 문제의 구조를 악용하려고 시도하면서, 샘플 효율적인 알고리즘을 설계하기 위해 더 많은 것은, 나는 너에게 말할 것이다

캡처 할 수있는 통합 된 이야기 매우 큰 가족으로부터의 문제 인스턴스의 복잡성 자, 우리가 세부 사항에 뛰어 들기 전에, 나는 단지 그 차이점을 빨리 지적하고 싶다 감독 학습 및 순차적 의사 결정 따라서 감독 학습은 아마도 Machine Learning 101에서 처음 배웠던 것입니다 우리는 일련의 훈련 데이터를 가지고 있으며, 각 점은 일부에서 샘플링 된 ID입니다

우리는 함수 근사에 적합합니다 그 후, 새로운 테스트가 주어지면, 우리는 단지 예측을합니다 그래서, 여기서 핵심은이 모든 과정이 수동적이라는 것입니다 당신이이 시험에서 이미지를 예측한다는 의미에서 말이죠 영향을 미치지 않습니다

당신이 보게 될 미래의 이미지 결국, 우리는 모든 데이터 포인트는 알려지지 않은 분포에서 샘플링 된 ID입니다 즉, 귀하의 예측 데이터 배포에 영향을 미치지 않습니다 그러나 이것은 순차적 의사 결정에서 근본적으로 다릅니다 모든 것이 여기에서 활발합니다

이미지의 순서 이 비디오 게임에서 보게 될 것, 당신이 적용한 행동에 의해 결정됩니다 나쁜 행동을 적용했다면, 이것은 당신이 영원히 볼 미래의 상태입니다 당신이 상태 공간에 가고 싶다면 큰 보상을 받고 싶은 곳, 당신은 그 상태 공간에 도달하기위한 결정을 내리는 법을 배워야합니다 권리 즉, 모든 것이 활성화되어 있습니다

결정이 영향을 미칩니다 당신이 보게 될 미래의 데이터 분포 따라서 순차적 의사 결정을 학습하는 것이 종종 가능합니다 이 보강 학습 틀에 포위되어 있어야하며, 여기에는 두 가지 구성 요소가 있습니다 학습 에이전트 및 환경

이 대리인의 마음에서, 그는 정책이라는 것을 가지고있다 이 대화에서 Pi로 표시되는, 설명하는 상태를 매핑합니다 현재 환경과 행동에서 결과를 출력합니다 그런 다음 환경에 조치를 보냅니다 환경에는 좌표가 포함됩니다

원 스톱 즉각적인 보상을 돌려 보낸다 또한 다음 상태 조절 현재 상태와받은 행동에 대해 우리는 변속기 동역학 여기는 마르코 비아 전환입니다 역학이 알려지지 않았다고 가정합니다 따라서 H 메뉴 단계에 대해이 과정을 반복합니다 목표는 다음과 같은 정책을 찾는 것입니다

예상되는 총 보상을 극대화하십시오 따라서이 환경에서 환경은 자기 주도형 자동차 시스템이되어야한다 국가는 귀하의 자동차와 다른 자동차의 상태 우리와 같은 인간 일 수 있습니다 에이전트는 일부 대량 교습 시스템입니다

예를 들어, 우리에게 대량 문제를 골라 내려고합니다 여기서 목표는 최대화하는 것입니다 예를 들어 학기 전체에 걸쳐 우리의 대중 공연 더 공식적으로, 우리는 정책 Pi를 찾고 싶습니다 이 H 메뉴 단계에서 기대되는 총 보상을 최대화하십시오

그래서 이번 강연에서 우리는 유한 한 지평선이지만 내가 할 일 나중에 설명 할 수있다 쉽게 할인 벡터와 무한한 지평선으로 확장 나는 끊임없이 서로 교류 할거야 보상과 비용은 대략 같기 때문에 당신은 보상에 대해 비용의 음수라고 생각할 수 있습니다

그래서 보강은 20 년 전부터 매우 인기가있었습니다 그 당시 우리는 보강재를 사용했습니다 주사 기술을 배우기위한 기술 습득 그 당시 큰 소식이었습니다 최근에는 인기가 다시 높아졌습니다

2 년 전 우리는 아시아 보드 게임 GO를 해결했습니다 우리는 그를 이기고이 경기에서 승리했습니다 지난 해, OpenAI는 이 비디오 게임을하는 관점에서 인간의 챔피언을이기는 것 그것을 매우 도전적이라고 생각했습니다 입출 력이 쉬워 보이는군요, 그렇죠? 우리는이 모든 문제를 해결하고 있기 때문입니다

그러나 이러한 문제에 대해 자세히 살펴 보겠습니다 예를 들어, OpenAI Five OpenAI는 기본적으로 그들이이 게임을했다고 말합니다 그들은 수백 명의 GPS에 대한 우리 요원에게 훈련 시켰습니다 물론 128 KCPU에 대해서도 마찬가지입니다

그것은 많이 보인다 당신이 나에게 사용했던 각 CPU를 보낸다면, 예를 들어 100 달러, 그러면 빠른 수학을 할 수 있습니다 이것은 당신이받을 법안입니다 어쩌면 이런 종류의 돈은 마이크로 소프트에게는 그다지 크지 않을 것입니다 그러나 나는 상상할 수 없다

내 표창 언젠가 그가 이런 걸 보게된다면 그래서, 그냥 돈을 많이 써야한다면 이 상담원을 양성 할 컴퓨터를 설정하고, 이 비디오 게임을하기 위해서, 나는 문제가 쉽지 않다고 생각한다 IO가 해결되지 않았다고 생각합니다 이러한 알고리즘의 세부 사항을 살펴보면, 그들이 사용하고있는 하나의 주요 구성 요소 몇 가지 무작위 탐색 전략, 기본적으로 임의의 시행 착오를 엄청나게 많은 수의 CPU를 대규모로 시뮬레이션합니다 글쎄, 그건 실제로 그런 뜻이 아니야 이 왼쪽의 기술은 실제 응용 프로그램으로 직접 전송할 수 있습니다

예를 들어 환자를 복제 할 수 있습니까? 무작위로 시행 착오를하기 위해 자신을 수백만 명으로 만들었습니까? 우리가 운전하는 법을 배우기 전에 수백만 대를 파괴 할 수 있습니까? 우리가 할 수없는 것 같습니다 그래서, 우리가 정말로 필요로하는 것 이 실제 응용 프로그램은 샘플 효율성입니다 이제 샘플 효율에 대해 말하면, 우리는 지금까지 우리가 만든 진보를 봐야합니다 지역 사회의 이론적 보강 조건 따라서 개별 MDP를 매우 잘 처리하는 방법을 알고 있습니다 우리는이 개별 MDP를위한 아름다운 알고리즘을 가지고 있습니다

우리는 절대에 가까운 최적의 정책을 성취하기 위해서, 우리는 다항식의 수를 만들 필요가 있습니다 이 개별 단어와의 상호 작용 고유 수와 관련하여 다항식 지평선에서의 활동 및 상태의 고유 번호 이 알고리즘은 매우 좋습니다 그들은 수학적으로 아름답지만 중요한 문제입니다 상태의 수에 대한이 다항식 의존성, 우리가 우리에게 실제 응용 프로그램으로 여기에서 이해할 수 있습니다

예를 들어 GO를 재생하기 위해, 우리는이 게임에서 국가의 총 수가 이 우주의 총 원자 수보다 큽니다 그래서,이 폴리 의존성에 고유 한 상태의 수가 우리를 죽일 것입니다 실제 응용 프로그램은 언급하지 않고, 우리는 연속적인 상태 공간과 특징 벡터는 일반적으로 높은 차원과 매우 복잡합니다 좋아, 그럼 우리가 할 수있는 일 다시 한번 감독 학습을 살펴 보겠습니다

결국, 이것은 우리가 예쁘게 이해 한 것입니다 이론과 실천 측면에서 그렇습니다 그래서, 우리는 많은 양의 훈련 데이터를 가지고 있습니다 우리는 훈련 데이터에 모델을 적용한 다음 예측을 수행합니다 다항식이라고하는 것은 없습니다

세계의 고유 한 이미지의 수에 대한 의존성, 맞습니까? 그래서 그것은 미친 짓이다 우리가이 개에 대한 예측을하고 싶다면, 우리는 꽤 많이 봐야 해 이 세상에서 개가 가진 모든 이미지 우리는 실제로 이러한 유형의 브리지 함수 근사에 의한 일반화 그래서 우리는 대규모 MDP에 대해서도 똑같은 일을하고 싶습니다

구체적으로, 우리는 교량에 가고 싶다 왼쪽과 오른쪽 사이의 간격 함수 근사법 우리가 전에 보지 못했던 주 전역을 일반화 할 수 있습니다 맞아, 이거 좋네, 그러나 최악의 경우, 우리는 내가 바라는 일반화를 이룰 수는 없다 그래서 문제는 건초 더미에서이 바늘과 같은 문제, 당신은 하나의 보상 만받습니다 특정 리프 및 if 에이전트는이 문제에 대한 사전 지식이 없으므로, 이 MDP의 구조, 보상의 구조

무작위로 시작해야한다면, 그것은 꽤 많이보아야한다 잎에서 바늘을 발견하기 위해 모든 통과 맞지? 그래서, 이것은 최악의 경우를 의미합니다 당신이 갈 상호 작용의 수 진짜 일을하고, 상태 수에 따라 선형 적으로 확장됩니다 네가 할 수있는 일이별로 없다

좋아요, 그래서이 리드들 우리가 얘기 할 두 가지 그래서 첫 번째, 우리는 이야기 할 것입니다 Expert Demonstrations를 어떻게 활용할 수 있는지, 모방 학습은 다음을 포함하는 문제를 효율적으로 해결합니다 건초 더미 문제의 바늘 알고리즘에서 보강하기가 정말로 어렵습니다 그런 다음 설정을 살펴 보겠습니다

우리는 전문가 데모가 없지만, 그러나 우리가 어떻게 문제의 구조를 악용 할 수 있을까요? 샘플 효율적인 알고리즘 개발 및 개발 커다란 문제들 괜찮아? 이제 전문가 데모에 대해 이야기 해 봅시다 여기 내가 너에게 보여줄거야, 왜 우리는 모방 학습을 원 하죠 왜 모방 학습은 강화 학습보다 낫습니다 둘째, 우리는 어떻게 순차적 의사 결정 문제를 감독 학습의 순서 전문가 데모를 활용하십시오

셋째, 어떻게하면 우리가 지역 전문가들로부터 일반화 그래서, 모방 학습, 우리가 모방 학습에 대해서 이야기 할 때, 우리는 보통 세 가지 구성 요소를 가지고 있습니다 일부 데이터를 제공하는 전문가, 일부 데모, 일부 기계 학습 알고리즘이 있습니다 데이터를 입력으로 사용하는 상태에서 행동으로 매핑하는 일부 정책을 계산하고, 테스트 기간 중에이 정책을 배포 할 수 있습니다 이 부분에서, 우리는 설정에 초점을 맞출 것입니다

인터랙티브 모방 학습 보상 신호에 액세스 할 수 있습니다 그래서 여기의 설정은 기본적으로 우리가 가지고있는 것입니다 글로벌 최적 전문가 교육 기간 동안 이 전문가의 피드백을 쿼리 할 수 ​​있습니다 한 가지 예가 바퀴 뒤에 앉아있는 인간입니다 그는 시스템이 그를 물을 때마다 차를 인수 할 수 있습니다

그래서, 이것은 우리가 이야기하고있는 쌍방향 전문가입니다 더 공식적으로 보자 우리는 현재 일부 정책을 배우는 학습 알고리즘을 가지고 있습니다 우리는 현재의 정책을 어느 시점까지 배웠다 그런 다음이 대화 형 전문가에게 이 시점과 인터랙티브 전문가는 이 차를이 앱의 경로 끝까지 차를 타고갑니다

그런 다음 전문가 궤도 총 비용을 기록합니다 그래서,이 총 비용이 어떻게 나타 났는지 상상할 수 있습니다 회복하기 쉽다 학습자가 방금 만든 잠재적 실수 어떤 종류의 예가 Interactive Expert인지 궁금 할 수 있습니다

글쎄, 첫 번째 예가 인간 뒤에 앉아있는 것입니다 이제 자율 주행 훈련을위한 데이터를 수집하는 방법입니다 내가 이야기하고 싶은 두 번째 예제 여기서 전문가는 인간 일 필요는 없다는 것입니다 그것은 일부 알고리즘이나 일부 소프트웨어 일 수 있습니다 예를 들어, 플래너는 일부 로봇 어플리케이션에서 제어합니다

예를 들어,지도에서 정책을 저렴한 프런트 카메라의 이미지 신호를 제어하는 ​​자기 운전 차량의 나는이 정책을 훈련 할 수있다 엔드 투 엔드 방식이지만 아마 나를 훈련시켜주기 위해 영원히 데려 갈거야 내가 할 수있는 것은 훈련 시간에, 나는 아마도 매우 값 비싼 센서를 살 수있을 것이고, 매우 정확한 상태 추정기를 만들기 위해 그것들을 사용할 수 있습니다 어느 것을 지을 수 있어요? 매우 복잡하지만 정확한 모션 플래너 또는 훈련 시간 동안 최적의 제어, 저는 이것을 교육 기간에 글로벌 전문가로 사용할 것입니다 물론 그러한 종류의 전문가는 훈련 시간 우리가 시장에 차를 선적 할 때, 우리는 단지 사용하고 싶다

싸구려 센서 그래서 고객이 그것을 감당할 수 있습니다 두 번째 예는, 일부 자연 언어 처리 작업에서, 예를 들어 의존성 분석, 훈련 자료에 지상 진실 표지를 사용하여 우리가 최적화하고자하는 객관적인 기능, 우리는 쌍방향 전문가로서 검색 알고리즘을 사용할 수 있습니다 이제부터는이 시점으로갑니다 맞아요, 그래서 이것은 설정되었습니다 그래서 지금,이 시점에서, 당신은 객관적인 기능에 접근 할 수 있을지 궁금해 할 것입니다

보상 신호에 액세스 할 수 있습니다 왜 모방을 사용하여 귀찮게합니다 왜 당신이 좋아하는 것을 사용하지 그래? 알고리즘의 보강 직관적으로, 모방 학습은 강화 학습보다 훨씬 더 효율적인 샘플입니다 좋은 예는 높은 점프입니다

그것은 최고의 운동 선수 커플을 데려 갔다 수십 년간 높은 점프를하는 올바른 방법을 찾아야합니다 그러나 일단 Dick Fosbury가이 Fosbury 플랍을 알아 냈 으면, 1 년 또는 2 년 후에, 꽤 많은 사람들이이 Fosbury 플롭으로 변했습니다 그래서, 그것은 기본적으로 모방하는 것을 의미합니다 강화 학습보다 훨씬 빠르며, 올바른 방법을 처음부터 찾아 내려고 노력했습니다

이제 이점을 공식화합시다 첫 번째 이점은 Global Optimality입니다 사용 가능한 전문가가 있다고 가정한다면 교육 시간 동안 거의 전역 최적이며, 그 때 AggreVaTe와 같은 산법, 정책을 배울 수있는 값으로 집합을 나타냅니다 배운 정책 Pi 모자의 성능 전문가의 성능에 가깝습니다 그래서 우리는이 경우에 지역 최소값을 사용하지 않았습니다

두 번째 이점은 우리가 훨씬 더 빨리 배울 수 있다는 것입니다 좋아, 그럼 우리가 보여줄 수있는 건 교육 기간 동안 글로벌 최적 전문가 (Global Optimal Expert) 새로운 최적의 솔루션을 배울 수 있습니다 모방 학습 알고리즘 사용 존경심에 따라 시간에 따라 로그 스케일 이 MDP의 총 상태 수 강화 학습 알고리즘의 경우, 당신은 거의 모든 주를 방문해야합니다 이제,이 로그 시간은 우리가 원하는 것입니다 맞습니까? 새로운 최적의 행동을 배우고 싶습니다

국가 공간의 아주 작은 부분을 방문하면됩니다 맞아, 빨리 날 보내줘 우리가이 지수 적 분리를 어떻게 얻는 지 설명하십시오 아이디어는 우리가 단지 살펴볼 것입니다 다시 건초 더미 문제에있는이 바늘

따라서 의사 결정 프로세스의 매우 단순한 결정적 표시입니다 당신은에 대한 보상 만 있습니다 잎 노드와 바늘은 가장 왼쪽에있다 자, 사전 지식없이 역학의 보상의 구조 중, 우리는 단지 학습자와 최적의 전문가 및 최적의 계획 자 예? >> 그래서, 당신은 보상 기능을 가지고 있다고 말하는가? >> 네, 당신은 보상에 접근 할 수 있습니다

너는 [들리지 않음] 너를 방문하지 않는다 당신이 이것에 대한 보상 신호를받는 주 보상에 대한 구조를 알지 못합니다 >> 네 >> 좋아

그래서, 우리는 어떤 국가든지에 훈련 시간 도중, 그것은 주 아래의 하위 트리를 볼 것이며 유도하는 길을 찾는다 가장 높은 보상을 포함하는 잎 자,이 전문가의 도움으로, 우리는 꽤 많이 줄일 수 있습니다 순차적 의사 결정 문제는 감독 학습 문제의 순서 예를 들어, 처음부터, 학습자가 아무것도 모르기 때문에, 그것은 아마도 최악의 통과를 선택합니다

이 시점에서, 우리는 단지 경로의 전문가에게 물어볼 것입니다 전문가가 당신에게 가야한다고 말합니다 바늘이 왼쪽의 하위 나무에 있기 때문에 떠났지, 그렇지? 이제 학습 문제를 변환합니다 첫 번째 레이어에서 감독 학습 문제로 상태가 X_0이고 왼쪽으로 레이블이 지정 되었습니까? 우리는 감독을 감독했고 단순히 제거 할 수 있습니다 전체 오른쪽 하위 트리 우리가 결코 방문하지 않은 국가도 포함됩니다

이제 정책을 업데이트하겠습니다 다시 한 번 실수를합니다 X_1 및 전문가에게 다시 도움을 요청합니다 전문가는 당신이 다시 떠나야한다고 우리에게 말합니다 우리는 다시 감독 학습을합니다

그리고 우리는 국가 아래의 전체 오른쪽 하위 트리를 제거합니다 그래서 기본적으로 매 라운드마다, 우리는 남은 노드의 절반을 제거합니다 예? >> 왜 깊이가 중요합니까? 내 말은, 왜 우리는 깊이가없는거야? 더 많은 주 (states)에, 그 확장은 나에게 말한다, 좋아이게 맞아 S와 1 사이의 간격을 두는 것

>> 그럼, 당신은 질문을 반복 할 수 있습니까? >> 나무의 깊이가 왜 중요한가요? 왜 모든 국가가 깊이에있을 수없는 것일까 요? >> 모든 국가가 깊이 1에 있습니까? 따라서 상태에서 상태로의 전환은 없습니다 네, 그냥 당신을 의미합니다 0에서 시작한 다음 어디로 가야할지 모릅니다 두 가지 행동 만 원하기 때문입니까? >> [들리지 않음] >> 네, 그렇습니다

우리가 여기와 같은 많은 행동을한다면, 나는 그것이 단지 사소한 것이라고 생각한다 분리는 1에서 S까지 가능할 수 있습니다 >>하지만 나는 그들이 더 나쁜 의존성이 될 것이라고 생각한다 우리가 접근 할 수있는 행동의 수 >> 알았어

그래서, 여기에 기본적으로 같은 행동을 취하지 않은 사람? >> 네 >> 행동의 수는 증가하지 않고있다 그것은 일정하게 유지되고 있습니다 >> 네 >> 그러나 이상적인 해결책 S에 대수 의존성을 가질 것입니다

>> 네 >> 다른 경우, 우리는 함께 성장할 행동의 수 그 건설을위한 거리의 수 >> 네 >> 그게 왜 문제 야? >> 조심해야 해 다중 등급 작업 표시 줄이 도움이 될 수 있습니다

따라서 행동 수는 선형 의존성을 가질 수 있습니다 통계적으로 더주의를 기울이면 행동 >> 그러나 통계에는 통계가 없습니다 그것은 내가 그들에게 묻지 않는 것이다 결정 론적입니다

>> 네 따라서,이 예가 결정되고, 하지만 당신은 그것을 [들리지 않음]으로 바꿀 수 있습니까? 그래서, 당신은이 할로우를 얻지 못할 것입니다 하지만 너는 그냥 달릴거야 예를 들어, 지수 적으로 우리는 알고리즘에 합류 할 수 있습니다 다시 상태 수에 대한 로그 종속성을 얻습니다

그러나 그것은 단지 될 수 없습니다 그래서, 이것은 마치 취미와 같습니다 모든 것이 결정 론적이라고 가정합니다 하지만 당신은 확률 론적 환경으로 그것을 확장 할 수 있습니다 알고리즘에서 여분을 실행합니다

예 >> 행동의 수는 유한 한가? >> 여기, 그것은 유한 한정판입니다 그래서 우리는 문제가 행동에 대한 의존성이 좋습니다 그러나 상태에 대한 문제 의존성은 좋지 않습니다 예? 그래서, 왜 당신의 [들리지 않음] >> 건설 목적으로 만 사용하십시오

하한을 증명하는이 예제 >>하지만 한쪽에 한 상태 만있을 수 있습니까? >> 네 균형이 맞지 않으면 너는 다만 통행이 있으면, 두 알고리즘 모두 비슷하게 수행 할 것입니다 그러나 우리는 구체적인 예제를 만들려고합니다 RL과 모방을 분리 할 수 ​​있습니다

능력을 발휘하기위한 것입니다 그래서, 제가 언급 한 것처럼 이 레벨을 달성 할 수있는 알고리즘 의 효율성은 AggreVaTe가 값이있는 집계를 나타냅니다 다시 생각해 보면, 그 아이디어는 매우 간단합니다 우리는이 문제를 감독 학습으로 바꾸고 싶습니다 우리는 두 가지 절차, 즉 로깅과 학습 된 학습 샘플을 생성하는 막대

그럼, 훈련 도중 언제든지 보자 나는 실세계에서 칼럼 기증자를 수행 할 것입니다 그 정지는 무작위로 선택하는 시간 단계를 가지며, 그리고 전문가들에게 물려 받겠습니다 나는 첫 번째 행동을 시도 할 것이다 A1을 입력 한 다음 전문가의 인수를 요청하십시오

그리고 예를 들어 이번에는, 전문가는 비용 100을 지불합니다 완전히 통제 불능인데, A1은 꾸준한 행동에서의 나쁜 행동 그리고 나는 돌아 간다 A2를 시도하고 다시 전문가에게 물어보십시오 그리고 이번에는 주로 트랙을 주행하면서 매우 부드럽게 운전합니다

따라서 비용은 0입니다 그리고 다시 나는 다시 간다 A3을 시도하고 전문가에게 물어보십시오 예를 들어 총 비용은 5입니다 그래서 기본적으로,이 절차를 수행함으로써, 감독 된 유일한 샘플을 생성합니다

여기서 특징 벡터는이다 상태 X와 나는 여기에 세 개의 라벨이있다 A1, A2, A3 및 각 레이블에는 자체 관련 비용이 있습니다 그리고 내가 미안하다면, 그래서이 예에서, 예를 들어 액션 A1로 분류하면, 그것의 비용이 100이기 때문에 그것은 정말로 나쁘다 하지만 3 가지로 분류하면 오케이

왜냐하면 5 개는 큰 문제가 아니야 그래서, 제가이 과정을 여러 번한다면, 다음과 같은 데이터 세트를 얻을 수 있습니다 상태 쌍 및 비용 벡터, 그 중 치수는 이 장난감 예에서는 세 가지 액션이 있습니다 그래서 이것은 비용에 민감한 분류 데이터 세트 일뿐입니다 감독 학습 데이터 세트

자,이 감독 학습 데이터 세트로 우리는 실제로 훈련 할 수 있습니다 주정부를 이용하는 우리의 정책 비선형 함수 근사법의 예를 들어, 직접 매개 변수화를 시작할 수 있습니다 우리의 정책은 매우 깊은 신경 네트워크를 사용하여, 차별화 신경망, 우리는이 법을 여러 법 절차에서 다룬다 시간은 비용 민감한 분류 데이터 세트, 우리는 구성적인 손실을 형성합니다, 맞습니까? 분류 손실 그리고 나서 당신은 차별화됩니다

이 손실 함수는 정책 기울기를 계산합니다 그리고 일단 정책 그라디언트가 있으면, 루프를 닫으면됩니다 그라디언트 하강 SGD 또는 확률 적 성향 그라데이션 하강 여기에서 핵심은, 이 문제를 감독 학습 데이터 세트를 생성하여 감독 학습 (Supervised Learning) 어떤 함수 근사를 사용할 수 있습니까? 잠재적으로 매우 복잡한 기능을 돌 봅니다 그래서, 우리가했던 예제 중 하나가 있습니다

필기 대수 방정식 및 솔루션에 대한 의존성 분석 따라서 입력은 대수 방정식과 그 해결책은 어떤 학생에 의해 제공되며, 그래서 그것은 낮은 픽셀 이미지입니다 그리고 우리는 의존성 트리, 구문 분석 트리를 출력하고 싶습니다 괜찮아? 이제 종속성 파싱이 잠시 동안 연구되었습니다 사람들은 이것을 순차적 의사 결정 문제로 전환합니다

실제로 MSR의 연구자들은 실제로 어떤 작업을 수행했습니다 자연어에 대한 의존성 분석을 위해 그래서 우리는 같은 프레임 워크를 사용하려고합니다 종속성 구문 분석을 순차적 의사 결정으로 변환합니다 그러나 여기서 가장 중요한 도전은, 이 낮은 픽셀 이미지를 처리해야한다는 것입니다 학생이 쓴 수필 대수학

그리고 여기서 우리가 사용하는 것은, 대표하는 일부 ASTM 문자를 하나씩 스캔하는 인코더, 그리고 마지막으로, 요약의 역할을한다 학생이 제공 한 수기 algebras 그 후에, 우리는 변환들의 시퀀스를 계산하기위한 다른 디코더, 이 구문 분석 트리를 작성하는 데 사용됩니다 그래서이 시점에서 모든 것은 기본적으로 비슷합니다 중립적 인 언어에 대한 의존성 분석

그래서 우리는이 방법을 비교했다 강화 학습 접근 방식에 보상 신호를 사용하는 대화 형 글로벌 최적 전문가는 무시합니다 그리고 그것은 다른 모방 학습 알고리즘에 비해, 인터랙티브 글로벌 최적 전문가를 활용 한 하지만 보상을 무시합니다 레버리지를 통해이를 보여줄 수 있습니다 대화 형 글로벌 최적 전문가와 보상 신호 모두, 우리는 두 개의베이스 라인 중 하나에 비해 훨씬 잘 할 수 있습니다

좋아, 좋아 따라서 글로벌 최적 전문가가 있다면, 우리는 그것을 사용하여 이론과 실습 모두에서 표본 효율을 달성하십시오 그러나 글로벌 최적 전문가가 없다면 어떨까요? 그럼,이 부분에서 우리가해야 할 일은, 우리가 어떻게 일반화 할 수 있는지 보여주기 위해 현지 전문가와 우리는 그것이 무엇인지 설명합니다 그래서 동기 부여 예제는 Alpha-Go Zero입니다 따라서 Alpha-Go Zero의 경우, 우리가 게임 목표를 다루고 있기 때문에, 우리는 완전히 액세스했습니다

알려진 그리고 결정 론적 전이 역학 그리고 훈련 중 어느 시점에서든, 우리에게는 두 가지 정책이 있습니다 우리는 더 신속한 대응 정책을 가지고 있습니다 종종 어떤 깊은 신경 네트워크에 의해 대표, 테스트 시간을 실시간으로 매우 빠르게 실행할 수 있습니다 우리는 동시에 아주 느린 정책을 가지고 있습니다

이 경우 검색 트리입니다 사후 대응 정책에 의해 방문 된 모든 국가에서, 나는이 나무를 키울거야 그러면이 나무에서 수색을 할 것입니다 사후 대응 정책을 교육하기위한 감독을 제공합니다 다른 말로하면, 나는 결코 훈련시키지 않을 것이다

강화 학습 기법을 사용하는 대응 정책 실제로이 반응적인 정책을 훈련하고 있습니다 이 느린 정책을 전문가로 취급함으로써, 그리고 특성은 감독 된 학습을 사용한다 이것은 실제로 열쇠입니다, 알파 – 제로 (Alpha-Go Zero) Alpha-Go의 이전 버전입니다 나는 그것을 지적 할 것이다

이는 결코이 검색 트리가 글로벌 최적의 전문가라는 것을 의미하지는 않습니다 이 게임에서 총 국가 수를 언급했듯이, 우주의 총 원자 수보다 큽니다 그래서,이 나무는 단지 탐구 할 것입니다 국가 공간의 아주 작은 부분 이전에 이 빠른 대응 정책 인 글로벌 정책에 의해 악용되었습니다 그러나 그럼에도 불구하고이 지역 전문가는 유용한 정보를 제공합니다

이 신속한 대응 정책을 교육하도록 감독합니다 이제이 AlphaZero 활용 지역 전문가를 키우는 전달 동력 그러나 우리가 보강에 대해 말할 때, 일반적으로 우리는 전이 역학에 관한 사전 지식 그럼, 어떻게해야할까요? 예 >> [들리지 않음]

그래서 나는 또한 알파에 질량을 발생시키는 것을 압니다 >> 네, 그 기능을 압니다 예 맞아, 우리는 비행 중 모델을 배울 수 있습니다 나중에 내가 보여줄 내용은 우리가 모델 학습에 최소한의 노력을 기울이고, 지역 전문가를 양성하기위한 것입니다

좋아,이게 우리를 이끈다 이중 정책 반복 (Dual Policy Iteration)이라는 프레임 워크에 대해, 훈련이 진행되는 동안 매번 아이디어는 간단합니다 나는 두 가지 정책을 유지할 것입니다 정책 및 일부 복잡한 느린 현지 전문가 그래서, 반복을 보도록하겠습니다

나는 정책에 관한 일정을 가지고있다 예를 들어 글로벌 정책 일부 깊은 신경 네트워크에 의해 대표 저는 현실 세계에서 실행 하겠지만, 일부 궤적을 생성하고, 그리고 나는 많은 것을 추출 할거야 상태 궤도 생성에서 다음 상태 세 겹으로 상태 액션, 나는 감독 된 학습 기술을 사용하여 전이 모델을 추정하는 추정치 국가 행동을 입력으로 받아들이고 다음날을 예측합니다

그리고 저는이 학습 모델이, 단지 지역 모델입니다 이 모델을 컬럼 글로벌 정책에서 생성 된 데이터 현재이 모델을 사용할 수 있으므로, 우리는 지역 계획이나 지역 통제를 적용 할 수 있습니다 우리가하는 일은 우리가 이것을 이 빨간 궤적 주위의 검색 공간을 확장하기위한 로컬 모델, 이전에 있었던 상태 칼럼 글로벌 정책에 의해 탐구된다 그래서 우리가 우주를 탐험하면 학습 된 모델을 사용하여 조금, 우리는 검색이나 계획을 할 수 있습니다

예를 들어,이 나무에 일단 우리가이 로컬 컨트롤을 가지면, 우리는 블랙 박스 모방을 사용할 것입니다 매개 변수를 업데이트하는 학습 알고리즘 우리의 글로벌 정책은 행동을 지역 전문가들과 더 가까워 질 것입니다 그런 다음 루프를 닫고 성능을 향상 시키십시오 우리는 내 자신의 가정에서 그것을 보여줄 수 있습니다

이 프로세스는 단조로운 컨버전스를 보장하며, 단조로운 개선과 융합에 이른다 >> [들리지 않음] 이것은 당신이 여기서 염두에 둔 지역 개념에 관한 것입니다 내가 지역에 대해 생각하고있어 배포와 사용 측면에서 정책 공간 >> 그렇습니다 그래서 우리가 한 일은 배포가 유도 한 측면입니다

그래서, 당신이하는 일은, 당신은이 학습자 모델을 입력으로 받아들입니다 보상 기능이 입력되면, 당신은 최적의 컨트롤을 요구하여 민병대를 계산하려고합니다 그러나 당신은 신뢰 영역 제약을받을 것입니다 예 >> 여기서 결정론적인 역학을 가정하고 있습니까? >> 아니

실제로 냉소적이다 >> 그래서, 당신이 말하면, 당신은 다음 단계를 예측하고 있습니다 어떻게하면 다음 배포 단계를 예측할 수 있습니까? >> 그래서 방금 배포를 예측했습니다 예를 들어, 다음 슬라이드에 대해 이야기 할 사용자 [들리지 않음] >> 좋아

>> 그래서 내가 언급했듯이, 이것은 매우 일반적인 프레임 워크입니다 당신은 플러그인 할 수 있습니다 모델에 적합한 감독 된 학습 기술 블랙 박스 최적 컨트롤을 사용할 수 있습니다 알고리즘에 대한 블랙 박스 초대를 사용할 수 있습니다

그래서 제가 보여주고있는 첫 번째 사례입니다 여기에 우리가 잔뜩 사용하는 것입니다 Bayesian Linear Regressors는 시간에 따른 역학 관계를 나타냅니다 반복 선형 2 차 레귤레이터 사용 블랙 박스 최적 제어로서, 우리는 AggreVaTeD를 Black Box 초대장 소유자로서의 Nature Gradient 업데이트, 헬리콥터 깔때기에서 테스트했습니다 그래서, 나는 단지의 행동을 보여줄뿐입니다 이 헬리콥터 시뮬레이터에 대한 학습 정책

그래서, 어떻게 해야할지 정책을 배우게됩니다 이 헬리콥터 깔때기는 이 헬리콥터를 동그라미로 날기 두 번째 비디오에서는 질량 중심의 흔적을 보여 드리겠습니다 그래서, 다섯 번의 반복 후에, 무슨 일이 일어나고 있는지 알지 못한다 그러나 대략 10 회 반복 한 후에, 무슨 일이 벌어지고 있는지 알게되는 것입니다

15 회 반복 한 후에,이 동작을 거의 할 수 있습니다 널리 사용되는 DPI 방법과 비교하여, 우리는 대규모로, 우리는 실제로 훨씬 더 빨리 배울 수 있습니다 예를 들어,이 기준선 그렇다면 더 고전적이지만 아마 효율적인 IO 알고리즘, 보수적 정책 반복과 같은 그래서 실험을했습니다 임의로 생성하는 합성 이산 MDP, 우리는에서 파생 된 또 다른 특별한 인스턴스를 사용합니다

우리가 사용하는 이중 정책 반복 프레임 워크 모델을 추정 할 수있는 최대 확률 우리는 최적 반복 제어로서 값 반복을 사용하고, 우리는 AggreVaTeD를 블랙 박스 초대장 소유자로 사용하고, 우리는 잠금 규모에서, 그것은 보수적 인 정책 반복을 훨씬 능가 할 수 있습니다 괜찮아 그래, 우리가 얘기 했어 – 네? >> 여기에 넣으려고합니다

거기있는 풍경 이 서류들을 보면서 한 무리도 또 다른 접근으로서의 자기 모방 내가 아는 가장 기본적인 것 of는 당신이이 다이내믹 모델을 배우려고하지 않는 곳입니다 당신이 수집 한 다른 롤 아웃에 따라, 방금 최고의 실적을내는 것을 모방하려했습니다 >> 그럼 무작위로 많은 행동을 시도하는거야? >> 기본적으로 현재 글로벌 정책을 가지고 있다면, 그것의 밑에 롤아웃의 낱단을 생성했다 >> 네

>> 가지고 있었던 롤 아웃의 하위 집합을 봅니다 좋은 보상을 받고 그 부분 집합을 모방하려고 노력하십시오 >> 그래서 이것은 연구 결과의 포인터와 매우 유사합니다 >> 네 >> 단지 당신이 방금 촬영 알고리즘을 사용하고 있습니다

이를 수행 할 수있는 일련의 조치를 취하십시오 >> 기본적으로, 나는 이해하려고 노력하고있다 그 클래스들 사이의 절충점은 무엇입니까? 접근법 모방 학습 스타일 오라클을 호출합니다 그러나 우리는 기본적으로 순방향 역학 모델을 배울 필요가 없습니다 >> 긴 수평선 문제를 다루는 것처럼 느껴진다

모델을 배우지 않으면, 당신이 방금 촬영 알고리즘을 사용한다면 일련의 행동들을 생성하고 그 과정을 반복하며, 500 또는 1000 번 누른 다음 최고의 선택, 그것은 점근선이지만 당신이 행동의 좋은 순서를 얻을 매우 작습니다 지평선이 커지면 기하 급수적으로 낮아집니다 네, 모델을 배울 수 있다면, 너 기본적으로 떠난다 블랙 박스 최적 제어에 대한 탐색 절차 >> 배운 모델이 얼마나 좋은가? >> 네

>> 우리는 확률 론적 인 역 동성을 원하지 않습니다 >> 역학 모델을 배우는 것과 같이, 지금 내가 배울 필요가 있기 때문에 훨씬 더 힘들어 배포판이나 다음 [들리지 않음]을 얻으려면 >> 궤적을 모방하는 것 [들리지 않음]? >> 네 옳은

바로 >> 좋아 그래서 첫 번째 부분에 대해, 우리는 우리가 어떻게 활용하는지 이야기했습니다 전문가 시위로 신속하게 해결 잠재적 인 문제 알고리즘의 보강에 어려움이 있습니다 괜찮아

그래서 지금, 두 번째 부분에 대해 이야기 해 봅시다 우리는 여분의 도움이 없습니다 그래서 우리가 할 일은 다음과 같습니다 문제 인스턴스와 시도 이러한 문제의 구조를 샘플 효율적인 알고리즘을 설계하라 괜찮아

나에게 나중에 이야기 할 것은 통일 된 이야기이다 많은 수의 문제 인스턴스를 캡처합니다 구체적으로 말하자면, 먼저 왜 우리가 구조를 이용하려고하는지 다시 말해, 왜 우리는 모델 기반 RL을하고 싶습니까? 둘, 너를 소개 할거야 캡처하는 통합 된 측정 값 많은 복잡성 이전에 문헌에서 연구 된 특별한 문제

권리 그래서, 우선, 모델 기반 RL 대 모델없는 RL은 무엇입니까? 그래서 이것은 역학 모델링의 노력으로 귀결됩니다 첫 번째 예제는 예제입니다 우리는 역학 관계를 완벽하게 알고 있습니다 완벽한 시뮬레이션을 통해 단어를 시뮬레이트합니다

예 예 >> 네 예 [알아들을 수 없는]

>> 질문이 있습니다 왜이 전문가 데모라고 부르니? 당신은 실제로 전문가가 없기 때문에, 당신은 보상 기능을 알고 있습니다 그것은 기본적으로 보강 [들리지 않음] 설정과 같습니다 >> 네, 보강 [들리지 않음] 설정입니다 하지만 여전히 전문가가 필요해

>>하지만 전문가는 제어 알고리즘 일뿐입니다 >> 예, 제어 알고리즘입니다 그렇습니다 오, 두 번째 부분 말이니? 네, 그래서 우린 노력하고 있어요 맞아, 우리는 기본적으로이 컨트롤을 전문가로 취급합니다

그래서 때로는이 전문가가 마음에 들지 않는 경우가 있습니다 예를 들어, 인간 전문가 >> 맞아 그래서, 당신은 더 이상 가정하지 않습니다 문제를 더 쉽게 만들 수있는 가정을하지 마십시오

그것은 단지 다른 스타일의 알고리즘입니다 >> 그것은 단지 다른 스타일 일뿐입니다 예하지만 계획 단계와 제어 단계는 아마도 매우 계산적으로 비쌉니다 >> 알 겠어

좋아, 좋아 감사 >> 나는 궁금해했다 그래서 이야기의 초기 부분에서, 당신은 최적의 전문가에 대해 이야기하고있었습니다 세계적으로 최적의 전문가들, 그리고 두 번째 부분, 당신은 국부적으로 최선 전문가를 집중하고 있었다

그래서, 어디서, 알고리즘에서이 구별을 어디에서 사용합니까? 왜 기본적으로 중요합니까? 전문가는 그것의 첫번째 부분에서 세계적으로 최적이 될 것인가? >> 두 번째 부분의 보장은 첫 번째 것보다 훨씬 약한 것입니다 >> 그래서, 그것은 기본적으로 증명에 숨겨져 있습니까? >> 네 >> 알았어 >> 네, 사실 궁금 해서요 조금 더 말씀해 주 시겠어요? 두 번째로 정확히 무엇을 보장 할 수 있습니까? >> 그래서, 당신이 얻을 수있는 보장은 꽤 많이 있습니다

대략의 알고리즘의 정책 구분 유형은 당신을 보장 할 수 있습니다 그래서, 당신은 일종의 보증입니다 멜로디의 로고 만 있고, 운이 좋다면, 당신이 좋은 초기 상태 분포를 가지고 있다면, 그러면 괜찮을거야 기본적으로 기술 분야의 경계는 심하게 인종적이며, 그건 국가 분배 노조와 최적의 파스 분포는 델타를 곱한다 델타 항공은 모방 학습 및 최적의 제어

>> 알 겠어 괜찮아 >> 네 괜찮아 그래서 첫 번째 우리는 완벽한 모델을 알고 있으며 우리는 계획과 통제를 할 수 있습니다

당신은 시뮬레이션을 보았습니다, 그렇죠? 우리는 실제 샘플을 필요로하지 않습니다 두 번째 예는 구조화되지 않은 환경에서는 정확한 모델을 모르는 경우가 많습니다 우리가 쓰는 것이 정말 어렵습니다 에 대한 미분 방정식을 내림 이 차 표류와 점프 이 거친 지형에서 고속 주행 할 때 하지만 우리가 할 수있는 일은 데이터 중심 접근 방식을 사용하여 실제 전이 모델을 예측하는 모델

그런 다음 우리는 계획과 통제를 할 수 있습니다 그래서 이것은 모델 기반 RL입니다 세 번째 접근법은 내가하지 않는다는 것이다 모델을 알고 있지만 배우지도 않아 나는 직접 예측할 것이다

무작위 시행 착오를함으로써 행동 이것은 모델 3입니다 그래서이 부분에서 우리는 모델 기반 RL에 집중할 것입니다 그래서 우리는 설치의 관점에서 여기에서 P 스타로 표시된 실제 전환 예를 들어, 이것은 내 차에서 실제 전환을 포착합니다

자, 알 수 없기 때문에, 그래서 함수 근사를 사용하여 근사값을 구해야합니다 그래서, 우리는 우리가 함수 근사기의 집합이 주어지면, 각 함수 근사자는이 P 별을 근사하려고합니다 그것은 국가 행동을 입력으로 받아 들인다 다음 상태에 대한 조건부 분포를 출력합니다 이 함수 클래스가 충분히 풍부하다고 가정합니다

진정한 현실 세계의 변화를 포착하십시오 우리는 최적의 계획자가 있다고 가정하고 있습니다 임의 모델 전이 모델 입력으로서의 보상 기능과, 최적화 정책을 출력한다 주어진 모델에 따라 보상 기능 따라서 이것은 계획 또는 제어 단계에 불과합니다

계획은 매우 어렵지만 전에 언급했듯이 연습에는 매우 효율적이고 정확한 모션 플래너가 있습니다 나는이 단계가 실제 샘플을 필요로하지 않는다는 것을 강조한다 모델이 주어지기 때문에 모든 것이 시뮬레이션에서 수행됩니다 자, 왜 우리는 모델 기반 스타일을하고 싶습니까? 모델 기반과 모델 기반의 관점에서 오랜 논쟁이 있습니다 아주 오래된 방법 (예 : 1980 년대부터 반복 학습 제어 Guided Policy Search와 같은 최근 작업 방금 전에 언급 한 정당한 정책 반복 프레임 워크

실제적인 지혜는 모델 기반 알고리즘이 더 효율적입니다 때때로 모형없는 것보다 기하 급수적으로 더 효율적일 수 있습니다 자, 이것은 멋지지만 이론적으로는 어떨까요? 우리는 어떤 주장을 할 수 있습니까? 우리가 이론적으로 아무것도 요구할 수 있습니까? 그래서, 이것은 – 우리가 여름에 보여준 것이 – 한 세트의 마르코프 결정 과정 팩토링 된 MDP와 같은 일반적인 것들, 그러한 것을 배우기 위해서 새로운 최적의 행동 모델 기반 알고리즘 다항식으로 시간을 보낼거야 다른 관련 매개 변수와 관련하여 그러나 모든 모델의 무료 알고리즘은 소비해야합니다 시간은 기하 급수적으로 문제의 지평선과 관련하여 그래서 우리가 아는 바로는, 이것은 첫 번째 지수 분리입니다

모델 기반 vs 모델 프리에 대한 샘플 복잡성 나에게이 정리는 기본적으로 모델 기반 IR 알고리즘을 더 연구하도록 동기를 부여합니다 사실, 문학에 사람들 실제로 효율적인 모델을 연구하는 데 많은 시간을 소비합니다 다른 문제에 대한 기반 알고리즘

그러나 그 노력은 그 의미에서 독립적 일 것입니다 특정 문제에 대한 특정 알고리즘을 설계합니다 우리는 예를 들어 팩토링 된 MDP를위한 알고리즘을 설계합니다 종종 데이터 센터 냉각 시스템과 같은 것을 모델링하는 데 사용됩니다 그러나 우리가 설계 한 알고리즘은 인수 분해 된 MDP는 직접 양도 할 수 없다

예를 들어 선형 2 차 조절 시스템 (Linear Quadratic Regulation System) 그렇다면 우리는 통일 된 이야기를 만들 수 있습니까? 동시에 달성 할 수있는 통일 된 알고리즘을 만들 수 있습니까? 이 모든 문제에 대한 샘플 효율성 이 그림에 나와 있지 않은 문제들을 포함 해서요? 그래서, 지금 제가 여러분에게 말씀 드릴 것입니다 그래서, 우리가 세부 사항에 뛰어 들기 전에, 나는 단지 빨리 소개하고 싶다 우리가 사용할 통계 도구 하나, 이것은 두 가지 분포를 구별하는 데 사용되는 도구입니다 P와 Q의 두 분포가 있다고 가정 해보십시오

P는 분포입니다 예를 들어 실제 침실 이미지를 모델링합니다 호기심 q는 분포입니다 예를 들어, 당신은 실제 세계 분포를 근사화하십시오 에서 상상의 샘플 당신의 모형은 상상의 침실 샘플입니다

이제 몇 가지 기술이 있습니다 기본적으로 적분 확률 척도 이 두 세트의 샘플을 입력으로 사용하고 이 두 분포가 얼마나 멀리 있는지 알려주는 숫자를 출력합니다 기본적으로 배포자 세트를 사용합니다 이미지에서 실수로 매핑하는 함수 이 두 가지 표본을 보면 숫자가 이 두 분포 사이의 차이를 포착합니다

그래서, 당신은이 분배기에 대해 직관적으로 생각할 수 있습니다 살펴 보는 분류 자 이미지와 그것은 그것이 얼마나 진짜인지 말해줍니다 이것은 매우 일반적인 발산이다 특정 discriminators 우리는 매우 일반적인 발산을 복구 할 수 있습니다 예를 들어, 모든 유통 업체, 제한된 값을 가진 함수 인 경우 우리는 총 변동 거리를 회복합니다

모든 배급업자가 한정된 우리가 회복하는 Lipschitz 상수는 거리를 묻는 것이 었습니다 그래서, 이것은 매우 일반적인 발산입니다 2 개의 분포 및 출력으로부터의 2 세트의 샘플 서로 얼마나 멀리 있는지 알려주는 번호입니다 자,이 도구를 염두에두고 우리는 실제로이 멋진 것들을 할 수 있습니다 우리는 어떻게 구별 할 수 있는가? 실제 전이로부터 후보 전이 역학? 자, 이제 우리는 녹색으로 표시된 샘플은 상태 집합을 나타냅니다

다음 슬라이드에서 어떻게 생성하는지 알려 드리겠습니다 하지만이 상태 세트를 사용할 수 있다고 가정 해 봅시다 자, 각 주마다 나는 임의의 행동을 적용 할 것입니다 그런 다음 생성 할 것입니다 내 후보 전환에서 상상의 샘플

동시에 나는 생성 할 것이다 실제 세계의 실제 샘플입니다 이제 저는이 모든 녹색 점들에 대해 똑같은 일을 할 것입니다 이제 두 세트의 샘플을 얻습니다 첫 번째 샘플 세트는 가상 샘플입니다

일반적으로 나의 전환 역학과 두 번째 샘플은 실제 샘플입니다 실제 전환에서 생성 된 자, 아마 내가 할 일을 상상할 수 있습니다 나는 완전한 확률 메트릭을 할 것입니다 나는 한 세트의 별개의 분배기 두 세트의 샘플 세트에서 얼마나 진짜인지 말해주는 숫자를 계산합니다 내 후보 전이로부터 퇴보 된 전환이 있습니다

자, 여기서 유통 업체에 대해 생각해 볼 수 있습니다 – 네? >>이 초록색 [들리지 않음] 각각에 대해 동일한 행동을 했습니까? >> 아니 매번 너는 들리지 않는다 그래서, 기본적으로 당신은 discriminator에 대해 생각할 수 있습니다 여기 보이는 분류 자로 전환 상태 액션 다음 상태를 3 배로하고 얼마나 실제인지 말해

우리는이 숫자 모델을 어떤 의미에서는 부적합이라고 부릅니다 이 숫자가 작 으면 discriminators 관점 전환 일반적으로 후보 모델에서 매우 현실적으로 보입니다 즉, 즉, 후보 모델은 실제 모델이 될 가능성이 큽니다 이제 이것을 염두에두고 개념을 소개 할 준비가되었습니다 캡처 한 통합 측정 값 많은 특별한 문제의 복잡성

그래서, 우리가 부적합이라고 부르는이 행렬을 보겠습니다 크기가 인 행렬 모델 수와 모델 수의 곱입니다 그것은 정말로 클 수 있지만 보자 한 특정 항목에서 이 법칙 모델 PR과 기둥 모델 PC에 의해 색인됩니다 그래서, 우리는 낮은 모델을 사용하여 일련의 상태 액션을 생성하고, 이전 사이트에서 보여준 녹색 점

이제 녹색 점을 조절하고 후보 모델과 실제 모델을 구별하십시오 다시, discriminators의 세트를 사용하여 우리는이 번호를 호출합니다 이 번호는 기본적으로 열 모델에 부적합합니다 모델 순위는이 부적합 매트릭스의 순위로 정의됩니다

따라서 우리가 낮은 순위를 가지고 있다면 직관적으로, 그것은 내 모델 클래스 종류의 모델이 비슷하게 생겼음을 의미합니다 그래서 나는 이것이 거대한 메이저라고 말했다 모델 클래스에 이 행렬의 무한한 수의 모델이 무한합니다 순위가 작은 것은 어떻게 될 수 있습니까? 사실 많은 경우 재미있는 경우 순위는 실제로 매우 작습니다 예를 들어, 강의 연속 마르코프 결정 과정 전이 역학은 Lipschitz 연속입니다

순위가 더 크지 않음을 보여줄 수 있습니다 기본 상태 공간의 덮개 번호보다 자주 사용되는 인수 분해 MDP 데이터 센터 냉각 시스템 모델링, 우리는 계급이 지수보다 크지 않다는 것을 보여줄 수있다 기본 네트워크의 in-degree와 관련하여 이 예에서 in-degree 또는 out-degree는 두 가지입니다 이 특정 서버는 두 개의 서버에 가장 가까운 두 개의 서버에 영향을줍니다 POMDP의 경우 순위는 숨겨진 상태의 수보다 크지 않으며, 이는 우리가 그것을 적용하여 어디에서 공부할 수 있는지를 의미합니다

우리는 매우 풍부한 관찰 공간, 미가공 픽셀 이미지와 같은 선형 2 차 레귤레이터와 같은 연속 제어의 경우, 우리는 계급이 상태 벡터 차원에 대해 2 차 방정식 그래,이 모든 경우에 네? >> 언급 한 이전의 분리 모델 기반의 모델 태아 사이 >> 네 >> POMDP에도 적용됩니까? 나는 그것이 MDP 기초에 매우 특정한 것이라고 생각했다

>> 네 이는 MDP 사례에 특유한 것입니다 >> 특히 낮은 bound는이 인수 분해 된 MDP로부터 구성됩니다 권리 우리가 할 수있는 다른 예가 있습니다

순위가 작다는 것을 보여줍니다 괜찮아 따라서이 등급으로 우리는 실제로 디자인 할 수 있습니다 이러한 모든 연구에 적용되는 매우 통일 된 알고리즘, 이러한 모든 문제에 대해 샘플 효율을 달성하십시오 나는 알고리즘의 세부 사항으로 뛰어 들어 가지 않을 것이다

그러나 우리는 샘플 복잡성을 달성 할 수 있다는 것을 보여줄 수 있습니다 존중과 함께 모든 것이 다항식 인이 모양입니다 관련 경계로 순위에 대한 2 차 종속성을 포함하여 여기서 핵심은 그러한 다항식 의존성은 없다 이 문제의 고유 한 상태 수 이것은 정확히 감독 학습 유형입니다 우리가 원하는 일반화

우리는 거의 최적의 행동을 취하기를 원하며, 세계에서 가능한 모든 국가를 방문하지 않고 괜찮아 시원한 따라서이 부분을 요약하십시오 그래서, 지금까지 우리는 우리가 전문가 시위를 활용하십시오

예 >> 당신이 날 잃었 어 그래서, 그들은 복잡성의 측면을 달성하는 알고리즘을 수용해야합니다 >> 네 >> 그래서 알고리즘은 R을 알아야합니까? >> 예 또는 아니오

아니요 R을 얻으려면 배증 트릭을 실행하십시오 그리고 로그 측면에서 조금 더 지불하십시오 하지만 너는 절대 안 갈거야 그 거대한 행렬을 컴퓨터 계급이지만 너는 방금 당신이 순위를 추측하기 위해 두 배의 일정을 사용하고 있다고 생각하십시오

그래서 두 번째 부분에서 우리는 우리는 문제의 구조를 활용합니다 샘플 효율적인 알고리즘을 설계 한 다음 구체적으로 우리는 통일 된 조치를 취합니다 큰 가족으로부터 문제의 복잡성을 포착합니다 괜찮아 자, 이제 향후 연구에 관심이 있습니다

강화 학습 강화 학습 알고리즘 적용, 의학 치료와 같은 실제 응용 프로그램, 개인화 된 교육 시스템 또는 로봇 공학 과제 설계 재해 복구를위한 자율 주행 또는 로봇 공학 지원 자, 이러한 종류의 작업은 매우 비디오 게임이나 우리가 현재 가지고있는 시뮬레이션 깊은 보강 학습 공동체에서 사용합니다 이런 종류의 응용 프로그램의 경우, 우리에게는 긴박감이 있습니다 우리는 그렇게 많은 시간과 공간이 없다는 의미에서 무작위 시행 착오를 행한다 우리가 유용한 것을 제안하기 전에

그래서, 다시 이러한 작업을 위해, 우리는 샘플 효율에 대해 신경을 써야합니다 그래서, 내가 전에 언급했듯이, 전문가 시위를 활용하는 것이 좋은 방법입니다 우리에게 표본 효율을 크게 향상 시키려면, 이론과 실천 모두에서 그래서 저는 앞으로이 일을 계속하고 싶습니다 특히 전문가의 가정을 줄이기 위해

그래서 우리는 쌍방향 모방 학습 그러나 아마 당신이 알아 차 렸던 것처럼, 우리는 대화 형 전문가에게 많은 부담을 쏟아야합니다 전문가가 인간이라고 상상해보십시오 그는 거의 훈련 시간에주의를 기울여야합니다 학습자가 요구할 것이기 때문에 훈련 중 언제든지 피드백 그래서 내가 여기서하고 싶은 것은 전문가의 부담을 줄이기 위해, 아마 모든 설정 방법에 우리는 단지 지켜 보면서 배울 수 있습니다

로봇 학습의 꿈, 나는이 아틀라스 휴머노이드 로봇이 원했던 것이다 브루스 리 (Bruce Lee)가 어떻게했는지 보면서 백 플립 (back-flip) 그러나 이것은 불행히도 상호 작용이 없을 것임을 의미합니다 Bruce Lee는 더 이상 여기에 없습니다 둘째, 전문가의 행동은 없습니다

브루스 리 (Bruce Lee)가 얼마나 많은 이야기를하고 있는지 알 수 없다고 생각합니다 뒤 관절에 그의 관절에 적용 보상 신호가 없습니다 인간이기 때문에 우리는 아주 자연스럽게 그것을 할 수 있습니다 이 설정을 다음과 같이 호출 할 것입니다

관찰로부터 모방 학습 학습자에게 전문가가 어떤 작업을 수행하는 것을 관찰하십시오 이제 우리는 최근에이 설정을 살펴 보았습니다 이론적 인 견지에서 그렇습니다 >> 또한 관찰 그 요원이 갈거야 시위자와 동일한 감각 입력이 아닙니다

다른 의미 겠지? 이 인스턴스에서 무엇이 호출되는지는 알 수 없습니다 >> 그것은 다른 행동 공간이고 아마 다른 [들리지 않음]입니다 >> 네 >> [들리지 않음] >> 그래서, 최근에 들여다 보았습니다

이것보다는 훨씬 단순화 된 설정에서, 같은 세계에서 운영되는 학습자와 전문가가 예를 들어 같은 MVP에서 Forward Adversarial limitation learning이라고 불린다 간단히 말해 불행하게도 FAIL 하지만 일반적인 생각은 우리가 시간 경과에 따른 일련의 정책을 배우고 싶습니다 여기에 나는 일련의 전문적인 궤적을 보여주고 있는데, 여기서 타원체는 특정 시간 단계에서 전문가의 상태 분포 그래서, 초기 배포에서, 저는 첫 번째 정책을 배우기 만하면됩니다 결과적으로 상태 분포가 일치한다

전문가의 체류 유통, Integral Probability Metric을 최소화하는 측면에서 중요합니다 그런 다음 첫 번째 것을 고정시키고 두 번째는 고정시키고, 처음 두 개를 고정시키고 세 번째 그리고 끝까지 이것을 우리가 적용 할 수 있음을 보여줄 수 있습니다 대규모 MVP와 달성 우리가 원했던 감독 학습 유형의 일반화, 당신의 최적의 행동을 [들리지 않는] 세계의 모든 가능한 주를 방문하십시오 FAIL이라고 불리지 만 실제로는 잘 작동합니다

그래서 우리는 로봇 시뮬레이션 작업을 적용하고 잃었습니다 작업에 대한 사전 지식이없는 경우, 로봇에 대한 사전 지식없이 세계 물리학에 대한 사전 지식이 없어도, 전문가를 보면서 배움으로써 우리는 이것을 옮기는 것과 같은 정책을 배울 수 있습니다 주변을 쫓아 다니다 목표를 바꾸거나 매니퓰레이터를 움직여야합니다 목표를 다양한 목표로 밀어 넣는다 여기에 정말로 동기를 부여하는 것은 이 메서드 또는이 설정의 잠재적 인 응용 프로그램 네가 할 수 있으면 정말 멋지지 않을거야

부엌에 로봇을 넣고 놓아 라 우두머리가 놀라운 일을하는 것을 지켜 보라 그들이 요리하는 법을 배우십시오, 맞죠? 음, 물론 많은 것들이 있습니다 당신이 볼 수 있듯이, 왼쪽에서 오른쪽으로 큰 차이가 있습니다 그래서, 저에게 관심있는 첫 번째 일은 어떻게 우리가 어쩌면 모방 학습 알고리즘을 향상시킬 수 있습니다

먼저 비디오를 사용하여 초기화하십시오 결국 우리는 너무 많은 비디오를 가지고 있습니다 매초마다 YouTube에 업로드됩니다 비디오는 아마 다른 사람들로부터 기록됩니다, 다른 각도에서 다른 집에서 어떻게 공통 패턴을 찾을 수 있습니까? 하류 모방 학습 알고리즘에 사용될 수있다

두 번째 도전은, 우리는 어떻게 전문가와 상호 작용할 수 있습니다 우리가 인간을 모방 할 때, 때로는 오늘날의 로봇에서 특히 힘들 때가 있습니다 우리가 알아낼 수 있다면 정말 멋질거야 전문가와 상호 작용하는 방법이 그를 물었다 예를 들어, "더 많이 가르 칠 수 있습니까? 부드럽게 또는 더 천천히 가르 칠 수 있습니까? " 제가 탐구하고 싶은 두 번째 방향은, 이전 경험을 통해 우리는 어떻게 극단적으로 빠른 학습을 할 수 있습니까? 의료 치료와 같은 업무 재난 복구, 그만큼 많은 시간과 공간이 필요하지 않습니다

우리는 무작위와 오류를 시도 할 권리가 있습니까? 우리는 그것을 알아 내야 만합니다 우리는 아주 빠른 것을 제안해야합니다 어쩌면 나는 편견이있다하지만 나는 존재하지 않는다고 생각한다 단일 보강 학습 알고리즘 사전 지식없이, 샘플 효율의 수준을 달성 할 수있다

이 복잡성 수준의 작업 그러나 우리 인간에게는, 우리는 때때로 아주 잘 할 수 있습니다 그다지 임의적 인 시도와 오류가없는 비교적 새로운 작업 주로 우리가 많이 보았 기 때문입니다 사전 지식 또는 비슷한 경험을 가진 경험이 있어야합니다

그래서 저는 강화 학습을 위해서도 똑같은 일을하고 싶습니다 예를 들어, 새로운 문제가 주어진다면, 나는 상점이있는 메모리 상점을 만들고 싶다 이전에 경험 한 모든 문제는 유사한 작업을 통해 신속하게 쿼리 할 수 ​​있습니다 이 과제를 해결하기위한 관련 경험 동시에, 나는하고 싶었다

일관되게 내 기억 가게를 다듬다 최신 경험을 사용하여 나는이 새로운 과제를 해결한다는 측면에서 본다 나는이 자료 구조를 원했다 이 메모리가 효율적으로 저장됩니다 내가 검색과 세련미를 아주 빨리 원한다는 느낌

두 가지 예를 들자면 내가 언젠가 이 휴머노이드 로봇은 앞으로 뛰어 내리는 것처럼, 몇 달 동안 어떻게하는지 배웠다 뒤로 또는 어쩌면 10 년 전 이미 앞으로 나아갈 방법을 배웠습니다 하지만 오늘 저는이 로봇을 보았습니다 나는 훈련을하지 않고 일어서라고했다 예를 들어 더 이상 교육을받지 않아도됩니다

자, 그런 종류의 시스템이 있다면, 로봇은 자신의 메모리 저장소를 빠르게보고 파악할 수 있습니다 관련 사전 경험 유사한 이동 작업을 수행함 어쩌면 우리는 완전히 오프라인에서 학습을 할 수 있습니다 우리가 필요로하지 않는 이전의 관련 경험 어떤 신선한 샘플이 서서 작업을 해결할 수 있습니다 요약하자면, 우리는 모방 학습을 어떻게 활용하는지, 문제의 보강을 신속하게 해결할 수 있습니다

우리는 또한 어떻게 우리가 문제의 구조를 악용 할 수 있으며, 샘플 효율적인 알고리즘을 설계하는 방법 우리가 여분의 도움이 없다면 우리는 또한 간단히 언급했다 우리가 할 수 있도록 어떻게 메모리 저장소를 설계 할 수 있습니까? 매우 빠른 학습 오프라인 학습 방식의 사전 지식 박사 과정 초기에는, 나는 또한 그 일에 종사했다 강화 된 학습 과제를 해결하는 데 유용 할 수 있습니다

예를 들어, 저는 정책 평가, 여기서 목표는 실적을 파악하는 것입니다 정책을 실제 시스템에 배포하기 전에 이것은 매우 중요합니다 안전한 핵심 애플리케이션 좋은 감각을 얻으려고 배포하기 전에 정책의 품질 나는 또한 시스템 식별, 여기서 목표는 파악하는 것입니다 상태 추정을 할 수있는 모델

예를 들어, 익사 또는 예상 높이 현재 존재하고있는 객체의 가중치 로봇 매니퓰레이터에 의해 이송된다 우리는 그것을 추정하는데 사용한다 미세 입자의 속도 및 위치, 예를 들어 현미경의 센서 판독 값을 사용하면됩니다 시스템 아이디어는 매우 중요합니다 이 큰 원에서 모든 문제에 대해 꽤 많이, 좋은 상태 견적을 얻어야합니다

우리가 사용할 수있는 하류 및 보강 학습 알고리즘 요약하면, 나는 흥분한다 이 모든 조각들을 하나로 결합하고, 강화 학습을 가까이에 가져다주는 실제 응용 프로그램 그게 전부 야 고맙습니다 >> 질문이있는 분

>> 네 너 얘기 했어 표본 복잡성을 정량화하기 위해, 그러나 IPM에서는 F를 선택해야합니다 판별 자 기능 클래스, 당신이이 F를 선택하기 전에 당신의 장점과 왜 당신을합니까? >> 예, 일반적으로, 당신이 만족하는 한이 "F"를 선택할 수 있습니다 우리가이 논문에서 정의한 일부 현실화 가능성 가정, 당신의 discriminator 클래스, 물론 그것을 잡을만큼 부유해야합니다

모델 클래스의 최적 값 함수 그래서, 당신은 모델 클래스를 가지고 있습니다, 당신은 많은 모델을 가지고 있습니다 각 모델에 대해 고유 한 최적 가치 기능을 가지고 있습니다 우리는 discriminator class가 충분히 풍부하다고 가정하고 있습니다 최적의 가치 함수를 포함한다

모델 클래스의 각 모델에 대한 >> 사실, 사실, 너는 어떤 관계가있어 이 discriminators과 가치 기능? >> 네 그래서 어떤 의미에서, 가치 기능은 아주 좋은 테스트 기능입니다 모델 간의 차이를 목격하기 위해, 하지만 너는 뭔가를 필요로하지 않는다 그보다 더 부유 한 것 같아요 >> 네, 이런 종류의 일이 재미 있다고 생각합니다

당신이 말했듯이, 함수 클래스가 너무 작 으면, 그러면 당신은 많은 권력을 가지지 않습니다 함수 클래스가 너무 큰 경우, 샘플 복잡성을 없애 버릴거야, 알았지? >> 네 >> 그건 완전히 사실이 아닙니다 더 복잡한 알고리즘을 만들 수 있습니다 풍요 로움에 의존하지 않는다

차별 클래스 중 샘플 복잡성, 그러나 알고리즘은 [들리지 않음]과 속성입니다 나는 실제적으로 실현 가능한 것을 차별하지 않는다 >> 일반적으로, 나는 이론적 인 필요성이 완전한 플레이가 될 것이라고 생각한다 그것은 GAN을 오해의 소지가있는 the- >> 우리 사건은 아닙니다 모델을 선택할 수있는 능력이 있다는 것을 기억하십시오

어떤면에서는 두 가지 분포를 비교합니다 하나의 배포판은 실제 배포판입니다 우린 그럴 가능성에 접근 할 수 없다 하지만 우리는 실제로 우리가 선택한 배포의 가능성에 대한 액세스 이것은 GAN과 다릅니다

예 >> 의료 영역에서 팀은 매우 중요하지만 정책이 작동 할 것을 보장한다 어떤 상황에서는 안전하게 우리가 어떻게 움직일 지에 대한 생각을 갖고 있습니까? 이 보증 가능한 파일쪽으로? >> 그래서 정책 평가가 매우 중요하다고 생각합니다 따라서 어떤면에서는이 정책을 배포하기 전에 예를 들어, 현실 세계에서 그것을 테스트해라

나는이 정책의 성과에 대해 잘 알고 있어야한다 그래서 제가 이야기했던이 모든 것들에서, 우리는 안전 제약을 고려하지 않았습니다 하지만 어떻게 든 통합 할 수 있다면 정말 멋지다고 생각합니다 이 보강 및 알고리즘에 대한 안전 제약, 특히 탐험을 할 때, 탐사가 안전에 모순되기 때문에, 당신이 탐험하기를 원하기 때문입니다 당신은 배우기 위해 실수하고 싶습니다

예 >> 모방을 배우려고하면 에이전트 위기에 비디오 스트립을 먹이로 관측, 조만간, 당신은 거기에있는 상황으로 뛰어 들어라 무엇을 위해 중요한 것인가? 비디오에서 누락 된 작업을 수행합니다 예를 들어, 우리는 요리사가 요리하는 것을 봅니다 글쎄요, 그들은 로마의 온도를 어느 정도의 가치로 설정할 것입니다

차단할 때 차단이있을 수 있습니다 [들리지 않는] 그리고 대리인, 에이전트가 할 수있는 일은 아무것도 없습니다 그러나 나는 궁금해했다 거기에 당신의 알고리즘에 관한 것이 있습니까? 상황을 인식하는 최소한의 허용, 해당 요원에게는 중요한 기능이 없습니다 >> 현재 설정되어 있지 않습니다

정보가 있으면 다른 사전 지식없이 생각하고, 그냥 힘든 일 이겠지? >> 그래서 모방은 일반적인 것이 아닙니다 이 문제, 기회 너가 정당한 곳에 조정 안에 생겨야한다 그들이 비디오를 보도록함으로써 엔진을 가르치 려하고, 그러나 더 표준 모방 학습 조정에서조차, 이 문제를 해결할 수 있습니다 에이전트의 센서가 매우 다르기 때문에 작업을 수행하는 인간의 센서로부터 그래서, 모방 학습에는 일반적으로, 어떤 상황을 감지 할 방법이 없다 에이전트가 중요한 기능을 어디에서 누락 했습니까? >> 나는 이런 상황을 모르고있다

적어도 내가 조사한 작업, 꽤 많은 전문가와 학습자, 그들은 동일한 환경에서 작동합니다 물건을보고 배우는 것은 확실히 – 나는 이것에 대해 조사하기 시작했다 나는 모른다 지금까지 나는 부분적인 것들을 다루는 방법에 대한 좋은 대답을 가지고 있지 않다

없는 정보 그게 전부 야 >> 내 질문은 그 질문에 불과합니다 나는 첫 번째 부분으로 돌아가고 있었다 이 차이를 낳은 이야기 모방 학습과 RL 그리고이 조건을 말하는 알고리즘을 실행하는 OS에 익숙해 질 수 있습니다

나는 사실 아주 당신이 실패한 알고리즘이 또한 내가 감독하기 때문에 [들리지 않음] 이동하십시오 이 실패 사례를 정확하게 생각하고있었습니다 부분 관측 가능성조차 조금이라도 있다면, 우리는 모방 학습이 좋은 알고리즘을 사용하거나 뭔가 더 나은 RL 무엇입니까? >> 그럼, 아마도 어떻게 든 반전 신호를 활용하려면, 또는 적어도 뭔가를 할 수있는 작업에 대한 설명 그렇지 않으면, 그냥보고 배우기 시작할 수 없습니다 중요한 정보가 누락되었습니다

그러나 당신은 결합 할 수 있습니다, 당신이 가지고있는 부분적인 정보 나 부분적인 관찰이 무엇이든간에, 및 반대 신호, 만약 당신이에 액세스 할 수 반전 신호 함께, 뭔가를 배울 수 있습니다 >> 나는 아직도 이것이 기본적으로 생각한다 관측되지 않는 교섭의 문제, 맞죠? >> 네 >> 그래서, 나는 관찰 할 수없는 부분에서 약간 뒤집을 수 있습니다 시위자가주고있다

플립 비트가 하나라고 가정하는 최적의 정책, 에이전트가 플립 비트가 0 인 세계에서 행동해야 할 때, 그리고 관찰되지 않는 혼란 스러움이있다 내가 모은 시위와 마찬가지로 나 지금 당장 들어오는 실제적인 단어에 관한 어떤 정보라도 거의 이런 종류의 모방 학습을 퇴화시키는 사례 저에게 감독 보장 학습을 제공 할 수는 없습니다 나는이 세상에서 행동 할 것을 믿는다 >> 네, 동의합니다

그러나 감독 된 결과 내가 보여주는 것은 훨씬 단순한 설정입니다 >> MVP 설정? >> 네 그것은 MVP입니다 너는 구성되는 시위 전문가가 방문한 주 부분 정보 나 그 밖의 정보는 없습니다

예 >> 더 높은 경험을 활용하기 위해 메모리를 사용하는 방법, 유망한 것으로 보이는 기존 작품입니까? >> 사람들은 레버리지 메모리를 살펴보고, 예를 들어 감독 학습 문제, 요한과 내가 한 일을 포함해서 하지만 보강 설정 결과를 보지 못했습니다 또는있다 일부 메모리 증강 강화 학습 알고리즘, 그러나 그들은 일종의 평생과 같지 않습니다 예를 들어 미로 문제를 해결하려는 경우, 그들은 단지이 특별한 미로에 대한 기억을 구축합니다

당신이 다음 미로로 갈 때, 당신은 단지 전체 기억을 지우고 다시 할 것입니다 어떤면에서는 메모리가 유일한 것입니다 이 특별한 문제에 대해 살아 있습니다 그러나 우리는 기억이 계속적으로 길어지기를 바랍니다 이 미로에 대한 기억을 저장하고 싶습니다

그 미로와 내가 방문한 모든 미로에 대해서 외모가 보이는 미로를 보면 내가 방문했던 이전의 미로와 비슷한, 나는 관련 경험을 빨리 추출 할 수있다 그래서 저는 평생 기억을 만들고 싶습니다 단기 기억보다는 오히려 이 특정 에피소드에만 유용 할 것입니다 >> VNC와 그와 같은 [들리지 않는] 머신과 같은 아키텍처는 무엇입니까? >> 그래서 기본적으로 행렬을 유지합니다

고정 된 크기로 스캔 할 때마다 행렬의 모든 행은 유용한 정보를 추출하고, 그런 다음 무언가를 삽입하면, 모든 행을 스캔해야합니다 >> 그래서, 당신이 생각하고있는 이런 종류의 이야기는 역동적입니다 시도 할 수있는 많은 작업으로 성장하고 있습니까? >> 네 또한 연구하고 싶다 그리고 가능한 한 빨리 정련하십시오

나는 이것에 선형 시간을 보내고 싶지 않다 왜냐하면 당신의 기억이 점점 더 커지고 있기 때문에, 선형 시간은 당신을 죽일 것입니다 또한 메트릭을 미리 가정하고 싶지 않습니다 그래서, 당신이 언급 한 구조들, 그들은 유클리드 거리를 다음과 같이 가정합니다 예를 들어 기본 메트릭, 그 중 일부

>> 맞아 항상 질문을들을 수 있습니다

실비보험 청구할때 진료비 계산서만 있

질문 실비보험 청구할때 진료비 계산서만 있

실비보험 청구할때 진료비 계산서만 있어도 되나요?
검사항목 세세하게 나와있지않고 검사료 이렇게 나와있는 것도 가능한가요?

_네 영수증만 첨부해 제출만 하시면은 보험금 지급을 받을수 있습니다_

수많은 보험사의 보험료를 한번에 간편히 비교견적을 받을수 있는곳입니다.
아래 사이트에서 한번에 내 보험료를 무료 비교견적 받아보세요

답변 20세 기준 단독실비보험 보험료 안내
DB손해보험 로고
DB손해보험

7,339
6,889

KB손보 로고
KB손보

7,826
7,005

MG손보 로고
MG손보

7,793
7,014

메리츠화재 로고
메리츠화재

8,318
8,208

삼성화재 로고
삼성화재

9,090
7,856

한화손보 로고
한화손보

7,549
5,963

현대해상 로고
현대해상

7,716
7,161

흥국화재 로고
흥국화재

8,498
7,939

답변 30세 기준 단독실비보험 보험료 안내
DB손해보험 로고
DB손해보험

9,464
10,978

KB손보 로고
KB손보

10,551
11,604

MG손보 로고
MG손보

11,117
13,378

메리츠화재 로고
메리츠화재

10,970
12,784

삼성화재 로고
삼성화재

12,273
14,732

한화손보 로고
한화손보

10,407
11,167

현대해상 로고
현대해상

12,392
12,177

흥국화재 로고
흥국화재

11,642
14,481

답변 40세 기준 단독실비보험 보험료 안내
DB손해보험 로고
DB손해보험

13,087
16,472

KB손보 로고
KB손보

13,359
16,962

MG손보 로고
MG손보

15,831
19,566

메리츠화재 로고
메리츠화재

14,073
18,142

삼성화재 로고
삼성화재

15,790
21,242

한화손보 로고
한화손보

14,101
16,224

현대해상 로고
현대해상

13,217
14,922

흥국화재 로고
흥국화재

15,121
19,380

답변 50세 기준 단독실비보험 보험료 안내
DB손해보험 로고
DB손해보험

20,162
27,770

MG손보 로고
MG손보

23,152
30,360

삼성화재 로고
삼성화재

24,501
36,431

한화손보 로고
한화손보

19,866
26,573

현대해상 로고
현대해상

21,422
26,950

답변 60세 기준 단독실비보험 보험료 안내
DB손해보험 로고
DB손해보험

33,446
37,587

MG손보 로고
MG손보

35,502
39,769

삼성화재 로고
삼성화재

38,268
44,881

한화손보 로고
한화손보

32,274
38,065

현대해상 로고
현대해상

35,607
39,390

답변 금액에 따라서 다르고, 회사마다 다르고, 치료내용에 따 …
금액에 따라서 다르고, 회사마다 다르고, 치료내용에 따라서 다릅니다.

일반적으로 100만원 미만 통원치료면 통원확인서랑 진료비계산서(상세) 있으면 될거 같네요.
답변 안녕하세요~쉽게 설명드리고 좋은 보장을 가져가시도록 노 …
안녕하세요~
쉽게 설명드리고 좋은 보장을 가져가시도록 노력하는 보험두드림입니다.
3만원 이하면 진료비계산서만 있어도 됩니다

3만원 이상이면 세부내역서까지도 필요하십니다~

답변 실비청구하실때는 영수증만잇으심 되세요^^진단비나 수술비 …
실비청구하실때는 영수증만잇으심 되세요^^
진단비나 수술비 같은 정액상품은 초진기록지나 진료비 상세 내역서 필요하시구요^^~
답변 보험관련,보상,보험비교분석,맞춤설계및가입등…20년가 …
보험관련,보상,보험비교분석,
맞춤설계및가입등…
20년가까이 한결같이 고객의 입장에서
최선을 다하고 있는 보험큐피트입니다.

안녕하세요~

검사를 하셨다면 초진 챠트도 함께
첨부하세요

궁금한점 언제던지 문의 주시면 최선을 다해
도움 드리겠습니다.^^
늘 건강하시고,헹복하세요.
보험 큐피트입니다.