1. 저는 여성 영화감독 이현주입니다 동성 성폭행 이현주 감독 합의된 성관계… 억울해

이 감독은 이어 '피해자 입장에서는 제가 생각했던 것과 달리 동의하지 않은 것으로 여겼을 수도 있겠다는 사실을 담담히 받아들이고 있다'며 '저는 여성이며, 동성애자이고 그에 대한 영화를 찍었던 입장에서 스스로 너무 괴롭다'고 했다 아래는 이 감독의 공식입장 전문

1 저는 여성 영화감독 이현주입니다 우선 제 영화를 함께 만들어 주신 분들, 저의 작품을 아껴주셨던 많은 분들에게 이 사건으로 인해 심려를 끼쳐드려 죄송한 마음을 금할 길이 없습니다 이 사건에 대해 피해자나 그의 남자친구가 인터뷰를 하며 사회적 파장이 커지고 있는데도 불구하고 저의 입장을 밝히는 데에 다소 시간이 걸린 이유는, 저 역시도 이 사건으로 인해 수사와 재판을 거치는 동안 상상하기 힘든 고통 속에서 살아왔고 그러한 저의 속사정을 말로 꺼내기가 너무나도 힘들었기 때문입니다 2 저는 동성애자입니다 지금까지 동성애자라는 저의 성 정체성에 대해 피해자 등 몇몇 지인들 외에는 그 누구에게도 떳떳하게 밝히지 못했습니다 공인들 중 용기있게 자신의 성 정체성에 대해 밝히고 성 소수자들의 목소리를 대변하시는 분들이 계시지만, 저는 그렇게 행동하지 못했습니다 제가 동성애자임을 밝혔을 때 부모님께서 받으실 충격, 영화시장에서 저를 바라볼 곱지않은 시선, 우리 사회에서 성 소수자들이 처한 상황 등을 생각하면 당당히 커밍아웃할 용기가 없었고, 다만 저의 세계관을 조심스럽게 영화에 담아볼 수밖에 없었습니다 그러나 이 사건으로 인해 제가 원하지 않는 시점에 제가 의도하지 않은 방식으로 저의 성 정체성이 드러나게 되었고, 가족에게까지 알려지게 되었습니다 수많은 기자님들로부터 이 사건에 대해 입장을 표명해 달라는 요청을 받았지만 바로 대응할 수 없었던 이유는, 공개적으로 저의 입장을 밝히는 것보다 부모님께서 받으셨을 충격과 아픔을 먼저 위로해 드리는 것이 자식된 도리라고 생각했기 때문입니다 이 사건에 대해 공개적으로 말씀드리는 것이 이 일과 관계된 분들에게 또 다른 상처가 될 수도 있겠지만, 이제는 당시의 상황에 대해 직접 말씀드리고자 합니다

3 여전히 무죄를 주장하고 싶습니다 저는 한국영화아카데미에서 피해자를 만나게 되어 함께 영화를 고민하며 속깊은 이야기를 나누게 되었고 이후 매우 친밀한 관계로 지냈습니다 피해자는 제가 동성애자임을 알고 있는 몇 안되는 사람들 중 한 명일 정도로 저와 친분이 깊었고, 많은 감정들을 공유하고 있었습니다 그러던 중 2015 4 초순경 남성 3명 그리고 피해자와 함께 술자리를 가지게 되었는데, 저 역시 취한 상태였지만 먼 지역에서 온 피해자를 돌봐주어야할 상황이었습니다 사실 그 당시 영화 '연애담'의 촬영을 마치고 편집을 하던 단계였으므로 해야 할 일이 많았기 때문에 저는 학교로 돌아가 잠시 쉬었다가 일을 시작하였으면 하는 바람이 있었습니다 그러나 피해자가 만취한 상태였기 때문에 일행들은 피해자를 가까운 모텔에 데리고 가 침대에 눕혀주었고, 저는 일행들의 부탁을 받아 피해자와 함께 있게 된 것입니다 술에 취해 잠이 든 줄 알았던 피해자는 어느새 울기 시작하더니 무슨 일이 있는 것처럼 오열했습니다 그 과정에서 피해자는 자신의 고민을 저에게 이야기했고 그런 피해자를 달래던 중 자연스럽게 성관계를 가지게 되었습니다 당시 저로서는 피해자가 저와의 성관계를 원한다고 여길만한 여러 가지 사정들이 있었기 때문에 당연히 성관계에 대한 피해자의 동의가 있었다고 생각할 수밖에 없었습니다 이후 저와 피해자는 다시 잠이 들었는데, 잠에서 깨어난 피해자가 기억이 나지 않는다, 무슨 일이 있었냐고 묻자 저는 몹시 당황스러웠습니다 그래서 어떻게 모텔에 오게 되었고 어떤 일이 있었는지 피해자의 기억을 환기시켜 줬습니다 이후 저는 피해자와 함께 밥을 먹고 차를 마시고 시나리오 이야기를 하였고, 전날 함께 술마셨던 사람들과 만든 채팅방에서 대화를 나누었으며, 피해자가 저에게 물건을 빌려주는 등 그 이후에도 특별히 서로 간에 불편한 상황은 없었습니다 그리고 헤어질 때에도 조만간 또 만나자고 하면서 헤어졌기 때문에, 저는 피해자가 당시 있었던 일에 대해서 혹시나 불쾌해 하거나 고통스러워 할 것이라는 생각은 전혀 하지 못했습니다 그런데 그 날 저녁 피해자의 남자친구로부터 전화가 왔고, 저와 피해자 사이에 있었던 일에 대해 물었습니다 저는 이 때 두 사람이 합의하에 성관계를 가졌던 사실을 얘기하였고, 이 과정에서 서로 격앙된 상태에서 통화를 하였습니다 그리고 다음 날 피해자와 통화를 하였을 때에도 서로 감정이 상한 상태에서 대화를 하였고, 그 후 한동안 연락이 없다가 약 한 달 뒤에 갑자기 피해자가 저를 고소한다는 말을 전해 듣게 되었습니다

피해자가 저를 고소한 이후로 저는 피해자에 대한 어떠한 사과도 할 수 없었고 어떻게 마음이 상했는지 확인할 수도 없었습니다 이미 수사가 시작된 상태였기 때문에, 피의자의 신분으로 피해자에게 연락을 하는 것은 좋지 않다는 주위의 조언도 있었습니다 4 저는 수사와 재판 과정에서 모든 사실을 숨김없이 이야기했고, 이 일을 무마하거나 축소시키려고 한 적이 전혀 없습니다 만약 제가 피해자의 동의 없이 범행을 저질렀다면 애초에 피해자가 잠에서 깨어나서 무슨 일이 있었느냐고 말했을 때 아무 일도 없었다며 무마하려고 했을 것입니다 또한 고소 여부가 문제되던 시점에서도 피해자의 요구대로 사과를 하고 없었던 일로 만들려고 노력을 하였을 것입니다 하지만 저는 피해자에게 처음부터 사실대로 얘기를 했고, 수사와 재판 과정에서도 성 정체성에 대한 편견을 가진 분들 앞에서 힘들지만 모든 것을 털어놓았습니다 또한 저는 한국영화아카데미 교수님에게 피해자와의 합의를 부탁한 사실이 전혀 없습니다 합의를 하게 되면 오히려 유죄를 인정하는 것이라고 들었기 때문에, 무죄를 주장하는 저로서는 그런 생각을 할 수 조차 없었습니다 재판이 한참 진행되던 중에 교수님을 통해 피해자가 원하는 것은 사과다, 그 날의 시시비비를 떠나 이후 감정적인 상처를 준 것에 대해 인정하고 사건에 대해 발설하지 않겠다는

Introduction to Runway: Machine Learning for Creators (Part 1)

[땡땡] 여보세요 새로운 튜토리얼 시리즈에 오신 것을 환영합니다 소프트웨어에 대한 코딩 트레인 활주로라고 런웨이 란? 런웨이와 땜장이 종류를 다운로드하고 설치하는 방법 주위에? 이것이이 특정 비디오에서 할 것입니다

런웨이는 내가 만든 것이 아닙니다 활주로는 회사, 새로운 회사에 의해 만들어집니다 활주로 자체 그리고 그것은 소프트웨어의 한 조각입니다 사용하고 무료로 다운로드 할 수 있습니다 무료로 사용할 수 있습니다

클라우드 GPU 크레딧이 필요한 측면이 있습니다 나중에 살펴 보겠습니다 그리고 무료 크레딧과 쿠폰 코드를 얻을 수 있습니다 이 비디오의 설명에서 찾을 수 있습니다 하지만 난 정말 당신과 이야기하고 싶어 그게 너무 흥분되어서 앞으로 사용할 계획입니다 미래의 많은 튜토리얼과 코딩 문제, 그리고 교육 내가 할 일

그리고 나는 또한 내가 회사 활주로 자체의 고문입니다 그래서 저는 그 능력에 관여하고 있습니다 괜찮아 런웨이 란? 바로 여기에는 광고 소재에 대한 머신 러닝이 있습니다 인공 지능의 힘을 가져 오십시오 직관적이고 간단한 방법으로 창의적인 프로젝트에 시각적 인 인터페이스

오늘 새로운 제작 방법을 탐색하십시오 이것이 나에게있어 활주로의 핵심입니다 저는 창의적인 코더 인 사람입니다 처리 및 P5JS 작업 중입니다 다른 소프트웨어를 사용하고있을 수 있습니다

그것은 단지 상용 소프트웨어, 코딩 환경입니다 당신은 당신의 자신의 소프트웨어를 작성하고 있습니다 그리고 당신은 최근의 진보를 활용하고 싶습니다 기계 학습에서 이 모델에 대해 읽었습니다 이 모델에 대한이 YouTube 비디오를 보았습니다

당신은 당신의 일에 그것을 사용할 수 있습니까? 글쎄, 활주로 전에 당신이 한 일 중 하나 GitHub 리포지토리로가는 길을 찾으십시오 이 매우 긴 ReadMe를 좋아했습니다 설치 및 구성해야 할 다양한 종속성 그런 다음이 파일을 다운로드하여 설치 한 다음 이 라이브러리를 빌드하십시오 그리고 당신은 정말 오랫동안 거기에 갇힐 수 있습니다 따라서 Runway는 하나의 소프트웨어로 구성됩니다 기본적으로 머신 러닝을 실행하는 인터페이스 당신을위한 모델, 설치 및 구성 다른 일을하지 않아도 Install이라는 버튼을 누릅니다

그리고 그것은 당신에게 그 모델들을 가지고 놀 수있는 인터페이스를 제공합니다 해당 모델을 실험 한 다음 브로드 캐스트 이러한 모델의 결과를 다른 소프트웨어에 적용합니다 그리고 당신은 다양한 방법이 있습니다 HTTP 요청을 통해 방송을 할 수 있습니다 OSC 메시지를 통해 그리고이 모든 것이 말이되지 않을 수도 있습니다 당신에게, 그것은 완전히 괜찮습니다 나는 그들을 통해 찌르고 당신을 보여줄 것입니다 적어도 당신을 보여주기 위해 그들이 어떻게 작동하는지 활주로와 처리 방법 Runway와 P5JS를 페어링하는 방법, 그리고 다른 많은 예제가있는 곳을 보여 드리겠습니다 다른 플랫폼으로 할 수있는 것들과 같은 것들

첫 번째 단계는 여기를 클릭하는 것입니다 런웨이 베타 다운로드에서 자동으로 다운로드를 시작합니다 Mac OS, Windows 또는 Linux 용 실제로 Runway를 이미 다운로드하여 설치했습니다 이 단계를 건너 뛰겠습니다 실제로는 이제 소프트웨어를 실행하십시오 아 이제 런웨이에 오신 것을 환영합니다

시작하려면 로그인하세요 승인 이미 계정이 있다면 당신은 당신의 계정으로 로그인 할 수 있습니다 이미 계정이 있습니다 하지만 저는 새로운 것을 만들려고합니다

과정을 따르십시오 그래서 나는 여기에 갈 것입니다 계정을 만드십시오 이메일 주소를 입력하겠습니다 daniel@thecodingtrain

com에게 아무에게도 말하지 마십시오 그런 다음 사용자 이름과 비밀번호를 만들겠습니다 매우 강력한 비밀번호를 입력 했으므로 다음을 클릭하겠습니다 다니엘 쉬프 먼은 코딩 기차 계정을 만드십시오

아 인증 코드를 제공합니다 daniel@thecodingtraincom으로 계정이 생성되었으며 시작을 클릭 할 수 있습니다 일단 다운로드하고 Runway를 설치하고 가입하면 계정으로 로그인 한 경우 이 화면이 나타납니다 런웨이를 오랫동안 사용했다면 그런 다음 열린 작업 공간을 클릭하여 여기에 올 수 있습니다

작업 공간은 수집 방법이기 때문에 당신이 다른 모델의 무리 특정 프로젝트에 작업 공간으로 사용하고 싶습니다 그러나 우리는 그 어떤 것도하지 않았습니다 제가 가장 먼저 할 일은 모델 찾아보기를 클릭하기 만하면됩니다 그래서 당신이 제안하는 첫 번째 일은 그냥 모델을 클릭하고 무엇을 참조하십시오 Runway 인터페이스 자체에서 게임을 할 수 있습니다 런웨이에서 정말 멋진 것 중 하나가 탐색 할 수있는 소프트웨어 및 인터페이스 모델을 실험하여 작동 방식을 이해하고 그것이 잘하는 것, 잘하지 않는 것, 시작하기 전에 무엇을 하는가 자신의 소프트웨어 나 프로젝트로 가져옵니다

저는이 스페이드 코코 모델을 고를 것입니다 전에 보았다 이것은 매우 합법적입니다 나는 그것을 클릭했을 때 어떤 일이 일어날 지 전혀 모른다 이제 여기에 더 많은 정보가 있습니다 모델에 대해

모델이 무엇을하는지 알 수 있습니까? 스케치와 낙서에서 사실적인 이미지를 생성합니다 모델에 대한 자세한 정보를 찾을 수 있습니다 예를 들어,이 모델을 설명하는 논문입니다 "공간적으로 적응하는 시맨틱 이미지 합성 COCO-Stuff 데이터 세트에 대한 정규화 " 누군가가 물었을 때 이것은 초보자를위한 튜토리얼이라는 것을 기억하십시오 글쎄, 당신이 초보자라는 점에서 초보자를위한 것입니다

여기 와서 놀 수 있습니다 하지만 논문을 찾으려면 아주 깊이 갈 수 있습니다 메모를 읽고 이해 이 모델에 대한 자세한 내용, 모델 작성 방법, 어떤 데이터를 훈련 받았는지 항상 당신이있을 때마다 물어 매우 중요한 질문 기계 학습 모델을 사용합니다 여기에 귀속이있는 것을 볼 수 있습니다 이것이 모델을 훈련시킨 조직입니다 이들은 논문의 저자입니다

크기가 만들어 졌을 때 CPU 및 GPU가 지원되는 경우 갤러리 아래로 갈 수도 있습니다 그리고 우리는 생성 된 일부 이미지 만 볼 수 있습니다 아이디어를 얻을 수 있습니다 이것은 무언가를 테마로 한 모델입니다

이미지 분할이라고합니다 여기에 이미지가 있습니다 이미지 세분화는 무엇을 의미합니까? 이 이미지는 여러 조각으로 나뉘어져 있습니다 다른 세그먼트의 이러한 세그먼트는 색상으로 표시됩니다

보라색 부분, 분홍색 부분이 있습니다 연한 녹색 세그먼트 그리고이 색상들은 모델의 레이블과 연결되어 있습니다 본질적으로, 그것은 일종의 일에 대해 알고 있습니다 그 영역에 그릴 수 있습니다

따라서 이미지 분할을 두 가지 방법으로 수행 할 수 있습니다 내 이미지처럼 기존 이미지를 가져올 수 있습니다 오, 나는 그것을 분류하려고합니다 여기가 내 머리입니다 여기가 내 손입니다

여기가 내 손입니다 또는 정렬별로 이미지를 생성 할 수 있습니다 빈 이미지에 그리기, 여기에 손을 넣어 말하는 여기 머리를 올려 이것이 바로 이미지 분할입니다 적어도 내가 이해하는 방식입니다 내가 지금까지 무엇을 했습니까? Runway를 다운로드했습니다

나는 모델을 찔렀습니다 그리고 방금 하나를 클릭했습니다 이제 그 모델을 사용하고 싶습니다 나는 그것을 가지고 놀고 싶다 나는 그것을보고 싶다

여기 작업 공간에 추가로갑니다 바로 여기에 있습니다 작업 공간에 추가하십시오 이제는 아직 작업 공간이 없습니다 그래서 하나를 만들어야합니다

이 작업 공간을 호출하겠습니다 코딩 기차 라이브 스트림을 말하겠습니다 그래서 저는 그렇게 할 것입니다 Create를 누르겠습니다 이제 작업 공간이 있습니다

보시다시피, 이것은 내 작업 공간입니다 이 작업 공간에 하나의 모델 만 추가했습니다 그리고 지금 당장해야 할 일을 강조하고 있습니다 입력 소스를 선택해야합니다 따라서 모든 기계 학습 모델이 다릅니다

그들 중 일부는 텍스트 입력을 기대합니다 그들 중 일부는 이미지 입력을 기대합니다 그들 중 일부는 입력을 기대할 수 있습니다 스프레드 시트에서 임의의 과학 데이터 그런 다음 모델은 입력을 받아 실행합니다

모델을 통해 출력합니다 그리고 그 출력은 숫자 일 수 있습니다 또는 이미지 일 수도 있습니다 또는 더 많은 텍스트 일 ​​수 있습니다 이제 우리는 사례별로 일종의 공간에 있습니다

그러나 이미지 분할을 올바르게 이해하면 나는 입력과 출력을 확신한다 둘 다 이미지가 될 것입니다 작은 다이어그램을 만들어 봅시다 우리는 이것을 가지고 있습니다 이 모델은 다시 무엇을 불렀습니까? 스페이드 코코 이 머신 러닝 모델이 있습니다

아마도 여기에는 신경망 아키텍처가 있습니다 어쩌면 컨볼 루션 레이어가있을 수도 있습니다 이것은 우리가 그 논문을 읽고 싶을 것입니다 자세한 내용을 알아보십시오 런웨이는 우리가 그것을 즉시 사용할 수있게 해줄 것입니다

그리고 나는 항상 추천합니다 사용 방법에 대해 자세히 알아 보려면 이에 대해 자세히 읽어보십시오 여기 내 가정은 내가 만들고 싶은 소프트웨어에 있습니다 소프트웨어의 그림 조각을 만들고 싶습니다 사용자가 이미지를 분할 할 수 있습니다 아마 당신은 내가 일종의 추첨을 할 것이라고 상상할 수 있습니다 한 가지 색입니다 다른 색의 마커를 사용할 수 있습니다

이 이미지를 무리로 채울 것입니다 다른 색상 그런 다음 모델에이를 공급할 것입니다 그리고 밖으로 이미지가 올 것이다 우리는 입력했습니다

그리고 우리는 출력했습니다 그리고 다시, 이것은 모든 모델마다 다를 것입니다 활주로에서 선택할 수 있습니다 그럼에도 불구하고 많은 규칙이 있습니다 많은 모델들이 이미지를 기대합니다 입력 및 출력 이미지로 그들 중 일부는 텍스트를 입력으로 기대하고 이미지를 출력합니다

또는 입력 및 출력 텍스트로 이미지 등등 그리고 등등 그리고 지금하고 싶은 것은 입력 소스를 선택하는 것입니다 모델의 활주로에서 세그먼트 화 된 이미지를 생성 할 것입니다

그래서 그것은 파일에서 올 수 있습니다 실제로 네트워크 연결에서 올 수 있습니다 앞으로의 비디오에 들어가서 또는 스스로 탐색 할 수 있습니다 난 그냥 세분화를 선택합니다 알아

이것은 가장 위대한 것입니다 방금 일어난 일은 이미지 분할입니다 머신 러닝 모델의 일반적인 기능입니다 활주로에 전체 드로잉 엔진이 내장되어 있으므로 이미지 세분화로 놀 수 있습니다 보시다시피, 이것은 다른 라벨의 색상입니다 많은 교통 수단 인 것 같습니다

어쩌면 내가 원하는 것은 시도하자 사람들을 그려 봅시다 [음악 재생] 비행기와 와인 글라스 비행 오버 헤드와 두 사람 승인 일은 잘되고 있니? 이제 출력을 선택하겠습니다 그리고 나는 단지 미리보기를 원합니다

권리? 미리보기는 지금 내 보내지 않아도됩니다 다른 곳에서는 사용할 필요가 없습니다 난 그냥 Runway 자체에서 놀고 싶습니다 미리보기를하겠습니다 이제 입력을 선택했습니다

세그먼트입니다 활주로 자체의 인터페이스 출력을 선택했습니다 미리보기입니다 이제 모델을 실행할 차례입니다

우리가 간다 원격으로 실행하십시오 따라서 원격 GPU가 활성화되었습니다 가입 만하면 볼 수 있습니다 Runway의 경우 원격 GPU 크레딧 10 달러 한 번만 얼마나 실행하는지 보는 것이 재미있을 것입니다 실제로 사용합니다

한 가지만 말씀 드리겠습니다 추가 크레딧을 받고 싶은데 여기로 갈 수 있습니다 이것은 내 프로필의 일종의 아이콘과 같습니다 클릭 할 수 있습니다 이제 여기로갑니다

더 많은 크레딧 받기로갑니다 그리고 이것은 나를 브라우저 페이지로 데려 갈 것입니다 그리고 더 많은 크레딧을 지불 할 수있었습니다 하지만 여기를 클릭하겠습니다 CODINGTRAIN을 말하여 크레딧을 사용하겠습니다

바로 여기에 따라서 10 달러의 크레딧을 추가로 받으려면 당신은 이것을 할 수 있습니다 그리고 우리는 지금 20 달러의 크레딧이 있어야한다는 것을 알 수 있습니다 여기이 아이콘이 표시되어 있습니다 여기이 아이콘은 작업 공간입니다

그 중 하나의 모델로 하나만 가지고 있습니다 원격 GPU에 연결되어 있습니다 다른 모델을보고 싶다면 이 아이콘으로갑니다 괜찮아 이제 원격 실행을 누르겠습니다

[드럼 롤] 모델을 원격으로 실행 우와! [TA-DA] 어머 아 너무 예뻐요 무아 믿을 수 없어 이것이 바로 스페이드 코코 머신 러닝입니다 모델 생성

여기서 결과를 보는 것은 정말 흥미 롭습니다 그래서 당신은 생각할 수, 아무것도 몰라 이 모델에 대해, 작동 방식과 기대하는 것, 당신은 그것으로 꽤 이상한 결과를 얻을 수 있습니다 아마도 내가 좀 더 사려 깊다면 아마도 전체 공간을 가득 채우고 아마 너무 많이 비워두고 또한 두 사람과 함께 거대한 와인 잔을 포함 시켰습니다 좀 소름 끼치 네요 비록 이런 종류의 저와 비슷하다고 생각합니다 이상한 방식으로 그리고 우리는 여기서 볼 수 있습니다

이것 좀봐 $ 005 제가 언급해야 할 것은 이유입니다 왜 오랜 시간이 걸 렸어요 서버와 실제로 시작할 모든 것 모델을 실행합니다 하지만 이제 실시간으로 실행되므로 훨씬 빨리 일어날 수 있습니다 작성해 봅시다

그렇다면 그것을 채우는 것이 좋은 것입니까? 바닥재를 사용해 봅시다 나무 바닥으로 채우도록하겠습니다 오 우와 그런 다음 과일을 넣으십시오 아 이것은 지금 훨씬 나아 보입니다 옆에 오렌지를 넣자

오렌지 몇 개를 넣고 작은 과일 그릇을 만들어 봅시다 와우 이건 미친 짓이야 와우 나는 멈춰야했다 꽤 놀랍습니다

다시 한 번, 여기 잠시 후 방법에 대해 조금 더 생각하는 이 모델은 실제로 작동합니다 그리고 잘 알려진 데이터 세트를 살펴보면 코코 이미지 데이터 세트가 아마 나에게 더 많은 정보를 줄거야 그것이 잘 될 일에 대해 생각합니다 그러나 당신은 그것이 어떻게 볼 수 있는지 볼 수 있습니다 여기 나무 배경에 과일의 작은 더미 거의 천처럼 보입니다

마치 테이블 위에 앉아있는 것처럼 말입니다 매우 현실적입니다 그리고 그렇습니다 찰리 잉글랜드는 지적합니다 이것은 GPU 크레딧을 계속 사용하고 있습니다

그래도 여전히 볼 수 있습니다 라이브 페인팅을 많이해도 방금 $ 010을 사용했습니다 무료 $ 10로 많은 것을 할 수 있습니다 그냥 놀면서

현명하게 입력하면, 여기에서 분할을 선택했습니다 그러나 파일을 사용할 수도 있습니다 컴퓨터에서 파일을 열려면 나는 그렇게 할 수 있었다 그런 다음 내보내기로 변경하면 출력 나는 또한 실제로 그것을 내보낼 수 있습니다 다양한 형식으로 하지만 물론 여기서도 바로 미리보기에서이 다운로드 저장 버튼을 클릭 할 수 있습니다

이제이 특정 이미지를 영원히 더 많이 저장하고 있습니다 파일로 자, 여기서 실제로 중요한 것은 여기서 더 중요한 것은 네트워크 아래입니다 네트워크에서 여기를 클릭하고 싶었다면 이것은 이제이 특정 기계와 통신 할 수 있다는 것을 의미합니다 내 소프트웨어에서 학습 모델 내가 다운로드했거나 구매 한 소프트웨어인지 여부 다른 사람이 말한 것을 이러한 특정 프로토콜 중 하나 또는 내가 쓰고있는 자체 소프트웨어 거의 모든 프로그래밍 언어 또는 환경 프레임 워크, 모듈 또는 라이브러리가있는 경우 또는 이러한 유형의 프로토콜을 지원하십시오 여기 JavaScript의 좋은 점 중 하나는 JavaScript를 클릭하면 실제로 여기에 약간의 코드가 있음을 알 수 있습니다

실제로 자바 스크립트에 복사 / 붙여 넣기 만하면됩니다 직접 다시 올게요 OSC는 또한 매우 인기있는 메시징 네트워크 프로토콜입니다 창조적 인 코더를 위해 Open Sound Control의 약자이며 응용 프로그램간에 데이터를 보내야합니다

별도의 동영상으로 다시 돌아오겠습니다 이 중 일부가 어떻게 작동하는지 보여줍니다 또한 귀하의 Runway 소프트웨어에 대해서도 언급해야합니다 자체는 소프트웨어와 매우 유사한 방식으로 작동합니다 익숙한 Wekinator라고합니다 Wekinator는 Rebecca Fiebrink가 만든 소프트웨어입니다 몇 년 전에 OSC 메시징을 통해 데이터가 전송되는 신경망 그리고 사실 후에 그 결과를 얻습니다 비록 여기서 중요한 차이점은 런웨이라고 생각합니다

정말 큰 보물을 지원하도록 설정되어 있습니다 사전 훈련 된 모델 Wekinator는 신경망 교육에 더 많은 반면 작은 비트의 데이터로 즉석에서 런웨이가 계획하고있는 것 중 하나는 아마 9 월에 나올 것입니다 자신의 모델을 훈련시키는 기능도 있습니다 이번 런웨이 소개를 시청 해 주셔서 감사합니다 다운로드 및 설치의 기본 사항 소프트웨어, 높은 수준의 관점에서 볼 때 인터페이스 작업의 특징, 무료 클라우드를 얻는 방법 크레딧 그리고 내가 당신에게 제안하는 것은 이 비디오가 다운로드 된 후 소프트웨어를 실행 한 후 이 모델 찾아보기 페이지로 이동하십시오

보시다시피, 다양한 모델이 있습니다 모션, 생성, 커뮤니티, 텍스트, 인식 여기를 클릭하십시오 이 인식을 시도해 봅시다 얼굴 인식 조밀 한 캡

여기 PoseNet은 어디에 있습니까? 동작이 어려울 수 있습니까? DensePose PoseNet 여기 PoseNet이라는 모델이 있습니다 한 명 이상의 사람에 대한 실시간 골격 추적을 수행합니다 이 모델을 다른 라이브러리에서 다루었습니다 TensorFlow JS가있는 ML5 JS 라이브러리와 같습니다

다음 비디오에서하려고하는 것은 내 웹캠으로 Runway에서이 모델 PoseNet을 사용하고 있습니까? 이 컴퓨터에서 로컬로 실행 클라우드 크레딧을 요구하지 않고 이 모델의 결과를 [? 처리?] 자체 전체 워크 플로우를 보여 드리겠습니다 그러나 찌르십시오 주위를 클릭하십시오 원하는 모델을 찾으십시오

의견에 대해 알려주십시오 당신이 만든 이미지를 공유하십시오 그리고 난 당신이 활주로로 무엇을보고 기대합니다 큰 시청 해 주셔서 감사합니다

[음악 재생]

Linear Regression – Introduction to Machine Learning using Python and Scikit Learn Chapter 6 1

안녕하세요 모두 컴퓨터 소개 동영상 시리즈에 오신 것을 환영합니다

scikit을 사용하여 학습 – 이것이 6 장, 특히이 장을 배우십시오 우리는 첫 번째 기계 학습 알고리즘에 대해 이야기 할 것입니다 이 장에서 선형 회귀는 선형이 무엇인지를 이해할뿐만 아니라 회귀뿐만 아니라 기계 학습을 어떻게 호출 할 수 있는지도 이해합니다 scikit-learn에서 제공하는 기능 선형 회귀뿐만 아니라 다른 알고리즘을 사용해도 괜찮습니다 앞서서 선형 회귀는 감독 된 학습 방법이다

학습 사전 데이터에 기초하여 회귀 값을 예측하는 단계와, 선형 관계이므로 우리가 이해할 수있는이 정의에 대해 걱정하지 마십시오 이제 우리는 어떤 기계 학습 알고리즘으로 작업하기 위해 데이터가 필요합니다 밖에서 사용할 수있는 많은 데이터가 있지만이 경우에는 나는 단지 5 ~ 6 점으로 우리 자신의 데이터를 생성하기로 결정했다 선형 관계가 실제로 어떻게 나타나는지 실제로 이해하고 볼 수 있습니다 이러한 데이터 포인트와 내 기계 학습 모델이 이러한 데이터를 어떻게 처리하는지 그래서 나는이 데이터 세트를 학습을 위해 적어도 초기 학습은 데이터 세트가이 데이터 세트처럼 보이는 방식입니다

농산물에 대한 가격과 다른 위치에서의 가격 이 데이터 세트는 농부가 생산하는 농산물에 관한 것입니다 그것이 판매되는 곳과 그것이있는 곳의 거리 예를 들어 지역 농원 시장 인 농가에서 판매되는 4 대 농부들의 마일리지는 마을에서 10 달러에 살 수있는 것과 같은 것을 놓습니다 농장에서 12 마일 떨어진 곳에 있습니다 당신은 똑같은 물건을 28 달러에 살 수 있습니다 당신이 50을 위해 같은 것을 살 수있는 25 마일 인 소유주 마을 4 달러 농장에서 50 마일 떨어진 도시에서 살 수 있습니다

84 달러를위한 것 및 가동 불능 시간에서 60 마일 인 가동 불능 시간 너는 90 달러에 같은 물건을 살 수있다 우리는이 데이터를 가지고있다 우리의 x 축과 y 축 값을 만들어 보자 그 X는 마일 단위로 거리가 될 것이고 Y는 가격이 될 것입니다 내가 왜 numpy를 가져오고 있는지 묻고 있을지도 모릅니다

numpy는 어떤 것의 중추입니다 만약 당신이 있다면 기계 학습과 데이터 과학 파이썬 프로그래밍 언어 번호가 마음에 들지 않습니다 앞으로 나아가보고 싶을 것입니다 내 비디오 chapter 41 위의 숫자는 ok입니다

이제는 numpy 배열로 처리하고 있습니다 x 거리 및 Y 가격 확인 및 여기에 어떻게 지금처럼 보이는 나는 우리가 만든 배열은 수평 배열이지만, 내가 말한 것을 기억한다 이전 장에서는 기계 학습에서 특히 scikit-learn 또는 기계 학습을하는 데 중요합니다 알고리즘은 데이터의 수평 세트가 아닌 1 차원 데이터를 나타냅니다 열 벡터 인 세로 형 데이터 집합이므로이 값을 변경해야합니다

행 벡터를 열 벡터로 변환 이제 내 번호를 기억하고있을 것입니다 너는 우리가 재 형성 함수를 호출 할 수 있도록 내가 너에게 5와 1을 열이 데이터를 얻지 만 알려주지 한 가지는 원래 데이터를 변경하거나 변경 데이터를 작성한 것입니다 수평 거리를 다시 인쇄하면 다시 볼 수 있습니다 그래도 가로 데이터는 괜찮아요

그래서 우리는 numpy의 실제 치수를 바꿉니다 배열을 사용하여 파일 1로 직접 모양을 변경할 수 있으며이 경우 데이터는 열 벡터로 변경 이것은 numpy 배열 0의 속임수 중 하나입니다 새로운 번호를 만들지 않고 치수가 여기에있는 y와 똑같은 것에 존재한다 이제는 가격입니다이 x와 y를 사용하여 어떻게 보이는지 볼 수 있습니다

matplotlib 다시 수학 장에 익숙하지 않은 경우 42 장으로 돌아갑니다 도약하지 마라 나는 여기에 그렇게하지 않을 것이다 나는 이것이 단지 당신이 볼 수있는 방법 일 뿐이다

농부 자리에서 마일 떨어진 거리이며 이것은 지금 위치에서 가격입니다 먼저 scikit-learn에서 선형 회귀 메커니즘을 사용합니다 그런 다음 선형 회귀를 사용하는 방법을 디코드합니다 우리는 선형 모델로부터 선형 회귀 (linear regression)를 가져와야합니다 선형 회귀 알고리즘이 어떻게 수행되는지 이해하려면 매트릭스에서 미니 제곱 오류라는 것을 가져 오십시오 걱정하지 마십시오

나는이 두 가지에 대해 너희에게 각각과 모든 것을 말할 것이다 이제는 매우 중요한 한 가지 통합 된 기계 학습 인터페이스 scikit-scikit-learn에 관해 가장 좋은 것을 배웁니다 거의 모든 기계 학습을위한 통일 ​​된 인터페이스를 제공한다는 것입니다 알고리즘은 선형 회귀뿐만 아니라 내 기계로 당신을 배우기도합니다 3 줄의 코드를 호출하여 코드 세 줄을 작성해야합니다

통가의 인스턴스는 당신이 해제 된 함수를 반환합니다 이것은 함수입니다 어디에서 훈련이 일어 났는지 예측하고 싶을 때 예측을 부릅니다 선형 회귀를위한 함수입니다 같은 것을 부릅니다 KN을 위해 n 나중에 비디오에서 볼 수있는 것과 동일한 것을 호출 할 것입니다

우리 모두는 scikit-learn으로 할 것이므로 선형을 어떻게 사용할 수 있는지 보도록하겠습니다 회귀 나는 물론 선형 회귀의 인스턴스를 만듭니다 다양한 매개 변수를 제공 할 수 있지만이 특별한 경우에는 기본값은 선형 회귀의 인스턴스를 만들 정도로 좋아요 선형 회귀 함수를 호출하는 방법은 다음과 같습니다 교육이 실제로 완료되었습니다

이제 기계 학습 모델을 사용하여 가치를 예측하기 위해 똑같은 일을해야합니다 45 마일은 이제 내 목록에 45가 없다는 것을 기억한다 나는 52 살이지만 그렇지 않다 45 그러나 나는 같은 가격이면 첫 번째 가격은 무엇인지 알고 싶다 이제 우리는 이것을 41 마일에서 다시 팔고 있습니다

열 벡터가 동일한 통합 함수를 전달하고 그것이 말하는 예측을 봅니다 그 $ 73 $ 026는 지금 45 마일에 가격 일 것이다 원래 지점에 대해 플로팅하여 예측을 보도록하겠습니다 앞서와 음모 당신이 볼 수있는 45 마일에서 나는 그것을 위해 73 달러와 이 특정 그래프의 모양이 괜찮아 보입니다 좋아,이게 옳은 가격 인 것 같아

그 특정 지점은 이제 여러 값을 예측할 수도 있습니다 값을 학습 값보다 훨씬 더 많이 사용하며 열 벡터를 만듭니다 그것에서 나가고 신용 함수에있는이 란 벡터를 통과하고 나는 얻을 것이다 10 번째 마일에서의 모든 것의 예측 제 80 회 24 번째 입술 122 회 100 회 입술 149 등등을 볼 수 있습니다 나는 훈련 데이터가 여전히 60 마일이나 무엇인지 보자 마지막 훈련 데이터는 현재 60 마일이지만 100 마일을 요구하고 있습니다

마치 단순한 선형 관계를 제공하는 것처럼 보입니다 선형 회귀 분석이 선형 회귀 분석을 통해 무엇을 찾는 지 이해합니다 가장 잘 맞는 선은 일반적으로 직선을 설정하는 훈련 데이터를위한 직선 특히 2 점 만 있으면 괜찮아요 지금 가장 적합한 것이 무엇입니까? 최상의 적합은 최소 평균 제곱 오차를 갖는 라인으로 정의된다 우리는 미니 평방 오차를 가져 왔고 이것이 우리가 가지고있는 이유입니다 우리는 성능이 무엇인지 확인하기 위해 평균 제곱 오차를 가져 왔습니다

우리의 선형 회귀 분석에 대해 더 자세히 설명하기 전에 지금 시간을 대입 할 것입니다 선형 회귀가 그러한 것을 표시하지 않는다는 것을 말해 줄 게요 하지만 당신은 훈련 데이터에서 배웁니다 즉, 제가 훈련을하면 10 분의 1 마일 가격이 12 달러라고 말하는 데이터와 10 마일에 가격을 예측하면 그렇지 않을 수도 있기 때문에 $ 12 일 수도 있고 그렇지 않을 수도 있습니다 훈련 자료를 기억하지 못한다

훈련 자료는 10 분의 1이다 최악의 날짜 나는이 대답을 계속 지었다 원래의 교육 포인트를 제공하든 새로운 포인트를 사용하든 모델이 예측치에 직면하여 훈련 데이터 값을 기억하지 못합니다 왜 네가 사각형이 필요하기 때문에 내가 이것을 말하고 있는지 이해하는 것이 매우 중요하다 오류가 무엇인지 알 때만 오류를 계산할 수 있습니다

우리는 우리가 알고있는 평균 제곱 오차에 대한 예측과 비교할 수 있습니다 이미 훈련 데이터를 가지고 있으며 우리는 예측 데이터를 가지고 있거나 예측할 수 있습니다 교육용 수에서 얻은 데이터는 동일하게 처리하고 차이점을 비교합니다 이제이 둘 사이에서 원래의 데이터 요소를 예측해 봅시다 내 예측이 어떻게 생겼는지, 내가 원래대로 당신이 볼 수있는 데이터 포인트는 각각의 원래 데이터가이 두 포인트를 가리킨다는 것을 나타냅니다

상대적으로 가깝습니다 조금 멀었습니다 이것은 조금 더 의미가 있습니다 원래 값과 해당 값에 의해 예측 된 값 간의 오차 연령 차이 모델과 제곱의 제곱은 네거티브가 있으면 긍정적 인 가치 그래서 미니 평방 오류를 계산하자 미니 평방 오류 수 있습니다 원래 값과 예측 값을 전달하여 계산하면 26에서의 평균 제곱 오차는 지금이 26에 대한 최상의 평균 제곱 오차이다 선형 회귀를 사용하여 설정 한 특정 값이므로 선형 일 경우 자신 만의 회귀 분석을 통해 얻을 수있는 최상의 미니 스퀘어 오차 이제 26 일입니다

다음 비디오에서 나는이 특정 비디오에서 여기서 멈추게 될 것입니다 선형 회귀 분석의 수학과 그 원리에 대해 다룰 것입니다 그 비디오를 확인하는 것을 잊지 마십시오 이러한 데이터 세트는 내 github 페이지에서 이러한 것들을 업로드 할 것입니다 이 데이터는 일부 순열과 조합을 통해 어떻게 작동하는지 이해합니다

일단 그것이 어떻게 작동하는지 이해하면 우리 자신의 선형 세트를 쉽게 수행 할 수 있습니다 회귀는 실제로 심령술사에 의해 수행되고있는 것을 발견하게합니다 현장 괜찮아요 그래서이 비디오에 대한 모든 것이 제발 제발 다음 비디오에서 몇 가지 것을 시도해보십시오 선형 회귀 알고리즘 뒤에 수학 괜찮아 그리고 우리는 우리의 그때까지 다음 비디오에서 회귀가되는 자신의 구현 시청 해 주셔서 감사합니다

잠시 시간을내어 공유하고 구독하고 싶습니다 고마워요, 고마워

What Is Machine Learning (Supervised Learning) – Part 1

인공 지능, 기계 학습 – 최근에이 단어들이 사용되었습니다 동의어로 – 그러나 그들이 있어야합니까? 이 세 번째 비디오 우리의 인공 지능 시리즈 이 기계의 목적은 학습 시리즈, 나는 그 대답을 추구 할 것이다

질문, 그래서 앉아서, 긴장을 풀고, 나와 함께해라 분야에 대한 탐험에 기계 학습! 질문에 답하기 위해 이 비디오의 시작 부분에서 제기 된 먼저 이해를 얻을 필요가있다 기계 학습이란 무엇인가? 기계 학습은 엄청난 주제이며, 많은 필드가 그것을 채택하고 및 / 또는 그리고이 채택률은 증가 이러한 필드에는 자연 언어 처리, 컴퓨터 비전, 전산 생물학 및 로봇 – 단지 몇 가지 목록 지금 정의하기 학습하는 기계는 무엇입니까, 우선 저희에게 알려주십시오

정의, 학습은 무엇입니까 인간으로서 우리는 두 가지 기본 학습 방식이 있습니다 1) 선언적 지식, 즉, 암기, 축적 개별 사실 그리고, 2) 명령 적 지식, 즉 일반화, 능력을 오래 전부터 추론 할 수있는 능력 사리 이 두 가지 모드의 확장 컴퓨팅 분야에서, 기계 학습 그때 어떤 알고리즘입니다 미래의 결과를 예측할 수있는 과거 데이터

아서 사무엘이 인용 한 것처럼 1959 년, 컴퓨팅의 개척자 인 '기계 학습'이라는 용어는 '자기 학습'프로그램 체커, 기계 학습은 " 컴퓨터에 능력을주는 연구 명시 적으로 배우지 않고 배우기 프로그래밍 "할 수 있습니다 과거 데이터의 새로운 데이터를 추론하지 않습니다 반드시 새로운 아이디어, 실제로, 큰 통계 분야의 일부는 이것에 전념했다 그러한 알고리즘 중 하나는 통계는 회귀 분석으로 알려져 있습니다 1800 년대 초반부터 주변에 있었다

회귀 분석에서 목표는 관계를 수학적으로 측정한다 변수들 사이에 선 – 가장 적합하다고 생각하는 라인을 사용하여 예측 서로 이걸 보자 예, 시청 시간 데이터 및 참여, 좋아요 및 댓글, 무작위 샘플 YouTube 동영상 이제 데이터를 통해 선을 그립니다 트렌드를 볼 수있는 곳, 시계가 커지는 곳 시간은 증가와 상관 관계가있다

약혼 시연의 관점에서 연역 시간, 주어진 시간 우리의 라인 – 오브 – 베스트 – 우리가 레벨을 예측할 수있는 적합성 그것과 그 반대도 마찬가지입니다 현재 우리 모델은 다른 사용을 통한 출력 변수 회귀, 어떤 유형의 정렬 알려진 데이터 분류 문제로 이것을 보려면, 이제 예제를 확장 해 보겠습니다 시청 시간 및 참여도 추적 동영상을 선택하면 동영상을 추천합니다

다른 단어들, 우리는 YouTube의 변수 값 알고리즘은 비디오를 추천하기 위해 사용합니다 같이 당신은 볼 수 있습니다, 우리의 원래 데이터 포인트 이제 레이블이 주어 졌 읍니다 레이블이 지정된 데이터라고합니다 데이터 한 번 레이블이 지정되었으므로 이제 진행할 수 있습니다 의 출력 라벨을 분류 할 때 입력 변수에 기초한 데이터

비슷한 회귀의 경우, 우리는 우리를 위로 갈라 지도록 선을 그 으라 결정 공간,이 라인은 의사 결정 경계라고합니다 ~에서 안구 관점, 그려 보자 경계 : 시청 시간이 80 % 이상인 경우 의 동영상 재생 시간의 45 %가 동영상을 보는 사용자가 동영상을 본 다음 비디오가 권장됩니다 그렇지 않으면, 그건 그렇지 않을거야

이제 우리가 새로운 우리가 결정해야만하는 비디오 권장 사항 먼저, 우리는 변수 및 우리의 결정에 음모 공간; 이것을 레이블이없는 것으로합니다 데이터 결정 경계에 기반 우리 모델은 출력 레이블을 예측할 것이며, 이 경우 비디오를 사용하는 것이 좋습니다 만약 우리는 지금 우리가 나눈 것을 자세히보고 있습니다

데이터를 보면 86 개의 동영상이 제대로 분류되지 않은 권장되는대로 87 개가 권장됩니다 그러나 14 개의 비디오가 그들이 아니었을 때 추천 받고 13 살 때 권고하지 않았던 것처럼 이것은 우리 모델에 예측 적 정확도는 865 % 정확도 공식을 사용하여 계산 됨 올바른 모델의 총수 추측, 173, 모든 데이터로 나눠 짐 포인트, 200 또는 더 구체적으로 진정한 긍정의 합계, 87, 그리고 참 네거티브 86 개를 모두의 합계로 나눈 값 진실한 긍정, 참된 원판, 거짓 양성 반응, 14, 위음성, 13

이 행렬에서 볼 수있는 ~으로 사용되는 혼란 행렬로 기계의 성능 결정 학습 모델, 위양성은 모델이 예측 한 결과 속성이 있습니다이 경우 권고, 현실에서는 그렇지 않습니다 대조적으로 거짓 위 음성은 모델은 속성이 실제로는 실제로 존재하지 않는다 그곳에 우리의 현재 통보 분류 모델을 사용하면 산출 할 직선을 그리시오

100 % 정확도 결정 경계를 오른쪽으로 이동하십시오 참여율이 더 필요하고 우리는 비디오를 잘못 분류합니다 권장하지 않는 것이 좋습니다, 위음성 증가, 참여를 줄이기 위해 이동 Google은 동영상을 권장하지 않는 것이 좋습니다 위양성이 증가합니다

높은 곳에 우리가 곧 보게 될 것입니다 기계 학습 알고리즘은 모델 정확도를 극대화하십시오 자,이 예제 우리는 그냥 통과했습니다 기계 학습 알고리즘 참조 의사 결정 나무로 참고로이 '트리 기반', 즉 조건부 문장 기반 기계 학습 접근 방식은 전문가에게 많은 유사점을 제시합니다

시스템에서 이 시리즈의 이전 비디오 이것은 왜 전문가 시스템이 첫 번째 기계 학습 시스템 지금, 우리의 초점을 바꾼다 알고리즘을 활용하는 알고리즘 유형 다양한 접근법 나눌 조건문 결정 공간, 예를 들어, 경우 지원 벡터 기계 이제 우리가 분명히 다루지 않을 시간이야 다음과 같은 다양한 유형의 모델이 있습니다

이 비디오는 만족 스럽지만 호기심과 더 많은 것을 배울 수 있습니다 다른 제작자의 자원 빼앗을 요지 이 모든 모델에서 똑바로서야 할 필요는 없다 단어, 선형, a의 공식으로 모델링 라인, y = mx + b 그들은 할 수있다 이차, 다항식, 지수 등 이제, 우리의 이전 예제는 두 비디오 데이터 포인트를 분류하는 변수, 시청 시간과 참여

이제 뭐 우리가 다른 것을 추출 할 수 있다면 동영상의 속성을 추가하여 우리 모델의 다른 변수 동영상을 더 잘 분류하자 이 변수는 세션 시간입니다 사용자가 플랫폼에서 보낸 시간 당신의 비디오를보고 난 후에 글쎄, 2D 선은 이제 3D 평면이되어 우리의 의사 결정 공간을 3 차원으로 만듭니다 우리 두 변수의 경우 에서처럼 이러한 분류기는 똑바로 서서 곰팡이를 피울 수있다

데이터 포인트 주변 참고로, 진정으로 유용한 분류기는 라벨이 부착 된 많은 주와 겨루다 게다가 예를 들면 2 개 주, 권장 여부 권장하지만 이상적으로는 동영상과 같은 더 많은 정보 일주일, 한 달 등 권장됩니다 추가 변수 및 우리는 더 높은 상태로 계속 나아 간다

더 높은 차원 공간 빨리 손에서 벗어나기 시작하고있다 말 그대로 모델을 만드는 유일한 방법 보다 복잡한 실제 시스템 사용 이러한 알고리즘은 강력한 데이터 센터 컴퓨터 또는 GPU, 반복 계산에 탁월합니다 상상해 보라 시각화하고 초평면의 수작업으로 수학 1000 차원의 체계

그래서, 이것들을 밟은 후에 간단한 예와 다양한보기 기계 학습 모델은 기계이다 통계를 재 상표 화 한 것을 배우시겠습니까? 안에 감각, 예 그러나 훨씬 더 깊어집니다 그것보다 더 나은 시각화를 얻으려면 다양한 관계의 관계 들판에서 나는 이것들을 설명 할 것이다

거품 다이어그램 3 개의 주요 필드 이 다이어그램에서 인위적인 것입니다 인텔리전스, 빅 데이터 및 데이터 과학 계속하기 전에 부수적으로, 데이터 과학은 구성되어 있고 많은 것으로 구성되어있다 자기 자신의 필드들 수학, 통계 등 데이터의 의미를 파악하는 일차 목표 다른 말로하면, 데이터를 구조화합니다 를 위해 우리 다이어그램의 단순함을 위해서 데이터 과학 및 통계는 같은

큰 데이터, 데이터 과학 및 인공 지능 대다수의 기계가 어디에 있는가? 학습이 일어나고, 데이터 과학과 인공 지능의 교차점 우리의 사례가 발생한 곳입니다 그만큼 우리가 이걸 보았던 예들 비디오는 기계 학습의 하위 집합이며, 감독자라고 불리는 것 배우기 감독 학습은 우리가 우리 데이터에 대한 입력과 출력을 가지고있다 다른 단어, 분류 된, 구조화 된 데이터 및 우리는 모델을 극대화하기 위해 '훈련'해야합니다 그들의 예측 정확도

또한, 당신이 희망적으로 추측 할 수있는 것처럼 예를 들어 감독 학습은 다음과 같습니다 더 하위 섹션, 2 학습 모델의 기본 모드, 회귀 및 분류 회귀 분석 연속 출력을 예측하기위한 것입니다 다른 말로하면, 출력은 라인 – 모델의 가장 적합한 모델인지 여부 직선, 곡선 등이 될 수 있습니다 본질적으로 우리는 입력을 맵핑하려고 시도하고있다

변수를 연속 함수로 변환합니다 분류는 다른 한편으로는 이산 출력 예측 단어, 입력 변수 매핑 이산 카테고리 이것에 추가하려면, 많은 우리가 본 것과 같은 분류 모델 이전에 회귀 알고리즘 구현 게다가 그렇습니다 감독 학습은 다음과 같습니다

근본적으로 통계적인 수학 패턴 인식 문제, rebranded 그들은 기계 학습이기 때문에 우리가 반복하는 방식으로 적용된다 그들을 통해, 다른 말로하면, 기차 모델 예측 정확도를 높입니다 지금 감독 학습 만이 아닙니다 기계 학습의 하위 집합, 다음 이 연재 동영상에서 다루겠습니다 무 감독 학습 및 진행 앞으로 어떻게 모든 것을 깊이 배우는가? 이의 모든 것을 탐구하여 AI, 기계 사이의 오해 학습과 깊은 학습 – 그리고 오는 것 제기 된 질문에 대한 답변에 더 가깝다

이 비디오의 시작 부분! 그러나 이것은 당신이 배우기를 기다려야한다는 것을 의미하지는 않습니다 더! 더 자세히 알고 싶다면 기계 학습 및 나는 진짜로 배우는 것을 의미한다 이 알고리즘의 작동 방식 감독 된 방법론 회귀와 분류, 무 감독 학습 등 Brilliantorg는 여러분이 갈 수있는 곳입니다 예를 들어,이 과정에서 기계 학습, 그것은 우리가 모든 개념을 커버 이 비디오를 통해 진행되었습니다 이 채널의 주요 목표는 다양한 것에 대해 고무시키고 교육한다

기술 및 혁신 세상을 변화시키지 만 높은 수준은 한걸음 나아가 야한다 이 동영상 외에도 실제로 수학과 과학 학습 내가 토론하는 개념 너머 훌륭한 수학과 과학을 만들어이 일을한다 흥미 진진한 학습과 배양 호기심을 보여주는 다양한 사이의 상호 연관성 다른 주제! Singularity를 ​​지원하려면 번영과 자세한 정보 Brilliant, Brilliantorg/singularity로 이동하십시오

Brilliantorg/singularity와 무료 가입! 또한 처음 200 명이 해당 링크로 이동하면 20 % 할인됩니다 연간 프리미엄 가입 이 때 비디오가 결론에 도달했음을 지적하고, 나는 너를 데려 가서 고맙다 그것을 볼 시간! 당신이 그것을 즐긴다면 파트 레온에서 나를 돕는 것을 고려해 보라 이 채널을 계속 성장 시켜라

어떤 주제 제안이라도 남겨주세요 아래 코멘트에! 더 많은 콘텐츠를 구독하는 것을 고려하십시오 내 페이스 북 페이지처럼 한 입 크기의 콘텐츠 덩어리 이것은 가지고있다 Ankur, 너 지켜 봤어

특이점 번영과 나는 너를 볼거야 조만간 다시! [음악]

Machine Learning with ML.NET and Azure Functions: Part 1 | Azure Tips and Tricks

>> MLNET을 사용하여 서버리스 머신 학습을하는 방법을 배우고 Azure는 Azure Tips and Tricks의이 에피소드에서 작동합니다

우리는 MLNET 라이브러리로 애플리케이션을 구축 할 것입니다 우리는 유형을 식별 할 수 있어야합니다 아이리쉬 꽃은 우리가 먹는 데이터를 기반으로합니다 여기 우리는 Windows에서 일반적인 명령 프롬프트에 있습니다

닷넷 코어가 설치되어 있고 Azure 기능 도구도 있습니다 Azure 및 Net 코어를 활성화하여 이들을 설치할 수 있습니다 Visual Studio의 작업 부하 시작하자 먼저 데모라는 디렉토리를 만들고 거기에갑니다

이제 새로운 솔루션을 만듭니다 다음으로, 새로운 콘솔 애플리케이션을 생성하겠습니다 소위 모델이라고 불렀습니다 이제 모델 프로젝트를 솔루션에 추가하고, 모델 폴더로 이동합니다 모델 프로젝트는 기계 학습을 할 것입니다

기계 학습 모델을 만드는 훈련 그렇게하려면 MLNET이 필요합니다 그래서 MLNET에 NuGet 참조를 추가 할 것입니다

모든 패키지가 있는지 확인하기 위해, 나는 닷넷 복원을 할 것이다 자, 훈련 데이터를 위해, 먼저 데이터를위한 데이터 디렉토리를 만들고, 여기에서 데이터를 얻을 수 있습니다 이 URL에는 꽃잎에 관한 데이터가있는 데이터 파일이 포함되어 있습니다 sepal 크기 및 이것들이 속한 꽃 이걸 복사합시다

우리가 말하는 것에 대해 당신에게 더 좋은 아이디어를주기 위해서, 데이터는 꽃잎과 아일랜드 꽃의 꽃잎 홍채의 각 유형은 꽃잎과 sepals 괜찮아 Visual Studio 코드로 전환했습니다 방금 만든 솔루션을 열었습니다

다음은 "데이터"폴더입니다 여기에서는 새 파일을 만들어 irish-datatxt라고하고, 데이터를 붙여 넣습니다 그런 다음 데이터를 저장할 수있는 데이터 모델 클래스를 만들어야합니다 이것은 아일랜드 데이터 클래스입니다

그리고 이렇게 보입니다 데이터를 저장할 수있는 간단한 클래스입니다 또한 예측 데이터에 대한 클래스가 필요합니다 그래서, "New File", "IrishPrediction", 여기에 우리가 가서 이것을 붙여 넣을 것입니다 예측 레이블이 유지됩니다

마지막으로, 새 파일을 추가하고 "모델"이라고 부릅니다 이 클래스는 실제로 MLNET 코드를 포함합니다 훈련 데이터를 취하고 그것으로부터 기계 학습 모델을 생성한다 먼저 데이터를로드합니다

데이터 경로에서로드하는 텍스트 파일 다음으로,이 데이터를 분석하여 교육용으로 준비합니다 마지막으로 데이터를 사용하여 모델을 교육하고, 결과는 모델 파일에 기록됩니다 모델 경로 매개 변수에서 설정 한 경로 이제는 프로그램 클래스에서이 모든 것을 연결합니다 여기서 우리는 데이터의 경로를 설정합니다 모델을 저장해야하는 위치로 이동합니다

다음으로, 우리는 모델을 훈련시키고 그것을 테스트합니다 터미널 창에서 사용해 봅시다 먼저 모델 폴더로갑니다 자, dotnet 실행 모델, 그리고 거기에 간다 그것은 모델을 훈련시키고 그것을 테스트한다

여기 출력이 있습니다 시원한 다음은 modelzip 파일입니다 여기에는 기계 학습 모델이 들어 있습니다

MLNET은 매우 강력한 라이브러리입니다 C #으로 기계 학습을 할 수 있습니다 가서 확인해

Machine Learning – Part 1 – The Z-Depth Generator – Flame 2020

모두들, 화염 학습 채널 허가 Flame 2020의 출시로

새로운 기술의 전체 범위 Flame 제품에 통합되었습니다 이것은 기계 학습의 형태입니다 훈련 된 인공 지능을 사용하는

이미지 분석 및 다양한 데이터 계산 VFX 및 Look for development에 사용할 수 있습니다 그래서이 데이터를 사용하여 이미지의 일부분을 분리 할 수 ​​있습니다 3D 선택을 통해 채점 할 때

또는 Action에서 작업 할 때 2D 또는 3D 합성물을 더욱 향상시킬 수 있습니다 다양한 유스 케이스가 있습니다 그리고 우리는 꽤 많이 다룰 것입니다 Machine Learning Series에 더 많은 비디오가 추가됨에 따라 1 부에서는 Z 깊이 생성기에 대해 소개합니다

효과 환경 내에서 시퀀스로 작업 할 때 참고로이 기계 학습은 Batch 및 BatchFX에서도 사용할 수 있습니다 당신은 Matchbox 노드로 그것을 찾습니다

이미지 노드 내에서 액션 3D 컴포 지터에서도 마찬가지입니다 이 주제는 이후 비디오에서도 다루게 될 것입니다 따라오고 싶다면 아래 설명에서 링크를 클릭하십시오 zip 파일을 다운로드하십시오 또는 팟 캐스트를보고있는 경우

표시된 링크를 웹 브라우저에 입력하십시오 이제이 장면을 사용하여 컨텍스트를 설정해 보겠습니다 여기에 분명히 기분이 좋지 않은 캐릭터가 있습니다

그리고 이것을 시각적으로 강조하고 싶습니다 보기 개발을 통해 그래서 총이 선택되었는지 확인하십시오 그리고 Effects Environment로 전환하십시오

나는 또한 매니저를 사용하는 것이 좋습니다 이미지 도구 모음의 다양한 구성 요소를보고 상호 작용합니다 2-up view는 ALT + 2를 누르십시오

8을 눌러 Manager를 표시하십시오 이제 시간 바를 닦으면 이 장면은 주인공 앞으로 전달을 추적하고 있습니다 그를 더욱 슬프거나 아프게 보이게하기 위해서 그는 선택과 함께 배경에서 격리해야합니다 그에 따라 등급을 매겼습니다 Flame Products의 이전 버전에서는

당신은 선택을 선택할 것입니다 그런 다음 주제를 키 입력하거나 마스크를 제거하십시오 또는 두 가지 도구를 함께 사용하십시오 하지만 이제 3D 데이터를 사용할 수 있습니다 선택 컨트롤의 3D AOV를 통해 유일한 문제는 이것이 실제 액션 샷이라는 것입니다 그리고 당신이 위치에 대한 깊이 정보를 포착 할 수 없다면 이 상황에서 3D 선택 도구를 사용할 수 없다고 생각할 수 있습니다 이것이 바로 Z-depth Generator를 학습하는 Machine이 매우 유용 할 수있는 곳입니다 당신은 매니저에서 표면을 선택할 수 있습니다 문맥 메뉴를 사용하여 깊이 맵을 적용하십시오 그러나 훨씬 쉬운 방법 당신이 선택한 선택과 함께

Selective의 3D AOV 메뉴에서 CREATE MAP을 클릭하기 만하면됩니다 이미지를 분석하는 데 약간의 시간이 걸립니다 그리고 Z-Depth Map이 표면 오브젝트에 추가됩니다 이제 Z-Depth Map이 실제로하는 일을 빠르게 알아 보겠습니다 Z- 깊이 컨트롤을 선택하여 보면 Z-depth 맵은 GLOBAL ANALYSIS로 설정됩니다 이것은 Flame이 전체 사진을보고 있다는 것을 의미합니다 그리고 장면 내 깊이를 이해하고 계산하려고합니다 너는 이것을 볼 수있다 F8 키를 누르면 선택한 Z 심도 맵이 오브젝트 뷰어에 표시됩니다

이제 몇 가지 대체 옵션이 있습니다 Z-Depth 맵에 관해서 예를 들어, 풀다운 메뉴를 클릭하면 얼굴 분석 및 미디어 입력이 있습니다 "얼굴 분석"은 인간의 얼굴을 인식합니다 그리고 얼굴의 피사체 깊이를 계산합니다

법선 맵과 함께 작업 할 때 얼굴 특징을 재연합니다 나중에 비디오에서 살펴 보겠습니다 마지막으로 MEDIA INPUT 설정 외부 입력을 기대합니다 CGI에서 일하고 있다면 그리고 당신은 Z 깊이를 통과 시켰습니다

배치에서이 설정을 사용할 수 있습니다 이미지 노드 또는 작업 노드 중 하나를 사용하십시오 그래서 그것들은 당신의 세 가지 선택입니다 그러나 이런 유형의 예를 들어

GLOBAL ANALYSIS를 고수 할 것입니다 이제이 Z 깊이는 32 비트 데이터 패스입니다 기계 학습을 통해 생성 된 즉, Flame의 개발 과정에서 응용 프로그램은 다양한 시나리오의 전체 범위에 노출되었습니다

이제는 객체 간의 상대적 깊이를 결정할 수 있습니다 이것은 모두 기계 학습이 분석 한 내용을 기반으로합니다 Flame 2020 출시 이것은 결코 완벽한 것이 아닙니다 그러나 Machine Learning은 Flame의 개발로 계속 진화하고 있습니다 앞으로의 결과로 더 성공적 일 것입니다 이 기능은 실제적으로 종속적입니다

그리고 명심하십시오 세부적인 세부 사항을 추출하지는 않는다 Z-depth 제너레이터에 모든 샷을 줄 가치가 있습니다

하지만 여기에 몇 장의 장면을 고려한 슬라이드가 있습니다 깊이 분석이 어려울 수있는 곳 일반적으로 특정 요소가 있습니다

이는 촬영의 깊이를 계산하기가 어려울 수 있습니다 예를 들어, 매우 밝거나 너무 날카로운 하늘이있는 풍경이나 장면 무거운 모션 블러가있는 모든 샷은 샷 깊이를 결정하기 위해 구분할 수 없게 만듭니다

나이트 샷은 깊이 생성을위한 후보가 될 수 있습니다 조명과 플레어 링이 너무 압도적으로 통제되지 않는 한 지역이 매우 어두우면 분명히

깊이 인식을 얻지 못할 것입니다 마지막으로 극단적 인 클로즈업과 같은 과장된 샷 낮은 각도 또는 높은 각도 또는 그 장면의 구성에 지나치게 부 자연스러운 것이면

배경을 결정하기 어렵게 만듭니다 따라서 깊이 분석은 어려움을 겪을 것입니다 기계 학습이 더 똑똑 해지면 Flame의 이후 버전에서 변경 될 수 있습니다 둘째, 시스템 성능에 따라 그것은 Z – 깊이 분석을 캐시 할 수 있습니다 그러나 이것이 필수 요구 사항은 아닙니다 우리의 예를 다시

3D 선택기로 Z 깊이 생성을 사용합시다 F4를 사용하여 뷰어를 결과보기로 전환하십시오 Selective in Manager를 선택하고 확장하십시오 MasterGrade로 채점을 시작하면 전체 이미지가 영향을 받고 있습니다 그래서 나는 이미지를 흐리게 만들었습니다 그리고 그를 매우 황량 해 보이게하는 다른 조정을했습니다

전체 사진이 다르게 보입니다 그리고 주인공 뿐만이 아닙니다 심도 맵을 사용하여 이미지를 분할하려면

3D AOV 메뉴로 전환하십시오 현재 유형은 DISTANCE로 설정되어 있습니다 금액을 늘리면

이것은 3D 선택을 활성화 그리고 그 성적이 총에 영향을 미치고있는 것을 볼 수 있습니다 깊이 맵을 기반으로합니다 이것을 아주 명료하게하기 위해서

선택적 무광택 개체보기를 보려면 F8 키를 누릅니다 금액 조정 중 Z-Depth가 어떻게 사용되는지 볼 수 있습니다 Selective에 대한 격리를 계산합니다

모든 종류의 가을이 풀다운 메뉴를 통해 사용할 수도 있습니다 선택 유형을 "Near / Far"로 전환하면

이미지 분할을 분리하기 위해 값을 조정할 수 있습니다 근거리 및 원거리 평면을 수동으로 정의합니다 범위는 Z 깊이를 사용하는 또 다른 옵션입니다 그러나 그것은 3D 선택적 비디오에서 다루어 질 것입니다

뷰어 위로 마우스를 가져 가면 F4를 사용하여 결과보기로 전환 Selective가 백그라운드에서 캐릭터를 어떻게 고립 시켰는지 확인할 수 있습니다 이제 선택적 모습의 가장자리가 조금 거칠어집니다 그리고 이것은 Z-depth 패스로 작업 할 때 예상됩니다 모든 Z 깊이 패스는 바이너리 데이터입니다 그리고 이것은 반투명을 포함하지 않는다는 것을 의미합니다

그러나 선택적 게시물 처리를 통해 당신은 격리를 흐리게 할 수 있습니다 그것이 Z 깊이 분석에서 만들어 지더라도 결과를 토글하면 다음과 같이 볼 수 있습니다 그리고 선택적 무광택 개체 뷰어 시퀀스를 문질러 주면

꽤 좋아 보인다 그러나 주스 카톤은 선택적인 격리의 절반에 포함됩니다 당신은 영향을받은 캐릭터 만 원할뿐입니다 따라서 이미지를 세분화하기 위해 선택적 3D를 사용하더라도 당신은 또한 Gmask와 결합 할 수 있습니다 선택적으로 섹션을 추가하거나 제거 할 수 있습니다 Selective

를 통해 컨텍스트 메뉴를 불러옵니다 직사각형의 Gmask를 추가합니다 주스 카톤 위로 그려

그리고 그것은 Gmask 내에서 Z 깊이를 분리 할 것입니다 대신에 Gmask의 외부에 영향을 미치려면 컨트롤 메뉴로 전환 그리고 반전 된 Gmask를 선택하십시오

따라서 워크 플로우는 이전과 동일합니다 선택기 내에서 키어, 마스크 및 3D 데이터를 결합 할 때 마스크 선택

그리고 평면 트랙을 수행하십시오 이미지의 움직임에 맞추기 이 예제를 끝내려면 여러 선택기에서 동일한 Z 심도 분석을 사용할 수 있습니다

예를 들어, MasterGrade없이 다른 Selective를 Surface에 추가하십시오 파일 브라우저에서 목록을 스크롤하십시오 BLOOM SelectiveFX를 선택하십시오 임계 값을 줄이면 전체 이미지의 어두운 부분이 피어납니다 이것을 단지 배경으로 제한하려면

3D AOV 메뉴로 전환 그리고 Linear Linear Amount를 약 3으로 증가시킵니다 이것은 현재 전경에 영향을주고 있습니다 배경 대신에

그래서 렌더링을 INVERT 그리고 고립을 약 50 % 정도로 흐리게 만듭니다 이제 블룸 임계 값을 맛에 맞게 조정할 수 있습니다

둘째, 꽃 색깔을 바꾸십시오 그것 좀 더 일출 밖에 보이게 마지막으로 Output MasterGrade

를 선택하십시오 그리고 전반적인 결과를 빨간색으로 따뜻하게합니다 이제이게 당신의 식욕을 젖 혔을 것입니다

Flame 2020 제품에서 기계 학습을 시도해보십시오 이 비디오는 Effects Environment 내에 Z-depth generator만을 보여 줬습니다 하지만 Batch 및 BatchFX에서도 사용할 수 있습니다 다른 유스 케이스로 이어질 수 있습니다

다음 비디오에서는 다른 기계 학습 분석에 대해 배우게됩니다 그것은 특별히 인간의 얼굴을 인식하도록 설계되었습니다 그리고 노멀 맵을 생성합니다 이것은 인간의 얼굴 부분을 개선하고 다시 조명하는 데 사용할 수 있습니다 다른 기능, 워크 플로우를 확인하는 것을 잊지 마세요 Flame 2020의 향상된 기능 의견, 피드백 및 제안은 언제나 환영하며 감사하겠습니다 향후 비디오를 위해 Flame Learning Channel에 가입하십시오 보고 주셔서 감사합니다

Stanford CS234: Reinforcement Learning | Winter 2019 | Lecture 1 – Introduction

다들 안녕하세요, 저는 Emma Brunskill입니다 저는 컴퓨터 사이언스의 조교수이며 CS234에 오신 것을 환영합니다

음, 보강 학습 수업 인 음, 일종의 초급 단계 마스터 또는 PhD 학생이 보강 학습을 소개합니다 그래서, 오늘 우리가 할 일은 내가 시작할거야 보강 학습이 무엇인지 간단히 요약합니다 음, 그럼 우리가 갈거야 과정 물류 및 과정 물류를 거칠 때, 또한 잠시 멈추고 물류에 대해 질문 할 것입니다

음, 웹 사이트가 지금 생방송입니다 또한 클래스에 대한 최상의 정보 소스 그와 피아자가 최고의 정보 원이 될 것입니다 음 어서 가면 거기에서 멈출거야 그 부분은 제가 갈 수없는 것이 있는지 묻습니다 당신에 대해 질문이 있고 질문이 있다면 대기자 명단 또는 자신의 상황과 관련된 특정 사항, 끝까지 나에게 다가와 라 음, 그리고 수업의 세 번째 부분은 우리가 시작하는 곳이 될거야 우리가 생각하고있는 기술적 내용을 익히려면 불확실성에 대한 순차적 의사 결정에 대한 소개입니다

음, 우리가 시작하기 전에 나는 감각이있다 누가 여기 컴퓨터 학습 수업을 들었습니까? 괜찮아 누가 AI를 얻었습니까? 괜찮아 그래서, 조금 덜하지만 대부분의 사람들 괜찮아

큰 그래서, 아마 여기있는 모든 사람들이 보강 학습에 대해 조금은 보았을 것입니다 음, 어디 있었는지에 따라 약간 다릅니다 우리는 다음과 같은 것들을 포함 할 것입니다 당신이 어떤 보강 학습도 모르는 것처럼 처음부터, 음, 하지만 우리는 다른 콘텐츠로 빠르게 갈 것입니다

음, 스탠포드와 관련된 다른 수업에서는 다루지 않습니다 그래서, 강화 학습은이 근본적인 문제와 관련이 있습니다 지능형 에이전트가 올바른 의사 결정 순서를 어떻게 배울 수 있습니까? 음, 그리고 그것은 보강 학습이 무엇인지 요약 한 문장입니다 우리는이 수업에서 다루는 내용을 알고 있습니까? 그러나 실제로 많은 중요한 아이디어를 인코딩합니다 음, 우선, 우리는 지금 일련의 결정에 대해 정말로 염려하고 있습니다

그래서, 다루는 많은 것들과 대조적으로, 어, 기계 학습, 우리는 요원에 대해 생각할거야, 지능형 에이전트 또는 지능형 에이전트 인간 또는 생물학적 인 것 또는 그렇지 않을 수도있는 일반 사항 음, 한 가지 결정 만이 아니라 일련의 결정을 내리는 방법 우리는 선량에 대해 걱정할 것입니다 다시 말해, 우리는 관심을 가질 것입니다 두 번째로 좋은 결정을 내리는 법을 배우는 것입니다

음, 여기서 우리가 잘하는 것이 의미하는 것은 최적 성의 개념입니다 우리는 결정에 대해 몇 가지 유틸리티 조치를 취하고 있습니다 음, 강화 학습의 마지막 중요한 측면은 학습이지만, 음, 에이전트가 그 결정이 어떻게 영향을 미치는지 미리 알지 못한다고 세상이나 어떤 결정이 필연적으로 좋은 결과와 관련 될 수 있는지, 대신 경험을 통해 그 정보를 획득해야합니다 그래서, 우리가 이것에 대해 생각할 때 이것은 정말로 우리가 항상하는 일입니다

우리가 아기였던 이래로 해냈습니다 우리는 알아 내려고 노력한다 너, 음, 세상에서 높은 보상을받는 일종의 신경 과학과 심리학에서 진행되는 정말 흥미 진진한 연구, 음,이게이 근본적인 문제에 대해 생각하려고하는거야 인간 지능형 에이전트의 관점에서 그래서 우리가 AI를 해결할 수 있다면, 음, 또는 상당한 진전을 이루십시오

우리는 중대한 진전을 이루어 낼 수 있어야한다 우리가 강화 학습을하는 에이전트를 만들 수있게 해줍니다 그럼,이게 어디서 올까? Yael Niv의 좋은 예가 있습니다 프린스턴 대학의 심리학자와 신경 과학 연구원의 일종 음, 그녀가 우리에게 원시 생물과 같은 종류의 모범을 보여준 곳입니다

평생 동안 다음과 같이 발전합니다 아기가되었을 때, 그것은 원시적 인 뇌와 한쪽 눈을 가지고 있으며 주위를 헤엄 치며 바위에 붙어 있습니다 그리고 어른이되면 뇌가 소화되어 거기에 앉습니다 그리고 이것은 아마도 지능의 지점 또는 적어도 부분적으로는 두뇌를 갖는 것이 의사 결정을 안내하는 데 도움이되며, 일단 모든 결정과 대리인의 삶이 우리는 더 이상 뇌가 필요하지 않을 수도 있습니다 그래서, 나는 이것이, 당신도 알다시피, 이것은 생물학적 인 생물의 한 예입니다

왜 요원이 될지 생각해 볼 수있는 유용한 알림 어찌 되었든 지능적이어야한다 결정을 내려야한다는 사실과 근본적으로 관련이 있습니까? 당연히, 음, 강화 학습에서 실제로 일종의 패러다임 전환이있었습니다 음, 2015 년경에, 음, Neurex Conference는 학회의 주요 기계 학습 중 하나이며, David Silver가 와서 워크숍에 참석하여 발표했습니다 보강 학습을 사용하여 Atari 게임을 직접 제어하는 ​​놀라운 결과입니다 자, 당신이 비디오 게임을 좋아하는지 여부는 중요합니다

음, 비디오 게임은 정말 흥미로운 예입니다 휴먼 플레이어를 종종 가지고 배우는 복잡한 작업의 일종 우리는 사전에 어떻게해야할지 모른다 적어도 약간의 경험이 필요합니다 그리고이 예제에 대한 정말 놀라운 점은 바로 이것입니다

Breakout은 에이전트가 픽셀 입력에서 직접 재생하는 것을 배우는 것입니다 따라서 에이전트의 관점에서 볼 때, 그들은 단지 이런 종류의 컬러 픽셀을보고 있습니다 들어 와서 무엇을 배워야하는지 놀이를 배우기 위해 내리는 올바른 결정 게임은 물론 사람들보다 훨씬 낫습니다 그래서 이것이 가능하다는 것은 정말로 놀라운 것이 었습니다 음, 처음 보강 학습을 시작했을 때, 많은 작업이 인공 장난감 문제에 집중되어있었습니다

음, 많은 기초가 있었지만 이런 종류의 우리가 정말로 부족한 대규모 어플리케이션 그리고 저는 지난 5 년 동안, 우리는 엄청난 발전을 보았습니다 음, 에서 진행되는 기술 유형 강화 학습 및 문제의 범위에서 다루어 질 수 있습니다 비디오 게임뿐 아니라 게임도 그렇습니다 로봇과 같은 것들에도 있습니다

음, 특히 내 동료 중 일부는 대학에서, 음, 캘리포니아 버클리, 어, 로봇 공학에 대해 정말 대단한 일을하고있었습니다 이러한 유형의 시나리오에서 보강 학습을 사용하면, 요원들에게 쥐기를시키려는 시도, 접은 옷, 그런 것들 자, 그 사람들이 몇 가지 예입니다 음, 전에 보강 학습을 보았습니다 아마 당신이 들었던 사람들 일 겁니다

비디오 게임이나 로봇과 같은 것에 대해 들어 본 적이있을 것입니다 음,하지만 제가 생각하기에 흥미 진진한 것들 중 하나는, 어, 강화 학습은 사실 많은 수의 도메인에 적용 할 수 있습니다 음, 기회이자 책임입니다 그래서, 특히, 음, 스탠포드 (Stanford)에서 인간 영향 연구소 (Human Impact Lab)의 인공 지능을지도하고 있습니다 정말로 관심있는 방법은 우리가 어떻게 사용하는지입니다

인간의 잠재력을 증폭시키는 인공 지능? 그래서, 당신이 그것을 할 수있는 한 가지 방법은 교육 게임 같은 것을 통해서입니다 목표가 밝혀지면, 어, 사람들에게 분수와 같은 자료를 배우는 방법을 빠르고 효과적으로 가르치는 법 또 다른 중요한 분야는 건강 관리입니다 음, 이것은 일종의 컷 아웃입니다 음, 발작을 조사해 보면 Joel Pineau, 맥길 대학에서 그리고 생각하고있는 많은 흥분도 생각납니다

특정 보강 학습에서 AI를 어떻게 사용할 수 있는지, 음, 같이 것들과 상호 작용하는 일을하고 싶습니다 전자 의료 기록 시스템을 사용하여 환자 치료에 알립니다 최근의 흥분과 생각이 많이 있습니다 강화 학습과 많은 다른 응용 프로그램을 사용할 수 있습니다 에 대한 최적화 기술의 종류 최적화 문제를 해결하는 것이 정말 어려울 때

그래서 이것은 다음과 같은 것들에서 발생합니다 비전의 자연어 처리 및 기타 여러 영역에서 사용됩니다 따라서 우리가 강화 학습의 핵심 측면에 대해 생각해야한다면, 그들은 아마도 다음 4 가지로 끓어 갈 것입니다 그리고 이것들은 그것을 구별 할 수있는 것들입니다 인공 지능과 기계 학습의 다른 측면에서

그래서, 내 문장에서 학습 강화 우리가 불확실한 상황에서 좋은 결정을 내리는 것을 배우고 있다는 점, 기본적으로 지연 최적화 결과, 탐사 및 일반화 따라서 우리는 올바른 의사 결정에 관심이 있기 때문에 자연스럽게 최적화가 이루어집니다 우리가 할 수있는 결정의 상대적인 다른 유형의 개념이 있습니다 음, 우리는 좋은 결정을 내릴 수 있기를 원합니다 두 번째 상황은 지연된 결과입니다

그래서, 이것은 지금 내려진 결정들에 대한 도전입니다 그들이 훨씬 늦게까지 좋은 결정인지 여부를 알지 못할 수도 있습니다 그래서, 지금 당신은 일요일에 초콜릿을 먹습니다 그리고 당신은 한시간 후에 그것을 깨닫지 못합니다 그건 아이스크림의 두 코트를 모두 먹는 나쁜 생각이었습니다

음, Montezuma 's Revenge와 같은 비디오 게임과 같은 것들이 있다면, 당신은 열쇠를 집어 야합니다 그리고 나서 많은 도움이된다는 것을 깨닫습니다 또는 지금 정말로 열심히 공부하십시오 금요일 밤에 그리고 3 주 동안은 중간 고사를 잘합니다 그래서, 이것을하기위한 도전 중 하나는 반드시 즉각적인 결과 피드백을받을 필요는 없기 때문에, 알려진 것으로하기가 어려울 수 있습니다

신용 할당 문제는 어떻게 생각합니까? 결정 사이의 인과 관계 당신은 과거와 미래에 결과로 만들었습니까? 그리고 그것은 우리가 기계 학습의 대부분에서 보는 경향이있는 것과는 정말로 다른 문제입니다 그래서, 우리가 시작할 때 나오는 것들 중 하나 이것에 대해 어떻게 생각합니까? 그래서 요원은 근본적으로 세상이 경험을 통해 어떻게 작동하는지 우리는 상담원에 대해 다음과 같이 생각합니다 정말로 세상에서 사물을 시험해 보는 과학자입니다 자전거 타는 중개인이있는 것과 같이 자전거 타는 법을 배우는 것과 같습니다 균형 잡힌 자전거 타기와 물리학은 떨어지는 것으로 작동합니다

여기서 가장 큰 도전 중 하나는 데이터가 검열되고 우리가 의미하는 바 이 경우 검열은 당신이하려고하는 것에 대해서만 배우는 것입니다 여러분 모두 스탠포드에 있습니다 이것이 최적의 선택이었습니다 음,하지만 너는 실제로 가지 않는다 네가 갔다면 어떻게 될지 알아봐

MIT는 좋은 선택이었을 수도 있습니다 하지만 너는 그럴 수 없어 너는 오직 한 삶을 살기 때문에 너는 그것을 경험할 수 없다 그래서 너는 이 특정 시간에 선택한 특정 선택 만 볼 수 있습니다 그래서 궁금한 한 가지 질문은 음, 너도 알다시피, 정책, 우리가 할 일, 우리는 정책에 대해 많은 이야기를 할 것입니다

정책, 의사 결정 정책은 경험에서 결정에 이르기까지 약간의 매핑이 될 것입니다 그리고 당신은 왜 대답 할 수 있습니다, 우리는 이것을 배울 필요가 있습니다 그래서 우리가 딥 마인드 같은 것을 생각한다면, 아타리가 게임을하고있어 여기에서 배운 내용은 그것은 픽셀로부터 배우는 것입니다 그래서, 그것은 본질적으로 이미지의 공간에서 다음에 무엇을 배웠습니다

그리고 만약 당신이 그것을 프로그램으로 쓰고 싶다면, 일련의 if then 구문, 그것은 절대적으로 엄청날 것이다 이것은 다루기가 쉽지 않습니다 그래서, 이것이 우리가 일반화 된 형태를 필요로하는 이유입니다 왜 우리가 직접 데이터에서 배우는 것이 훨씬 더 좋은지, 또한 작업에 대한 높은 수준의 표현을 제공합니다 그래서, 우리가 이전에 보지 못했던 특정 픽셀 구성, 우리 요원은 아직도 무엇을 해야할지 알 수 있습니다

그래서, 이것들은 정말로 강화 학습을 구성하는 4 가지 일종의 것입니다 적어도 온라인 보강 학습과 왜 그들이 있습니까? AI 및 기계 학습의 다른 유형과는 다릅니다 따라서 인공 지능에 많은 도움이되는 또 다른 사항은 계획입니다 예를 들어, 바둑 게임, 음, 계획 문제의 일부가 될 수 있습니다 그렇다면 계획에는 무엇이 관련되어 있습니까? 최적화, 종종 일반화 및 지연된 결과를 포함합니다

당신은 움직임을 취하고 일찍 가야 할 수도 있습니다 나중에 많은 단계까지 잘 움직이지만 탐사는 포함되지 않습니다 아이디어와 계획은 세계가 어떻게 작동하는지에 대한 모델을 제공한다는 것입니다 게임의 규칙이 주어진다면, 예를 들어, 당신은 보상이 무엇인지 압니다 음, 그리고 어려운 부분은 세계의 모델이 주어질 때해야 할 일을 계산하는 것입니다

따라서 탐사가 필요 없습니다 그리고 감독 된 기계 학습 대 강화 학습 종종 최적화와 일반화를 수반하지만, 탐사 또는 지연된 결과가 관여합니다 그래서 탐사가 필요하지 않습니다 일반적으로 감독 학습에서는 데이터 세트가 제공됩니다

따라서 상담원이 세계에 대한 경험이나 데이터를 수집하지 않고 대신 제공합니다 경험이 있어야하며 이미지가 얼굴인지 아닌지 여부를 말해야합니다 마찬가지로, 음, 일반적으로 본질적으로이 이미지가 얼굴인지 여부와 같은 하나의 결정 의사 결정을 생각하는 대신 지금은 그 후에 올바른 결정을 내렸는 지 여부 만 배우는 것입니다 무자비한 기계 학습, 또한 최적화와 일반화를 포함하지만 일반적으로 탐사 또는 지연된 결과와 일반적으로 당신은 세계에 대한 레이블이 없습니다 그래서 감독 학습에서, 당신은 종종이 이미지와 같이 세상에 대한 정확한 라벨을 얻습니다

얼굴이 있거나 없거나 음, 감독받지 않은 학습에서 당신은 일반적으로 세상에 대해 아무 레이블도 얻지 못합니다 RL은 일반적으로 얻을 수있는 것의 중간에 뭔가를 얻습니다 당신이 넣은 라벨의 유틸리티 예를 들어, 여기에 얼굴이 있고 말할 수도 있습니다 "알았어, 네, 우리는 당신에게 그 부분 신용을 줄 것이다

어쩌면 얼굴처럼 보이는 뭔가가있을 수 있기 때문입니다 그러나 당신은 세계의 진정한 레이블을 얻지 못하거나 스탠포드에 가기로 결정했을 것입니다 음, 그럼 당신은 몰라요 그리고 너는 굉장히 좋은 경험 이었어 그것이 맞는지 모르겠다 ","적당한 경험

" 우리가 만질 수있는 모방 학습 이 수업에서 간단히 말하자면 매우 중요 해지고 있습니다 음, 비슷 하긴하지만, 조금 다르다 그래서, 어, 최적화, 일반화, 종종 지연된 결과가 있지만 아이디어는 우리가 다른 사람들의 경험을 통해 배우려고한다는 것입니다 그래서, 우리의 지능형 에이전트가 이전에 가고있는 대신에, 전 세계에서 경험을 쌓고 자신의 결정을 내리십시오 그것은 사람이 될 수있는 또 다른 지능형 에이전트를 볼 수도 있지만, 결정을 내리고, 결과를 관찰 한 다음 그 경험을 사용하여 그것이 어떻게 행동하기를 원하는지 알아냅니다

이 일을하는 데 많은 이점이있을 것입니다 그러나 조금 있습니다 그것은 탐사 문제에 대해 직접 생각할 필요가 없기 때문에 다릅니다 모방 학습과 나는 단지 조금 더 많은 시간을 보내고 싶다 그것은 점점 중요 해지고 있기 때문입니다

그래서, 내 지식으로, 그것은 Andrew Ng에 의해 대중화 된 첫 번째 종류였습니다 음, 전 교수님이 계시 니, 음, 헬리콥터를 통해 그는 Pieter Abbeel과 함께 전문가 비행을보고 있었고, 버클리에있는 교수님, 음, 당신이 어떻게 아주 빨리 모방 할 수 있는지 보려고 음, 장난감 헬리콥터를 타는 전문가들 그리고 그것은 첫 번째 종류의 초청 학습의 주요 응용 프로그램 성공 매우 효과적 일 수 있습니다 본질적으로, 당신이 하나의 궤도를 관측하게된다면, 헬리콥터가 날아 다니는 원이라고 상상해 봅시다

당신의 에이전트는 전문가가하는 것과 정확히 똑같지 않은 것을 배우게됩니다 근본적으로 그 길을 떠나기 시작할 수 있고, 당신이 정말로 옳은 일이 무엇인지 알지 못하는 영역으로 벤처 기업 그래서 모방 학습에 대한 많은 연구가있었습니다 모방 학습과 보강 학습 사이에서 매우 유망한 것으로 끝납니다 그래서, 우리가 보강 학습을하려고하는 방법에 관해서, 우리는 이러한 여러 종류의 기술을 토대로 구축 할 수 있습니다

음, 또한 독특한 도전 과제에 대해 생각해보십시오 이러한 4 가지 과제 모두를 포함하는 강화 학습 그래서이 RL 요원들은 정말로 탐험 할 필요가 있습니다 세계를 탐구하고 그 탐험을 사용하여 미래의 결정을 인도하십시오 그래서, 우리는 과정 전반에 걸쳐 이것에 대해 더 이야기 할 것입니다

음, 정말로 중요한 질문은 이러한 보상이 어디에서 왔는지입니다 요원이이 정보를 사용하는 곳은 어디입니까? 결정이 좋은지 여부를 안내하려고 노력하십시오 음, 누가 그걸 제공하고 있고, 틀렸다면 어떻게 될까요? 그리고 우리는 그것에 대해 더 많이 이야기 할 것입니다 음, 우리는별로 이야기하지 않을거야 멀티 에이전트 강화 학습 시스템 그러나 그것은 또한 매우 중요한 경우입니다, 게임 이론 측면에 대해서도 생각할 것입니다

그래서, 이것은 몇 가지 측면에 대한 간단한 개요입니다 보강 학습과 왜 다른가? 네가 택했을 수도있는 다른 수업들보다 음, 이제 코스 로지스틱스를 간략히 살펴본 후 일종의 더 많은 내용을 담은 후 질문에 대답하기 위해 코스 물류 후에 잠시 멈추도록하겠습니다 전제 조건, 음, 우리는 여기있는 모든 사람들이 AI 수업을 듣거나 기계 학습 수업이 여기에 있습니다 스탠포드 또는 다른 기관에 상응하는 것 그리고 당신이 수업에 대한 적절한 배경을 가지고 있는지 확실하지 않은 경우, 피아자에서 우리에게 다가 가면 우리는 반응 할 것입니다

음, 관련 일들에서 광범위한 작업을했다면, 그것은 아마도 충분할 것입니다 일반적으로, 우리는 기본적인 파이썬 숙련도를 기대합니다 음, 그리고 당신은 확률에 대해 잘 알고 있습니다 통계 및 다중 변수 미적분학 그라데이션 강하, 손실 파생 상품, 음, 그 모든 것들이 당신에게 아주 친숙해야합니다

아마도 대부분의 사람들이 MDP에 대해 들어봤을 것입니다 전,하지만 전적으로 중요하지는 않습니다 그래서, 이것은 긴 목록입니다 [LAUGHTER] 나는 그것이 매우 중요하다고 생각하기 때문에 천천히 통과 할 것이다 그래서, 이것이 수업의 목표입니다

학습 목표는 무엇입니까? 그래서, 이것들은 우리가 기대하는 것들입니다 너희들이 네가 할 수있는 시간에 할 수 있어야한다 이 수업을 마치면 도움이되는 것이 우리의 역할이라고 생각합니다 당신은이 일들을하는 법을 이해할 수 있습니다 따라서 가장 중요한 점은 다음과 같은 핵심 기능을 정의 할 수 있어야한다는 것입니다

AI 및 기계 학습의 다른 유형과 구별하는 보강 학습, 음, 문제의 프레임 그래서, 그것은 제가이 수업에서 지금까지 조금씩 해나 가고 있었던 것입니다 이것이 이것을 어떻게 구별합니까? RL은 다른 유형의 프로, 문제점과 어떻게 구별됩니까? 그래서, 음, 대부분의 경우, 당신은 아마도 학업을 끝내지 않을 것입니다 음, 그리고 대부분의 사람들이 업계에 들어갈 겁니다 그래서, 당신이 할 때의 큰 도전 중 하나는 당신이 직면 할 때입니다

당신의 상사로부터의 특별한 문제 또는 당신이 당신의 문제 중 하나에 문제를 제기 할 때, 감독관은 그들에게 그것은 보강 학습 문제로 틀을 잡아서는 안되며, 음, 그리고 그것에 적용 할 수있는 것들 그래서, 저는이 수업이 끝날 때까지, 실생활에 문제가 생겼다는 느낌이 들었습니다 웹 광고 또는 환자 치료 또는 로봇 문제, 음, 당신이 그것을 공식화하는 것이 유용한 지 아닌지 보강 학습 문제 및 쓰는 법 그 프레임 워크에서 어떤 알고리즘이 관련이 있는지를 보여줍니다 음, 수업 도중, 우리는 또한 몇 가지 보강 학습 알고리즘을 소개합니다 음, 코드에서 그 코드를 구현할 기회가 있습니다

깊은 보강 학습을 포함해서, 어, 문제 또 다른 중요한 측면은 시도하는 경우입니다 특정 도구에 어떤 도구를 사용할지 결정하려면 로봇 문제 또는 건강 관리 문제, 음, 어떤 알고리즘이 유익한 이유인지 이해하는 것입니다 그리고 경험적 수행과 같은 것 외에도, 이해하는 것이 정말 중요하다고 생각합니다 일반적으로 알고리즘을 어떻게 평가할 것인가? 음, 그리고 우리는 후회 표본 복잡성과 같은 이론적 도구 같은 것을 사용할 수 있습니까, 음, 계산상의 복잡성과 같은 것들 어떤 알고리즘이 특정 작업에 적합한 지 결정하십시오

그리고 마지막으로 그 중 한 가지 중요한 측면 강화 학습은 탐험 대 착취입니다 상담원이 어떤 의사 결정을해야하는지 파악해야 할 때 발생하는이 문제 그들은 만들고 싶어 그리고 그들이 뭘 배울지 그러한 결정을 내림으로써 환경에 대해 그래서 수업이 끝날 때까지, 당신은 또한 다양한 기술을 비교할 수 있어야합니다 탐사 대 착취와 이들의 강점과 한계는 무엇입니까? 누구든지 이러한 학습 목표가 무엇인지에 대해 질문이 있습니다

괜찮아 그래서 우리는이 수업에 3 가지 주요 과제를 부여 할 것입니다 음, 중간 고사도있을거야 음, 우리는 수업이 끝날 때 퀴즈를 풀거야 음, 최종 프로젝트뿐입니다

퀴즈는 좀 특이합니다 음, 그래서, 지금 당장 그것에 대해 이야기하기 위해 약간의 시간을 보내고 싶습니다 퀴즈는 개별적으로 그리고 그룹으로 진행됩니다 음, 우리가하는 이유는 우리가 원하기 때문입니다 낮은 지분으로 사람들은 코스의 후반에 배우는 교재로 연습합니다

음, 일종의 재미 있고 매력적이긴하지만 실제로 당신은 그것에 대해 생각하고 또한 동료들로부터 배울 것입니다 음, 작년에 해냈어 나는 많은 사람들이 그것이 이전에 갈 방법에 관해 조금 신경 작용에의하고, 그 다음 그것을 정말로 즐기는 것을 끝내었다 따라서 퀴즈가 작동하는 방식은 객관식 퀴즈입니다 처음에는 누구나 그리고 나서 모두가 그들의 답변을 제출 한 후에, 그런 다음 우리가 미리 할당 한 그룹으로 다시합니다

그리고 목표는 모든 사람들이 무엇을 결정할 수있게해야한다는 것입니다 정답은 스크래치를 치고 정답이 무엇인지 알기 전입니다 그리고 나서 우리는 음, 당신이 옳은 대답을했는지 여부, 정확하게 첫 번째 또는하지 않습니다 당신은 당신의 개인 성적보다 더 나빠질 수 없습니다 그래서, 그룹에서 그것을하는 것은 오직 당신을 도울 수 있습니다

음, SCPD 학생의 경우, 그들은 그룹으로하지 않습니다 그래서 그들은 대답에 대한 정당성을 적어 둡니다 다시 말하지만, 음, 그것은 꽤 가벼운 평가 방법입니다 음, 목표는 당신이 왜 당신이 그것을 믿는 지 분명히 밝힐 수 있어야한다는 것입니다 대답은 그들이하는 방식이며 소그룹으로 토론하고 정보, 음, 정답이 무엇인지 알아내는 데 사용하십시오

음, 최종 프로젝트는 꽤 쌍을 이룹니다 당신이 다른 수업에서했던 다른 프로젝트와 비슷합니다 음, 개방형 프로젝트입니다 이유는, 어, 그리고, 보강 학습에 대해 생각해 봅시다 우리는 또한 발표 될 기본 프로젝트를 제공 할 것입니다

첫 번째 마일스톤이 만료되기 전에 다음 몇 주 동안 기본 프로젝트를 수행하기로 결정한 경우, 당신이 제안이나 이정표를 할 필요가 없기 때문에, 귀하의 과제물에있는 프로젝트 프리젠 테이션을 기반으로 작성됩니다 우리가 생각하기에 음, 너희들은 모두 서로의 최고의 자원이야 음, 우리는 피아자를 사용합니다 음, 거의 모든 클래스 커뮤니케이션에 사용해야합니다 그것이 일종의 것이 아닌 한 사적 또는 민감한 태도로 물론 코스 직원에게 직접 연락하십시오

아, 그리고 강의와 숙제와 프로젝트에 관한 질문은 피아자를 거쳐야합니다 늦은 날 정책을 위해, 우리는 여섯 일 늦게, 아, 자세한 내용은 웹 페이지 및 공동 작업에 대한 자세한 내용은 웹 페이지를 참조하십시오 그래서 우리가 다음 부분으로 가기 전에, 수업에 대한 물류에 대해 질문이 있습니까? 좋아, 시작하자 음, 그러지 않을거야 불확실성에 대한 순차적 의사 결정에 대한 소개, 이전에이 콘텐츠 중 일부를 본 수많은 사람들이 음, 우린 이걸 소수로 갈거야

네가 본 것보다 더 깊이가있어 오늘은 이론이 아닌 다른 이론을 포함한이 이론을 포함하여, 우리는 또한 콘텐츠로 이동합니다 나중에 모든 학생들에게 새로운 것이어야합니다 따라서 불확실성에 대한 순차적 인 의사 결정 음, 우리가 생각하는 근본은 이러한 설정은 일종의 대화 형 폐 루프 프로세스이며, 우리가 대리인이있는 곳, 잘하면 지능형 에이전트가 행동을 취하고있다

세계의 상태에 영향을 미치고 관찰과 보상을 돌려줍니다 주요 목표는 에이전트가 총 예상 미래 보상을 최대화하려고 시도한다는 것입니다 자,이 예상되는 양상, 음, 때로는 세상 자체가 될 것이기 때문에 중요 할 것입니다 확률 론적이어서 에이전트는 예상치 못한 것들을 극대화 할 것입니다 이것은 항상 올바른 기준이 아닐 수도 있습니다

음, 이것은 강화 학습의 대부분에 집중되어 왔습니다 그러나 지금은 존경 할만한 분배에 대해 생각해 보는 것에 관심이 있습니다 RL 및 일부 다른 측면 여기에서 핵심 과제 중 하나는 즉각적이고 장기간의 보상과 높은 보상을 달성하기 위해서는 전략적 행동이 필요하며, 당신이 희생해야한다는 것을 나타냅니다 장기간에 걸쳐 더 우수한 상을 달성하기 위해 초기 상급 상 예를 들어, 웹 광고와 같은 것일 수도 있습니다

웹 사이트를 운영하는 에이전트 및 고객에게 어떤 웹 광고를 제공할지 선택해야합니다 고객은 웹 페이지에 머문 시간, 광고를 클릭하는지 여부에 대한 정보도 얻을 수 있습니다 목표는 사람들이 광고를 가장 많이 클릭하는 방식을 말하는 것입니다 따라서 광고를 클릭하도록 사람들을 보여줄 광고를 선택해야합니다 또 다른 예는 식기 세척기를 내리는 로봇입니다

그래서이 경우 에이전트의 행동 공간은 관절 운동 일 수 있습니다 에이전트가 거꾸로 얻을 수있는 정보는 주방에 요리가 없으면 주방에 더하기 하나의 보상을 얻을 수 있습니다 따라서이 경우 일반적으로 지연된 보상이됩니다 오랫동안 카운터에 요리가있을거야, 어, 그것이 단지 모든 것을 쓸어 버리고 바닥에 충돌하게하지 않으면, 이는 시스템을 작성하는 사람의 의도 된 목표 일 수도 있고 그렇지 않을 수도 있습니다 음, 그래서 일련의 작업을해야 할 수도 있습니다

오랫동안 보상을받을 수없는 결정 또 다른 예는 혈압 조절, 음, 행동은 규정 된 운동이나 처방 된 약물과 우리가 얻을 개인의 혈압이 무엇인지에 대한 관찰 음, 보상이 플러스 1 일 수도 있습니다 건강한 범위의 혈압 약이있는 경우 작은 부정적인 보상 부작용으로 처방되고 다르게는 제로 보상이 될 수 있습니다 [NOISE] 그럼, 다른 사건을 생각해 봅시다

제 실험실에서 인공 교사를 갖는 것 같아요 이제 당신이 가질 수있는 것은 당신이 교습원을 가질 수 있다는 것입니다, 그리고 그것이하는 것은 활동을 선택하는 것입니다 그래서 교습 활동을 선택하십시오 그것은 단지 두 가지 유형의 교수 활동이 있다고 가정 해 봅시다 음, 추가 활동을하거나 빼기 활동으로 학생에게 제공합니다

그런 다음 학생은 옳고 그름을 바로 잡습니다 그리고 학생이 처음에는 덧셈이나 뺄셈을하지 않는다고 가정 해 봅시다 그래서 유치원생인데 학생은 그 사실을 전혀 모릅니다 수학과 우리는 학생 수학을 가르치는 방법을 알아 내려고 노력하고 있습니다 교수 요원을위한 보상 구조는 그들이 더하기를 얻는다는 것입니다

한 학생이 무언가를 얻을 때마다 하나씩 학생이 잘못하면 마이너스 1 점을받습니다 그래서, 누군가에게 잠깐의 시간을 가지기를 바랍니다 근처에 있고 배우려고하는 에이전트에 대해 어떻게 생각하는지 설명합니다 예상되는 보상을 극대화하기 위해 이러한 유형의 사례에서 어떤 유형의 문제가 생길지 그 학생이 옳은 일을하고 있는지 여부 [소음]

내가 여기서 간단히 설명 할게, 그리고 여기서 내가 명확히하자 [NOISE] 여기서 분명히 해두겠습니다 대부분의 학생들은 더하기가 뺄셈보다 쉽기 때문에, 여기에 나온 말처럼 학생이이 중 하나를 알지 못하더라도 문제 추가 학습의 기술은 새로운 학생이 뺄셈보다 더 쉽게 배울 수 있습니다 그렇다면이 사건들에서 어떤 일이 일어날 수 있습니까? 어쩌면 우리가 원하고, 손을 들고, 그들과 누군가에게 말해 줄 수 있습니까? 이 시나리오에서 에이전트 근처에서 사고가 발생했을 가능성이 있습니까? [소음]

에이전트는 그들에게 정말로 쉬운 추가 문제를 줄 것입니다 맞습니다 그것이 실제로 일어난 일입니다 Bev Wolf와 함께 약 2,000 명 정도되는 멋진 종이가 있습니다 가장 초기의 것 중의 하나이다

그러나 나는 알고있다 강화 학습을 통해 지능형 개인 교습 시스템을 만들고 보상은 대리인을위한 것이 었습니다 학생들이 문제를 해결하기 위해 문제를 제기합니다 아시다시피, 학생들이 상황을 바로 잡으면 배웠습니다 그러나 여기에있는 문제는 보상 사양에 있습니다

에이전트가 배우는 것은 정말 쉬운 문제를주는 것입니다 그리고 나서 학생은 처음에는 어떻게해야할지 모릅니다 방법을 빨리 배우고 어려운 문제를 제기 할 인센티브가 없습니다 이것은 보상 해킹으로 알려진 것의 작은 예일뿐입니다 당신 요원이 나올 거란 말인데요

네가 그에게 말한 것이 무엇인지 정확하게 배우라 당신이 지정하고 보강 학습에서 보상 기능의 측면에서, 종종 우리는 시간을 거의 소비하지 않는다 보상 기능이 무엇인지에 대해 매우주의 깊게 생각합니다 그래서 나가서 시험 할 때마다 현실 세계는 이것이 정말로 정말로 중요한 부분입니다 그러나 일반적으로 보상 기능이 무엇인지 선택하는 것은 디자이너입니다

대리인은 본질적인 내부 보상을 가지지 않으므로 지정하는 방법에 따라 다릅니다 에이전트는 다른 일을하는 법을 배웁니다 그래, 뒷문에 문제가 있니? 이 경우, 학생도 같이있을 것 같습니다 RL 요원과 실제 생활을 좋아하는 학생, 그래서 우리는 그녀의 질문에 무엇을 요구 했습니까? 접근 할 수있는 기법이나 그 부분을 무시하는 것은 괜찮습니까? 그래서, 문제는 잘 말하는 것입니다 알다시피, 우리는 사람들이 아마 강화 학습 에이전트뿐만 아니라 그것은 정확합니다

어쩌면 그들은 "이봐 요, 나는 더 열심히 질문 할 필요가있다 또는이 과정에서 상호 작용할 수 있습니다 " 이 수업의 대부분에 대해 우리는 세계가 우리가 자체적으로 상호 작용하는 것은 RL 에이전트 일 수도 있습니다 실제로 그것은 정말로 중요합니다 음, 때로는 게임 이론과 같은 적대적인 방식으로 종종 고려됩니다

제게 가장 흥미로운 것들 중 하나는 우리가 협조적인 방식으로 생각해 보라 음, 그럼, 여기 누가 기계 교육의 하위 분야에 대해 들어 보셨습니까? 아무도 아직, 그래서, 어, 어쩌면 5 ~ 10 년 동안 주변에 있었던 정말 흥미로운 새로운 영역입니다 그것보다 조금 더 거기에있는 아이디어 중 하나는, 두 명의 지능형 에이전트가있는 경우 어떻게됩니까? 상대방이 그들을 도우 려한다는 것을 알면 상대방과 상호 작용할 수 있습니까? 정말 멋진 고전적인 예가 있습니다 기계 학습에 그다지 익숙하지 않은 분들에게 사과드립니다

당신이 분류자를 배우려고하고 있다고 상상해보십시오 이 선을 따라 물건은 긍정적이거나 부정적입니다 그래서 일반적으로 샘플의 양이 필요합니다 샘플, 만약 네가, 그 종류의 점수를 쓰십시오 양수 또는 음수 라벨을 가져와야하는 라인

음, 네가 적극적인 학습 환경에 있다면, 일반적으로 당신은 그것을 대략적으로 로그하는 것으로 줄일 수 있다고 생각합니다 특히 사람들에게 라인에있는 포인트를 라벨링하도록 요구하는 것에 관한 전략적으로, 기계 교육을위한 정말 멋진 것들 중 하나는, 네가이 줄을 나눌 곳을 나에게 가르치려고하는 것을 알고 있다면, 본질적으로 한 점 또는 두 점만 필요합니다 맞습니까? 내가 너를 가르치려고한다면, 내가 무작위로 물건에 레이블을 붙일 방법은 없습니다 너에게 단 하나의 플러스 라벨을 붙일거야 마이너스가되면 라인이 어디로 가는지 정확히 알려줄거야

그래서 이것이 왜 if 에이전트는 다른 에이전트가 그들에게 무언가를 가르치려고한다는 것을 알고 있으며, 실제로 우리가 학습을 위해 생각하는 것보다 훨씬 더 효율적일 수 있습니다 따라서 기계 교육이 실제로 효과적 일 수있는 잠재력이 많이 있다고 생각합니다 그러나 모든 것은 말했습니다 우리는 그 과정의 대부분을 무시할 것입니다 프로젝트에서 탐색하고 싶은 것이 있다면 매우 환영합니다

강화 학습과 많은 관련이 있습니다 괜찮아 그래서, 우리가 일반적으로이 과정을 생각한다면, 우리가 일종의 순차적 의사 결정 과정을 생각한다면, 우리는이 대리인을 가지고 있습니다 우리는 신중한 타이머가 있다는 것을 거의 항상 생각할 것입니다 그래서 요원이 결정을 내릴거야

그것은 어떤 식 으로든 세상에 영향을 미칠 것입니다 세상을 보게 될거야 새로운 관찰과 보상을 줄거야 에이전트는이를 수신하고이를 사용하여 다른 결정을 내립니다 그래서,이 경우 우리가 역사에 대해 생각할 때, 우리가 역사를 의미하는 것은 단순히 에이전트가 취한 이전 행동의 순서이며, 그리고 그것이받은 관찰과 보상

두 번째 중요한 것은 상태 공간을 정의하는 것입니다 다시 한번, 이것이 종종 처음 논의되었을 때, 이것은 일종의 불변의 것이라고 생각합니다 그러나 실제 응용 프로그램을 사용할 때마다 이것은 당신이 정의해야하는 것입니다 세상의 표현을 적는 법입니다 음, 우리가 가정 할 이 클래스는 국가가 역사의 함수라는 것입니다

그래서 다른 측면이있을 수 있습니다 대리인이 원하는 다른 감각 정보 결정을 내리기 위해 접근 할 수 있어야합니다 그러나 지금까지 관측에 제약을 받게 될 것입니다 조치가 취해지고 보상이 준수됩니다 이제 현실 세계가 생길 것입니다

그래서, 그것은 실제 세계입니다 에이전트는 반드시 실제 세계에 액세스 할 필요는 없습니다 그들은 현실 세계의 작은 부분에만 접근 할 수 있습니다 그래서, 예를 들어 인간으로서, 바로 지금, 나는 눈을 내밀어 나를 고대합니다 대략 180도 정도입니다

음,하지만 내 머리 뒤에서 볼 수는 없어 그러나 내 머리 뒤에서는 여전히 세계 국가의 일부입니다 그래서 세계 국가는 현실 세계입니다 에이전트는 결정을 내리기 위해 자신의 상태 공간을 사용합니다 그래서, 일반적으로 역사의 일부 기능을 가지고 있다고 가정 할 것입니다

자, 우리가이 수업에서 많이 사용할 거라고 한 가정 여러분은 아마 Markov 가설을 보셨을 겁니다 마르코프 가정은 단순히 우리가 가고 있다고 말합니다 그 요원이 사용하는 주 (州) 역사의 충분한 통계입니다 미래를 예측하기 위해서는 당신은 현재의 환경 상태를 알아야합니다

따라서 기본적으로 미래는 현재에 주어진 과거와 무관하며, 현재의 경우 합계 통계가 있습니다 [잡음] 그래서, 이것의 두 가지 예로서, 네? 질문 이름 및 – 그냥 설명해 주시겠습니까? 예를 들어 주와 역사의 차이점은 무엇입니까? 차별하는 데 어려움이 있습니다 네 그래서, 국가, 어, 어, 어

우리가 로봇 같은 걸 생각하면 네가 긴 복도를 걸어가는 로봇을 가지고 있다고 가정 해 봅시다 괜찮아 두 개의 긴 복도가 있다고 가정 해 봅시다

괜찮아 그래서 여기에서 로봇이 시작됩니다 이것은 당신의 로봇이 시작하는 곳입니다 그리고 그것은 바로 가고자합니다 맞아, 그러면 아래로, 아래로, 내려 간다

괜찮아 그것의 센서가 단지 그것 앞에서 지켜 볼 수 있다고 가정 해 봅시다 어, 그 벽면에 벽이 있든 없든 그래서 로봇의 관측 공간은 단순히 거기에 있습니다 어떤면에있는 벽 – 네면 각각에있는 벽? 미안하지만 뒷모습이 조금 작을거야

하지만 요원은 기본적으로, 당신도 알다시피, 레이저 거리 측정기 등을 통해 현지 금액의 일종 그래서, 그 주변에 벽이 있는지 여부를 알 수 있습니다 그것은 그 주위에 즉시 정사각형이었고 다른 것은 없었습니다 따라서이 경우 에이전트가 보게되는 것은 처음에는 벽이 이렇게 보입니다 그런 다음 이것을 좋아하고 다음을 좋아하고 이것을 좋아하십시오

역사는이 모든 것을 포함합니다 그러나 그것은 지역의 상태입니다 따라서 지역의 상태는 현재의 관찰 일뿐입니다 네가 내려갈 때 중요해지기 시작한다 여기에 그렇게 많은 장소가 있기 때문에

그래서, 당신이 전체 역사를 추적한다면, 에이전트는 그 위치를 파악할 수 있습니다 그러나 그것이 단지 그것이 어디에 있는지를 계속 추적한다면, 부분 앨리어싱이 많이 발생할 수 있습니다 그래서 여기에 몇 가지 예를 들어 봤습니다 그래서, 고혈압 조절과 같은 것에서, 당신은 상태가 단지 현재의 혈압이라고 상상할 수 있습니다 음, 당신의 행동은 약을 복용할지 말지를 결정하는 겁니다

그래서, 당신이 아는 것처럼 현재의 혈압 의미, 매초마다, 예를 들어 혈압은 얼마입니까? 그래서, 이런 종류의 시스템이 마르코프라고 생각합니까? 나는 어떤 사람들이 머리를 흔들고있는 것을 본다 거의 확실하게 거의 확실하게 다른 기능이 있습니다 알다시피, 어쩌면 운동을하든 안하든, 당신이 방금 식사를 하던지, 그것이 밖에서 덥다고 방금 비행기가 있으면 어떡하지? 이러한 다른 모든 기능은 아마도 다음 혈압이 높아지거나 특히 약물에 대한 반응으로 낮습니다

웹 사이트 쇼핑, 음, 당신은 국가가 단지 일종의 것이라고 상상할 수 있습니다 지금보고있는 제품은 무엇입니까? 제가 아마존을 여는 것처럼, 나는 컴퓨터를보고있다 지금 내 웹 페이지에 올라와 있습니다 행동은 다른 제품이 추천하는 것입니다 그 시스템이 마르코프라고 생각하니? 시스템이 마르코프가 아닌가? 일반적으로 시스템을 의미합니까? 그러나 가정이 마르코프이고 그것이 맞지 않는다면? 문제는 시스템이 일반적으로 마르코프와 가정은 단지 더 세부 사항에 적합하지 않습니다

나는 이것에 대해 생각할 것이다 여기서 내가 의미하는 것은 이 특별한 선택은 시스템을 재 표식하는 것입니다 음, 그래서 현실 세계가 계속되고 있습니다 그리고 나서 에이전트가 사용할 수있는 세상의 모델이 있습니다 제가 여기서 논쟁하는 것은 이러한 세계의 특정 모델이 마르코프가 아니라는 것입니다

세계의 다른 모델이있을 수 있습니다 음,하지만 우리가 선택한다면 이 특별한 관찰은 현재의 혈압이 우리의 상태라고 말하면서, 아마도 그것은 실제로 마르코프 국가가 아닙니다 이제 마치 마치 마치 그것을 다루는 알고리즘을 사용할 수 없다는 것을 의미하지는 않습니다 우리가 우리가 될 수 있다는 것을 알아야한다는 것입니다 이러한 가정 중 일부를 위반합니다

네? 음, 네가 음을 넣으면, 국가로 충분한 역사, 마르코프의 일부로 만들 수 있습니까? 괜찮아 좋은 질문입니다 그래서, 왜 그렇게 인기가 있습니까? 알다시피, 당신은 언제나 무언가를 만들 수 있습니까? 일반적으로 그렇습니다 당신이 모든 역사를 포함한다면, 그러면 시스템 Markov를 항상 만들 수 있습니다 음, 실제로는 종종 그냥 사용하여 도망 갈 수 있습니다

가장 최근의 관찰 또는 어쩌면 합리적으로 충분한 통계로서의 마지막 네 가지 관찰 일 것입니다 그것은 도메인에 많이 의존합니다 확실히 도메인이 있습니다 어쩌면 좋아할 수도 있습니다 내비게이션 세계 모델을 만드는 것이 정말 중요한 곳입니다

전체 역사를 주 (state)로서 사용하거나, 부분 관측 가능성 음에 대해 생각해보십시오 알고있는 다른 사례, 어쩌면 현재 – 가장 최근의 관찰만으로도 충분합니다 자, 여기 도전 중 하나는 당신이 사용하고 싶지 않을 수도 있습니다 그것이 많은 정보이기 때문에 전체 역사 시간이 지남에 따라 계속 추적해야합니다 따라서 충분한 통계를 얻는 것이 훨씬 낫습니다

음, 물론,이 중 일부는 변화하고 있습니다 LSTM과 다른 것들과 약간 그래서, 음, 우리가 이전에 가정 한 몇 가지 방법 상태 공간의 크기에 비례 한 것들 깊은 학습으로 지금 조금 변화하고 있습니다 음,하지만 역사적으로 확실히, 더 작은 상태 공간을 갖는 것이 장점이었습니다 그리고 다시 역사적으로, 계산상의 복잡성과 같은 것들에는 많은 영향이있었습니다

필요한 데이터 및 그 결과는 상태 공간의 크기에 따라 달라진다 그래서, 왜 그렇게 될지에 대한 직감을주기 위해서입니다 음, 네 인생에서 너에게 일어난 모든 일을 네 상태로 만든다면, 그게 당신에게 정말로 진실 된 표현을 줄 것입니다 모든 주마다 하나의 데이터 요소 만 가질 수 있습니다 반복되지 않을 것입니다

음, 배우기가 정말 힘들어요 음, 그들은 모든 주들이 다릅니다 음, 우리가 무언가를하는 법을 배우고 싶다면, 우리는 어떤 형태의 일반화 또는 어떤 형식의 클러스터링 또는 집계를 통해 경험, 우리는 이전에 비슷한 경험을 통해 무엇을해야 하는지를 배울 수 있습니다 그래서 우리가 당신의 관찰이 당신의 상태라고 가정한다면, 그래서 에이전트가 얻은 가장 최근의 관찰은 우리는 그것을 국가로 취급 할 것입니다 그럼 우리는 – 그 에이전트가 마르코프 결정 과정 인 세계를 모델링하고 있습니다

그래서, 그것은 행동을 취할 생각입니다, 관측과 보상 받기, 그리고 그것은 국가를 설정하고 있습니다 세계는 환경이 그것이 관찰 인 것을 사용한다고 말합니다 세계가 부분적으로 관찰 가능한 음으로 세계를 다루고 있다면, 그 다음에는 에이전트 상태가 같지 않다고합니다 음, 그리고 그것은 세계의 상태에 관한 역사나 신념과 같은 것을 사용합니다 이전에 취해진 행동의 순서와받은 관측치를 모으기 위해, 그 결정을 내리기 위해 그것을 사용합니다 예를 들어, 포커와 같은 무언가에서, 음, 네가 직접 카드를 볼 수있어

다른 사람들은 분명히 게임의 진행 과정에 영향을 미치는 카드를 가지고 있습니다 음,하지만 당신은 실제로 그게 뭔지 알지 못해요 버려진 카드를 볼 수 있습니다 그리고 그것이 자연적으로 부분적으로 관찰 가능한 곳입니다 그래서 다른 카드 나 다른 플레이어의 신념을 유지할 수 있습니다

그리고 그 정보를 사용하거나 결정을 내릴 수 있습니다 그리고 건강 관리에서 이와 비슷한 경우가 많습니다 정말 복잡한 생리적 과정이 진행되고 있습니다 하지만 당신은 물건의 일부를 모니터 할 수 있습니다 혈압이나 체온 등을 아는 것처럼

그리고 결정을 내리기 위해 그것을 사용하십시오 따라서 순차적 의사 결정 프로세스의 유형 측면에서 볼 때, 그 중 한 명은 산적들입니다 우리는 나중에이 용어에 대해 더 이야기 할 것입니다 음, Bandits는 마크 업 결정 프로세스의 아주 단순한 버전입니다 그 감각은 그 행동들이 다음 관찰에 영향을 미치지 않는다

그래서, 언제 이것이 합리적일까요? 자, 일련의 고객에게 당신의 웹 사이트 그리고 당신은 그들 각각에게 광고를 보여줍니다 그래서, 그들은 그걸 클릭할지 말지를 선택합니다 그러면 다른 고객이 귀하의 웹 사이트에 로그인하게됩니다 따라서이 경우 고객에게 보여주는 광고, 일반적으로 어떤 고객 2 명이 따라 오는가에 영향을주지 않습니다 이제는 아마 고객이 정말로 복잡한 방식 일 수 있습니다

페이스 북에 간다 그리고 나는이 광고를 정말로 정말로 좋아한다라고 말한다, 당신은 그것을보아야한다 음,하지만 고객에게 보여준 광고는 대부분 하나는 귀하의 웹 사이트에 다음에 로그인하는 사람에게 전혀 영향을 미치지 않습니다 그래서 네가 내리는 결정은 지역에 영향을 미친다 첫 번째 고객과 두 번째 고객은 완전히 독립적입니다

도둑들은 정말로 정말로 중요했습니다 최소한 50 년 동안 음, 사람들은 임상 시험 같은 것들에 대해 생각했습니다 사람들을 임상 시험에 배정하는 법 당신은 웹 사이트와 다른 많은 응용 프로그램들을 생각할 것입니다

MDPs와 POMDPs는 당신이 취하는 행동이 세계의 상태에 영향을 미칠 수 있다고 말하지 않으며, 그들은 종종 당신이 얻는 다음 관찰에 영향을 미치고, 음, 보상뿐 아니라 그리고이 폐쇄 루프 시스템에 대해 생각해 봐야합니다 당신이 세상의 상태를 변화시키고있는 행동들 따라서 고객에게 추천하는 제품이 고객의 의견은 다음 단계에 있습니다 사실, 그럴 것이라고 기대하고 있습니다

음, 우리가 생각하는 이런 경우에, 사실,이 행동은 실제로 세계의 상태에 영향을 미칩니다 그래서, 또 다른 중요한 질문은 세상이 어떻게 변하는가하는 것입니다 음, 하나의 아이디어는 결정 론적으로 변화한다는 것입니다 그래서, 당신이 특정 국가에서 행동을 취할 때, 당신은 다른 상태로 가고 있지만 당신이가는 상태는 결정 론적입니다 단 한가지가 있습니다

그리고 이것은 종종 매우 일반적인 가정입니다 로봇 및 제어 장치 괜찮아 토마스 로자노 – 페레즈 교수는 MIT에서 저에게 제안합니다 동전을 던지면, 실제로 결정론적인 과정입니다

우리는 그것을 확률 론적으로 모델링합니다 우리는 충분히 좋은 모델이 없습니다 음, 그래서, 많은 과정들이 있습니다 음, 세계의 완벽한 완벽한 모델이 실제로 결정적으로 보일 것입니다 음,하지만 많은 경우에 그 모델을 적어두기는 어려울지라도

그래서 우리는 그것들을 확률 론적으로 추정 할 것입니다 그리고 그 생각은 우리가 행동을 취할 때 많은 가능한 결과가 있다는 것입니다 따라서 누군가에게 광고를 게재 할 수 없으며 광고를 클릭 할 수도 있고 클릭하지 않을 수도 있습니다 그리고 우리는 단지 확률 론적, 확률 론적 모델로 그것을 표현하기를 원할지도 모릅니다 그래서, 특정한 예를 생각해보십시오

우리가 화성 탐사선 같은 것을 생각하면, 정말 멀리 떨어져서 로버 또는 로봇을 배치 할 때, 음, 행성들, 의사 소통을 앞뒤로하기가 어렵습니다 따라서 이러한 종류의 로봇을보다 자율적으로 만들 수 있으면 좋을 것입니다 화성 탐사선이 아주 간단하다고 상상해보십시오 음, 일곱 주 시스템에 대해 생각해 그래서, 그것은 단지 착륙했습니다

음, 특정 위치에있어 왼쪽으로 가거나 오른쪽으로 가려고합니다 나는 왼쪽으로 시도하거나 오른쪽으로 시도해보십시오 하려고하는 것이지만 어쩌면 당신은 성공하거나 실패 할 것입니다 발견 할 수있는 여러 종류의 과학 정보가 있다고 상상해 봅시다 그래서 S1에서 약간의 유용한 과학적 정보이지만 실제로는 S7에는 물이있을 수있는 엄청나게 풍부한 곳이 있습니다

그리고 다른 모든 주에는 0이 있습니다 그래서, 우리는 약간의 예일 것입니다 나는 구강 대리인의 다른 공통 구성 요소에 대해 이야기하기 시작합니다 따라서 공통적 인 구성 요소 중 하나가 모델입니다 따라서 모델은 단순히 에이전트의 표현이 될 것입니다

세상에서 일어나는 일에 대해 행동을 취하고 그에 따른 보상을 얻을 수 있습니다 마크 업 결정 프로세스의 경우 단순히 내가이 상태에서 시작해서이 행동 A를 취하면, 내가 도달 할 수있는 다음 주에 대한 분포는 얼마인가? 또한 예상되는 보상을 예측하는 보상 모델을 갖게 될 것입니다 음, 특정 상태의 행동 그래서,이 경우에, 아, 에이전트의 보상이 그것은 영원한 보상이 도처에 있다고 생각합니다 음, 모터 컨트롤이 매우 나쁘다고 생각한다고 상상해 봅시다

그리고 50 % 확률로 움직일 때마다 같은 장소에 머무르고 실제로 움직일 확률은 50 %입니다 이제 모델이 잘못 될 수 있습니다 제가 여기서 뭘 올려 놓았는지 기억한다면 실제 보상은 무엇입니까? 상태 S1에서 당신은 더하기 1을 얻습니다 S7을하면 10 점을 받고 나머지는 0 점입니다 그리고 제가 여기 적어 놓은 보상은 모든 곳에서 제로라는 것입니다

따라서 에이전트가 가질 수있는 합리적인 보상 모델입니다 그것은 단지 잘못되었다 그리고 많은 경우에 모델이 잘못 될 것입니다 음, 그러나 종종 유용한 방법으로 상담원이 계속 사용할 수 있습니다 구강 에이전트가 항상 필요로하는 다음 중요한 구성 요소는 정책입니다

음, 정책이나 의사 결정 정책은 단순히 우리가 결정을 내리는 방법입니다 이제 마르코프 결정 과정에 대해 생각하고 있으므로, 우리는 그것들을 국가에서 행동으로의 매핑이라고 생각할 것입니다 그리고 결정 론적 정책은 단순히 하나의 행동 전립선이 있음을 의미합니다 그리고 확률 적 의미는 취할 수있는 행동에 대한 배분을 의미합니다 그래서, 아마도 당신이 공항에 갈 때마다, 당신은 동전을 던져서 당신이 가져갈지를 결정합니다

뒷골목이나 고속도로를 타야하는지 여부 따라서 빠른 점검으로 모든 단일 국가에서 우리가 올바른 행동을 취하는 것을 상상해보십시오 이것은 결정 론적 정책인가 확률 적 정책인가? 결정적인 위대한 우리는 왜 결정 론적 정책이 유용하고 확률 론적 정책이 곧 유용 할 때 이제, 값 함수, 음, 미래 보상의 기대 할인 액 특별한 정책

그래서, 그것은 기다리고 있습니다 얼마나 많은 보상이 지금과 미래에 나올 것인지 생각하고 있습니다 즉각적인 보상과 장기적인 보상에 대해 내가 얼마나 신경 쓰는지에 따라 가중치를 부여합니다 할인 요인 감마는 0과 1 사이가 될 것입니다 그래서 우리가 말할 수있는 가치 함수 좋은 상태인지 또는 나쁜 상태인지에 대한 분류

따라서, 화성 탐사선의 경우에도 우리의 할인율이 0이라고 상상해보십시오 우리의 정책은 올바르게 진행되는 것입니다 이 경우에는 이것이 우리의 가치 기능이라고 말합니다 그것은 국가에있는 것의 가치가 모든 것에 더한 것이라고 말합니다 else는 0이고 S7에있는 값은 10입니다

다시 말하지만, 이것은 올바른 값 기능 일 수도 그렇지 않을 수도 있습니다 진정한 역 동성 모델에 따라 다르지만, 하지만이 값은 에이전트가이 정책에 대해 가질 수있는 값 기능입니다 예상 할인 된 금액은 무엇인지 간단하게 알려줍니다 로 시작하는이 정책을 준수하면 얻을 수있는 보상 당신이 무게를다는이 주 각 보상은 감마에 의해 당신이 도달 한 시간 간격의 수에 이른다 그래서, 우리가 생각할 때, 예

따라서 할인 요인을이 예제로 확장하고자한다면, 아, 아, 얼마나 멀리 갔는지에 따라 보상에 대한 가치가 증가하거나 감소합니다 예 질문은, 감마가 0이 아니라면 여기 음, 감마가 0 이니까요 근본적으로 우리가 즉각적인 보상에 신경을 쓰고 있음을 나타냅니다

우리가 시작하든 안하든, 일종의, 만일 내가 올바르게 이해하면, 당신은 보상이 다른 주 (州)로 돌아가는 것을보기 시작합니다 그 대답은 '예'입니다 그래서 우리는 다음에 더 많은 것을 볼 것입니다 할인 계수가 0이 아닌 경우, 기본적으로 당신이 얻는 즉각적인 보상뿐만 아니라, [NOISE] 당신은 근시안 만이 아닙니다 당신은 당신이 미래에 얻게 될 그들의 보상에 관심이 있습니다

따라서 보강 학습 에이전트의 일반적인 유형에 관해서는, 음, 그 중 일부 모델을 기반으로, 이는 세계가 어떻게 작동하는지에 대한 직접적인 모델을 그들의 대표로 유지한다는 것을 의미하며, 전환 모델과 보상 모델처럼 그리고 정책이나 가치 기능이있을 수도 있고 없을 수도 있습니다 그들은 항상 정책을 계산해야합니다 그들은 무엇을해야 할지를 알아야합니다 그러나 그들은 명시 적 표현을 할 수도 있고 가지지 않을 수도있다

그들이 어떤 주에서나 할 일을 위해서 음, 모델이없는 접근은 명백한 가치 함수를 가지고 있습니다 정책 기능 및 모델 없음 네 이전 슬라이드 인 [NOISE] (으)로 돌아가서, 가치 함수가 혼란 스럽습니다

잘 얼음으로 평가했다 그래서, 왜 그것이 가치가있는 [NOISE] S_6이 아닌가? 왜냐하면 S_6에서 오른쪽으로 가면 S_7에 도착하기 때문입니다 당신은 언제 어떻게 보상을 받는지 생각하고 있습니다 음, 다음에 그 얘기를 더 할거야 실제로, 어, 보상이 어디에서 발생하는지 사람들이 생각하는 여러 가지 방법이 있습니다

어떤 사람들은 현재 상태에 대한 보상으로 생각합니다 어떤 사람들은 당신이 [NOISE]에있는 보상과 당신이 취하는 행동이기 때문에 그것을 생각합니다 그리고 일부 사람들 – 다른 공통 정의는 r-SAS 소수입니다 전환 할 때까지받을 보상이 무엇인지 알지 못한다는 의미입니다 그리고 내가 사용하고있는이 특별한 정의 여기서 우리는 그 상태에서 1 년 동안 보상이 발생했다고 가정합니다

그들 모두는, 음, 기본적으로 isomorphic, 음,하지만 우리는 우리가 [잡음]을 사용하고있는 것에 대해 조심하십시오 우리가 수업에서 사용하는 가장 공통적 인 것은 s입니다 여러분이 국가에있을 때, 당신은 특정한 행동을 선택합니다, 그러면 보상을 받게되고 다음 상태로 전환됩니다 좋은 질문입니다 괜찮아

그래서 우리가 보강 학습 에이전트에 대해 생각할 때, 이러한 모델과 이러한 가치와 정책을 유지하고 있는지 여부, 음, 우린 교차로가 많아 그래서 데이빗 실버 (David Silver) 그가 생각하는 곳, 일종의, RL 알고리즘이나 대개 이러한 세 가지 다른 클래스에 속하는 에이전트 그들은 심지어 모델 또는 명시 적 정책 또는 명시 적 가치 기능을 가지고 있습니다 그리고 많은 알고리즘들이 있습니다 일종의,이 교차로에서

따라서 배우 평론가와 같은 사람들은 종종 노골적인 반응을 보입니다 그리고 명시 적으로 무엇을 의미합니까? 나는 그들이 종종 길을 가짐을 의미한다 네가 말할 수있는 상태 – 나는 그 가치가 무엇인지 말할 수있다 내가 네게 국가를 주면 나에게 즉시 말해 줄 수있어 정책은 추가 계산없이 수행됩니다

따라서 배우 비평가는 가치 기능과 정책을 결합합니다 음, 많은 알고리즘이 있습니다 이 모든 것들의 교차점에 실제로 실제로는 유지 관리가 매우 바람직합니다 이들 중 다수는 서로 다른 강점과 약점을 가지고 있습니다 학습 이론의 이론적 인 측면에 관심이있는 사람들을 위해, 정말 근사한 최근 일이 있습니다

음, 공식적인 근본적인 차이가 무엇인지 명시 적으로 살펴 봅니다 MSR에서 방금 나온 모델 기반 RL과 모델 RL 사이에서, Microsoft Research [소음] 뉴욕에 있을지도 모른다는 것을 나타내는 모델 기반 및 모델없는 방법 간의 근본적인 차이, 깊은 학습면에서 매우 불분명합니다 그러니 자유롭게 저에게 묻습니다 그래서, 좋은 결정을 내리는 것을 배우는 데있어서의 도전은 무엇입니까? 음, 이것, 일종의 프레임 워크? 음, 하나, 우리가 조금 전에 이야기했던 계획의 ​​이슈입니다 그것은 세계가 어떻게 작동하는지에 대한 모델을 얻은 후에도 가능합니다

나는 내가해야하는 결정을 알아 내기 위해 그것을 사용해야한다 나는 그것이 내가 높은 보상을 얻을 수있게 될 것이라고 생각하는 방식으로 말입니다 음, [NOISE] 그리고이 경우에 당신이 주어진다면 실제 세계에서 어떤 상호 작용없이이 계획을 수행 할 수없는 모델입니다 누군가가 말하면, 여기에 전환 모델이 있습니다 그리고 여기에 당신의 보상 모델이 있습니다, 여러분은 떠나서 많은 계산을 할 수 있습니다, 귀하의 컴퓨터 또는 종이, 최선의 행동이 무엇인지 결정하고, 현실 세계로 돌아가서 그 행동을 취하십시오

이를 계산하기 위해 추가 경험이 필요하지 않습니다 그러나 강화 학습에서, 우리는 우리가 생각하고 싶지 않은 다른 추가적인 문제에 이것을 가지고 있습니다 내가 생각하기에 내가 지금까지 가지고있는 정보를 가지고 내가 할 수있는 최선의 일은, 하지만 내가 행동해야하는 방식은 무엇인가? 앞으로 좋은 결정을 내리는 데 필요한 정보 그래서, [NOISE] 너도 알다시피, 너는 아주 새로운 식당에 가고, 아, 새 마을로 이사한다고 가정 해 봅시다 당신은 거기에 단 하나의 식당 밖에 없습니다

당신은 첫날에 거기에 간다 그리고 그들은 5 개의 다른 접시를 가지고있다 오랫동안 거기에있을거야 그리고 당신은 최고의 요리에서 최적화하고 싶습니다 그리고 아마 첫날에 당신은 접시 하나를 시험해 볼 것입니다

그리고 둘째 날에는 접시 두 개를 먹고, 그리고 셋째 날 셋째 날, 그런 다음 당신이 모든 것을 시도 할 수 있도록 기타 등등 그 다음에 그것을 사용하여 어느 것이 가장 좋은 것인지 파악하십시오 장기적으로 당신은 정말 맛있는 것을 골라야합니다 따라서이 경우 에이전트는 어떤 결정을 내려야하는지 명시 적으로 생각해야합니다 그래서 미래에 좋은 결정을 내릴 수 있도록 필요한 정보를 얻을 수 있습니다

따라서, 계획의 경우, 그리고 이것이 이미 어려운 문제라는 사실, 음, 솔리테어 같은 것을 생각해보세요 이미 게임의 규칙을 알았 으면합니다 이것은 이동이나 체스 또는 다른 여러 시나리오와 같은 경우에도 마찬가지입니다 음, 당신이 행동을 취하면 알 수 있어요 다음 [NOISE] 상태의 확률 분포는 무엇인가? 이 점수를 사용하여 잠재적 인 점수를 계산할 수 있습니다

그리고 트리 검색이나 동적 프로그래밍 같은 것을 사용하면, 그리고 우리는 이것에 대해 훨씬 더 많은 이야기를 할 것입니다 [NOISE] 아, 특히 동적 프로그래밍 측면에서 사용할 수 있습니다 세계를 모델로 한 결정은 올바른 결정이 무엇인지 결정해야합니다 그러나 보강 학습 자체를 해결하십시오 규칙 책이없는 독방과 조금 더 비슷합니다

우리는 여기있는 것 뿐이며 어떤 일이 일어나고 있는지 관찰하고 있습니다 당신은 더 큰 보상을 얻으 려합니다 또한 사용자의 경험을 사용하여 명시 적으로 계산할 수도 있습니다 그 모델에서 모델을 계획하고, 그렇지 않을 수도 있으며 직접 정책이나 가치 기능을 계산할 수도 있습니다 자, 여기서 탐험과 착취 문제를 다시 강조하고 싶습니다

그래서, 화성 탐사선의 경우에만가는 것입니다 세계가 시도하는 행동에 대해 어떻게 작동하는지 알아보십시오 그래서, 상태 S2에서 왼쪽으로 가려고하면 거기에서 무슨 일이 일어나는 지 볼 수 있습니다 그리고 나서 바로 다음 행동을 결정할 수 있습니다 자, 이것은 분명하지만 딜레마로 이어질 수 있습니다

그들이 좋은 것처럼 보이는 것 사이에서 균형을 이룰 수 있어야합니다 이전 경험을 토대로, 미래에 좋을 것 같은 것들, 어쩌면 전에는 불행 해졌을 수도 있습니다 탐험에서 우리는 전에 시도한 적이없는 것들을 시도하는 것에 관심이 있습니다 또는 지금까지 나쁘게 보일지도 모른 일을 시도해서, 그러나 우리는 미래에 좋을 것이라고 생각합니다 그러나 착취는 우리가하는 것을 시도하고 있습니다

과거의 경험을 고려할 때 좋은 것으로 기대된다 그래서 여기에 세 가지 예가 있습니다 영화의 경우, 음, 착취는 좋아하는 영화를 보는 것과 같습니다 탐사가 새로운 영화를보고있다 그게 좋을 수도 있고 끔찍 할 수도 있습니다

광고는 지금까지 가장 높은 클릭률을 기록한 광고를 게재하고 있습니다 탐사가 다른 광고를 보여주고 있습니다 운전 착취는 이전 경험을 바탕으로 가장 빠른 경로를 시도하고 있습니다 탐사가 다른 길을 몰고있다 [알아들을 수 없는]

중대한 질문, 즉, 내가 준 예제에 대한 상상은 무엇입니까? 나는 너만 5 일 동안 마을에있을거야 음, 그리고 당신이 할 수있는 정책으로 만약 당신이 유한 한 지평선 환경에 있다면, 너가 너가가는 것을 너가 있있는 것과 동일하거나 다르 십시요 무한한 시간 동안이 안에서 살 수 있습니다 음, 다음에 대해 조금 더 이야기하겠습니다 아, 다음 시간이지만 아주 다른 음, 특히 음, 일반적으로 정책은 유한 한 수평선은 고정적이지 않다

즉, 음, 결정은 시간뿐만 아니라 상태에 달려 있습니다 무한한 수평선 경우에 가정은, 음, 최적 정책 및 마크 오프 설정은 고정되어 있으며, 이것은 당신이 같은 상태에 있다면 당신이 거기에 있는지 여부를 의미합니다 3 단계 또는 3 천 시간 단계로 당신은 항상 똑같은 일을 할 것입니다 음, 유한 한 수평선 경우에는 사실이 아니에요 그리고 그것의 중요한 예로서

그래서 우리는 왜 탐구합니까? 우리는 앞으로 사용할 수있는 정보를 배우기 위해 탐구합니다 그래서, 당신이 유한 한 지평선 환경에 있고 그것이 마지막 날인 경우 할리우드에서의 마지막 날, 너는 무엇을 해야할지 결정하려고하는 것을 알고있다 음, 당신은 이익이 없기 때문에 탐험하지 않을 것입니다 미래에 대한 탐험은 더 이상 결정을 내리지 않기 때문에, 그래서 그 경우에 당신은 항상 악용 할 것이고, 항상 악용하기에 최적입니다 그래서, 유한 한 수평선 경우, 음, 결정은 가치에 의존해야합니다

의사 결정 및 나머지 지평선을 변경하기 위해 얻는 정보 그리고 실제 상황에서 종종 이런 일이 발생합니다 네 얼마나 더 복잡 했니? 유한 한 지평선이 있지만이 위치가 어디인지 모릅니다 어, 제가 게임 이론에서 기억하고있는 것은 매우 복잡합니다

이게 어떻게 들리지? 문제는 내가 정의 할 수없는 수평선 문제라고 부르는 것에 관한 것입니다 유한 한 지평선이지만 매우 까다로울 수있는 것이 무엇인지 모릅니다 이를 모델링하는 한 가지 방법은 종료 상태의 무한한 수평 문제입니다 따라서 본질적으로 악취가 나는 상태가 있습니다 일단 프로세스가 끝나면 상태가 종료됩니다

게임에서 종종 발생합니다 음, 게임이 언제 끝날 지 모르지만 그것은 유한 할 것입니다 음, 그 대답은 형식주의에 넣는 한 가지 방법입니다 음,하지만 까다 롭습니다 그러한 경우 우리는 그것을 모델링하는 경향이 있습니다

무한한 수평선과 다른 종료 상태에 도달 할 확률을 살펴보십시오 [들리지 않음] 착취를 놓친다 탐험 본질적으로 subproblems, 나는 운전에 대한 particulary 것 좀 더 나은 것 같아 착취는 당신이 정말로 좋고 어쩌면 알고 있습니다

일부를 탐험하다 [들리지 않음] 완전히 새로운 길을 시도하는 것보다 그녀를 잘 알지 못한다 이 혼합이 탐사에서 어떻게 발생하는지에 관해서는, 착취와 어쩌면 자동차의 경우 아마 어쩌면, 음, 일종의, 어, 모든 것을 무작위로 시도하지 마십시오 좋은 소식이 필요할 수도 있습니다 음, 큰 질문 이네요 일반적으로 탐사 착취를 혼용하는 것이 좋습니다

어떤 경우에는 일찍 또는 적어도 동등한 탐사를하는 것이 가장 좋습니다 그리고 그것은 나중에 모든 정보에서 나왔습니다 결정 과정에 달려 있습니다 음, 우리는 상당한 돈을 쓸거야 탐사에 관한 중간 고사 이후의 과정, 착취, 그것은 확실히 강화 학습의 정말로 중요한 부분입니다, 음, 특히 높은 지분 도메인

중요도가 높은 도메인은 무엇을 의미합니까? 나는 사람들에게 영향을 미치는 도메인을 의미합니다 그래서 고객이든 환자 든 학생이든, 음, 이것이 우리가 내리는 결정이 실제 사람들에게 실제로 영향을 미치기 때문에 우리가 원하는 것입니다 가능한 한 빨리 배우고 가능한 한 빨리 훌륭한 의사 결정을 내리십시오 이에 대한 다른 질문이 있으십니까? 당신이 이전에 보지 못했던 상태에 있다면, 다른 더 나은 옵션이 있습니까? 그냥 나가기 위해 임의의 조치를 취하시겠습니까? 또는 이전에 경험하지 않았더라도 이전 경험을 사용할 수 있습니까? 질문은 훌륭합니다 이전에 결코 보지 못했던 새로운 상태에 있다면 똑같습니다

당신은 무엇을합니까? 무작위보다 더 나은 것을 할 수 있습니까? 또는 이전 경험을 어떻게 든 사용할 수 있습니까? 음, 정말 대단한 점 중 하나입니다 일반화를한다는 것은 우리가 심층 학습 또는 정보를 공유하려고하는 다른 표현 따라서 비록 [NOISE]가 정확히 방문한 국가가 아닐지라도 이전 정보를 공유하기 전에 할 수있는 행동이 무엇인지 알리십시오 물론 잘못된 방향으로 공유한다면, 음, 잘못된 결정을 내릴 수 있습니다 따라서 오버 슈트 – 지나치게 일반화하면 이전 경험을 과소 평가하고 실제로 새로운 시나리오에서 더 나은 조치를 취하십시오

이 질문이 있으십니까? 괜찮아 그래서, 우리가 이야기 할 것들 중 하나는 다음 몇 강의는이 트렌드 2입니다 평가와 통제라는 근본적인 문제 따라서 누군가가 당신에게 정책을 제공한다면 평가가 문제가됩니다 그들이 헤이 (hey) 인 경우 이것이 당신이해야 할 일이거나 이것이 당신 요원이해야 할 일입니다

이것이 로봇이 얼마나 좋은지 평가하기 위해 세계에서 행동해야하는 방식입니다 그래서, 우리는 매니저가 오라고 말한 것을 알 수 있기를 원합니다 이것이 고객에게 광고를 보여줘야하는 올바른 방법이라고 생각합니다 음, 그게 얼마나 좋은지 말해 줄 수 있니? 빠른 [들리지 않음]은 무엇입니까? 음, 정말 중요한 질문은 평가입니다 세계의 모델이 없다는 걸 알고 있습니다

따라서 외출하고 데이터를 수집해야 할 수도 있습니다 이 정책이 얼마나 좋은지를 아는 데 유용하다고 평가하십시오 너는 새로운 정책을 만들려고하지 않는다 아직 당신은 단지이 현재의 것이 얼마나 좋은지를 보려고하고 있습니다 그리고 나서 제어 문제는 최적화입니다

정말 좋은 정책을 찾으려고합니다 일반적으로 하위 구성 요소 평가 란 무엇 때문에 가장 좋은 것이 무엇인지 알 필요가 있기 때문입니다 최상은 정말 좋은 정책을 의미합니다 정책이 얼마나 훌륭한 지 어떻게 알 수 있습니까? 우리는 평가를해야합니다 이제 강화 학습의 정말 멋진면 중 하나 인 음, 그것은 종종 우리가 정책에서이 평가를 할 수 있다는 것입니다

즉, 다른 정책에서 수집 한 데이터를 다른 정책이 할 수있는 일의 역행을 평가하십시오 이것은 정말로 도움이됩니다 왜냐하면 모든 정책을 철저히 시험하지 않아도됩니다 그래서, 음,이 질문들이 어떻게 생겼는지에 관해서, 우리가 화성 탐사선 예제로 돌아 가면 정책 평가 누군가가 당신의 정책이 이것이라고 말하면, 모든 주에서 올바른 조치를 취할 때 취해야 할 조치 이것은 제가 걱정하는 할인 요소입니다, 음, 이 정책의 가치는 무엇인지 나와 비교해주십시오

제어 케이스에서, 그들은 정책이 무엇인지 알지 못한다고 말할 것입니다 나도 너 한테 정책이 무엇이든간에 내게 네가줬으면 좋겠어 보상의 최고 예상 할인 된 합계, 사실 여기에는 중요한 질문이 있습니다 괜찮아 보상에서 예상되는 할인 된 금액은 무엇입니까? 그래서, 그들은 특정 시작 상태에 관심을 가질 수 있습니다

그들은 내가 당신이 S4에서 시작한다고 가정하면서 최선의 정책을 이해하기를 원한다고 말할 것입니다 그들은 모든 출발 국가에서 최고의 정책을 계산하기를 원한다고 말할지도 모릅니다 음, 또는 평균의 일종 그래서 우리가 얻을 코스의 나머지 측면에서 – 네 배운 것이 가능한지 궁금 해서요

최적 정책과 보상 기능이 동시에 작용할 수 있는가? 예를 통해 내가 보상에 대한 리뷰를 믿을 수 있다면 포함되거나 어떤 종류의 행동을 위해 국가 일 것이고 그것은 틀린 것으로 드러났습니다 아, 우리는 다시 시작해야하고 최적의 정책을 세우거나 지금까지 배운 것을 사용할 수 있습니까? 또한 보상에 대한 믿음이있는 데이터의 가정 구성은 [들리지 않음]입니까? 가짜 질문입니다 괜찮아 제가 평가할 정책이 있다고 가정 해 봅시다 음, 보상 기능이 뭔지 모르겠지만 무엇을 알지 못합니다

최적의 정책이 있으며, 이것은 [안 들림] 매우 좋지 않다는 것을 알 수 있습니다 다시 시작해야하는지 또는 사용할 수 있습니까? 사전 경험을 통해 내가 시도하는 다음 정책이 무엇인지 알릴 수 있습니까? 아, 어쩌면 다른 정책 모음일까요? 일반적으로 이전 경험을 사용하여 다음 정책 모음을 시도 할 때 다음 정책이 무엇인지 알려주십시오 음, 거기에 약간의 경고가 있습니다 어, 네가하는 행동에 어떤 확률론이 필요해 그래서, 만약 당신이 오직 같은 것을 취하면 당신은 한 상태에서 하나의 행동을 알고 있습니다

당신은 다른 어떤 것에 대해서 정말로 배울 수 없습니다 음, 당신이 취할 행동들 그래서 여러분은 어떤 종류의 일반화 또는 어떤 종류의 확률론을 가정 할 필요가 있습니다 해당 정보가 다른 정책을 평가하려고 할 때 유용하도록 정책을 수정하십시오 이것은 정말로 중요한 문제입니다

이것은 일종의 역설적 인 추론의 문제이며 어떻게 우리가 우리의 오래된 데이터를 사용하여 우리가 미래에 어떻게 행동해야하는지 알아 내고, 이전 정책이 최적의 정책이 아닐 수도 있습니다 그래서 일반적으로 우리는 음, 우리는 정말 중요한 문제라고 많이 이야기 할 것입니다 그래서, 우리는 처음에 일종의 마르코프에 대해 이야기하기 시작할 것입니다 의사 결정 프로세스 및 계획 우리가 세상에 어떻게 작용 하는지를 우리가 아는 사람과이 평가를 어떻게 분류 할 것인가에 대해 이야기하고, 전환 모델과 보상 모델이 주어 졌음을 의미하며, 그렇지 않은 경우, 우리는 또한 모델없는 정책 평가 및 모델없는 제어를 제공합니다 우리는 다음에 시간을 할애 할 것입니다

심층 강화 학습 및 함수 근사법을 이용한 보강 학습 학습, 그것은 현재 상당히 성장하고있는 지역입니다 음, 음모를 꾸미려고 생각했습니다 얼마나 많은 논문이이 분야에서 진행되고 있는지 지금은 꽤 놀라운 것입니다 음, 그럼 우리는 많이 이야기 할거야 특히 로봇에서 실제로 생각하는 정책 검색 지금 가장 영향력있는 방법 중 하나입니다

탐사에 많은 시간을 할애 할뿐만 아니라, 몇 가지 고급 주제가 있습니다 그래서 우리가 한 일을 요약하면됩니다 오늘은 강화 학습에 관해 이야기하고 있습니다 AI 기계 학습의 다른 측면과 어떻게 다른가? 우리는 코스 물류를 거쳐 이야기를 시작했습니다 불확실성에 대한 순차적 의사 결정에 관한 것

다음 시간에 대한 간단한 메모처럼, 음, 강의 슬라이드를 게시하려고합니다 음, 사전 이틀 또는 당신이 끝날 때 미리 이틀 저녁을 알고, 수업 시간에 원하면 인쇄 할 수 있습니다 그리고 수요일에 너희들을 볼거야

Hello World – Machine Learning Recipes #1

여섯 줄의 코딩으로 첫 번째 머신 러닝 프로그램을 작성해 봅시다 제 이름은 조쉬 고든이고요, 오늘 저는 머신 러닝으로 Hello World를 작성하기까지 안내하려 합니다

이 시리즈의 초기 몇 개의 에피소드들은 여러분이 머신 러닝을 기초부터 시작하는 방법을 알려 드릴 겁니다 우선 오픈소스 라이브러리 두 가지를 다룰 것입니다 사이킷-런(Scikit-learn)과 텐소플로우(TensorFlow)입니다 잠시 후에 사이킷을 실제로 해보겠습니다 그러나 우선 머신 러닝이 무엇이고 왜 중요한지를 잠시 이야기해 볼게요

머신 러닝은 인공지능의 한 분야입니다 초기 AI 프로그래머들은 한 가지에만 특화시켰습니다 예를 들면 딥 블루는 체스를 하고 챔피언 경지까지 올라갔지만 할 줄 아는 것은 그것 뿐이었습니다 오늘날 필요로 하는 것은 하나의 프로그램을 만들어서 내용 수정 없이 다양한 문제들을 해결하는 것이지요 알파고는 대표적인 예입니다

알파고는 세계 바둑 챔피언쉽 경기를 했지요 그러나 비슷한 소프트웨어가 아타리 게임하는 법도 배우지요 머신 러닝을 통해서 그게 가능합니다 머신 러닝은 사례와 경험을 통해 배우는 알고리즘이죠 하드코딩된 룰에 의존하는 게 아닙니다

그래서 예술의 경지라고 하지요 오늘 코딩을 시작하기 위해 간단한 예를 보겠습니다 언뜻 쉬워 보이지만 머신 러닝 없이는 풀수 없는 문제가 있습니다 사과와 오랜지의 차이를 말할 수 있는 코드를 작성할 수 있을까요? 가령 이미지 파일을 입력하면 분석을 통해 과일의 종류를 말해 주는 프로그램을 작성한다고 합시다 여러분은 어떻게 이 문제를 풀까요? 수많은 제각각의 룰들을 작성해야 할 겁니다

예를 들면 오랜지 색의 픽셀의 수와 초록색의 픽셀의 수를 비교하는 코드를 작성할 수도 있겠네요 그 비율은 과일의 종류에 대한 힌트를 주겠지요 이런 간단한 이미지에서는 잘 됩니다 그러나 문제에 깊이 들어가게 되면 실제 세계는 복잡하고 여러분의 룰은 깨져버립니다 흑백 사진일 때나 오랜지도 사과도 없을 때 대응할 수 있는 코드 작성이 가능할까요? 사실 여러분이 어떤 코드를 작성하더라도 그 룰과 어긋나는 이미지가 항상 있게 마련이지요

사과의 오랜지의 차이를 말해 주는데도 어마어마한 양의 룰을 작성해야 합니다 또 다른 문제는 매번 반복해야 한다는 것입니다 분명히 좀 더 나은 게 필요합니다 이 문제를 해결하려면 우리가 손수 입력을 하지 않아도 규칙을 정립하는 알고리듬이 필요합니다 그러기 위해 분류자(Classifier)를 훈련시킵니다

우선은 분류자를 함수로 생각해도 됩니다 데이터를 입력으로 받으면 라벨을 부여하고 출력해 줍니다 예를 들면 내가 사진 한 장을 가지고 사과인지 오랜지인지 분류한다고 합시다 아니면 이메일을 스팸인지 아닌지로 분류한다고 합시다 분류자를 자동으로 작성하는 기술은 지도 학습이라고 합니다

해결할 문제의 예를 가지고 시작해 볼까요 코드를 작성하기 위해 사이킷-런을 사용하겠습니다 여기서 라이브러리를 다운로드하고 설치하겠습니다 하는 방법은 몇 가지가 있습니다 저의 경우는 아나콘다를 사용하는 게 가장 쉬웠습니다

이걸 사용하면 모든 의존성이 세팅되고 플렛폼을 가리지 않고 잘 됩니다 비디오에서 빨리 돌려서 초고속으로 다운로드하고 설치했습니다 설치가 완료되면 파이썬 스크립트를 돌리고 SK 런을 임포트하면 모든 게 제대로 작동하는지 테스트할 수 있습니다 지금까지 잘 됐다면 이것이 우리 프로그램의 첫줄이고 이제 됐습니다 지도 학습을 사용하려면 표준 절차 몇 단계를 따라야 합니다

1단계는 훈련 데이터 모으기입니다 이들 예는 우리가 해결하려는 문제들입니다 우리의 문제를 해결하기 위해 과일을 분류하는 함수를 작성하겠습니다 간단히 말해서, 과일의 특징을 입력으로 받고 무게나 표면 형태와 같은 특징을 보고 사과인지 오랜지인지 추측하여 출력하는 것입니다 훈련 데이터를 모으기 위해 과수원으로 향합니다

서로 다른 사과와 오랜지를 관찰하고 특징을 표현하는 측정 값을 표에 적습니다 머신 러닝에서는 이들 측정값을 특징이라고 합니다 우선은 간단하게 두 가지만 사용했습니다 무게는 몇 그램이고 표면은 거친지 부드러운지입니다 특징을 잘 잡게 되면 서로 다른 종류의 과일을 구분하는 게 쉬워집니다

훈련 데이터는 줄 하나에 하나의 예가 들어갑니다 개별 과일에 대한 설명입니다 마지막 칼럼은 라벨이라고 합니다 라벨은 그 줄이 어떤 과일인지 구분해 주는데 현재는 두 가지 가능성이 있습니다– 사과와 오랜지 전체 테이블은 훈련 데이터입니다

이 모든 것이 분류자가 학습해야 할 예제 전체라고 보시면 됩니다 학습 데이터가 많을 수록 더 나은 분류자가 만들어집니다 이제 학습 데이터를 코드로 작성해 봅시다 features와 labels 두 가지 변수를 사용하겠습니다 features는 처음 두 개의 칼럼을 포함하고 labels는 나머지를 포함합니다

features는 분류자에 입력되는 것이라면 labels는 출력되는 것입니다 모든 features의 변수형을 문자열에서 정수형으로 바꿔 0은 거친 것, 1은 부드러운 것으로 사용하겠습니다 labels에 대해서도 똑같이 적용해서 0은 사과이고 1은 오랜지입니다 프로그램에서는 2~3 라인에 해당합니다 두 번째 단계는 이들 예제들을 분류자 훈련에 사용하는 것입니다

우리가 시작할 분류자 타입은 결정 트리(tree)라고 부릅니다 어떻게 돌아가는지는 다음 편에서 자세히 보실 수 있습니다 당장은 분류자는 규칙을 담은 박스라고 생각하면 되겠습니다 그래서 수많은 종류의 분류자가 있지만 입력과 출력 형식은 항상 같은 것입니다 트리를 임포트해 보겠습니다

이어서 스크립트 상의 4번째 줄에 분류자를 생성하겠습니다 현재는 비어 있는 규칙 박스입니다 아직 사과와 오랜지에 대해 아무것도 아는 게 없습니다 훈련을 시키기 위해 학습 알고리듬이 필요합니다 분류자가 규칙의 상자라면 학습 알고리듬은 그것을 생성하는 과정이라고 할 수 있습니다

훈련 데이터의 규칙성을 파악하여 규칙 상자를 생성하는 것이지요 예를 들면, 오랜지가 더 무거운 경향이 발견된다면 무게가 더 나가는 과일이 오랜지일 것이라는 룰을 생성하는 것입니다 사이킷에서는 학습 알고리듬은 구분자 객체에 포함되고 핏(Fit)이라 부릅니다 핏이란 "데이터에서 패턴을 발견하다"란 뜻입니다 내부적으로 이런 기능이 어떻게 작동하는지는 다음 편에서 자세히 보도록 하겠습니다

일단 훈련을 받은 분류자를 생성했습니다 이제는 한 번 돌려 보고 새로운 과일을 분류하는 데 사용해 보겠습니다 분류자에 입력할 것들은 새로운 사례의 특징들입니다 가령 150그램의 거친 촉감의 과일을 분류한다고 합시다 사과라면 0, 오랜지라면 1이 출력될 것입니다

입력 단추를 누르고 분류자의 예측을 보기 전에 잠깐 생각해 봅시다 만일 여러분에게 예측하라 한다면 뭐라고 출력이 될 것 같습니까? 예측을 하려면 이 과일을 훈련 데이터와 비교해야 합니다 아무래도 오랜지에 가까워 보입니다 무겁고 표피가 거칠기 때문입니다 일단 그렇게 예측을 하고 입력 단추를 누르면 분류자 역시 같은 예측을 보여줍니다

이게 다 잘 됐다면 드디어 첫 번째 머신 러닝 프로그램을 하신 겁니다 훈련 데이터만 변경하면 새로운 문제에 대한 분류자를 생성할 수 있습니다 그래서 각 문제별로 새로운 규칙을 작성하는 것에 비해 재사용이 용이한 방법론이라 할 수 있지요 그런데 훈련 데이터로 과일을 사진을 사용하지 않고 특징 테이블을 사용하는지 궁금하실 겁니다 물론 사진을 사용할 수도 있습니다

그건 다음 편에 해 보도록 하겠습니다 하지만 대체로 이러한 방식이 일반적인 방법입니다 머신 러닝 프로그래밍은 그다지 어렵지 않다는 이점이 있습니다 그러나 잘 사용하기 위해서는 몇 가지 중요한 개념을 이해할 필요가 있습니다 그건 다음 편에서 안내해 드리도록 하지요

시청해 주셔서 감사합니다 다음에 뵙겠습니다

Introduction to Machine Learning on GCP – How Google does Machine Learning from Google Cloud #1

여보세요 나는 다이앤 그린이야

Google Cloud를 이끌고 있습니다 우리의 깊은 다이빙 코스에 오신 것을 환영합니다 실용적인 기계 학습 Google 클라우드 플랫폼을 사용합니다 수천 명의 Google 엔지니어가 서로 다른 변형을 겪었습니다 이 코스는 또한 여러 고객과 공유했습니다

이 과정을 통해 Python 프로그래머는 기계 학습을 할 수있게되었으며, 데이터 과학자들은 생산 준비가 완료된 기계 학습 모델을 구축합니다 이것은 우리가 사용하고 있기 때문에 가능했습니다 Google의 놀라운 인프라 및 ML 플랫폼 우리의 큰 글로벌 고객 중 한 명이 GCP 로의 전환, Google Cloud Platform은 조직의 사일로를 줄이는 데 도움이되었습니다 이것은 다음과 같은 이유로 인해 발생했습니다 BigQuery와 같은 글로벌 서버리스 인프라 및 TensorFlow와 같은 오픈 소스 소프트웨어, 이는 조직 전체에서 데이터 및 기계 학습에 대한 액세스를 민주화했습니다

이 Coursera 전문 분야에서, 복제 할 핵심 기술 스킬을 배우게됩니다 회사 전반에 걸쳐 이러한 변화를 주도하십시오 나는 당신이이 과정을 수강하고 훈련을 시작하도록 권하고 싶습니다 Google Cloud에서 기계 학습 모델을 배포 및 제공합니다 고맙습니다

고마워, 다이앤 나는 Valliappa Lakshmanan입니다 모두가 나를 락이라고 부릅니다 나는 기술 리드이다 Big Data and Machine Google Cloud에서 전문 서비스 학습

나는이 기계 학습 과정을 쓴 팀을 이끌었다 너와 나는 코스의 일부분도 가르 칠거야 시리즈 전체에 걸쳐 많은 저의 공동 저자를 보게 될 것입니다 Diane이 말했듯이이 전문화의 목표는 기계 학습에 대한 실용적인 실제 소개 목표는 당신을 가능하게하는 것입니다, 당신이 파이썬 프로그래머 데이터 엔지니어이든 데이터 과학자이든 상관없이, 기계 학습 및 구축 생산 기계 학습 모델

그래서 당신은 무엇을 배울 것인가?

Types of machine learning (part 1): Supervised and unsupervised learning

안녕하세요, Tesseract Academy의 Stylianos입니다이 동영상에서 우리는 이야기 할 것입니다

다양한 유형의 기계 학습 우리가 스스로에게 물어야 할 첫 번째 일은, 기계 학습이란 무엇입니까? 1959 년 Arthur Samuel은 기계 학습을 도메인으로 정의했습니다 그것은 컴퓨터에 명시 적으로 프로그래밍하지 않고 배우는 능력을 부여하는 것입니다 그래서 기계 학습은 이전 기간의 인공 지능과 달리 기계 너를 배우는 것은 80 년대와 90 년대에 인기를 얻기 시작했다 그 전에 AI는 데이터 중심 접근 방식을 채택했습니다 따라서 수제를 사용하는 대신 기계에서 지능을 시험하고 재현하는 규칙은 데이터 중심이며 학습을 사용합니다

알고리즘은 데이터에서 패턴을 자동으로 추출 할 수 있습니다 이것은 실험자가 실제로 알고리즘을 직접 제어 할 수 없다는 것을 의미합니다 분명히 실험자는 알고리즘이나 알고리즘의 둘레를 선택할 수 있습니다 그러나 직접적으로 바꿀 수는 없으며 학습 과정에 직접적으로 영향을 줄 수는 없습니다 과 반면에 이것은 복잡하게 들리지 않을 수도 있지만, 이것은 매우 강력한 아이디어이며 유용성입니다 큰 데이터의 시대에 지난 15 ~ 20 년 동안 매우 분명하게 시연되었습니다

그래서 기계 학습은 방대한 양의 데이터로부터 학습 할 패턴을 발견 할 수있는 능력을 제공합니다 매우 쉽고 빠릅니다 기계 학습에는 여러 유형이 있습니다 큰 분야지만이 비디오에서는 가장 인기있는 분야 중 다섯 가지에 대해 이야기 할 것입니다 기계 학습에서

너무 많은 다른 응용 프로그램이 있다는 사실, 매우 다른 응용 프로그램 서브 필드는 기계에 접근하려고하는 사람에게 다소 위협적 일 수 있습니다 기계 학습 방법 또는 적용 방법을 배우기 위해 처음으로 학습 그것 자신의 사업에서 그래서 우리가 다루는 5 가지 유형의 기계 학습 이 비디오는 지금까지 가장 인기있는 유형의 기계 인 감독 학습입니다 학습, 감독되지 않은 학습, 강화 학습, 반 감독 학습, 그리고 마지막으로, 능동 학습 제가 언급 한 감독 학습은 기계 학습의 가장 보편적 인 유형입니다

감독 학습에서는 데이터를 입력하고 예측을 출력하므로 학습 알고리즘, 그것은 입력 데이터 세트와 목표 변수 사이의 중간에 있습니다 따라서 감독 학습 학습 과정 중에 감독자가있어 감독자라고 부릅니다 모형의 예측과 실제 출력의 편차 따라서 알고리즘은 이 편차는 예측을 실제 결과에 더 가깝도록 수정하려고 시도합니다 이것은 실제 학습 과정입니다

따라서 알고리즘의 목표는 명백합니다 ariel 무료, 결코 실현되지 않는 무언가가 있지만 이것은 최적화입니다 골 그러므로 감독 학습은 컴퓨터 학습에 가장 많이 사용되는 사례입니다 어디에서나 볼 수 있습니다 따라서 일련의 입력 값이있을 때마다 출력을 예측하려면 갈 길이 멀다

감독 학습입니다 따라서 예측 분석과 관련하여 예측과 관련된 모든 사항을 감독합니다 배우기 소매와 같은 것들에 대한 수요 예측은 감독 학습입니다 예측 금융의 주가, 감독 학습

또한 텍스트 분류, 물체 인식, 그들은 감독 학습에 관한 것입니다 예를 들어 텍스트 상자에 라벨을 지정했다고 가정 해 봅시다 긍정적이거나 부정적인 감정을 담고 있거나 이미지 목록과 그 중 일부가 있습니다 이미지는 인간을 포함하고 일부는 동물을 포함하므로 다시 이것은 감독 학습입니다 당신은 기계에 입력을 공급하고 기계는 감정을 식별하는 방법을 배웁니다

또는 초점을 맞춘 인간이나 동물을 탐지하는 방법 무 감독 학습은 두 번째로 많이 사용되는 기계 학습 유형입니다 다시 한번, 우리는 입력과 출력이 있지만, 감독 학습과는 달리 실제 감독 이 경우의 결과물은 실제로 목표가 아닙니다 알고리즘 자체에 의해 추출됩니다

그래서 감독되지 않은 학습 알고리즘, 그들은 데이터의 패턴을 감지하는 방법을 이해하고 있지만 직접 학습 과정은 없습니다 몇몇과 비교 된 실제 예측의 편차를 측정하는 감독 학습 일종의 진실의 진리 따라서 감독되지 않은 학습에는 두 가지 주요 영역, 즉 하위 영역이 있습니다 하나는 많은 수를 줄이는 문제를 다루는 기능 저하입니다 변수를 더 작은 요소 세트로 변환합니다

이것은 많은 변수를 가진 매우 큰 데이터 세트를 다룰 때 매우 강력한 개념입니다 본질적으로 더 쉽게 이해할 수 있도록하기 위해 100 개의 변수로 시작할 수 있습니다 이것들이 5 가지 요소로 축소되었음을 알 수 있습니다 그런 다음 클러스터링을 수행합니다 지금까지 감독되지 않은 학습을위한 가장 일반적인 경우 그래서 그런 것들을 들어 본 적이 있다면 이들이 클러스터링 알고리즘 및 클러스터링 인 K- 평균 알고리즘 또는 DB 스캔 알고리즘에 데이터를 넣은 다음 알고리즘을 적용하는 일련의 방법론입니다

그룹으로 나옵니다 예를 들어 사용자 정의 세그먼트 화에 대해 들어 본 적이 있다면 잘 이는 클러스터링을 기반으로합니다 소매업 자의 고객 데이터와 알고리즘을 일치시킬 수 있습니다 "이봐, 알다시피, 나는 5 개의 고객 집단을 본다" 그리고 그것은 매우 강력합니다

왜냐하면 일단 당신이 다른 고객 집단이 있다는 것을 이해하면 사용자 기반으로 설정하면 다른 방식으로 타겟팅 할 수 있습니다 그래서이 이미지에서 우리는 클러스터링의 예를 보았습니다 우리는 두 개의 변수를 가지고 있으며, 그룹이 형성됩니다 그래서 클러스터링, 분명히이 예제는 매우 사소한 것이지만 알고리즘 변수가 2 개 이상일 때, 20 개, 50 개 또는 100 개의 변수가있을 때 유용합니다 우리는 이것을 단지 몇 개의 그룹으로 줄이는 방법을 찾고 싶습니다

강화 학습은 매우 흥미로운 유형의 기계 학습으로 패션을 10 년, 15 년 동안하고 지금은 매우 역동적 인 컴백을하고 있습니다 생활 시뮬레이션으로서의 학습 강화 그리고 내가 왜 그것을하는지, 강화 학습에서 잘, 에이전트는 국가를 생각하고 모든 빠른 조치가 있다는 것을 알고 있습니다 그래서 우리는 대리인이있다 환경에서 이것은 에이전트가 소유하고있는 지식입니다

국가와 그곳 모든 과거의 행동입니다 상담원이해야하는 것, 상담원이 순서대로 조치를 취해야합니다 누적 보상을 최대화하려면 에이전트가 실제로 미래에 큰 보상을 얻기 위해 지금 당장 보상하십시오 그래서 마우스의 경우, 이 그림에서 볼 수 있듯이, 우리는 옥수수에 마우스를 가지고 있으며 그것이 어디에 있는지 알 수 있습니다 과거에 취한 조치를 알고 있으며 목표는 치즈에 도달하려고 시도하는 것입니다

단기적인 보상, 치즈의 더 작은 조각을 제외해야 할 수도 있습니다 그리고 어떤 경우에는 심지어 트럭이나 무언가와 같은 추방을 무시할 수도 있습니다 그렇다면 왜 내가 보강 학습을 큰 시뮬레이션이라고 부르는 이유는 보강 학습은 더 큰 입술입니다 그렇습니다 그래서 실제 생활에서 우리는 우리가 한 일을 알고 있습니다

과거에 우리는 현재 어디에 서있는 지 알고 있으며, 종종 우리는 목표를 극대화하려고합니다 그래서 당신이 전문직 또는 사업주라고 말한다면, 아마 당신은 최대화하려고했습니다 예를 들어 낮은 재정적 이익과 내가 보강을 제공하는 매우 일반적인 예 학습은 대학을 졸업 한 것이므로 대학에 다니고 많은 돈을 지불하게됩니다 강화 학습의 맥락에서 일종의 추방이라고 말하면서 3, 4, 5, 6 년 동안 시험과 스트레스와 모든 것들을 통해 결국 당신은 일자리를 얻습니다 그리고 나서 언젠가 착륙 한 후에, 재정적으로 안전해질 수도 있습니다

다른 혜택, 당신은 집 등을 구입하십시오 그래서이 경우 장기 누적 보상은 미래에 당신에게 올 모든 이익입니다 그리고 당신이 가진 것은 "이봐, 너도 알다시피, 나는 지금 뭔가하고있다 어려운 일이지만 터널 끝 부분에서 빛을 볼 수 있습니다 "그래서 강화 학습 로봇이 비슷한 종류의 로봇을 효과적으로 사용하기 때문에 로봇에서 널리 사용됩니다

상황, 그들이 동시에 최적화 목표를 배워야하는 환경