Deep Learning at Mote Scale

>> 안녕, 안녕하세요 내 이름은 Dhrubojyoti입니다

나는 박사 과정 학생이다 오하이오 주립 대학의 Anish Arora 교수 우리가 이야기하기 전에 우리가이 워크샵의 일환으로 탐구 한 것, 나는 당신에게 개요를주고 싶다 우리가 관심을 가진 문제의 그래서 우리는 전통적으로 얕은 기계 학습 mote 규모와 약간 큰, 어쩌면 ASOC 스케일 장치 우리가 개발 한 장치 중 하나는 50 밀리 와트 펄스 도플러 레이더 64 메가 헤르츠 Cortex M3 모트와 통합되었으며, 이것이 우리가 범블비 레이더라고 부르는 것입니다

물체가 레이더 앞에서 변위 할 때, 절대 범위를 지정할 수는 없지만, 그것이 할 수있는 일은 알아낼 수있는 것입니다 물체의 변위와 무엇을 창조 하는가? 우리는 그 기간 동안 상처를 레이더가 보이는 물체의 변위 상처의 분석을 통해, 우리는 전통적으로 디자인했다 진폭 위상의 일부 설계 기능 및 공동 시간 – 주파수 도메인 변위 이상의 기간 동안 인간과 같은 물체를 탐지하기 위해, 암소, 자동차 등등, 우리는 전통적으로 RBF 커널 SVM에 의존합니다 12 개의 기능을 아래에서 선택했습니다

더 큰 90 개 또는 100 개의 기능 목록 현재 946 % 객체 분류를위한 정확도 그러나 A의 엄청난 오버 헤드가 있습니다 상기 지원 벡터를 저장하는 단계; 혼자서는 30 킬로바이트를 소비합니다

B, 사실 형상 계산 90 % 이상을 소비한다 종단 간 분류주기의 분류 자 (Classifier)가 있다면 – 우리는 정말로 그렇게 할 수 없습니다 우리의 특징은 우리가 필요로하는 것입니다 상당한 길이의 커트 생성하기 위해 처리되어야한다 그것들은 제때에 만들어진 통계이기 때문입니다

따라서 90 % 이상 전체 분류주기 피처 계산에 의해 소비됩니다 그래서, 이것들은 근본적으로 2 개의 큰 막대기와 우리는 정말로 시험해 보게되었다 아웃 기능 학습 기술 대신 지형 공학 기술 우리가 그들을 완화시킬 수 있는지보십시오 여기에 오기 전에, 우리는 분재로 실험을했습니다 우리는 그것이 95

2 퍼센트의 정확성을 부여한다는 것을 발견했습니다 그것은 오직 2 킬로바이트의 메모리를 소비합니다 분류기 크기 측면에서 큰 승리, 그러나 경고는 우리가 가지고 있었던 엔지니어링 기능을 계산합니다 두 번째 응용 프로그램은 파트너와 함께 관심이있는 뉴욕 대학교가 배치 중 센서 네트워크는 여기서 볼 수있는 노드 그들은 약간 더 크다

이전 슬라이드에서 보여준 티끌 이것들은 가변적 인 규모와 비슷하지만 꽤 다릅니다 이 장치는이 프로젝트에 맞게 사용자 정의되어 있습니다 그들은 응용 프로그램 처리 장치, 마이크로 프로세서, 및 전력의 감소 순서로 마이크로 컨트롤러를 포함한다 1 메가 바이트의 내장 RAM이 있습니다

이 프로젝트의 목적은 소음 불만을 뉴욕시는 실시간으로 그렇게 실시간으로 작동이 가능합니다 도시, 도시 협곡은 매우 가변적이고 역동적 인 환경 및 잡음 조건, 배경 조건, 잡음 강도, et cetera는 모두 장치를 배치하는 위치에 따라 매우 가변적입니다 기존의 작은 데이터 세트 비 음성 소리가 실제로 그것을 훈련시키는 데 충분했다 그게 왜 상처 였어? Google 데이터 세트에서 작성 우리가 바라 보는 것을 훈련시키기 위해서 듣고, 배우는 오디오 임베딩 작년 Google에서 나왔습니다 여기서 우리는 오디오 서브 네트워크를 함께 비디오 서브 네트워크 그들 사이의 연관성을 배우고, 그들은 관련이 있느냐 없느냐? 예를 들어, 이것은 기타에서 오디오 클립 그리고 이것은 기타의 그림이다

그들은 관련이 있느냐 없느냐? 이점은 필요가 없다는 것이다 명시 적 라벨링 우리가 부족한 것 우리가 수집 한 거대한 양의 사운드 데이터, 하지만 우리는 또한 암묵적으로 그룹화하고 있습니다 비슷한 오디오 및 마침내 우리는이 오디오 하위 네트워크를 잘라 냈습니다 더 작은 하위 데이터 세트에 적용 DCASE 또는 도시 사운드 및 사용 우리와 함께 MLP 분류자를 추가하는 것

그래, 여기 키 큰 막대기는 혼자서 묻는거야, 혼자 오디오 임베딩 56 메가 바이트입니다 꽤 큽니다 결코 들어 맞을 수 없다 우리가 가지고있는 500 킬로바이트 예산 우리가 왜 이런 장치를 사용했는지 몇 가지 기법을 시도해 보도록 동기 부여 우리가 어떻게 그들을 축소시킬 수 있는지보십시오 그래서이 두 방향을 추구하면서, 우리는 몇 가지 실험을 설계했습니다

우리가 탐구하고 싶었던 워크숍에서 결과를 얻을 수 있도록 재단을 세우겠다 우리 연구의 다음 단계 그래서 프란 슈는 다음과 같이 이야기 할 것입니다 레이더 영역에서의 실험 RNN이 관련됩니다 고맙습니다

>> 안녕 모두 그래서 기본적으로, Dhrub이 지적한대로, 우리의 목표는 인간의 RNN을 시험하는 것이 었습니다 우리가 할 수 있는지 아닌지 인간 데이터 세트 점점 경쟁적으로 정확해진다 실현 가능한 경쟁 비용을 없애라 거기 SVM 분재 기술에 존재했다

따라서 RNN 개념이 작동하는 방식은 네가 가지고 있다고 말하자 당신의 훈련, RNN, 고정 된 시간 간격으로 롤오버하십시오 여기에주의해야 할 점은 우리의 모든 상처, 그들은 분명히 다르다 하나는 2 초, 하나는 5 초, 하나는 10 초이고, 나머지도 마찬가지입니다 그래서,이 문제를 다루는 한 가지 방법 그 상처를 직접 훈련하는 대신에, 실제로 인위적으로 만들려면 훈련 데이터 세트 창문을 꺼내서 적절한 보폭을 가진 커트, 교육 및 테스트 데이터 세트를 작성하고, 훈련 데이터 세트에 대한 훈련, 테스트 데이터 세트를 분류합니다

테스트 컷에 대한 정확성 얻기 기본적으로, 이 테스트 컷을 위해 만들어졌습니다 다수 예측과 같은 일을하십시오 그래서 우리가이 접근법을 시도했을 때, 문제는 시험 컷에 대해 비교적 짧은 길이 인 2 초 또는 그 이하, 정확도는 상대적으로 낮았다 그래서, 우리는 단지 도달 할 수 있습니다

대략의 정확도 948 퍼센트는 상처보다 더 큰 상처에 관한 것이었다 >> 선명하게, 당신이 자르고 있는게 뭐야? >> 기본적으로 절단, 데이터 파일 >> 그럼 이전 슬라이드와 어떻게 관련이 있습니까? 어떤 응용 프로그램을보고 있습니까? 특정 애플리케이션을보고 있습니까? >> 이것은 레이더 적용과 관련이 있습니다 물체가 레이더 앞에서 변위 할 때, 우리는 섹션을 잘라내는 변위 검출기를 가지고 있습니다

그 주위의 물체의 변위에 해당합니다 우리는 이것을 컷이라고 부릅니다 이 점을 분명히하지 못해 죄송합니다 >> 그래서 근본적으로, 내가 언급했던 것에 따라, 이 방법의 문제점은 그 테스트는 짧은 기간 동안 잘립니다 그들에 대한 정확성은 상대적으로 낮았다

네 그래서 기본적으로, 우리는 동적 RNN의 두 번째 접근법을 시도했지만, 그 유연성은 심지어 컷이 다양한 길이라면, 훈련 데이터 세트에서, 그 수는 특정 컷의 시간 여기서 첫 번째 위험은, 시험 컷에서 가장 긴 길이를 취하면, 그것은 엄청나게 길었습니다 하나의 RNN이었습니다 훈련하기가 매우 어렵습니다

시간 단계 수를 늘리면 우리가 한 일은 각 컷으로부터의 서브 컷 길이, 우리는이 사건을 컷은 서브 컷 길이와 동일한 길이를 가지지 않고, 단지 그것과 동등 해지기 만하면됩니다 자,보다 직접적으로 훈련하십시오 모든 인공 데이터 세트 및 분류 직접 시험을 치러야합니다 이것은 비교적 비교 정확도를 제공했습니다 96

5 %를 기록했다 또한 테스트가 중단한다는 제한을 제거합니다 그들은보다 커야한다 25 초 같은 특정 길이

이것은 모든 가능한 시험 삭감을위한 것입니다 그래서 여기에 몇 가지 수치를 언급했습니다 그래서 모델 크기, 당신이 비교한다면 합리적으로 비교할 수 있습니다 특히 SVM이 57KB 인 30 KB에 비교는 Bonsai보다는 더 크다, 하지만, 그건 우리가 제거한 것입니다

미래는 그 경쟁 따라서 이것은 꽤 좋은 결과입니다 이것이 그 용어를 설명하기 때문에, 더 복잡한 기술에 의지하지 않고 듀얼 RNN과 같은 미래의 경쟁을 피함으로써, 우리는 좋은 정확성을 얻을 수있다 상대적으로 낮은 모델 크기 그래서, 이것들은 몇 가지 장점이 있습니다

서브 컷만을 수정한다고 언급했다 약 2 초가 필요합니다 이것은 빠른 분류, 더 효율적인지를 확인하기 위해이 것을 겹쳐서는 안된다 따라서이 정렬을 더 확장하면, 굳건한 Android 데이터 세트 인간 대 비인간보다 어려운 과제 우리는 당신이 많은 기술을 볼 수 있는지 시험해 보았습니다

SVM, 분재, DeepBonsai와이 물건, 사용 된 기술에 관계없이, 그것은 정확성을 제공합니다 대략 80 퍼센트라고 말할 수 있습니다 따라서, [들리지 않음을 보여줄 것입니다] 대략적으로 당신은 경쟁력 있다고 말할 수 있습니다 안드로이드 데이터 세트의 다른 기술과 비교하여 그러나 더 큰 의미는 이 특정 작업에서 데이터가 필요하며 더 많은 데이터가 필요합니다 그 데이터 수집의 소유자는 계속해서, 나는 앞으로 1-2 개월 안에, 우리는 접근하고 운동에 더 잘 침투하십시오

>> 우리는 RNN을 C 급으로 구현했습니다 그것은 우리 모터가 작동하는 것입니다 그래서, 그것은 페어링 된 다운 버전을 사용합니다 우리가 전자 모드라고 부르는 Microsoftnet 마이크로 프레임 워크, 그러나 응용 프로그래머는 코드를 C-sharp로 작성합니다

우리는 오늘 당신을 위해 보여줄 수 없었습니다 우리는 사과하기 때문에 사과드립니다 우리와 함께 하드웨어 보드를 가지고 있지 않다 시간이 지나면 우리에게 도달하지 못했습니다 그러나 그것은 완전히 단위 테스트를 거쳐 개발되었으며, 우리는 일을 시작할 수 있습니다

우리가이 워크샵에서 돌아 오자마자 현장 테스트를합니다 >> 쉬림, 우리가 제출 한 서류 야 이번엔 NIPS에, 그들은 집중하지 않는다 분급기에는 양성자가 없으므로, 하지만 완전히 새로운 아키텍처가 있습니다 특징 계산 및 시계열

>> 죄송합니다, 시간은 얼마나 남았습니까? >> 30 분 더 >> 알았어 네, 조금 빠릅니다 이제 우리는 의 음속 프로젝트 뉴욕시에서 발생하는 소음에 대한 불만 사항 그래서, 당신에게 동기 부여를 상기시키기 위해서, 우리는 상대적으로 큰 분류 자에 시스템을 맞추어야합니다

L3는 500 킬로바이트 예산에 포함됩니다 그래서 우리는이 질문을 탐구하기 위해 두 가지 방향을 택했습니다 하나는 RNN이었습니다 문제를 해결하기 위해 out-of-the-box로 작업합니까? 우리는 심지어 임베딩이 필요한가요? 비 음성 어쿠스틱 이벤트? 그래서, 우리는 단일 계층 또는 스택 GRU 및 LSTM, FastGRNN, 우리는 UrbanSound 8K 데이터 세트를 사용했으며, 약 200,000 개의 훈련 견본을 가지고 있었다 이것들은 우리가 연주 한 하이퍼 파라미터 중 일부입니다

그리고 우리가 연주 한 모델의 차이 중 일부 따라서 첫 번째 단계에서는 199 개의 타임 스텝의 멜 스펙트로 그램 256 개의 필터 대역에 걸쳐 이것은 RNN에 대한 입력으로 사용됩니다 우리는 선택적으로 RNN의 두 번째 계층을 가지며, 스태킹을 살펴보면, 마지막으로 10 개의 출력 클래스가 있습니다 그래서 다양한 숨겨진 측정 기준을 시도했습니다 중도 이탈률, 학습률 등등, 및 RNN의 몇 가지 변이체, 낮은 순위의 FastGRNN 및 스택 된 RNN

그래서, 우리는 비 물리적 사건을 다루는 RNN은 그들은 과도한 피팅에 시달리고, 우리가 뭘 했든 상관없이 우리는 다리를 잡지 못했습니다 열차 테스트 간격이 30 퍼센트 이상 가깝습니다 예를 들어, 이것은 RNN을 사용하여 얻은 최상의 결과, 60 신기원에서 92 퍼센트의 정확도, 그리고이 시간까지, 훈련이 포화 상태가되므로 정말로 더 이상 계속되지 않았다 그러나 검증 정확도는 63 % 그 모델이 충분히 작다고하더라도, 그것이 효과가 있었다면, 그것은 우리에게는 위대했을 것입니다하지만 그렇지 않았습니다

그래서, 우리는 다양한 입력 표현 멜 – 스펙트로 그램 대신 일반 스펙트로 그램, 그것은 더욱 악화되었습니다 우리는 스태킹이 도움이되지 않는다는 것을 알았고 FastGRNN 조금만 나아졌다 매개 변수가 적기 때문입니다 그래서 우리는 거의 결론을 내 렸습니다 RNN만으로는 CNN과 경쟁 할 수 없으며, 그래서 우리의 현재 탐험에서, 우리가 훈련하려고하는 동안 L3 임베딩의 동등한 학생 모델 우리는 정확히 사용하지 않았다

우리 학생 후보 모델 인 바닐라 RNN, 오히려 우리는 조합을 사용했습니다 회선과 재발 따라서, 지식 증류 목적을 위해, 우리는 회선과 함께 학생 모델의 변종을 사용했습니다 후보 모델로서 RNN을 갖는 또 다른 변형, 우리는 같은 UrbanSound 8k에서 훈련을했습니다 이것은 이상적이지 않습니다 그리고 나는 왜 당신에게 두 번째로, 워크샵에서 남은 시간을 감안할 때, 우리는 UrbanSound 8k에서만 훈련 할 수있었습니다

그래서, 이것은이 도시 모델의 예입니다 우리는 지금 원시 샘플로부터 배우고 있습니다 따라서 48 킬로 헤르츠에서 샘플링하면 입력 값입니다 그것을 레이어를 통해 전달하고 있습니다 컨벌루션 필터들 (64, 그리고 나서 CNN 변종에서, 우리는 여러 무리를 통해 그것을 전달하고있다

2에서 4까지 변하는 2 개의 디 컨벌루션 필터 RNN의 경우, 우리는 그것을 통과하고 있습니다 2 개의 스택 층을 통해, 다시 10 개의 출력 클래스에 매핑합니다 CNN이 우리에게 큰 정확성을주지는 못했지만 사실, 정확도와 비교할 만하다 바닐라 RNN 접근 방식으로 얻으십시오

그리고 그것은 또한 더 뚱뚱한 모델을 가지고있다, 그 중 세 명 모두가합니다 우리는 간단한 GRU로 좋은 결과를보기 시작했습니다 단순 그물의 GRU 변형 그것은 65 % 정확도이며, 그리고 그것은 꽤 일정하게 머물러 있습니다 62 % 대 65 % 최소한 우리가 지금까지 훈련 한 상자에서

다시 한 번 77 %의 목표를 달성하기 위해 경쟁하고 있습니다 여기에는 여전히 약간의 차이가 있습니다 그러나 우리는 로 인한 다운 스트림 데이터 세트 이것이 부족한 시간의 부족, L3 임베딩은 큰 Google 데이터 세트에서 실제로 훈련 받았습니다 그래서, 우리가 할 첫 번째 과제 중 하나는 우리는 워크샵에서 돌아온다 다음과 같은 기존 학생 모델을 훈련 시키십시오

Google의 원래 데이터 L3 임베딩을 훈련 시키는데 사용되었고, 우리는 더 많은 것을 얻을 수 있어야한다고 생각합니다 그것보다 훨씬 작은 크기 그 두 번째 공제액은 우리는 다음 단계로 탐험하고 싶다 새로운 학생 아키텍처를 개발 중이다 비 음성 감지 용

우리가 논의한 아이디어 중 하나는, 기존의 압축 기술이 있습니다 모델 크기가 줄어 들었습니다 예를 들어, 모델의 중복을 제거합니다 그들 중 하나는 deepIOT라고 불리며, 이 두 가지는 압축이 충분합니다 그러나 정확도 저하의 비용이 따르므로, 우리는 그것을 다시 사는 학생으로 사용할 수 있습니다

그들의 정확성 중 일부는 잘하면 떨어졌다 원래 교사 모델에서 학생이 고쳐지면, 우리는 계속 나아갈 수있다 모달 압축 기술 컨벌루션 커널 분리 (convolution kernel separation) 깊은 압축 파이프 라인, 등등 결론적으로, 우리는 감사하고 싶다 Microsoft는 매우 그들이 우리에게 준이 기회

모두와 일하고 상호 작용하는 것이 좋았습니다 Harsha, Prateek, Aditya, Monic 교수와 Don 교수, 그리고 그걸로 고맙다 질문에 공개 층

조근현 구속 수사 필요! 잘나가는 여배우들 다 감독과 잤다…

조근현 구속 수사 필요! 잘나가는 여배우들 다 감독과 잤다 조근현 감독이 연출하는 뮤직비디오에 출연할 배우 지망생을 면접하는 과정에서 또다시 성희롱 의혹이 제기된 가운데 ‘추가 폭로’마저 나왔기 때문 지난 24일 디시인사이드 영화 갤러리에는 ‘저는 여자 배우 지망생입니다’라는 제목으로 조근현 감독을 저격하는 장문의 글이 올라왔다 글쓴이는 조근현 감독과의 면접 일정을 잡는 카카오톡 메시지를 증거로 제시했다 이 카톡 게시물에 따르면 자신을 연기과에 재학 중인 여대생이라고 밝힌 A씨는 “2016년 4월쯤 조근현 감독과 미팅을 보러 오라는 문자를 받았다”며

“영화사 인테리어 공사 때문에 감독님 작업실로 오라는 메시지가 왔다”고 밝혔다 그녀가 밝힌 조근현 감독의 이미지는 충격적이다 A씨는 “처음에는 평범한 미팅이었지만 점점 이야기의 흐름은 섹스뿐이었다”며 “지금 잘 나가는 여배우들은 다 감독과 잤다 누구는 섹스중독자 수준이다 누구누구는 나한테 이렇게까지 해서 내가 작품을 줬다

너도 할 수 있겠냐 등등의 이야기를 들었다”고 주장했다  조근현이 처음 만난 사람들에게 복수의 여배우들을 사실상 조롱한 것 마치 조근현 앞에서 여배우들이 스스로 옷을 벗은 것처럼 묘사하고 있어 충격적이다 조근현 감독의 이 같은 발언을 접한 그녀는 “많이 무서웠다

제가 할 수 있는 거라곤 헤헤 웃으며 이야기를 다른 쪽으로 돌리는 것이었다”며  “엄마와 약속이 있어 가봐야 한다고 나서자 조 감독은 군침을 삼키듯 ‘다리가 참 예쁘네, 엉덩이도 그렇고’라며 아쉬워했다”고 밝혔다 이에 앞서 지난 8일 배우 지망생 B씨는 자신의 SNS에 조근현 감독으로부터 “깨끗한 척 조연으로 남느냐, 자빠뜨리고 주연하느냐, 어떤 게 더 나을 것 같아?” 등의 말을 들었다고 주장했다 조근현 감독이 여배우들을 어떤 식으로 접근하고 있는지 적나라하게 보여주는 계기가 되고 있다

한편 지난 22일 영화계에 따르면 흥부를 연출한 조근현 감독은 최근 성희롱 문제가 불거져 언론 인터뷰와 무대 인사 등 각종 영화 홍보 일정에서 전면 배제된 것으로 드러났다 조근현 감독의 성희롱은 지난해 다른 영상물에 출연할 배우 지망생과 면접 과정에서 벌어졌으며, 배우 지망생 A씨가 자신의 SNS에 폭로하면서 알려졌다 A 씨는 지난 8일 SNS에 미투 해시태그(#)를 달고 지난해 12월 18일 뮤직비디오 미팅에서 여배우에게 연기력이 중요한 게 아니다면서 성희롱 언사를 사용했다고 폭로했다 A 씨는 더 많은 배우 지망생, 모델분들이 피해를 입지 않았으면 하는 마음에 신중히 글을 올린다면서 조 감독이 보낸 사과 문자도 캡처해 함께 공개했다 영화 제작사 측은 개봉 전 이런 사실을 알고 곧바로 조근현 감독을 홍보 일정에서 배제했다

실제로 조 감독은 지난 9일 언론과 인터뷰를 하기로 돼 있었으나, 전날 갑자기 몸이 너무 안 좋아졌다며 인터뷰 일정을 일방적으로 취소했다 제작사 대표는 연합뉴스와의 통화에서 SNS에 관련 글이 올라온 것을 알고 조 감독을 만났고, 조근현 감독도 수긍했다면서 이런 일이 있었다는 것 자체가 여지가 없었다고 말했다 이와 관련해 조근현 감독의 해명을 듣기 위해 수차례 연락을 시도했으나 전화를 받지 않았다 조근현 감독은 현재 해외에 머무는 것으로 전해졌다 사실상 조근현이 해외로 도피한 것으로 풀이된다

 

마블 영화 ‘가디언즈 오브 갤럭시’ 제작 전면 중단···“개봉 무기한 연기”

[인사이트] 김은지 기자 = 마블이 영화 '가디언 에디션 갤럭시' 지난 4 일 (현지 시간) 할리우드 리포터는 마블과 디즈니가 가솔린과의 인터뷰에서 " 최근 '가디언트 버전 갤럭시'1, 2 형이 성공할 때 대장은 인스 트림 주인공 임기가 10 대 전성기의 SNS와 성폭행, 소성 논란이 불거 지자 디즈니는 "감독의 글과 태도는 우리의 가치와 맞지 않는다"라고 말한다 감독관이 영화를 듣고 돌아 오는 길을 가르치고 감독을 요청했다

그러나 감독과 복장을 같이하는 것은 다행이다 감독은 최종적으로 감독관이 최종 결정을 내렸다 2019 년 1 월 2 일 촬영을 목표로 만들었습니다 갤럭시 3은 난항을 깨닫습니다 마블과 디즈니는 현재 신입 사원을 찾고 신원을 확인하는 과정에서 프로젝트를 진행합니다

김기덕의 충격적 민낯, 그리고 여전히 침묵하는 사람들

김기덕의 충격적인 민숙, 그리고 계속 침묵하는 사람들 [스포츠 서울 최민 지 기자] 뒤굴게 드러난 거지의 민간은 충격이났다 그런데도 마찬가지입니다

6 일 MBC 시사 교양 프로그램 PD 수사도 영화 감독 김기덕, 미성년자 제목과 사회 운동이 불투명하다 김 감독이 그 곳의 여배우는 무의식적이었습니다 우리 세계에서 3 대 영화제, 베를린, 베니스 영화제를 상상해 보라 그와 함께 일하는 사람들은 자신의 짐을 실은 사람들이 짐을 싣고 짐을 지우고, 행동을 취하며, 행동을 저지를 수 있습니다 김 감독의 행동은 자신의 행동을 모두 영화관 관계자들이 알려주는 것입니다

PD 기자 회견에서 서울 공대에서 명예 교수는 명예 교수로부터 명예 교수를 받아 들였습니다 이봐 감독의 실체는 주변의 공포와 방관이 서로를 바꾸어주는 것을 의미한다 방금 외계인과 더 이상 현실적인 관계가 없다 PD 씨는이 방송을 통해 한전 영화를 보았습니다

B 씨는 방송을 보지 못했습니다 예로부터 가게 당합니다 난독 한 입장을 전하고 싶다면, 지금 당장 출발 직전 스태프들과 연락하십시오 또 다른 전재 조건은 지금 커다란 힘을 요구하지 않습니다 사람들은 다 입술을 찾았다

영화 관계자 D 씨도 옷을 입으십시오 사실 용기 제조법을 배우십시오 좋아, 진짜야 물론 김기덕 저축과 두려움이 큰 계산입니다 그러나 더 늦기 전에 곤경에 빠지면 줄기 세포가 필요해

방관자는 공범자가 될 수 있습니다 Julym @ sportsseoul com 사진 스포츠 서울 DB

Using Machine Learning to Simplify Kafka Operations

– [Shivnath] 저는 Unravel Data Systems의 CTO이자 공동 설립자 인 Shivnath Babu입니다 저는 Duke University의 컴퓨터 과학 겸임 교수이기도합니다

그래서, 같은, Unravel 자체에 대한 두 단어 인이 회사는 2013 년에 설립되었습니다 모든 레벨의 모니터링 정보를 수집하는 솔루션을 제공합니다 ETL과 같은 응용 프로그램에서 스택의 수를 늘리면 오늘 스트리밍이 많이 보일 것입니다 Spark 및 Kafka와 같은 플랫폼 측면의 응용 프로그램, 인프라 스트럭처에서 이 모든 모니터링 정보는 다음과 같습니다

실시간으로 수집, 플랫폼으로 가져, 그러한 모니터링 데이터가 제공 할 수있는 흥미로운 일들을 보게 될 것입니다 실시간으로 제공됩니다 우리는 시스템을 운영하는 고객이 많습니다 프로덕션 환경에서 우리는 Microsoft와의 파트너로서 매우 긴밀하게 협력합니다 지금, Dhruv를 소개하는 것이 기쁩니다 Azure HDInsight에서 모두 스트리밍됩니다 그러니 무대에 오르십시오, 드 루브 고마워, 쉬브 나트

너는 모두 내 말을들을 수 있니? 모두들 좋은 아침 이예요! 모두는 어때? 좋은? 손을 보여줄 수 있을까요? Azure HDInsight에 대해 들어 본 사람이 몇이나됩니까? 좋아 너 많이 멋지다! Azure HDInsight에 대한 간단한 소개 만 할게요 Google은 완전히 관리되는 클라우드 서비스로 사람들이 방대한 양의 데이터를 처리하는 빠르고 비용 효율적인 메커니즘입니다

나는이 이야기가 더 생각하기 때문에 제품에 너무 깊이 들어 가지 않을 것이다 실제 시나리오에 적용되는 방법 및 스트리밍 방식 솔루션 및 스트리밍 시나리오는 제작 회사에서 이루어지고 있습니다 그런 다음 Shivnath는 기계 학습과 AI가 실제로 도움이되는 방법에 대해 이야기 할 것입니다 저 밖에 최근에 우리는 제품에 큰 가격 인하를 발표했습니다

우리의 많은 서비스 HDInsight를 사용하면 Hadoop, Spark, 또는 Azure에 Kafka 그리고 아주 빨리 달리기 일반적으로 HDInsight를 사용하면, 우리는 고객이 다양한 산업에서 왔음을 보았습니다 오늘날 거의 모든 산업에서 실행되는 실제 응용 프로그램, 제조, 의료 또는 소매 일 수 있습니다 몇 년 전, 우리는 거대한 데이터에 대해 아주 불쾌한 것으로 이야기하기 위해 사용되었습니다

실험실에서 그러나 이제 우리는 기업들이 실제로 많은 양을 생산하고 있음을보고 있습니다 이러한 시나리오 중 그래서 Azure HDInsight는 클라우드 기반이며 클라우드에 내장되어있어 실제로 글로벌하게 만듭니다 얼마나 빨리 고객의 시나리오를 설명 할 것인가? 수평 확장을 통해 서비스의 가시성을 높이고, 전 세계의 데이터를 처리 할 수 ​​있습니다 내장 된 보안 기능이 많습니다

컴플라이언스 및 컴플라이언스는 핵심 Azure 서비스의 많은 부분과 통합되어 있기 때문에, 내장 된 HIPAA 인증과 같은 모든 기능을 제공합니다 우리는 많은 생산성 도구가 내장되어 있으며 저가의 비용에 대해 이미 이야기했습니다 그래서 저는 카프카에 대해 구체적으로 이야기 할 것입니다

12 월에 HDInsight에서 오늘날, 카프카는 섭취에 정말로 유명합니다 많은 양의 데이터 둘 다에 대한 몇 가지 정말 흥미로운 것들 Kafka와 Azure HDInsight는 Mirror Maker를 통한 재해 복구 기능을 제공합니다 엔드 투 엔드 스트리밍 파이프 라인을 제공합니다

우리는 이것들을 실제 시나리오로 본다 Storm과 Spark를 사용하여 대량의 스트리밍 데이터를 처리하고 있습니다 기가 바이트가 아닌 여러 이벤트를 볼 수있는 모든 시나리오의 데이터뿐만 아니라, 수천 페타 바이트의 데이터가 항상 처리됩니다

나는 유스 케이스를 어떻게 언급할지 언급했다 내부 고객 인 Siphon은 Office 365 및 Bing Ads가 작동합니다 그래서, 그것은 많은 데이터가있는 데이터 버스입니다 들어오고 스파크와 스톰을 통해 분석 한 다음 사무실로 전달됩니다 365 및 Bing을 광고 수익 창출 및 기타 기능으로 활용할 수 있습니다

여기서 볼 수있는 것은 성장 및 얼마나 쉽게 자신의 작업을 확장하는 것이 었습니다 이것은 12 월부터이지만, 오늘 그들은 1 조개의 사건을 처리하고 있습니다 하루에, 그것은 단지 훌륭합니다! 얼마나 빨리 스케일링하는지 놀랍습니다 규모가 큰 것은 얼마나 쉬운 일인가? 다른 지역 예를 들어, Office 365의 경우 핵심 시나리오 기본 데이터가 동일한 데이터 센터에 있어야한다는 것입니다

그 과정을 수행합니다 그래서, Siphon은 뭔가를 설정할 필요가있었습니다 동아시아에서는 한국의 클러스터를 신속하게 시작할 수있었습니다 아시아 태평양 지역에 진출하여 운영 업무를 신속하게 진행할 수 있습니다 마찬가지로 그들은 미국과 같은 Azure 정부 지역에서도 사업을 운영하고 있습니다

정부와 중국 HDInsight와 Kafka를 사용하면 매우 쉽습니다 실시간 시나리오

시나리오를 매우 빠르게 확장 할 수 있습니다 우리에게는 정말로 큰 성공입니다

이 스트리밍 시나리오의 스토리는 Toyota와 연결된 자동차 플랫폼 Toyota Connected Car 플랫폼에서, 당신은 다양한 신호가 들어오는 많은 자동차를 상상할 수 있습니다 고객과 도요타가 서비스를 필요로 할 때를 알 수 있도록 처리 중 또는 차가 어떻게 수행하고 있는지 그리고 그것은 일종의 기반입니다 오늘 HDInsight / Kafka에서

Toyota는 정말 행복했습니다 훌륭한 SLA로이 관리 서비스를 얻을 수 있으며 확장 가능한 기술 및 프로세스를 통해 엔드 투 엔드 데이터 스트리밍 파이프 라인을 구축합니다 이것은 도요타가 사용하는 아키텍처입니다 수백만, 수십억 달러가있다 매 초마다 IoT 허브를 통해 Azure Gateway Services로 들어오는 이벤트가 발생합니다 카프카 (Kafka), 스톰 (Storm) 등을 사용하는 다양한 HDInsight 클러스터에서 처리됩니다 Spark으로 처리하고, 시각화하여 알아낼 수 있습니다

"헤이, 어느 차가 정말로 빨리 수리받을 필요가 있니?" 이것 모두는 노력하고있다 이것들이 오늘날 일어나는 실제 생산 시스템임을 보여주기 위해 이것은 단지 스트리밍과 함께 사용하는 시나리오 조각 우리의 고객은 직면합니다

그러나 그것들을 가로 질러 도전이있다 ML 및 AI가 처리하는 몇 가지 문제점이 있습니다 그래서, 너를 Shivnath에게 넘겨 줄거야 고마워요, 드루 브 Dhruv가 보여준 것처럼 많은 회사들이 현재 응용 프로그램을 스트리밍하고 미션 크리티컬 한 방식으로 실행합니다

그는 훌륭한 예를 보여주었습니다 실제로 두 가지 예가 있습니다 하나는 내부 Microsoft 사용 사례로, 실제로는 꽤 실행 중입니다

대규모이고 어쩌면 내가 여기있는 신사 일부를 볼 수있는 규모와 일치한다 LinkedIn의 다른 중요한 사용 사례도 실행 중입니다 IoT에서 자,이 두 산업 만이 아닙니다 존재하는 도전이있다 제조, 고객 서비스, 정서 분석에서 많은 실시간 권장 사항

이제는이 모든 것이 업무상 중요한 시스템이기 때문에, 당신은 카프카 (Kafka)로 구성 될 수있는 기반 아키텍처를 원한다 데이터를 실시간으로 전송할 수 있습니다 HBase 또는 Cassandra 이 데이터 또는 스파크 스트리밍에 대한 액세스, 또는 실제로 데이터를 처리하기위한 플 링크 (Flink)

아키텍처는 신뢰할 수 있어야하며 결과가 시기 적절하게 실시간 결과는 실시간이 아닙니다 맞습니까? 그 때 문제가 실제로 발생하기 시작합니다 그리고 오늘, 틀림없이, 문제의 근본 원인이 어디인지 어떻게 이해해야합니까? 그것을 해결하기 위해 권리? Spark 스트리밍 측에 도전 중일 수 있습니다 올바른 리소스를 확보하지 못하면 멀티 테넌트 패션

아니면 카프카 측에있을 수도 있습니다 파티션의 수가 올바르지 않거나 일부 파티션이있을 수 있습니다 올바르게 설정되지 않은 구성, 맞습니까? 또는 자원이 없습니다 적절하게 배정되고, 그 사이의 모든 것과 모든 것이 포함됩니다 권리? 이러한 응용 프로그램을 만드는 팀과 사실 이러한 클러스터를 운영하는 것은 틀림없이 좋은 도구가 아닙니다

실제로 실제로 엔드 – 투 – 엔드 가시성을 제공합니다 글쎄 가시성이 좋을거야 그러나 분석 할 수있는 도구가 있기 때문에 더 좋을 것입니다 이 모든 데이터는 실시간 통찰력을 제공하고, 실시간으로 그리고 이상적으로 이러한 문제를 처리하거나 해결하는 방법, 심지어 자기 치유 방식으로도 시스템 자체가 치료법이 될 것입니다 맞습니까? 오늘의 목적은 인식과 관심을 높이는 것입니다

이러한 문제를 해결하고 실제로 우리가했던 몇 가지 작업을 보여줍니다 약간의 피드백을 얻고 몇 가지 기회를 모색 협업합니다 그렇다면 이러한 데이터 작업 팀에 어떻게 권한을 부여 할 수 있습니까? 이러한 측정 항목을 많이 수집 할 수 있습니다 시스템과 마찬가지로 모든 곳에서 통계가 있습니다 처리 측면에서 스토리지 측면으로 – 우리가 플랫폼을 구축 할 수있는 것처럼 이러한 모든 측정 항목을 하나의 단일 장소로 통합하여 멋진 조회수를 제공 할 수 있습니다 통찰력? 하지만 거기서 멈춰서는 안된다 그렇지? 우리가 정말로 원하는 것은 해당 데이터에 기계 학습 알고리즘을 적용하고 통찰력을 창출하고 권고 사항을 제시하고 이상적으로는 인공 지능을 적용하는 데까지 나아가고, 이러한 문제를 해결하기 위해 조치를 취할 수 있습니다

그게 내가하는거야 이야기의 나머지 부분에 집중할 것입니다 그리고 내가 그것을 할 방법은, 그것은 다시 기계 학습과 인공 지능의 세계입니다 맞습니까? 그리고 이러한 알고리즘 기법은 십분의 일입니다 그리고 당신이 범람했다고 확신합니다

기계 학습 및 심층 학습을 수행하는 회사에 대한 이메일을 제공합니다 오늘 제가하려고하는 것은 당신에게 이러한 문제에 대해 생각할 수있는 좋은 방법을 제시하는 것입니다 우리가 가진 성공의 일부와 우리가 직면하고있는 어려움을 말해줍니다 목표가 무엇인지, 이러한 DevOps 목표는 무엇인지 이해하기 위해 모든 것이 내려갑니다 그런 다음 올바른 알고리즘을 그 알고리즘에 매핑하십시오

그래서, DevOps 목표에 관한 것입니다 팀은 스트리밍 환경에서 매우 구체적으로 Kafka 환경에서는 충족해야 할 목표가있는 애플리케이션 팀이 있습니다 처리량 목표를 가지고 있습니다 : 10 만 개의 이벤트를 처리해야합니다 두 번째 맞지? 또는 대기 시간 목표 : 데이터가 저장되는 시간 도착하고 처리되는 시간은 2 분 미만입니다 동시에, 플랫폼 소유자는

일반적으로 다 중성 카프카 클러스터를 운영합니다 그들은 다른 목표를 가진 다른 응용 프로그램을 가질 수 있습니다 맞습니까? 그리고 그 위에, 그들은 플랫폼을 좋은 곳에서 운영하고 싶을지도 모릅니다

HDInsight와 같은 클라우드에있는 경우 저렴한 비용으로 실행할 수 있습니다 그리고 오늘뿐 아니라 미래를 잘 계획 한 것입니다 맞습니까? 다른 측면에서 우리는이 흥미로운 알고리즘을 모두 가지고 있습니다 많은 알고리즘을 쉽게 익힐 수 있습니다 아웃 라이어 (outlier) 탐지를위한 알고리즘과 같은 오픈 소스 도구에서, 상관 분석을위한 알고리즘, 맞죠? 그리고 그들은 어떻게 좋아합니까?이 두 가지와 일치합니까? 그리고 그것은 제가 이야기의 나머지 부분에서 다루기로 한 것입니다

처음부터 아주 쉽게 이해할 수있는 문제부터 시작해 보겠습니다 이상 치 검출, 맞죠? 내가 따라야 할 형식은 내가 줄 것이다 각 기술을 큰 이익을 위해 적용 할 수있는 경우를 사용합니다 다음과 같은 다양한 종류의 알고리즘을 연결할 수 있습니다 에 쓰이는

카프카 세계에서 이상 치를 감지 했죠? 매우 일반적입니다 부하가 Kafka 중개인이나 Kafka 파티션에서 불균형을 일으킬 수 있습니다 여기에 예제가 있습니다 실제 예제에서 제가 여기서 보여 드리고있는 것은 두 세트입니다 시계열 차트의

그리고 당신은 우리가 이러한 차트의 무리를 참조하십시오 따라 가라 첫 번째는 초당 수집 된 바이트를 보여 주며, 하단의 메시지 속도는 초당 메시지 속도를 보여줍니다 툴팁에서 3 명의 중개인을 여기에서 보여주고있는 것을 볼 수 있습니다

그 중 한 브로커 인 kabo1 브로커는 실제로 부하의 10 분의 1을 차지합니다 다른 브로커와 관련하여, 그리고 종종 문제는 다른 방법으로, 맞죠? 한 브로커가 핫스팟이되고 있습니다 그리고 이것은 파티션에서 발생할 수 있습니다 너무 많은 다른 수준에서 이것은 문제가 될 수 있습니다 아웃 라이어 (outlier) 탐지를위한 알고리즘으로 매우 빨리 발견되거나 발견되거나 탐지됩니다

가장 단순한 알고리즘 일 수도 있습니다 그러나 당신이 생각하기 시작할 때 이러한 알고리즘에 대한 예를 들어, 이상한 검출

생각할 몇 가지 다른 차원이 있습니다 : 하나는, 일회성 시리즈를 분석하는 데 유용한 알고리즘이 있습니다 예를 들어, 하나의 기능 그리고 일부 알고리즘은 호출 된 것을 수행하는 데 적합합니다

다차원 분석, 맞죠? 특정 알고리즘이 있습니다 여기에 예제를 보여 드리겠습니다 일반적으로 Z 점수 알고리즘 그것이하는 것은 데이터에 대한 배포에 적합하고 그 다음에 거기에 표시된 것처럼 분포와 일치하지 않는 점 이상 치이다 그리고 이것들과 같은 단순한 알고리즘조차도 실제로는 먼 길을 갈 수 있습니다

그래프를 쳐다 보지 않고 운영자에게 신속하게 통보하기 위해, 뭔가가 실제로 딱딱 거리는 브로커가 있지, 그렇지? 그리고 내가 말했듯이, 아시다시피 가끔 문제가 단 하나 차원, 그러나 당신이 좋아할지도 모른 시간의 많은 것은, 당신도 알다시피, 똑같은 입력 데이터의 측면에서 아웃 라이어 인 브로커를 식별하고, 뿐만 아니라 입력 데이터와 마찬가지로 CPU 사용률 또는 디스크 활용 그래서 좋은 알고리즘이 있습니다

다차원 및 조기 발견을위한 실제로 사용하는 DBScan 알고리즘 밀도 기반 클러스터링에 대해 설명했습니다 그래서 포인트를 클러스터로 그룹화하여 실제로는 그렇지 않은 것들을 클러스터의 우리 부분을 만족시키는 것이 특이 치로서 신속하게 식별 될 수 있습니다 그리고 최근에, 제가 말한 것처럼, 이상치에 대한 많은 관심이있었습니다 카프카뿐만 아니라 모든 종류에 적용됩니다 데이터의

사람들이 이러한 알고리즘을 확장 한 두 가지 방법 중 하나는, 결정 트리와 같은보다 흥미롭고 세련된 모델을 적용 할 수 있습니다 이 문제 또는 심층적 인 학습을 통해 자동 엔코더가 있습니다 원본을 기반으로 데이터를 재생산하는 것처럼 데이터와 실제로 일치하지 않는 데이터 포인트 식별 즉, 이상치, 이상치 (outlier) 탐지의 예입니다 그리고 네가 네 개 더 줄거야 네가 그걸 생각하면, 패턴의 유스 케이스 종류

다음 단계로 넘어 갑시다 약간 더 복잡한, 예측 매우 우수한 예제가 있습니다 운영 세계에서 예측이 도움이 될 수있는 것과 마찬가지입니다 그리고 그것은 어떻게 신속하게 예측 알고리즘을 통해 문제가 발생한다는 것을 알 수 있습니까? 물론 이것은 인간 조작원을 도울 수 있습니다

그것들은 마치 소방 시나리오에 빠지기보다는 사전 통보 또는, 이것은 실제로

이것은 같을 수 있습니다, 신호를 취할 수있는 자동 또는자가 치유 알고리즘의 백본 행동을 취하지, 그렇지? 예를 보도록하겠습니다 사실 너에게 진짜를 줄거야 예를 들어 고객 시나리오에서 볼 수 있지만이 고객은 전체 짹짹의 파이어 호스 한 뭉치

그것에서 정서를 추출하고 그것을 사용하는 훨씬 지능적인 고객 지원을 할 수 있습니다 텔레콤 유스 케이스에서 나온 것입니다 이 응용 프로그램은 Kafka를 사용하여 HBase를 사용하여 중간 상태를 유지합니다

모든 계산은 Spark Streaming 및 리소스 할당에서 발생합니다 YARN 환경에서 발생합니다 여기에서 간단한 스크린 샷이 있습니다 실제 시나리오의 종류 보시다시피, 스파크 스트리밍 응용 프로그램

이 녹색 바는 모두 초당 이벤트 이것은 실제로 내가 공유 할 수있는 권한입니다 전체 소방 호스는 아니지만 실제로 문제를 설명합니다 초당 40,000 ~ 50,000 건의 이벤트가 발생합니다 그리고 그걸 보면 사이의 회색 선,이 특정 시나리오에서, SLA의 대기 시간은 데이터가 도착한 시간에서부터 시간 실제로 처리되는 시간은 3 분을 초과해서는 안됩니다

자, 만약 네가 보면 추세라면, 지연의 종류를 볼 수 있습니다 실제로 1 분입니다 따라서 이런 종류의 데이터에 대한 예측 알고리즘과 같이 적용함으로써, 이 SLA가 모두 나올 때까지 얼마나 많은 공간을 확보했는지 빨리 알 수 있습니다 놓친다, 그렇지? 그래서, 이런 식으로, 당신도 알다시피, 미리 문제를 이해하고 예측하는 것이 좋습니다 이제 예측은 비슷한 일이 많은 분야입니다

알다시피, 많은, 오랜 세월 그리고 아주 좋은 알고리즘이 있습니다 대부분의 오픈 소스 라이브러리에서 제공하는 것으로, 실제로 ARIMA를 얻을 수 있습니다 – 자동 회귀 통합 이동 평균 홀트 – 윈터스 – 이들은 전통적인 알고리즘은 시계열, 다른 한편으로는 데이터에 대한 예측, 최근에 많은 관심 내가 기계와 심층 학습에서 반복적 인 신경망이라고 부르는 것에서, 그리고 매우 긴 버전이라고 불리는 그들의 매우 구체적인 버전입니다, 당신도 알다시피, 단기 메모리 네트워크는 예측에 큰 도움이되었습니다 이제 우리는 많은 성공을 거두었습니다 페이스 북이 공개되면, 나는 작년에 언젠가 그것이라고 생각한다

예언자 알고리즘 맞지? 그래서 우리가 만난 도전은 이전 기술의 손 보유, 오른쪽 필요합니까? 당신이 기술을 넣은 것처럼 모든 것이 마술처럼 일어나는 것은 아닙니다 Prophet 알고리즘을 사용하여 적어도 우리의 경험은 훨씬 적은 사용자 정의, 훨씬 적은 도메인 지식, 대부분의 경우 기본 설정으로 작동합니다 그리고이 기법, 조금 더 자세하게 들어가기를 좋아합니다 Time이라는 이름을 사용합니다 Series Decomposition은 다른 많은 기술들 뿐만 아니라 GAM이라고 불리는 것을 사용합니다

generative additive 모델 – 전체 시계열을 계절성 관점에서 추세 관점, 그리고 많은 시간 실제로 당신은 마치 추수 감사절처럼 휴일이 될 수 있습니다 그런 것, 그리고 부하가 훨씬 더 높을 수 있습니다 따라서 이러한 기술은 그러한 도메인 지식을 입력하기 위해 신속하게 사용자 정의됩니다 따라서 예측은 제공 할 수있는 많은 가치를 지니고 있으며, 계속 나아갔습니다 그래서 우리는 특이 치 검출을 보았습니다

우리는 예측을 보았습니다 그러면 더 복잡한 기술을 익힐 것입니다 그리고 이 기술 전반에 걸쳐 많은 관심을 불러 일으킨 기술들, 실시간 스트리밍 시나리오는 이상 탐지입니다 맞습니까? 완벽한, 이상적인 검출 시나리오는 이상이 검출 될 수 있다면, 그리고 이상은 무엇입니까? 예기치 않은 변화의 일종, 당신이 기대하지 않는 무언가와 정말로 좋아할만한 무언가, 알다시피,주의를 기울이십시오 똑똑한 예외 일 겁니다

검출 알고리즘을 사용하고, 그러한 알고리즘을 가지고 있다면, 똑똑한 경보를 생성하는 데 사용할 수 있습니다 맞습니까? 예상치 못한 문제에 대해 알려주는 경고, 너도 알다시피, 일어 났을거야 그래서, 다시, 당신은 좋은 감각과 충분한 시간을 얻습니다 문제를 해결할 수 있습니다 그러나 이러한 알고리즘의 문제점은 사람들이 들었음에 틀림없는 것처럼 잘못된 반응이있는 경우 사람들은 빨리 꺼집니다

"경고 피로"의, 맞죠? 그래서 오탐 (false positive)은 나쁘고 나쁘다 잘못된 음수는 알고리즘이 감지되어 나쁘고 종종 자주 발생합니다 이러한 목표를 달성하기 위해 알고리즘을 조정하는 것과 같은 절충이 필요합니다 다음은 제가 말하고자하는 문제에 대한 감각을 줄 수있는 한 가지 예입니다 우리는 지연에 대해 이야기했습니다

나는 시스템 지연되기 시작하면 데이터 속도를 따라갈 수 없습니다 생성 할 수 없습니다 데이터가 도착한 시간 내에 결과가 나타납니다 그거 좋지, 그렇지? 이제는 특정 소비자, Spark 스트리밍 소비자 그건 실제로 트윗을 처리하는 것과 같은 종류의 도메인입니다 더 일찍 보여 주었다, 그것은 지체하기 시작하고있다

이제 경고할만한 가치가 있습니까? 아침에 새벽 2시에 누군가 깨우는 게 가치 있니? 그게 도전이야, 그렇지? 아마도, 때로는 지연이있을 수 있습니다 오전 10시에 매일 데이터가 갑자기 나타나고 얼마 동안 지연이 생길 수 있습니다 하지만 빨리 따라 잡을거야, 그렇지? 당신은 충분히 똑똑한 알고리즘을 원한다 그걸 감지하고, 깨닫고,이 경고의 소음을 차단합니다 너에게 올거야

그래서, 변칙 탐지가 그 하나입니다 우리가 잠시 동안 함께 일함으로써 배운 것 – 아무 것도 없습니다 은색 총알 전통적 기술이나 접근 방식은 당신이 실제로 가지고있는 데이터, 모니터링 데이터, 예측 알고리즘, 합리적으로 좋은 알고리즘, 예상되는 내용을 확인하고, 귀하가 얻고있는 데이터, 당신이 얻는 측정 항목은 내가 가진 것과 같은 배포판과 일치하지 않습니다 여기에 표시되면 비정상으로 분류 할 수 있습니다

그리고 내가 ARIMA에서 말한 모든 다른 예측 알고리즘 앞으로 이것을 사용할 수 있습니다 우리가 많은 견인력과 스트리밍 및 카프카에서의 이상 탐지 알고리즘의 성공 작전 맥락은이 알고리듬으로 20 또는 30 년 : STL 나는 그것이 언젠가 개발되었다고 생각한다 1990 년대에 말이죠, 그렇죠? '계절과 동향' 황토 방법을 사용하여 분해하는 방법 "을 4 개의 그래프 그것이 한 마디로, 그것은 신호를 취하는 것입니다, 당신이 볼 수있는 최상위 흐름은 실제 시계열입니다

그런 다음 계절 패턴과 추세를 추출한 다음 남은 것은 잔여 물, 또는 나머지 물, 맞죠? 극한의 포인트가있는 경우 나머지는 예외적으로 좋은 징조이지만, 실제로 다른 신호를 볼 수있는 사후 처리 레이어가 없어도, 박쥐 바로 옆에서 작동하지는 않지만이 조합은 실제로 매우 적은 오 탐률로 스마트 경고를 얻을 수있는 시나리오에 이르기까지, 합리적으로 적은 위음성이 있습니다 이제 비정상 탐지는 특히 심층 학습 공동체로부터의 많은 연구 이러한 장기간의 단기 메모리 네트워크는 합리적으로 훌륭했습니다 패턴 검출 및 예측의 예측 및 시계열 종류 이상이 있습니다 따라서, 같은 알고리즘의 네 번째 범주로 바로 이동하면, 상관 관계 분석, 맞지? 그래서, 지금까지 우리는 당신이 어떻게 문제를 발견 할 수 있는지를 보았습니다

특이점을 통해 또는 이상을 통해, 맞습니까? 그리고 그 다음으로 큰 도전은 작전 팀들이 직면 한 문제는, 하지만 실제로 몇 가지 힌트를 얻을 수 있습니까, 근본 원인에 대한 지침 문제는 무엇입니까? 이것이 바로이 상관 관계 분석이 실제로 좋아하는 부분입니다 너도 알다시피, 도움이된다 보여 드리죠 아시다시피, 그 문제를 관리하는 몇 가지 예를 제시하십시오 대기 시간 SLA가 누락 될 것이라는 경고를 받았습니다 그래서 뭔가가 바뀌 었습니다 그 변화를 일으킨 원인은 무엇입니까? 응용 프로그램 수준에서 뭔가 바뀌 었습니까? 뭔가 바뀌었을 수 있습니까? 리소스 할당 수준에서? 왜냐하면 하루가 끝날 때, 이 모든 것은 멀티 테넌트 환경입니다 맞습니까? 플랫폼 수준에서 무언가가 바뀔 수 있었는지, 스파크 (Spark) 나 카프카 (Kafka) 레벨에서 뭔가를 좋아하니? 그것의 무언가가 데이터 변경, 요금 변경, 어쩌면 배급 변경? 너도 알다시피, 그 중 하나가 될 수 있지, 그렇지? 내가 너에게 빨리 줄께

다시 좋은 예입니다 그래서 여기에 이상이 있습니다 첫 번째 줄거리가 보여주는 것, 이것은 실제로 대기 시간입니다 맞습니까? 갑자기 대기 시간이 급증하여 기본적으로 대기 시간을 감지 할 수있었습니다 이전에 말했던 기술들,베이스 라인 작업, 헤이, 이것은 예상치 못한 일입니다

이례적입니다, 맞죠? 하지만 그때 당신이 원하는 것도 당신은 그러한 경고를받습니다, 그렇습니다, 변칙이 있었지만, 무엇이 바뀌 었습니까? 그게 무엇일까? 내가 여기서 보여주고있는 것을 보시면, 당신이 알고있는 것처럼, 시계열 메트릭과 현실은 내가 말했듯이 운영 환경, 시계열 메트릭은 십분의 일입니다 때때로 당신은 수백을 가지고 있습니다, 때로는 말할 것도없이, 당신도 알다시피, 수백만 개의 시계열 측정 항목, 맞습니까? 그렇다면이 모든 것들로부터 어떻게 확인할 수 있습니까? 다양한 측정 항목, 잠재적 인 측정 항목은 무엇입니까? 이 높은 수준의 변화? 이 총알 사건에서, YARN 측에서는 다툼이있었습니다 이러한 작업 부하를 처리하기 위해 마스터 된 응용 프로그램은 어디에서와 같았습니까? 이 변칙을 설명하는 변화의 대부분이 일어 났지, 그렇지? 지금 내가 말했듯이, 상관 분석을위한 알고리즘, 그것은 또 다른 것입니다 이상 탐지보다 훨씬 더 그렇습니다 많은 함정

그냥 추세가있는 곳에서 많은 예제를 보여줄 수 있습니다 데이터에서 두 개의 아주 무작위적이고 완전히 무관 한 시계열이 실제로 보일 수 있습니다 상관 관계가 좋았지, 그렇지? 실제로 트릭을 얻는 것이 좋습니다 결과는 두 가지입니다 하나는 도메인 지식을 가져와야한다는 것입니다

단순히 수백만 개의 시간 계열을 던지거나 상관 관계를 수행 할 수는 없습니다 일이 실제로 작동하기를 기대하십시오 당신은 매우 신중하게 선택해야합니다 실제로 상호 관계를 수행중인 측정 항목 그리고 중요한 것은 상관 관계를 어떻게 처리하고 있습니까? 그리고 모두 시계열 사이의 유사성을 식별 할 수있는 지표로 내려갑니다 피어슨과 같은 상관 계수가 있습니다 상관 계수, 그리고 더 나은 연합이있다

계수도 마찬가지입니다 이제 우리가 가진 기술이 가장 많았습니다 성공은 시계열 유사성 측정 항목을 사용하는 것입니다 당신이 시나리오에서 조심해야 할 함정들도 있습니다 그래서 두 개의 시계열을 보여주고 있습니다

당신도 알다시피, 운영 환경에서 다루어야 할 문제의 종류를 보여줍니다 모든 시간 계열이 정시에 잘 동기화 될 것으로 기대할 수는 없습니다 하루가 끝나면 실행중인 측정 알고리즘이 있습니다 데이터 수집 중입니다 말 그대로 조금이라도 될 수 있습니다

시스템에 어떻게 접근했는지에 따라 비동기 적으로 작동합니다 처리가 일어나거나 인과 관계 패턴이 될 수있는 곳 데이터에, 맞지? 두 시계열 간의 유사성을 계산하는 가장 간단한 방법 평형 거리라는 것을 사용하는 것입니다, 맞습니까? 시간의 관점에서 각 포인트를 매치하고 그들 사이의 거리를 가져라 그러나 우리는 Dynamic이라고하는 다른 기술로 많은 성공을 거두었습니다 시간 왜곡 그것이하는 일은 덜 민감하다는 것입니다

그것은 시계열의 형태로 주변을 둘러보고 일치하는 것을 찾으려고합니다 그런 식으로 시계열을 식별 할 때 더 강력합니다 상호 연관성이 없거나 상관 관계가없는 항목을 상호 연관시키고 제거합니다 전통 기술 그래서 저를 마지막으로 그리고 가장 많이 데려옵니다

복잡한 얘기 하나 하겠어, 그렇지? 그래서 우리는 비슷한 이야기를했습니다 이상한 탐지, 이상 치, 예측, 모두 당신이 알고 있듯이, 기술을 지적합니다 그러나 전체 시스템의 성능 모델이 있거나 약간의 역량, 맞죠? 실제로 수행 할 수있는 성능 모델 내가 10 개의 파티션을 더 추가할지 예측해라 공연은 어떻게 될 것인가? 네가 할 수있는 일은 너무 많아 그러나 동시에,이 모델들은 예쁘고, 생성하고 구현하기가 꽤 어렵습니다

맞습니까? 그러나 이러한 모델을 가지고 있다면 SLA 관리 및 비용 효율성에 도움이 될 수 있습니다 이것에 대한 두 가지 예는 what-if와 최적화 질문 예를 들어, 양식의 질문, 내가 만날 수있는 지연 시간 SLA, 필요한 모양 또는 특정 처리량이 있습니다 다루다 최고의 응용 프로그램 구성, 플랫폼 구성, 자원 구성 및 필요한 데이터 구성 그럴 거지? 그것은 사람들이 대답하기를 원하는 이상적인 질문입니다

그러나 당신이 그것을 그렇게 복잡한 질문으로 분해하기 시작한다면, 그러나 운영상 중요한 질문이 더 많습니다 지금 내 클러스터, 특이점 탐지는 일부 노드가 일부 브로커가 많이 실행되고 있다고 말합니다

다른 사람들보다 더 힘들어 권리? 그래서 어떤 지도자들, 어떤 파티션들, 어떤 복제본을 사용하면 시스템을 훨씬 더 균형있게 만들 수 있습니까? 실제로 복제본 이동의 영향은 무엇입니까? 이제 탄력성과 안정성 측면에서 그 맥락에서 볼 때, 맞습니까? 브로커가 죽으면 어떻게 될까요? 데이터 손실의 위험에 처해 있습니까? 또는, 내 시스템이 될 것 같습니다 이제 병목 현상이 생겼어 하나 이상의 노드를 추가하면 어떻게됩니까? 우리가 실제로 어떤 일을 시작한 데는 문제가 있습니다 여전히 꽤 진행 중입니다

자, 우리가 실제로 집중했던 곳은 일단 지연 (lag)을 감지 할 수있는 지연 (lagging) 시나리오에서, 사용자를 운영 담당자 또는 애플리케이션 소유자에게 안내 할 수 있습니까? 근본 원인이 무엇인가? 그리고이 경우, 이 작업을 수행 할 경우 병목 현상은 Kafka가 가진 파티션 수에 있습니다 파티션 수를 20 개로 늘리면, 그러면 대기 시간 SLA를 충족시킬 수있을 것입니다 그렇습니까? 그래서, 그것은 같이 들어가고, 많은 모델링이 있습니다 그리고 좋은 소식은, 특히 Kafka에서 이러한 지표 지향적 인 측면에서, 세계의 HBase 종류, 훈련 데이터는 생성하기가 어렵지 않습니다 너도 알다시피, 너는 다른 것에 아주 집중해야했다

유스 케이스의 종류,하지만 특히, 당신도 알다시피, 더 많은 것을 추가하는 것의 영향 파티션 및 그런 것들을 사용하면 훈련 데이터를 생성 할 수 있고 더 많은 관측을 할 때마다 지속적으로 모델을 사용자 정의하십시오 필드에 이제 모든 것들이 너무 장미 빛이 아니며 실제로 언급 할 것입니다 카프카 크루즈 컨트롤 프로젝트 크루즈 컨트롤의 주요 개발자 프로젝트는 청중에게 바로 있습니다

그래서, 그들은 도전을했습니다, 크루즈 컨트롤 프로젝트와 유사한 것들 Pinterest 및 마이크로 소프트로부터? 문제는 동적으로 균형을 잡는 방법입니다 너의 작업량? 어떻게하면 영향이 실제로 움직일 것인가를 어떻게 예상합니까? 한 노드에서 다른 노드로의 리더 또는 복제본? 추가로 인한 영향은 무엇입니까? 한 명 더 브로커 맞지? 그래서, 이것은 그것이라고 말하는 것이 합리적이라고 생각합니다 초기 작업이지만 게시 한 흥미로운 결과가 많이 있습니다 최근에 어떻게하면 CPU 사용률을 예측할 수있는 모델을 구축 할 수 있는지 리더 및 복제본과 같은 주요 KPI 중 일부를 기반으로하는 브로커 바이트 인 그리고 바이트 아웃, 맞죠? 메시지 처리 속도는 물론 카프카에서 농산물 및 농산물과 같은 다양한 유형의 요청 비율 페치 요청 그리고 나는 여기에가는 더 많은 방법이있을 것이라고 확신합니다

그러나 그것은 매우 흥미 롭습니다 이런 식으로 지역 사회에서 더 광범위한 일을 볼 수 있습니다 그래서 그게 나를 아주 내게로 데려다 준다 마지막 슬라이드 권리? 그래서, 본질적으로 내가 이야기 할 약속은 : 우리가 DevOps에서 서로 다른 도전적인 목표를 한 손으로 취할 수있는 방법 팀은 "지연 SLA를 충족해야합니다", "처리량을 충족해야합니다" 그리고

하나의 애플리케이션뿐만 아니라 운영 측면에 대해서 생각해보십시오 Kafka는 이제 진정한 멀티 테넌트, 여러 애플리케이션 실행 거기 여러 주제에서, 맞죠? 이 모든 목표에 대해 생각해보십시오 안정성 또는 인텔 멀티 테넌시 관점에서 볼 때, 전반적인 용량, 계획 및 성장 관점은 말할 것도 없습니다 이러한 모든 유스 케이스를 어떻게 활용할 수 있습니까? 다른 알고리즘을 통해 조심스럽게 작업 할 수 있습니다 AI 및 ML 알고리즘을 사용하고 좋은 일치 방식을 찾아 운영 팀을 활성화합니다

실제로는 더 잘 잘까? 고마워, 그게 내가 가진 전부 야 나는 더 많은 피드백을 얻고 싶습니다 부스가 있습니다 우리는 Unravel에서 당신이 상상할 수있는 많은 작업을하고 있습니다 여기 부스가 있습니다

제발 와줘 우리는 귀하의 의견을 사랑하고 있다면 여러분 중 일부는 아마도 이러한 문제에 대해 생각하고있을 것이라고 확신합니다

우리는 일종의 협력과 아이디어 교환을 좋아할 것입니다 고맙습니다 우리는 질문을받을 수 있습니다 – 여기서 질문 해 – [들리지 않는다

] – 좋은 질문이야! 그래서 질문은, 당신도 알다시피, 이러한 시스템이 지속적으로 실행되기 때문에 어떻게 시스템을 통합 할 수 있습니까? 모델에 대한 피드백, 맞죠? 네가 실제로 그렇게되고 있다니, 들판에 올라 타? 자, 다시 말해야 겠어 쉬운 방법이 하나도 없으며 일종의 유스 케이스에 의존합니다 특이 치 (outlier) 탐지, 모델의 예측 종류, 우리가 한 것은 실험실에서 자체 테스트를 기반으로 모델을 만들었습니다 클러스터 및 기타 등등 우리는이 모델들을 다른 고객은 시도하기를 원하며 피드백을 기반으로 이 중 많은 것들이 포함 된 뉴스는 시스템이 캡처하는 모든 것과 같습니다

보존되어 있습니까? 그래서 오전 10시에 말하자면, 지난 주에, 그것은 많은 예외를 생성했다, 그렇지? 이제 다시 돌아가서 검토 할 수 있습니다 그런 다음에 적어도 이런 종류의 것들을 확인하십시오 이상 및 경보 시스템이 올바른 일을하고 있었습니까? 지상 진실을 살펴 봅시다 그것이 진짜 였는지 아닌지, 그렇지? 그렇게해서

그것은 수동 부분입니다 실제로 볼 수 있습니다 더 많은 것을 얻으십시오

여러분은 현장에서의 관찰을 알고 있습니다 그런 다음 알고리즘을 개선하십시오 이제, 스펙트럼의 다른 끝에서, 우리가 실제로 한 것은 이러한 많은 근본 원인들과 같습니다 문제가 시스템에 자동으로 주입 될 수 있습니다 그래서 우리는 끊임없이 뛰고 있습니다

카프카 클러스터 내부적으로는 시스템 자체에서 Kafka, 그래서 우리가하는 일은 끊임없이 부하를 펌핑하고, 다른 종류를 주사하는 것입니다 항상 문제를 파악하고 우리의 모델로부터의 탐지는 주입 될 실제지면에 관한 것입니다 그래서, 당신은 일종의 두 가지를해야합니다 더 좋은 기술이 있었으면 좋겠어

이제 모델의 일부, 특히 모델링의 관점에서 당신이 얻은 관찰을 바탕으로 끊임없이 재교육을하는 것이 좋습니다 권리? 그래서 기계 학습 관점에서, 또한 거기에 일부 모델 다른 사람들보다 낫지 만, 우리가 좋아하는 것, 너도 알다시피, 내가 제안하는 것은 끊임없이 당신의 장점을 계속 점검해야한다는 것입니다

테스트 환경에서 여러 가지 문제를 주입하여 모델을 만들고, 무슨 일이 일어나고 있는지 보러 – 문제는 혼돈이 될거야 – 당연하지

당연하지, 그래 예? – [들리지 않음]을 어떻게 평가합니까? – 그 질문을 반복하고 싶니? – 예 문제는 분산 시스템에서 어떻게 다시 할 수 있느냐입니다 오류는 다른 장소에서 발생할 수 있습니다 그리고 분산 시스템에서, 그것은 당신이 뭔가 단계적으로 가지고있는 유명한 문제입니다

다른 시스템과 다른 시스템과 같이 전파됩니다 근본 원인, 다른 일이 실패하고 루트 원인은 맞지? 이것이 우리가 모든 데이터를 하나로 모으고 해결하려는 것입니다 흥미로운 알고리즘을 적용 할 수 있습니다 이제 우연히도 이전 지층, 우리는 정확히 그 문제에 관해 이야기를 나눴습니다 어떻게 오류를 수집합니까 로그의 메시지를 확인하고 근본 원인으로 안내 할 수있는 모델을 만드시겠습니까? 그래서, 더 많은 오프라인 이야기처럼 행복하게

더 이상 질문 할 시간이 있습니까? – [들리지 않음] – 그게 아주로드 된 질문입니다 그래서 질문은, 당신도 알다시피, 저는 카프카 (Kafka), 스트리밍 어플리케이션 및 아키텍처에 대해 이야기했습니다 그리고 나서이 SLA 관리와 같은 모든 것들이 금융 분야에서 적용 할 수 있습니까? 예, 귀하가 금융 도메인과 우리는 많은 것을 알고 있습니다

Unravel뿐만 아니라, 카프카를 지원하는 다른 회사에서 거기에 많은 금융 회사들이 사용하고 있습니다 그러나 그 질문에 대해 오프라인에서 더 이야기하고 싶습니다 적어도 우리가 Kafka와 협력하여 얻은 전문 지식을 제공하십시오 한 가지 더 질문이 있습니다 더 많은 질문이 있으십니까? 제발

– [들리지 않음]에 대한 답은 무엇입니까? – 그래 그래 실제로 시계열을 저장하여 데이터는 측정 항목뿐 아니라 로그, 신호 실행 계획은 말할 것도없고 많은 다른 신호가있는 것처럼 말입니다 마찬가지로, 우리는 실제로 시계열을 스스로 만들어야했습니다

네 방망이를 벗어나서, 만약 당신이 단지 사물을 시험하고 싶다면, 프로 메테우스는 실제로 많은 사용법을 볼 수 있습니다 네가 할 수 있다고 확신 해 InfluxDB를 사용하십시오 – 네

– 네 또 다른 질문? – [Man 2] 우리 스피커에 감사드립니다 – 고마워

Unique Strategy + Machine Learning = New Quality Clients

사업자 인 Bob을 만나십시오 그는 좌절감이 있습니다

시간, 자원 또는 전문 지식을 바탕으로 성공적인 광고 캠페인을 만들고 관리 할 수 ​​있습니다 이봐, 나는 디지털 어벤져 스 (Digital Avengers)의 설립자 제시 (Jesse) 다 사업을하는 사람을 도울 수 있습니다! 저는 Google 인증 전문가이며 개인적으로 당신과 함께 전략을 세우십시오 캠페인 내 고유 수식이 강력한 반환으로 변환되었습니다

내 현재 고객을위한 투자 및 할 수 있습니다 방법에 대해 이야기 할 준비가되었습니다 우리는 당신의 독특한 사업을 도울 수 있습니까?