Spreadsheet Understanding Using Statistics and Deep Learning

>> 안녕 저는 벤 존입니다 스프레드 시트 이해에 대해 이야기하겠습니다

두 개의 프로젝트 Jura와 Alex Polozov와의 공동 작업 인 ExceLient는 에머리 버거, 댄 바로우 스프레드 시트에 관한 것 수백만의 사람들이 사용한다는 것입니다 그들은 중요한 결정을 내리는 데 사용됩니다 재정적 결정, 경제적 결정 등과 같은 이 스프레드 시트 중 많은 부분에 실제로 오류가 있습니다 실제로 뉴스를 보면 Reinhart-Rogoff 스프레드 시트 하버드 경제학자가 개발 한 스프레드 시트는 긴축 정책을 정당화하는 데 사용 그리스 및 미국과 같은 국가를 포함합니다 Reinhart-Rogoff 스프레드 시트는 매우 복잡한 스프레드 시트는 부채의 역사 수백 년에 걸친 국가 Reinhart-Rogoff 스프레드 시트에서 찾은 것은 실제로 중요한 오류가 있었다 저자가 잘못된 결론을 이끌어 내도록 유도하십시오

이것의 핵심 메시지는 많은 사람들이 스프레드 시트를 사용하여 중요한 결정과 우리가하려고하는 것은 그들을 도울 스프레드 시트 사용자 스프레드 시트를 더 쉽게 이해하고 그들에게 더 나은 결정을 내 리도록 도와주십시오 먼저 ExceLient라는 첫 번째 도구부터 시작하겠습니다 내가 여기서 보여주는 것은 실제로 Reinhart-Rogoff 스프레드 시트 이 하버드 경제학자들이 처음 개발했습니다 특히 여기서 중요한 시트는 요약 시트입니다 여러 국가 미국에서 볼 수 있듯이 영국 등 24 개국

의 역사적 부채에 관한 정보 이들 국가는 경제 성장과 관련이 있습니다 이 스프레드 시트를 보면 매우 복잡해 보입니다 이 나라들처럼 미국에는 많은 데이터가 있습니다 에 대한 많은 데이터 행 1791 년에 미국에서 시작해 하지만 요약을 보면 당신은 왜 그것이 사용자로서 어렵다고 상상할 수 있습니다 이 스프레드 시트가 올바른지 아닌지를 이해합니다 기술에서 우리가 한 일 중 하나는 우리는 ExceLient라는 기술을 가지고 있습니다 구조를 매우 빠르게 이해합니다 통계를 사용하여 스프레드 시트의 특히이 버튼을 누르면 Reinhart-Rogoff 스프레드 시트의“Reveal Structure '' 색상이 정보를 인코딩 할 것입니다 사물에 대해 사용자에게 스프레드 시트에서 일어나고 있습니다

특히 회색은 데이터가 있음을 의미하며 일반 데이터이지만 회색은 시트의 일부 수식으로 참조됩니다 노란색은 특이한 요소이기 때문에 시트에있는 데이터 수식에서 참조되지 않는 이 프리젠 테이션에서 바로 보는 것은 이 데이터 범위는 어떤 공식에서도 사용되지 않습니다 좀 더 자세히 살펴보면 당신이 찾는 것은 그 공식입니다 여기 평균을 계산하는 실제로이 셀 범위를 평균에 포함시키지 않습니다 이것은 Reinhart-Rogoff 스프레드 시트의 버그입니다 특히 캐나다, 벨기에, 오스트리아 및 호주 평균적으로 계산되지 않습니다

사실, 그것은 잘못된 결론으로 ​​이어집니다 ExceLient와 함께하는 것은 매우 유용한 도구입니다 무슨 일이 일어나고 있는지 빠르게 이해 스프레드 시트를 작성하고 중요한 결정을 내립니다 상상할 수 있듯이 스프레드 시트를 만든 개인 및 원래 Reinhart-Rogoff가이 도구를 가지고 있었다면 그들은 이것을 매우 중요한 오류로 만들었을 것입니다 잘못된 결론으로 ​​이어집니다 우리는 또한 볼 수 있습니다 다른 시트 스프레드 시트 (예 : 미국) 이 구조를 밝히면 당신은 다른 색상을 다시 보여주는 참조 다른 열이 다른 방식으로 계산되고 있습니다

하지만 흥미로운 점은 우리가 여기 있다는 것입니다 본질적으로 우리는 의심 지수라고 부릅니다 이 특정 범위의 세포가 클릭하면 거기로 이동합니다 이 범위의 세포는 의심스럽고 여기 보시는 것은이 세포가 첫 번째 칸인 K7은 실제로 그 아래의 셀과 다른 공식 다시, 아주 빨리 스프레드 시트에서 버그를 발견하고 다시 버그를 찾을 수 있습니다 원본 스프레드 시트입니다

그래서 저자는 실제로 이해하지 못했습니다 괜찮아 이것이 ExceLient입니다 나는 당신이 그것을 시도하는 것이 좋습니다 실제로 온라인에서 사용할 수 있습니다

다른 기술이 있습니다 연구에서 우리가하려고하는 것 중 하나는 스프레드 시트에는 데이터가 모두 포함되어 있으므로 수식은 코드와 프레젠테이션입니다 인간과 같은 것 다른 사람과 의사 소통하려고합니다 따라서이 시트는 특히 이에 대한 예입니다 사용자에게 헤더가 있습니다

사용자는 다음과 같은 방식으로 데이터를 형식화했습니다 공백에 도움이되는 빈 행과 열이 있습니다 결과적으로 어디서 이 테이블의 시작과 끝은 실제로 완전히 명확하지 않습니다 따라서 프레젠테이션에는 명시 적이 지 않습니다 우리가 개발 한 것은 Jura 기술입니다 본질적으로 테이블을 찾으려고 노력하고 있습니다

주어진 시트는 기본적으로 임의의 경계입니다 Jura는 다음을 기반으로하는 기술을 사용합니다 모든 세포를보고 질문을하는 신경망 우리가 질문하는 신경망, 이 셀이 테이블의 1/4입니까? 우리가 가진 것은 능력이 있다는 것입니다 신경망이 어떻게 생각하는지 보여주기 위해 모서리와 우리가보고있는 것은 신경망이이 코너에 이 코너와이 코너는 모두 오른쪽 아래 모서리처럼 보입니다 그것이 파란색으로 인코딩되는 것입니다 여기 위 모서리는 왼쪽 위 모서리처럼 보입니다

그래서 그것이하려는 것은 전체 구조를 이해하는 것입니다 에 기초한 시트 개별 세포와 그것이 생각하는 것이 모퉁이입니다 모든 세포에 대한 전체적인 관점처럼 이해되면 우리의 기술 Jura는 기본적으로 테이블을 찾을 수 있습니다 그들이 찾은 시트에있는 모든 테이블을 보여주기 때문에 그리고 여기서 볼 수있는 것은 이것이 테이블이라는 것을 이해한다는 것입니다 예를 들어,이 특정 부분은 주석 인 테이블 Jura는 테이블의 일부로 계산하지 않습니다

각주와 비슷하기 때문에 의미가 있습니다 여기서 보여 드린 것은 서로 다른 두 가지 기술입니다 두 가지 기술을 사용합니다 통계 분석과 신경 네트워크 스프레드 시트를 이해하고 궁극적으로 사용자가 신속하고 효과적으로 사용할 수 있도록 그들의 스프레드 시트와 올바른 결론 시간 내 주셔서 감사합니다