작성자: 패트릭 라일리
특별한 감사를 드립니다. Diane Tang, Rehan Khan, Elizabeth Tucker, Amir Najmi, Hilary Hutchinson, Joel Darnauer, Dale Neal, Aner Ben-Artzi, Sanders Kleinfeld, David Westbrook, Barry Rosenberg
기록
- 최종 주요 업데이트: 2019년 6월
- 이 자료의 이전 버전은 비공식 Google 데이터 과학 블로그에 게시되었습니다. 2016년 10월
개요
데이터 더미에서 진실과 유용한 정보를 도출하는 것은 강력하지만 오류가 발생하기 쉬운 작업입니다. 최고의 데이터 분석가와 데이터에 기반한 엔지니어가 데이터를 바탕으로 신뢰할 수 있는 발표를 하는 것으로 명성을 얻게 됩니다. 하지만 신뢰감을 줄 수 있는 무엇을 하는 걸까요? 조심하다, 방법론적과 같은 형용사를 자주 듣지만, 가장 신중하고 체계적인 애널리스트는 실제로 무엇을 하나요?
Google에서 정기적으로 수집하는 데이터의 유형을 고려할 때 이는 결코 간단한 질문이 아닙니다. 일반적으로 매우 큰 데이터 세트를 사용할 뿐만 아니라 이 데이터 세트는 매우 풍부합니다. 즉, 각 데이터 행에는 일반적으로 많은 속성이 있습니다. 이것을 특정 사용자에 대한 시간적 이벤트 시퀀스와 결합하면 데이터를 살펴볼 수 있는 수많은 방법이 있습니다. 이와 달리, 일반적인 학술 심리학 실험에서는 연구자가 모든 데이터 포인트를 간단하게 살펴봐야 합니다. 대규모 고차원 데이터 세트에서 제기하는 문제는 대부분의 과학 연구 역사에서 마주치는 것과는 매우 다릅니다.
이 문서에서는 신중하고 체계적인 분석가가 고차원적인 대규모 데이터 세트에 사용하는 아이디어와 기법을 요약합니다. 이 문서에서는 로그 및 실험적 분석에 중점을 두고 있지만 대부분의 기법이 보다 광범위하게 적용됩니다.
문서의 나머지 부분은 데이터 분석의 다양한 측면을 다루는 세 가지 섹션으로 구성됩니다.
- 기술: 데이터 조작 및 조사에 대한 아이디어와 기법입니다.
- 프로세스: 데이터에 접근하는 방법, 질문할 내용, 확인할 항목에 대한 권장사항입니다.
- 사고방식: 다른 사람과 협력하고 유용한 정보를 전달하는 방법
기술
데이터를 검사하는 몇 가지 기법을 살펴보겠습니다.
분포 살펴보기
대부분의 실무자는 요약 측정항목 (예: 평균, 중앙값, 표준 편차 등)을 사용하여 분포에 관해 통신합니다. 하지만 일반적으로 히스토그램, 누적 분포 함수 (CDF), 분위수-분위수 (Q-Q) 플롯 등을 생성하여 훨씬 더 풍부한 분포 표현을 검사해야 합니다. 이렇게 풍부한 표현을 통해 멀티모달 동작이나 중요한 이상점 클래스와 같은 데이터의 중요한 특성을 감지할 수 있습니다.
이상점 고려하기
이상점은 탄광의 카나리아가 될 수 있으므로 분석에서 보다 근본적인 문제를 나타냅니다. 데이터에서 이상점을 제외하거나 이를 '비정상적인' 카테고리로 묶는 것은 괜찮지만 데이터가 해당 카테고리에 속한 이유를 확인해야 합니다.
예를 들어 클릭수가 가장 적은 쿼리를 보면 계산할 수 없는 요소에 대한 클릭수가 나타날 수 있습니다. 클릭수가 가장 많은 쿼리를 살펴보면 계산해서는 안 되는 클릭수가 나타날 수 있습니다. 반면 절대 설명하지 못할 이상점이 있을 수 있으므로 이 작업에 시간을 얼마나 할애할지 신중하게 고려해야 합니다.
노이즈 고려하기
무작위성은 존재하며 우리를 속일 것입니다. 어떤 사람들은 'Google에 방대한 데이터가 있으면 노이즈가 사라진다'고 생각합니다. 이는 사실이 아닙니다. 생성하는 모든 데이터 수나 요약에는 신뢰 구간 및 p-values과 같은 측정값을 통해 이 추정치의 신뢰도에 대한 개념이 수반되어야 합니다.
예시 보기
새 분석 코드를 생성할 때마다 기본 데이터의 예와 코드에서 이러한 예를 해석하는 방법을 살펴봐야 합니다. 이 단계를 수행하지 않고는 복잡성의 작동 코드를 생성하는 것이 거의 불가능합니다. 분석은 유용한 요약을 생성하기 위해 기본 데이터에서 많은 세부정보를 추상화합니다. 개별 예시의 전체 복잡성을 살펴보면 요약이 합리적이라는 확신을 얻을 수 있습니다.
이러한 예를 샘플링하는 방법은 중요합니다.
- 기본 데이터를 분류하는 경우 각 클래스에 속한 예를 살펴보세요.
- 클래스 규모가 더 큰 경우 더 많은 샘플을 살펴보세요.
- 숫자 (예: 페이지 로드 시간)를 계산하는 경우 측정 공간 전반의 점뿐 아니라 극단적인 예 (가장 빠른 5%와 가장 느린 5%일 수 있습니다. 분포가 어떤 모습인지 알 수 있음)를 살펴봐야 합니다.
데이터 슬라이스
슬라이싱은 데이터를 하위 그룹으로 분리하고 각 하위 그룹의 측정항목 값을 별도로 확인하는 것을 의미합니다. 일반적으로 브라우저, 언어, 도메인, 기기 유형 등의 측정기준을 세분화합니다. 기본 현상이 하위 그룹 간에 다르게 작동할 가능성이 있는 경우 데이터를 분할하여 실제로 그런지 확인해야 합니다. 슬라이싱으로 다른 결과가 나올 것으로 예상되지 않더라도 내부 일관성을 위해 몇 개의 슬라이스를 확인하면 올바른 측정을 하고 있다는 확신을 가질 수 있습니다. 경우에 따라 특정 슬라이스에 잘못된 데이터가 있거나 사용자 상호작용이 손상되었거나 어떤 식으로든 근본적으로 다를 수 있습니다.
두 그룹을 비교하기 위해 데이터를 분할할 때마다 (예: 실험군 대 대조군 또는 '시간 A'와 '시간 B' 비교) 항상 혼합 변화를 알고 있어야 합니다. 믹스 시프트는 각 그룹의 슬라이스 데이터 양이 다른 경우입니다. 이로 인해 심슨의 역설과 기타 혼동이 발생할 수 있습니다. 일반적으로 슬라이스의 상대적인 데이터 양이 두 그룹에서 동일한 경우 안전하게 비교할 수 있습니다.
실질적인 중요성 고려
데이터가 많으면 통계적 유의성에만 집중하거나 데이터의 모든 세부 사항에 초점을 맞추고 싶을 수 있습니다. 그러나 'X 값이 Y 값보다 0.1% 더 크다는 것이 사실이지만 중요할까요?'라고 자문해 보아야 합니다. 이는 데이터의 일부를 이해/분류할 수 없는 경우에 특히 중요할 수 있습니다. 로그에서 일부 사용자 에이전트 문자열을 이해할 수 없는 경우 해당 문자열이 데이터의 0.1% 또는 10% 를 차지하는지 여부에 따라 해당 사례를 조사해야 할 정도가 달라집니다.
또는 데이터 양이 적은 경우도 있습니다. 상당수의 변경사항이 통계적으로 유의미하지 않은 것처럼 보이지만 이러한 변화가 '중립적'이라고 주장하는 것과는 다릅니다. '여전히 실질적으로 유의미한 변화가 있을 가능성은 얼마나 되나요?'라고 자문해 보세요.
시간 경과에 따른 일관성 확인
시간이 지남에 따라 시스템이 진화함에 따라 기본 데이터에 많은 방해가 발생하기 때문에 거의 항상 시간 단위로 데이터를 분할해야 합니다. (날짜를 사용하는 경우가 많지만 다른 시간 단위를 사용하는 것도 유용할 수 있습니다.) 기능이나 새로운 데이터 수집을 처음 실행할 때 실무자는 모든 것이 예상대로 작동하는지 신중하게 확인하는 경우가 많습니다. 하지만 시간이 지남에 따라 많은 중단이나 예기치 않은 동작이 발생할 수 있습니다.
특정 날짜 또는 날짜 집합이 이상점이라고 해서 해당 데이터를 삭제해야 한다는 의미는 아닙니다. 이 데이터를 유인 요소로 활용하여 삭제 전에 해당 날짜나 날짜가 다른 인과적 이유를 파악합니다.
또한 일별 데이터를 살펴보면 결과적으로 신뢰 구간이나 통계적 유의성에 대한 주장으로 이어질 데이터의 변동을 파악할 수 있습니다. 이는 일반적으로 엄격한 신뢰도 구간 계산을 대체하지 않지만, 일별 그래프에서만 통계적으로 유의미한 변화를 보이는 경우가 많습니다.
필터링 확인 및 집계
거의 모든 대규모 데이터 분석은 다양한 단계의 데이터를 필터링하는 것으로 시작됩니다. 미국 사용자, 웹 검색, 광고가 포함된 검색만 고려하는 것이 좋습니다. 어떤 경우든 귀하는 다음을 준수해야 합니다.
- 어떤 필터링을 하고 있는지 확인하고 명확하게 설명하세요.
- 각 단계에서 필터링되는 데이터의 양을 셉니다.
후자를 처리하는 가장 좋은 방법은 제외하는 모집단을 포함하여 모든 측정항목을 계산하는 것입니다. 그런 다음 해당 데이터를 보고 '스팸 필터링이 삭제한 검색어의 비율은?'과 같은 질문에 답할 수 있습니다. (필터링하는 이유에 따라 이러한 유형의 분석이 불가능할 수도 있습니다.)
비율에는 명확한 분자와 분모가 있어야 합니다.
가장 흥미로운 측정항목은 기본 측정값의 비율입니다. 분자와 분모의 정확한 정의에 흥미로운 필터링이나 기타 데이터 선택 항목이 숨겨져 있는 경우가 많습니다. 예를 들어 다음 중 '검색어 / 사용자 수'가 실제로 의미하는 바는 무엇인가요?
- 쿼리 / 쿼리를 사용한 사용자 수
- 검색어 / 오늘 Google을 방문한 사용자
- 쿼리 / 활성 계정이 있는 사용자 (예, active를 정의해야 함)
여기에 명확히 설명하면 자신과 다른 사람에게 혼란을 주지 않을 수 있습니다.
또 다른 특별한 경우는 일부 데이터에 대해서만 계산할 수 있는 측정항목입니다. 예를 들어 '클릭할 시간'은 일반적으로 '클릭이 발생할 경우 클릭할 시간'을 의미합니다. 이와 같은 측정항목을 볼 때는 항상 필터링을 확인하고 비교 중인 그룹 간에 필터링에 변화가 있는지 확인해야 합니다.
처리
이 섹션에는 데이터에 접근하는 방법, 데이터에 관해 확인해야 할 사항, 확인해야 할 사항에 대한 권장사항이 포함되어 있습니다.
검증, 설명, 평가 별도
데이터 분석은
- 검증1: 데이터가 일관성이 없고, 올바르게 수집되었다고 생각하며, 내 생각에 부합하는 데이터라고 생각하나요?
- 설명: 이 데이터의 객관적 해석은 무엇인가요? 예: '사용자가 X로 분류되는 검색어 수가 줄어듭니다', '실험 그룹에서 X와 Y 사이의 시간이 1% 더 많음', '결과의 다음 페이지로 이동하는 사용자가 더 적습니다.'
- 평가: 설명의 경우 데이터를 통해 사용자, Google 또는 세상에 좋은 일이 일어나고 있다는 것을 알 수 있나요?
두 단계를 구분하면 다른 사람과 더 쉽게 합의에 도달할 수 있습니다. 설명은 데이터에 대해 모든 사람이 동의할 수 있는 내용이어야 합니다. 평가는 훨씬 더 많은 논쟁을 불러일으킬 가능성이 높습니다. 설명과 평가를 분리하지 않으면 원하는 데이터의 해석만 볼 가능성이 훨씬 높습니다. 또한 일반적으로 다른 특성 및 측정항목과 철저한 비교를 통해 측정항목의 규범적 값을 설정하려면 상당한 투자가 필요하기 때문에 평가가 훨씬 더 어려운 경향이 있습니다.
이러한 단계는 선형적으로 진행되지 않습니다. 데이터를 탐색하면서 단계 사이를 오갈 수 있지만 언제든지 현재 어느 단계에 있는지 명확하게 확인해야 합니다.
실험 및 데이터 수집 설정 확인
데이터를 살펴보기 전에 데이터가 수집된 맥락을 이해해야 합니다. 실험에서 가져온 데이터인 경우 실험의 구성을 확인합니다. 새로운 클라이언트 계측에서 비롯된 경우 최소한 데이터 수집 방법을 대략적으로 이해해야 합니다. 비정상적이거나 잘못된 구성 또는 채우기 제한(예: Chrome에서만 유효한 데이터)을 발견할 수도 있습니다. 여기서 주목할 만한 사항은 나중에 이론을 구축하고 검증하는 데 도움이 될 수 있습니다 이때 다음과 같은 사항을 고려해 보시기 바랍니다.
- 실험이 진행 중이라면 직접 사용해 보세요. 할 수 없다면 최소한 동작의 스크린샷이나 설명을 살펴보세요.
- 실험 기간 (연말연시, 대규모 출시 등)에 비정상적인 점이 있었는지 확인합니다.
- 실험을 적용할 사용자 집단을 파악합니다.
변경되어서는 안 되는 사항 확인
'유효성 검사' 단계에서는 관심 있는 질문에 실제로 대답하기 전에 (예: '얼굴 사진을 추가했을 때 클릭수가 증가 또는 감소했나요?') 실험에 영향을 줄 수 있는 데이터의 다른 변동성을 배제합니다. 예를 들면 다음과 같습니다.
- 사용자 수가 변경되었나요?
- 모든 하위 그룹에 영향을 받은 쿼리가 올바르게 표시되었나요?
- 오류율이 변경되었나요?
이러한 질문은 실험/대조군 비교 및 시간 경과에 따른 추세를 검사할 때 적합합니다.
표준 첫 번째, 두 번째 맞춤설정
새로운 기능과 데이터를 살펴볼 때 이 새로운 기능의 새롭거나 특별한 측정항목을 바로 확인하고 싶을 수 있습니다. 하지만 표준 측정항목이 변경될 것으로 예상되더라도 항상 먼저 확인해야 합니다. 예를 들어 페이지에 새 유니버설 블록을 추가할 때는 '웹 검색결과 클릭수'와 같은 표준 측정항목에 미치는 영향을 이해해야 이 새로운 결과에 대한 커스텀 측정항목을 자세히 살펴볼 수 있습니다.
표준 측정항목은 커스텀 측정항목보다 유효성 검사가 훨씬 더 우수하며 정확할 가능성이 높습니다. 커스텀 측정항목이 표준 측정항목과 맞지 않는다면 커스텀 측정항목이 적절하지 않을 가능성이 높습니다.
2회 이상 측정
특히 새로운 현상을 포착하려는 경우 근본적인 항목을 여러 가지 방법으로 측정해 보세요. 그런 다음 이러한 여러 측정값이 일관된지 확인합니다. 여러 측정을 사용하면 측정 또는 로깅 코드의 버그, 기본 데이터의 예기치 않은 기능 또는 중요한 필터링 단계를 식별할 수 있습니다. 측정값에 다른 데이터 소스를 사용할 수 있으면 더 좋습니다.
재현성 확인
시간 경과에 따른 슬라이싱과 일관성 모두 재현성을 확인하는 특정 예입니다. 어떤 현상이 중요하고 의미 있는 경우에는 다양한 사용자 집단과 시간에 걸쳐 발견되어야 합니다. 하지만 재현성을 확인하는 것은 이 두 가지 확인을 수행하는 것 이상의 의미가 있습니다. 데이터의 모델을 빌드하는 경우 기본 데이터의 작은 변동에도 이러한 모델이 안정적이어야 합니다. 데이터의 다양한 시간 범위 또는 무작위 하위 샘플을 사용하면 이 모델의 안정성/재현 가능 여부를 알 수 있습니다.
모델을 재현할 수 없다면 데이터를 생성한 기본 프로세스에 관한 기본적인 내용을 캡처하지 않고 있는 것일 수 있습니다.
이전 측정값과의 일관성 확인
종종 과거에 계산된 것과 비슷한 측정항목을 계산합니다. 서로 다른 사용자 집단을 대상으로 측정한 측정항목과 이전에 보고된 측정항목을 비교해야 합니다.
예를 들어 특정 모집단의 쿼리 트래픽에서 평균 페이지 로드 시간이 5초인 것으로 측정되지만 모든 사용자에 대한 이전 분석 결과 평균 페이지 로드 시간이 2초인 경우 조사가 필요합니다. 귀하의 수치가 이 집단에 적합할 수도 있지만, 이를 검증하기 위해서는 더 많은 작업이 필요합니다.
정확한 동의가 필요하지는 않지만 같은 상황에 처해야 합니다. 그렇지 않다면, 자신을 완전히 확신할 수 있을 때까지 잘못된 판단을 내리세요. 가장 놀라운 데이터는 멋지고 새로운 통찰력이 아니라 오류로 판명될 것입니다.
새 측정항목을 먼저 기존 데이터/기능에 적용해야 합니다.
새로운 데이터 소스를 수집하여 새로운 측정항목을 만들고 새로운 것을 배우려고 하면 새 측정항목이 맞는지 알 수 없습니다. 새 측정항목을 사용할 때는 먼저 알려진 기능 또는 데이터에 적용해야 합니다. 예를 들어 사용자 만족도에 관한 새로운 측정항목이 있는 경우 해당 측정항목이 만족도에 가장 도움이 되는 가장 적합한 기능을 알려주는지 확인해야 합니다. 사용자의 관심을 페이지로 유도하는 위치에 관한 새로운 측정항목이 있는 경우 시선 추적 또는 평가자 연구를 통해 이미지가 페이지 관심에 미치는 영향에 관해 Google이 파악한 정보와 일치하는지 확인합니다. 이렇게 하면 새로운 것을 배우러 갈 때 검증이 제공됩니다.
가설을 세우고 증거를 찾습니다.
일반적으로 복잡한 문제에 대한 데이터 분석은 반복적입니다.2 데이터의 이상치, 추세 또는 다른 특성을 발견하게 됩니다. 당연히 이 데이터를 설명하기 위한 이론을 개발하게 됩니다. 이론을 만들어 진실이라고 주장하지 마세요. 이 이론을 확증/부인할 증거 (데이터 내부 또는 외부)를 찾아보세요. 예를 들면 다음과 같습니다.
- 학습 추세처럼 보이는 항목이 있다면 빈도가 높은 사용자에게 가장 많이 나타나는지 확인하세요.
- 일부 기능의 출시로 인해 이상치가 발생했다고 생각되는 경우 해당 기능이 실행된 인구만 이상치의 영향을 받는지 확인하세요. 또는 변경사항의 정도가 출시에 대한 기대치와 일치하는지 확인하세요.
- 특정 언어에서 사용자 증가율이 변하는 경우 해당 사용자 인구 변화율을 검증하는 외부 소스를 찾아보세요.
훌륭한 데이터 분석에는 이야기할 스토리가 있습니다. 옳은 이야기인지는 스스로 이야기한 다음 틀렸다는 증거를 찾아야 합니다. 이를 위한 한 가지 방법은 스스로에게 '내 이야기를 검증/무효화하기 위해 어떤 실험을 해야 할까?'라고 자문하는 것입니다. 이러한 실험을 할 수 없거나 할 수 없는 경우에도 보유하고 있는 데이터로 검증하는 방법에 대한 아이디어를 얻을 수 있습니다.
좋은 소식은 이러한 이론과 가능한 실험을 통해 특정 특성이나 데이터에 대해 배우려는 시도를 초월하는 새로운 탐구로 이어질 수 있다는 것입니다. 그런 다음 이 데이터뿐만 아니라 모든 종류의 향후 분석에 사용할 새로운 측정항목과 기술을 도출하는 영역으로 들어갑니다.
엔드 투 엔드 반복의 탐색적 분석 이점
탐색적 분석을 수행할 때는 전체 분석을 최대한 많이 반복하세요. 일반적으로 신호 수집, 처리, 모델링 등 여러 단계를 거치게 됩니다. 초기 신호의 첫 번째 단계를 완벽하게 만드는 데 너무 오랜 시간을 소모하면 같은 시간 내에 더 많은 반복을 실행할 기회를 놓치게 됩니다. 또한 마지막에 데이터를 살펴보면서 방향을 바꾸는 발견을 하게 될 수도 있습니다. 따라서 처음부터 완벽을 추구하는 것이 아니라 합당한 결과를 얻는 데 초점을 맞춰야 합니다. 직접 메모를 남기고 필터링 단계, 파싱할 수 없거나 이례적인 요청과 같은 사항을 확인하세요. 단, 탐색적 분석을 시작할 때 이를 모두 제거하느라 시간을 낭비하지 마세요.
의견 확인
Google에서는 일반적으로 사용자 성공에 관한 다양한 측정항목을 정의합니다. 예를 들어 사용자가 결과를 클릭했나요? 그런 다음 해당 데이터를 시스템에 다시 피드하면 (실제로 여러 곳에서 수행함) 평가 혼동이 발생할 가능성이 많습니다.
시스템에 다시 공급되는 측정항목을 변경사항 평가의 기준으로 사용할 수 없습니다. 더 많은 클릭이 발생하는 광고를 더 많이 게재한다면 '더 많은 클릭'이 '더 행복'을 의미하기는 하지만, '더 많은 클릭수'를 기준으로 삼으면 안 됩니다. 또한 결과를 혼합해서 조작한 변수를 분별해서도 이해하기 어렵거나 불가능할 수 있습니다.
사고방식
이 섹션에서는 다른 사람과 협력하고 통찰력을 전달하는 방법을 설명합니다.
데이터 분석은 데이터나 기법이 아닌 질문으로 시작합니다.
데이터 분석에는 항상 동기가 있습니다. 요구 사항을 질문 또는 가설로 작성하면 수집해야 하는 데이터를 수집하고 데이터의 가능한 격차에 대해 생각하는 데 도움이 됩니다. 물론 데이터를 볼 때 묻는 질문은 변화해야 합니다 그러나 질문 없이 분석하면 목적이 없어집니다.
선호하는 기법을 찾은 다음 이 기법이 작동하는 문제 부분만 찾는 함정을 피하세요. 다시 말씀드리지만, 명확한 질문을 만들면 이 함정을 피하는 데 도움이 됩니다.
회의적인 태도와 승자가 되세요.
데이터로 작업할 때 얻은 통찰력의 챔피언이 되는 동시에 이 정보에 회의적이 되어야 합니다. 바라본 데이터에서 몇 가지 흥미로운 현상을 발견할 수 있기를 바랍니다. 흥미로운 현상을 발견하면 스스로 다음 질문을 던져 보세요.
- 이게 얼마나 멋진지 보여주기 위해 또 어떤 데이터를 수집할 수 있을까요?
- 그것을 무효화할 수 있는 것은 무엇입니까?”
특히 특정 답변을 정말로 원하는 사람 (예: '내 특성은 정말 멋져!')을 분석하는 경우와 같은 실수를 하지 않도록 회의적인 입장을 취해야 합니다.
상관관계 != 인과관계
데이터에 관한 이론을 만들 때는 'X가 Y를 유발한다'고 어설션을 하는 경우가 많습니다. 예를 들어 '페이지 속도가 느려지면 사용자의 클릭수가 줄어듭니다.' xkcd도 상관관계로 인해 단순히 인과관계를 수립할 수 없다는 것을 알고 있습니다. 인과관계 이론을 검증하는 방법을 고려하면 일반적으로 인과관계 이론의 신뢰성에 관한 감을 잡을 수 있습니다.
사람들은 때때로 A와 B 사이에 인과 관계가 없더라도 하나의 신호가 다른 신호에 대한 좋은 지표나 프록시가 될 수 있도록 우연의 근본이 되는 무언가가 있어야 한다고 주장함으로써 유의미한 상관관계를 유지하려고 할 수 있습니다. 이 영역은 여러 가설 테스트 문제에 위험합니다. xkcd도 알고 있는 것처럼 충분한 실험과 충분한 측정기준이 주어지면 일부 신호가 특정 실험에 맞게 조정됩니다. 그렇다고 해서 미래에 동일한 신호가 일치한다는 의미는 아니므로 'A와 B를 모두 유발하는 숨겨진 효과 C가 있습니다'와 같은 인과 이론을 고려해야 하며 그렇게 할 수 있는 가능성을 검증해야 합니다.
데이터 애널리스트는 데이터를 소비하려는 사람들을 위해 이러한 인과적 질문을 해결해야 하는 경우가 많습니다. 인과관계에 대해 말할 수 있는 것과 할 수 없는 것을 소비자에게 명확히 알려야 합니다.
동료와 먼저 공유하고 외부 소비자와 공유하세요
이전 요점은 올바른 종류의 건전성 검사 및 검증을 할 수 있는 몇 가지 방법을 제안했습니다. 하지만 동료와 공유하는 것이 이러한 모든 일을 강요하는 가장 좋은 방법 중 하나입니다. 숙련된 동료는 데이터 소비자와 정성적으로 다른 의견을 제공할 수 있습니다. 특히 소비자는 일반적으로 주제가 있기 때문입니다. 피어는 분석의 여러 시점에서 유용합니다 동료가 알고 있는 문제, 측정해야 할 사항에 대한 제안, 이 분야의 과거 연구에 관해 초반부터 알아볼 수 있습니다. 마지막에 동료들은 이상한 점, 불일치, 기타 혼란을 지적하는 데 매우 능숙합니다.
보고 있는 데이터에 대해 잘 아는 동료로부터 의견을 받는 것이 이상적이지만 일반적인 데이터 분석 경험만 있는 동료에게도 매우 가치가 있습니다.
무지와 실수를 예상하고 받아들임
데이터에서 배울 수 있는 정보에는 많은 제한이 있습니다. 네이트 실버는 신호와 노이즈에서 확실성의 한계를 인정해야 더 나은 예측을 할 수 있다는 강력한 주장을 합니다. 무지를 인정하는 것은 일반적으로 즉시 보상이 되는 것이 아닙니다. 당시에는 기분이 좋지 않지만 장기적으로는 여러분과 팀에게 큰 도움이 됩니다. 실수를 하고 나중에 (또는 너무 늦게 발견)할 때는 더 좋지 않지만, 실수를 선제적으로 받아들일수록 존경을 받을 수 있습니다. 이러한 존중은 신뢰성과 영향력으로 이어집니다.
맺음말
우수한 데이터 분석을 수행하기 위한 많은 작업은 분석 소비자에게 즉시 명확하게 표시되지 않습니다. 모집단 크기를 신중하게 검사하고 브라우저 간에 효과가 일관적임을 검증해도 이 데이터에서 의사 결정을 내리려는 사람들의 인식에 도달하지 못할 수 있습니다. 이는 우수한 데이터 분석이 대부분의 사람에게 필요한 것보다 오래 걸리는 이유 (특히 최종 출력만 표시되는 경우)를 설명합니다. 애널리스트로서 우리의 업무 중 하나는 데이터 기반 통찰력을 소비자에게 점진적으로 교육하여 이러한 단계가 무엇이고 왜 중요한지에 대한 것입니다.
이러한 데이터 조작과 탐색의 필요성은 우수한 데이터 분석 언어 및 환경을 위한 요구사항도 제시합니다. 데이터를 검사하는 데 사용할 수 있는 다양한 도구가 있습니다. 위에서 설명한 다양한 기법에 맞는 다양한 도구와 언어가 더 적합합니다. 적절한 도구를 선택하는 것은 분석가의 중요한 스킬입니다. 가장 익숙한 도구의 기능에 제한을 두어서는 안 됩니다. 특정 도구를 적용하는 것이 아니라 유용한 정보를 제공해야 합니다.
-
이를 '초기 데이터 분석'이라고도 합니다. 데이터 분석에 관한 위키백과 문서 ↩를 참고하세요.
-
기술적으로는 확인적 분석이 아닌 탐색적 분석을 수행하는 경우에만 반복적이어야 합니다. ↩