작성자: 패트릭 라일리
특히 다이앤 탕, 레한 칸, 엘리자베스 터커, 아미르 나즈미, 힐러리 허친슨, 조엘 다르나우어, 데일 닐, 아너 벤 아르치, 샌더스 클라인펠트, 데이비드 웨스트브룩, 베리 로젠버그에게 감사드립니다.
기록
- 최종 메이저 업데이트: 2019년 6월
- 이 자료의 이전 버전이 비공식 Google 데이터 과학 블로그에 나왔습니다. 2016년 10월
개요
데이터 더미에서 진실과 통찰을 도출하는 것은 강력하고 오류가 발생하기 쉬운 작업입니다. 최고의 데이터 분석가와 데이터 엔지니어는 신뢰할 수 있는 데이터 발음으로 평판을 얻습니다. 그런데 어떻게 그 사람이 신뢰도를 높이는 걸까요? 신중한 및 방법 같은 형용사를 자주 듣지만 가장 신중하고 분석적인 분석가는 실제로 무엇을 하나요?
이는 쉬운 일이 아니며, 특히 Google에서 정기적으로 수집하는 데이터 유형을 고려해야 합니다. 일반적으로 매우 큰 데이터 세트를 다룰 뿐 아니라 이러한 데이터 세트도 매우 풍부합니다. 즉, 일반적으로 각 데이터 행에는 많은 속성이 있습니다. 특정 사용자의 시간적 이벤트 시퀀스와 결합하면 다양한 방법으로 데이터를 확인할 수 있습니다. 연구자들이 모든 단일 데이터 포인트를 살펴봐야 하는 일반적인 학문 심리 실험과 대조되는 것입니다. 대규모, 고차원 데이터 세트에서 발생하는 문제는 대부분의 과학적 작업 과정에서 일어난 문제와 매우 다릅니다.
이 문서에서는 신중하고 체계적인 분석가들이 대규모의 고차원 데이터 세트에 사용하는 아이디어와 기법을 요약합니다. 이 문서에서는 로그 및 실험 분석의 데이터를 중점적으로 다루지만 이러한 기법 중 다수가 더 광범위하게 적용될 수 있습니다.
이 문서의 나머지 부분에서는 데이터 분석의 다양한 측면을 다루는 세 가지 섹션으로 구성됩니다.
- 기술: 데이터 조작 및 검사에 대한 아이디어와 기술입니다.
- 프로세스: 데이터에 접근하는 방식, 확인할 질문, 확인할 사항을 추천합니다.
- 마음 챙기기: 다른 사용자와 함께 작업하고 유용한 정보를 전달하는 방법
기술
데이터를 검사하는 몇 가지 기법을 살펴보겠습니다.
분포 확인
대부분의 실무자는 요약 측정항목 (예: 평균, 중앙값, 표준 편차 등)을 사용하여 분포를 설명합니다. 하지만 일반적으로 히스토그램, 누적 분포 함수 (CDF), 분위수 (Q-Q) 플롯 등을 생성하여 더 풍부한 분포 표현을 검사해야 합니다. 이처럼 풍부한 표현을 사용하면 다중 모달 동작이나 상당한 수준의 이상점과 같은 데이터의 중요한 특성을 감지할 수 있습니다.
이상점 고려
이상치는 신중히 조사해야 하는데, 이는 탄광에서 카나리아가 될 수 있으므로 분석에 근본적인 문제가 있음을 나타냅니다. 데이터에서 이상점을 제외하거나 '비정상적' 카테고리로 묶는 것은 괜찮지만 데이터가 해당 범주에 들어온 이유를 알아야 합니다.
예를 들어 클릭수가 가장 적은 쿼리를 살펴보면 집계할 수 없는 요소에 대한 클릭수가 표시될 수 있습니다. 클릭수가 가장 많은 쿼리를 조회할 때 집계하면 안 되는 클릭수가 표시될 수 있습니다. 반면에 설명하기 어려운 이상점이 있을 수 있으므로 이 작업에 소요되는 시간을 신중히 살펴봐야 합니다.
소음 고려
무작위성은 존재하므로 사용자를 속이게 됩니다. 어떤 사람들은 "Google은 데이터가 너무 많아 노이즈가 사라지는데"라고 생각하는데, 이는 사실이 아닙니다. 생성하는 모든 데이터 또는 요약에는 신뢰도에 대한 개념이 있어야 합니다 (신뢰 구간 및 p값과 같은 수단을 통해).
예시 살펴보기
새 분석 코드를 생성할 때마다 기본 데이터의 예와 코드가 이러한 예를 해석하는 방법을 확인해야 합니다. 이 단계를 수행하지 않으면 복잡성에 대한 작업 코드를 생성하는 것이 거의 불가능합니다. 분석은 기본 데이터에서 많은 세부정보를 추출하여 유용한 요약을 생성합니다. 개별 예시의 복잡성을 살펴보면 요약이 합리적이라고 확신할 수 있습니다.
이러한 예를 샘플링하는 것이 중요합니다.
- 기본 데이터를 분류하는 경우 각 클래스에 속한 예시를 확인하세요.
- 클래스가 더 큰 경우 더 많은 샘플을 확인하세요.
- 숫자 (예: 페이지 로드 시간)를 계산하는 경우 측정 공간 전체에서 극단적인 예시 (예: 가장 빠르고 느린 5%, 분포가 어떤 모습인지 알고 있음)를 살펴보세요.
데이터 슬라이스
슬라이스를 사용하면 데이터를 하위 그룹으로 나누고 각 하위 그룹의 측정항목 값을 개별적으로 볼 수 있습니다. 일반적으로 브라우저, 언어, 도메인, 기기 유형 등의 측정기준을 따릅니다. 하위 현상이 다른 그룹 간에 근본적으로 다르게 작동할 가능성이 있다면 데이터를 분할하여 실제로 맞는지 확인해야 합니다. 슬라이싱이 다른 결과를 생성할 것으로 예상되지 않더라도 내부 일관성을 위해 몇 가지 슬라이스를 살펴보면 올바른 것을 측정하고 있다는 확신을 가질 수 있습니다. 경우에 따라 특정 슬라이스에 잘못된 데이터가 있거나 사용자 상호작용이 손상되거나 어떤 면에서 근본적으로 다를 수 있습니다.
데이터를 분할하여 두 그룹을 비교할 때는 (예: 실험 vs. 대조군, 또는 '시간 A'와 '시간 B' 비교) 조합의 이동을 알고 있어야 합니다. 믹스 시프트는 각 그룹의 슬라이스 내 데이터 양이 다른 경우입니다. 심슨의 역설과 기타 혼란이 발생할 수 있습니다. 일반적으로 슬라이스의 상대적 데이터 양이 두 그룹 간에 동일하다면 안전하게 비교할 수 있습니다.
실용적인 중요성 고려
데이터가 많으면 통계적 유의성에만 집중하거나 모든 데이터의 세부정보에 집중하고 싶을 수 있습니다. 하지만 값 X가 값 Y보다 0.1% 많은 것이 사실이지만 이것이 중요한가요? 이는 데이터의 일부를 이해/분류할 수 없는 경우에 특히 중요할 수 있습니다. 로그에서 일부 사용자 에이전트 문자열을 이해할 수 없다면 데이터의 0.1% 또는 10% 를 나타내는지 여부와 관계없이 이러한 사례를 조사해야 하는 정도에 큰 차이가 있습니다.
또는 데이터가 소량인 경우도 있습니다. 많은 변경사항이 통계적으로 유의미해 보이지는 않지만 이러한 변화가 '중립적'이라고 주장하는 것과는 다릅니다. "사실상 중요 변화가 있을 가능성이 얼마나 되는가?"라고 자문해야 합니다.
시간 경과에 따른 일관성 확인
시간 경과에 따라 시스템이 발전함에 따라 기본 데이터에 대한 방해 요소가 많이 발생하므로 거의 항상 시간 단위를 기준으로 데이터를 분할해야 합니다. (일은 주로 사용되지만 다른 시간 단위도 유용할 수 있습니다.) 기능 또는 새 데이터 수집을 처음 실행하는 동안 실무자는 모든 것이 예상대로 작동하는지 신중하게 확인하는 경우가 많습니다. 그러나 시간이 지나면서 여러 중단 또는 예기치 않은 동작이 발생할 수 있습니다.
특정 날짜 또는 날짜 세트가 이상점이라고 해서 해당 데이터를 삭제해야 하는 것은 아닙니다. 데이터를 후크로 사용하여 삭제하기 전에 해당 날짜 또는 날짜가 다른 인과적 이유를 확인합니다.
또한 일별 데이터를 보면 신뢰 구간 또는 통계적 유의성에 대한 주장으로 이어질 수 있는 데이터 변화를 파악할 수 있습니다. 엄격한 엄격한 신뢰 구간 계산은 대체되지 않지만 큰 변화인 경우 전일 대비 그래프에서 통계적으로 유의미한 결과를 확인할 수 있습니다.
필터링 확인 및 필터링
대부분의 모든 대규모 데이터 분석은 다양한 단계에서 데이터를 필터링하는 것으로 시작됩니다. 미국 사용자, 웹 검색 또는 광고가 포함된 검색만 고려할 수 있습니다. 어떤 경우든 다음 작업을 수행해야 합니다.
- 진행 중인 필터링을 인지하고 명시합니다.
- 각 단계에서 필터링되는 데이터의 양을 계산합니다.
후자를 만드는 가장 좋은 방법은 제외 중인 모집단의 경우에도 모든 측정항목을 계산하는 것입니다. 이 데이터를 통해 '스팸 필터링 제거 중 제거 비율'과 같은 질문에 답할 수 있습니다. (필터링하는 이유에 따라 이러한 유형의 분석이 항상 가능하지는 않을 수도 있습니다.)
비율에는 명확한 분자와 분모가 있어야 합니다.
가장 흥미로운 측정항목은 기본 조치의 비율입니다. 종종 분자와 분모의 정확한 정의에서 관심 있는 필터링이나 기타 데이터 선택이 숨겨져 있는 경우가 있습니다. 예를 들어 다음 중 '쿼리 / 사용자'는 실제로 무엇을 의미할까요?
- 쿼리 / 쿼리가 있는 사용자
- 쿼리 / 오늘 Google을 방문한 사용자
- 쿼리 / 활성 계정이 있는 사용자 (예, 활성을 정의해야 함)
여기에서 명확성을 높이면 자신과 다른 사용자에게 혼란을 주지 않을 수 있습니다.
또 다른 특별한 사례는 일부 데이터에 대해서만 계산할 수 있는 측정항목입니다. 예를 들어 '클릭 시간'은 일반적으로 클릭이 발생한 경우 '클릭 시간'을 의미합니다. 이와 같은 측정항목을 볼 때는 항상 필터링을 확인하고 비교 중인 그룹 간의 필터링이 변경되는지 확인해야 합니다.
처리
이 섹션에서는 데이터에 접근하는 방법, 데이터에 관해 질문해야 할 사항, 확인해야 할 사항을 안내합니다.
검증, 설명, 평가 별도
데이터 분석은 세 가지 상호 관련된 단계라고 생각합니다.
- 유효성 검사1: 데이터가 자기 일관적이고, 올바르게 수집되었으며, 내가 생각하는 방식으로 대표되는 데이터라고 생각하나요?
- 설명: 이 데이터의 목표 해석은 무엇인가요? 예를 들어 "사용자는 X 클래스로 분류된 쿼리를 덜 생성합니다. "실험 그룹에서 X와 Y 사이의 시간은 1% 더 크며, ‘더 적은 수의 사용자는 다음 검색결과 페이지로 이동’합니다.
- 평가: 이 설명을 봤을 때 데이터는 사용자, Google 또는 세상에 어떤 일이 벌어지고 있다는 것을 시사하나요?
이러한 단계를 분리하면 다른 사람과 더 쉽게 합의를 이룰 수 있습니다. 설명은 데이터에 대해 모든 사용자가 동의할 수 있는 내용이어야 합니다. 평가는 훨씬 더 많은 논쟁을 불러일으킬 가능성이 높습니다. 설명과 평가를 구분하지 않으면 사용자가 얻고자 하는 데이터의 해석만 볼 가능성이 훨씬 높아집니다. 또한 평가는 일반적으로 다른 특성 및 측정항목과 철저한 비교를 통해 측정항목의 표준 값을 설정하는 데 상당한 투자가 필요하므로 훨씬 더 어려운 경향이 있습니다.
이러한 단계는 선형으로 진행되지 않습니다. 데이터를 탐색하면 각 단계를 왔다 갔다 할 수 있지만 언제든지 어느 단계에 있는지 명확히 확인해야 합니다.
실험 및 데이터 수집 설정 확인
데이터를 살펴보기 전에 데이터가 수집된 컨텍스트를 이해해야 합니다. 실험에서 가져온 데이터라면 실험 구성을 살펴보세요. 새 클라이언트 계측에서 생성된 경우 데이터 수집 방법에 대한 대략적인 이해가 필요합니다. 비정상적이거나 잘못된 구성 또는 인구 제한(예: Chrome에만 유효한 데이터)이 표시될 수 있습니다. 여기서 주목할 만한 모든 것이 이론을 빌드하고 나중에 확인하는 데 도움이 될 수 있습니다. 다음과 같은 사항을 고려하세요.
- 실험이 진행 중인 경우 직접 시도해 보세요. 그렇게 할 수 없다면 최소한 스크린샷의 행동이나 설명을 살펴보세요.
- 연말연시, 대규모 출시 등 실험이 실행된 기간에 비정상적인 점이 있는지 확인합니다.
- 실험 대상 사용자를 결정합니다.
변경되지 않아야 할 사항을 확인하세요.
'확인' 단계에서 실제로 관심 있는 질문에 실제로 답하기 전에 (예: 얼굴 사진 추가, 클릭수 증가, 감소) 실험에 영향을 미칠 수 있는 다른 모든 변수를 제외합니다. 예를 들면 다음과 같습니다.
- 사용자 수가 변경되었나요?
- 모든 하위 그룹에 적절한 수의 쿼리가 표시되었나요?
- 오류율이 변경되었나요?
이러한 질문은 실험/대조 비교와 시간 경과에 따른 추세 검토 모두에 적합합니다.
표준 첫 번째, 맞춤 두 번째
새로운 기능과 새로운 데이터를 볼 때 특히 새로운 기능이나 특별한 기능의 측정항목을 바로 확인하고 싶을 수 있습니다. 하지만 표준 측정항목이 변경될 것으로 예상하더라도 항상 먼저 확인해야 합니다. 예를 들어 페이지에 새 범용 블록을 추가할 때 이 새로운 결과에 대한 맞춤 측정항목으로 들어가기 전에 '웹 검색결과 클릭수'와 같은 표준 측정항목의 영향을 이해해야 합니다.
표준 측정항목은 검증이 훨씬 더 쉬우며 커스텀 측정항목보다 정확할 가능성이 높습니다. 맞춤 측정항목이 표준 측정항목에 맞지 않는다면 커스텀 측정항목이 잘못되었을 가능성이 있습니다.
두 번 이상 측정
특히 새로운 현상을 포착하려는 경우 동일한 기본 요소를 여러 방법으로 측정해 보세요. 그런 다음 이러한 여러 측정값이 일관된지 확인합니다. 여러 측정을 사용하면 측정 또는 로깅 코드의 버그, 예상치 못한 기본 데이터 기능 또는 중요한 필터링 단계를 식별할 수 있습니다. 측정에 서로 다른 데이터 소스를 사용할 수 있다면 더 좋습니다.
재현성 확인
슬라이스 및 시간 경과에 따른 일관성은 재현성을 확인하는 대표적인 예입니다. 이벤트가 중요하고 의미 있으면 다양한 사용자 집단과 시간에 걸쳐 나타나야 합니다. 그러나 재현성을 확인하는 것은 이 두 가지 검사를 수행하는 것 이상을 의미합니다. 데이터 모델을 빌드하는 경우 기본 데이터의 작은 교란 상태 전반에 걸쳐 이러한 모델이 안정적으로 유지되기를 원하는 것입니다. 서로 다른 시간 범위 또는 데이터의 무작위 하위 샘플도 이 모델의 안정성/재현성을 알려줍니다.
모델을 재현할 수 없다면 데이터를 생성한 기본 프로세스에 대한 기본적인 정보를 포착하지 못할 가능성이 높습니다.
이전 측정과의 일관성 확인
과거에 계산했던 것과 유사한 측정항목을 계산하는 경우가 많습니다. 이러한 측정값이 서로 다른 사용자 인구에 속해 있더라도 측정항목을 이전에 보고된 측정항목과 비교해야 합니다.
예를 들어 특정 인구에 대한 쿼리 트래픽을 보고 있을 때 평균 페이지 로드 시간이 5초라는 뜻이지만 모든 사용자의 과거 분석 결과, 평균 페이지 로드 시간이 2초라면 더 자세히 조사해야 합니다. 수치가 이 인구에 적합할 수 있지만 이제 이를 검증하기 위해 더 많은 작업을 해야 합니다.
정확히 합의할 필요는 없지만 같은 공간에 있어야 합니다. 그렇지 않다면 완전히 확신할 수 있을 때까지 잘못되었다고 가정하세요. 대부분의 놀라울 정도로 유용한 데이터는 멋진 새로운 통계가 아닌 오류입니다.
먼저 이전 측정항목을 새로운 데이터에 적용해야 합니다.
(새로운 데이터 소스를 수집하여) 새 측정항목을 만들고 새 측정항목을 학습하려고 하면 새 측정항목이 올바른지 알 수 없습니다. 새 측정항목을 사용할 때는 먼저 알려진 특성 또는 데이터에 적용해야 합니다. 예를 들어 사용자 만족도에 관한 새로운 측정항목이 있는 경우 이를 통해 최적의 특성과 관련된 만족도를 파악할 수 있어야 합니다. 사용자가 페이지에 관심을 유도하는 위치에 관한 새로운 측정항목이 있는 경우 이미지가 페이지 관심에 미치는 영향을 설명하는 시선 추적 또는 평가자 연구에서 확인한 내용과 일치하는지 확인하세요. 이렇게 하면 새로운 것을 배울 때 검증이 이루어집니다.
가설을 세우고 증거를 찾습니다.
일반적으로 복잡한 문제에 대한 데이터 분석은 반복적입니다.2 이상치, 트렌드 또는 기타 데이터 특성이 발견됩니다. 당연히 이 데이터를 설명하기 위한 이론을 개발합니다. 단순히 이론을 개발하고 사실이라고 주장하지 마세요. 데이터 내부 또는 외부의 증거를 찾아 이 이론을 확인/거부합니다. 예를 들면 다음과 같습니다.
- 학습 트렌드처럼 보이는 것이 있다면 빈도가 높은 사용자에게 가장 현저하게 나타나는지 확인합니다.
- 이상치가 일부 특성의 출시로 인해 발생한다고 생각되면 특성이 실행된 인구만 이상치의 영향을 받는지 확인하세요. 또는 변경의 규모가 출시의 기대치와 일치하는지 확인하세요.
- 특정 언어로 된 사용자 증가율이 변하는 경우 사용자 인구 변화율을 검증하는 외부 소스를 찾아보세요.
훌륭한 데이터 분석으로 스토리를 전달할 수 있습니다. 이 이야기가 옳은지 확인하려면 스토리를 자신에게 틀린 다음 잘못되었다는 증거를 찾아야 합니다. 이를 위한 한 가지 방법은 '내가 말하는 스토리의 유효성을 검증하거나 무효화할 실험은 무엇인가?'라고 자문해 보는 것입니다. 이러한 실험을 실행할 수 없거나 진행할 수 없더라도 보유한 데이터로 검증하는 방법에 대한 아이디어를 얻을 수 있습니다.
다행히 이러한 이론과 가능한 실험으로 인해 특정 특성이나 데이터에 대해 더 알고 싶어 하는 새로운 선으로 이어질 수 있습니다. 그러면 이 데이터뿐 아니라 모든 종류의 향후 분석을 위한 새로운 측정항목 및 기법을 도출할 수 있습니다.
엔드 투 엔드 반복의 탐색적 분석 이점
탐색적 분석을 할 때 전체 분석을 최대한 많이 반복합니다. 일반적으로 신호 수집, 처리, 모델링 등의 여러 단계가 필요합니다. 초기 신호의 첫 번째 단계를 완벽하게 완료하는 데 너무 오랜 시간을 소비하면 같은 시간 동안 더 많은 반복을 수행할 기회를 놓칠 수 있습니다. 또한 마지막에 데이터를 살펴보면 방향을 바꾸는 발견을 할 수 있습니다. 따라서 초기에 초점을 맞추는 것이 완벽이 아니라 그 과정에서 합리적인 것을 얻는 데 중점을 두어야 합니다. 필터링 단계와 파싱할 수 없거나 이례적인 요청 등은 따로 적어 두되 탐색 분석이 시작될 때 이를 모두 없애는 데 시간을 낭비하지 마세요.
피드백 확인
Google에서는 일반적으로 사용자 성공과 관련된 다양한 측정항목을 정의합니다. 예를 들어 사용자가 검색결과를 클릭했나요? 그런 다음 해당 데이터를 시스템에 다시 공급하면 (여러 위치에서 실제로 실행) 평가 혼동을 일으킬 가능성이 커집니다.
시스템에 입력된 측정항목은 변경사항을 평가하는 기초로 사용할 수 없습니다. '클릭수 증가'는 대체로 '행복'이라는 뜻이지만, 클릭수를 늘리는 광고가 더 많다면 '클릭수 증가'를 토대로 사용자의 만족도를 판단할 수 없습니다.
사고방식
이 섹션에서는 다른 사용자와 협력하고 통계를 전달하는 방법을 설명합니다.
데이터 분석은 데이터나 기법이 아닌 질문으로 시작됩니다
데이터를 분석하려는 동기는 항상 존재합니다. 니즈를 질문이나 가설로 형성하면 수집해야 하는 데이터를 수집하고 데이터의 잠재적인 격차를 고려하는 데 도움이 됩니다. 물론 데이터를 살펴보는 동시에 질문이 달라집니다. 그러나 의문이 없는 분석은 결과를 얻지 못합니다.
좋아하는 기법을 찾은 후 이 기법에서 효과가 있는 부분만 찾는 함정을 갖지 마세요. 다시 말씀드리지만, 명확한 질문을 만들면 이러한 함정을 피하는 데 도움이 됩니다.
회의적인 사람이나 챔피언이 되어야 합니다.
데이터를 다루는 과정에서 획득하고 있는 유용한 정보를 얻는 것에 능숙해져야 하고, 회의적인 참여자가 되어야 합니다. 이렇게 하면 데이터에서 몇 가지 흥미로운 현상을 발견할 수 있습니다. 흥미로운 현상을 발견하면 다음 질문을 자문해 보세요.
- 이 훌륭한 기능을 보여주기 위해 또 어떤 데이터를 수집할 수 있을까요?
- 이걸 무효화하려면 어떻게 해야 할까요?"
특히 특정 답변을 원하는 사용자를 분석하는 경우 (예: "My feature is awesome!")에는 의심을 하여 오류를 피해야 합니다.
상관관계 = 인과관계
데이터에 관한 이론을 만들 때 'X'가 Y로 인해 발생한다고 어설션하는 경우가 많습니다. 예를 들어 '페이지가 느려져서 사용자가 클릭하는 횟수가 줄었습니다'. xkcd도 상관관계로 인해 단순히 인과 관계를 설정할 수 없다는 것을 알고 있습니다. 인과관계 이론의 유효성을 확인하면 일반적으로 인과관계 이론의 신뢰도를 대략적으로 측정할 수 있습니다.
어떤 사람들은 A와 B 사이에 인과적인 관계가 없어도 한 가지 신호가 다른 신호의 좋은 지표가 될 수 있도록 우연의 일치가 되어야 한다는 어설션을 통해 의미 있는 상관관계를 유지하려고 합니다. 이 영역은 여러 가설 테스트 문제에 위험합니다. xkcd도 알 수 있으므로 충분한 실험과 측정기준을 고려하면 일부 신호는 특정 실험에 맞게 조정됩니다. 그렇다고 해서 동일한 신호가 미래에 조정되는 것은 아니므로 'A와 B를 둘 다 유발하는 숨겨진 효과 C가 있다'와 같은 인과적인 이론을 고려해야 한다는 의무는 있으므로 이 예측이 얼마나 타당한지 확인할 수 있습니다.
데이터 분석가는 데이터를 소비하려는 사람들을 위해 이러한 인과적 질문을 탐색해야 하는 경우가 많습니다. 인과관계에 관해 할 수 있는 말과 할 수 없는 말을 소비자에게 명확히 밝혀야 합니다.
우선 동료와 공유하고 외부 소비자를 두 번째로 공유하세요
이전 포인트에서는 올바른 종류의 소리 검사와 검증을 수행하는 몇 가지 방법을 제안했습니다. 하지만 동료와 공유하는 것은 이러한 작업을 스스로 하는 가장 좋은 방법 중 하나입니다. 숙련된 소비자는 특히 소비자가 주제를 보유하고 있기 때문에 데이터 소비자와 질적으로 다른 피드백을 제공할 수 있습니다. 동종 업체는 분석을 통해 여러 지점에서 유용합니다. 초기에는 동료가 알고 있는 교훈, 측정할 사항에 대한 제안 및 이 분야에 대한 과거 연구에 대해 알아볼 수 있습니다. 후반부에서는 피어가 이상치, 비일관성 또는 기타 혼란을 잘 지적할 수 있습니다.
현재 보고 있는 데이터에 대해 아는 동료로부터 의견을 받는 것이 가장 좋지만, 일반적인 데이터 분석 경험만 있는 동료도 매우 유용합니다.
무지와 실수를 예상하고 수용
데이터로 학습할 수 있는 정보에는 한계가 있습니다. 네이트 실버는 신호와 노이즈에서 확실성의 한계를 인정해야만 예측을 더 잘 발전할 수 있다고 강력하게 주장합니다. 무지 허용은 일반적으로 즉시 보상되지 않는 힘입니다. 그때는 기분이 좋지 않지만 장기적으로는 여러분과 여러분의 팀에 큰 도움이 됩니다. 실수를 한 다음 나중에 (또는 너무 늦게) 발견하는 경우에는 훨씬 더 기분이 나빠지지만, 실수하면 이를 선제적으로 인정받을 수 있습니다. 이러한 존중은 신뢰도와 영향력으로 이어집니다.
결론
우수한 데이터 분석 작업은 대부분 분석 소비자에게 즉시 나타나지 않습니다. 인구 크기를 신중하게 검사하고 브라우저 전반에 걸쳐 효과가 일관적이라는 사실은 이 데이터를 통해 결정을 내리는 사람의 인식에 도달하지 못할 수 있습니다. 이는 좋은 데이터 분석이 대부분의 사람에게 보이는 것보다 더 오래 걸리는 이유 (특히 최종 결과만 표시되는 경우)를 설명합니다. 분석가는 데이터 분석가들에게 데이터 기반의 유용한 정보가 무엇인지, 이 단계의 중요성에 대해 단계적으로 알려주는 역할을 합니다.
이렇게 모든 데이터를 조작하고 탐색해야 하므로 우수한 데이터 분석 언어 및 환경에 대한 요구사항도 충족됩니다. Google에는 데이터를 검사할 수 있는 다양한 도구가 있습니다. 위에서 설명한 다양한 기법에 다른 도구와 언어가 더 적합합니다. 올바른 도구를 선택하는 것이 분석가에게 중요한 기술입니다. 가장 익숙한 도구의 기능으로 인해 제한되어서는 안 됩니다. 사용자의 역할은 특정 도구를 적용하는 것이 아니라 실제 통계를 제공하는 것입니다.
-
이를 '초기 데이터 분석'이라고도 합니다. 데이터 분석에 관한 위키백과 문서 😖를 참고하세요.
-
기술적으로는 확증 분석이 아닌 탐색적 분석을 하는 경우에만 반복적이어야 합니다. ↩