DSPL FAQ

이 문서에서는 데이터 소유자가 DSPL 데이터 세트를 만들어 공개 데이터 탐색기에 업로드할 때 가장 자주 발생하는 문제를 다룹니다.

목차

일반적인 질문

DSPL이란 무엇인가요?

DSPL은 Dataset Publishing Language(데이터 세트 게시 언어)의 약자입니다. 이 형식은 메타데이터 (이름, 제공자, 데이터 세트에 포함 및 표시되는 개념뿐만 아니라 데이터 세트에 관한 정보)와 데이터 세트의 실제 데이터 모두에 대한 표현 형식입니다. 메타데이터는 XML로 지정되지만 데이터는 CSV 형식으로 제공됩니다.

DSPL 사용의 주요 이점은 무엇인가요?

DSPL은 처음부터 Public Data Explorer와 같은 풍부한 데이터 시각화를 위해 설계되었습니다. 이를 만들려면 슬라이스, 차원, 측정항목, 다른 데이터 세트 형식에서 잘 지원되지 않는 항목에 대한 자세한 메타데이터가 필요합니다.

또한 DSPL은 데이터 세트 가져오기, 개념 계층 구조 (예: 'country'는 '대륙'의 하위 요소), 지오코딩된 데이터 및 데이터 탐색 환경을 개선하는 기타 고유한 여러 기능입니다.

DSPL은 데이터 교환 또는 분석에 사용되는 다른 형식을 대체하나요?

일반적으로는 그렇지 않습니다. 이전 답변에서 언급했듯이 DSPL은 대화형 시각화 및 탐색용으로 설계되었습니다. 일반적인 데이터 교환 또는 분석 형식의 용도가 아닙니다.

Google에서는 궁극적으로 DSPL을 다른 형식을 보완하는 것으로 간주합니다. 사용자는 풍부한 대화형 데이터 시각화를 생성할 수 있도록 다른 소스에서 DSPL 데이터 세트를 만들 수 있어야 합니다.

DSPL 데이터 세트로 무엇을 할 수 있나요?

공개 데이터 탐색기로 가져와서 게시할 수 있으며 다른 사용자가 풍부한 대화형 시각화를 통해 데이터를 살펴볼 수 있습니다. 게시된 데이터 세트는 관심 있는 사용자가 찾을 수 있도록 공개 데이터 디렉터리에 포함될 수도 있습니다.

현재 이 앱이 DSPL을 사용하는 유일한 애플리케이션입니다. 하지만 Google은 다른 애플리케이션에서도 이 기능을 사용하기를 권장하며 시간이 지남에 따라 채택률이 증가할 것으로 예상됩니다.

DSPL에 가장 적합한 데이터 세트 유형은 무엇인가요?

DSPL 형식은 임의의 테이블 컬렉션을 지원하므로 다양한 데이터 세트 유형에 적합합니다. 그러나 DSPL 데이터 세트의 하위 집합만 공개 데이터 탐색기에서 흥미로운 시각화를 생성합니다. 후자의 제품은 특히 다음과 같은 데이터에 적합합니다.

  • 정량적: 각 데이터 포인트에는 숫자 측정항목이 하나 이상 포함됩니다 (예: '인구', '독감 사례 수', '수익').
  • 범주형: 데이터를 한정된 수의 텍스트 설명 범주 (예: '국가', '성별', '연령대').
  • 시계열: 각 카테고리에서 데이터 측정항목은 시간의 변화에 따라 달라지며 인접 지점은 하루 이상 떨어져 있습니다 (Public Data Explorer는 하루보다 작은 시간 증분을 시각화할 수 없음).
  • 집계: 각 시간 / 카테고리 / 측정항목 조합에는 이벤트 또는 사실 목록이 아닌 단일 데이터 포인트가 있습니다.

DSPL 데이터 세트를 만들었고 다른 사람들이 찾을 수 있도록 Google 공개 데이터 디렉터리에 표시하고 싶습니다. 어디에 문의해야 하나요?

이 양식을 작성하고 데이터 세트 링크를 제공하세요.

DSPL에 문제가 있습니다. 도움을 받으려면 어디로 가야 하나요?

DSPL 토론 포럼에 문제를 게시하세요.

DSPL 데이터 세트 파일

XML 및 CSV 파일은 어떻게 인코딩해야 하나요?

모든 XML 및 CSV 파일은 UTF-8로 인코딩되어야 합니다. ASCII('일반 텍스트'라고도 함)는 UTF-8의 하위 집합이므로 이 형식의 데이터 세트도 작동합니다.

데이터 세트 파일을 만들고 편집하려면 어떤 소프트웨어를 사용해야 하나요?

XML 파일을 수정할 때는 가독성을 위해 구문 강조표시가 포함된 일반 텍스트 편집기를 사용하는 것이 좋습니다. 이 도움말에서 플랫폼별 권장사항을 확인하세요. 모든 기능을 갖춘 범용 워드 프로세서는 XML에 추가 형식 지정 태그를 삽입하는 경향이 있어 가져오기 오류가 발생할 수 있으므로 사용하지 않는 것이 좋습니다.

일반적으로 스프레드시트를 사용하면 데이터 파일을 가장 쉽게 만들고 수정할 수 있습니다. 올바른 형식 (CSV/쉼표로 구분된 값)으로 저장해야 합니다.

Excel, SPSS, SAS 또는 일부 다른 시스템에 데이터가 있습니다. Public Data Explorer에서 직접 가져올 수 있나요?

아니요. 지금은 사용하지 않겠습니다. 먼저 데이터를 CSV 형식으로 내보내고 적절한 XML 메타데이터를 추가한 다음 DSPL 준수 데이터 세트를 공개 데이터 탐색기에 업로드해야 합니다.

파일 이름을 지정하는 것이 중요한가요?

데이터 세트 XML 파일의 이름은 .xml로 끝나야 합니다. 연결된 CSV 데이터 파일에는 XML 메타데이터의 <file> 태그에 지정된 이름과 일치하는 경우 모든 이름을 사용할 수 있습니다. 데이터 세트를 패키징하고 Public Data Explorer로 가져오는 데 사용되는 zip 파일에는 원하는 이름을 지정할 수 있습니다.

CSV 파일을 정렬해야 하나요?

예. CSV 파일의 콘텐츠를 시간 외 측정기준 (순서 또는 방향)으로 정렬한 다음 선택적으로 다른 열 (예: 시간)을 기준으로 정렬해야 합니다.

예를 들어 date, dimension1, dimension2, metric1, metric2 열이 포함된 CSV가 있는 경우 dimension1dimension2 (순서에 관계없이)를 기준으로 정렬해야 합니다. 날짜/시간 열 기준으로도 정렬하려면 마지막으로 정렬해야 합니다.

이러한 방식으로 정렬하면 각 시계열에 대한 관찰이 그룹화되어 DSPL 가져오기 프로세스의 효율성이 크게 향상됩니다.

XML 모델 및 구문

측정항목과 무엇을 측정기준으로 선택해야 하나요?

측정기준은 데이터를 분류하거나 필터링하는 데 사용되는 항목입니다. 반면에 측정항목은 각 데이터 포인트와 연결된 관찰된 값을 나타냅니다.

일반적으로 측정기준은 범주형이지만 측정항목은 범주형이 아니며 시간에 따라 변하는 숫자 값입니다. 각 프로토타입의 예는 다음과 같습니다.

  • 측정기준: 국가, 주, 카운티, 지역, 연도, 월, 성별, 연령 카테고리, 업종 세그먼트
  • 측정항목: 인구, GDP, 실업률, 문해력, 수익, 비용, 가격

속성과 속성은 어떻게 다른가요?

속성은 각 개념 인스턴스에 연결됩니다. 예를 들어 대륙 속성에는 국가마다 다른 값이 있습니다. 반면 속성은 전체 개념과 연결됩니다. 예를 들어 isParent 속성은 모든 대륙에서 true입니다.

태그의 순서가 중요할 경우

예. 개발자 가이드에 표시된 순서대로 태그를 추가하세요. 예를 들어 <topic>는 개념 정의에서 <type> 앞에 표시되어야 합니다.

대문자 사용이 중요한가요?

예. XML 태그와 속성 이름은 개발자 가이드에 표시된 것과 같은 방식으로 대문자로 표기해야 합니다. 예를 들어 property 태그에서 isParent 대신 isparent를 사용하면 가져오기 오류가 발생합니다.

개념에는 두 개의 상위 요소가 있을 수 있나요?

아니요. 각 개념에는 isParent 참조가 하나만 있을 수 있습니다.

개념 자체를 참조할 수 있나요?

예. 자체 참조 개념 계층 구조의 예는 미국 소매업 데이터 세트를 참조하세요.

데이터 형식 지정

날짜 형식을 지정하려면 어떻게 해야 하나요?

날짜는 Joda DateTime 표준을 사용하여 기술 가능한 모든 형식으로 작성할 수 있습니다. Joda 형식 코드는 상응하는 테이블 열 요소 내의 format 속성에 저장해야 합니다.

아래에 자주 사용되는 날짜 형식의 Joda 형식 코드가 나와 있습니다.

날짜 예시 Joda 형식
2010 yyyy
2010년 5월 MMM yyyy
2010년 5월 21일 MM/dd/yyyy
2010년 5월 21일 dd/MM/yyyy
2010-05-21 yyyy-MM-dd

특히 월 문자에 대한 Joda 코드는 분을 나타내는 m가 아닌 M입니다.

1일 미만의 시간 단위를 사용할 수 있나요?

Joda DateTime 형식과 DSPL도 시간 값을 밀리초 단위까지 지원합니다. 하지만 Public Data Explorer에서는 하루 미만의 시간 세분화를 시각화할 수 없습니다.

표준 개념 사용

'표준 개념'이란 무엇이며 어떻게 사용하나요?

'표준 개념'이라는 용어는 Google에서 만든 개념 집합을 의미하며 다른 데이터 세트의 기본 '빌딩 블록'으로 사용됩니다. 개념 자체는 전자를 '시간', '지역'과 같은 카테고리로 그룹화하는 6개의 DSPL 데이터 세트에서 정의됩니다. 이러한 개념에 액세스하려면 DSPL XML 파일의 시작 부분에서 적절한 상위 데이터 세트를 가져오세요.

표준 개념은 시간을 절약 (예: 세계 각 국가의 위도와 경도 값을 수동으로 입력하지 않아도 됨)하고 데이터를 시각화할 방법을 알리기 때문에 유용합니다. 예를 들어 Public Data Explorer는 time:... 개념을 사용하여 선 차트 x축의 형식을 지정하고 entity:entity 개념의 name 속성을 사용하여 측정기준 선택 도구 UI용 문자열을 생성하며 geo:locationlatitudelongitude 속성을 사용하여 지도 시각화에 데이터를 표시합니다.

Public Data Explorer에서 모든 표준 개념을 이해할 수 있나요?

제공된 표준 개념의 대부분은 Public Data Explorer에서 이해하지만 아직은 시각화되지 않는 개념도 몇 가지 있습니다. 다음은 몇 가지 해결 방법과 함께 아래에 나와 있습니다.

개념 해결 방법
quantity:index 대신 quantity:ratio 또는 quantity:magnitude를 사용하세요.
time:quarter DSPL 설명서에 설명된 대로 time:month를 사용합니다.
time:week DSPL 설명서에 설명된 대로 time:day를 사용합니다.

앞으로 이러한 개념에 대한 더 나은 지원을 기대해 주세요.

데이터 세트에 표준 개념을 사용하려면 어떻게 해야 하나요?

사용하려는 특정 개념에 관한 문서를 참조하고 가장 일반적인 개념에 대한 자세한 단계별 안내가 포함된 DSPL 설명서도 확인하세요.

데이터 세트 가져오기 및 시각화

데이터 세트를 성공적으로 가져올 수 없는 이유는 무엇인가요?

공개 데이터 탐색기의 업로드 인터페이스는 DSPL 데이터 세트를 스캔하고 오류가 감지되면 가져오기를 차단합니다. 가져오기 도구는 XML 파일의 맞춤법, 대소문자, 태그 순서 / 게재위치는 물론 CSV 파일의 데이터 레이아웃 및 정렬에 매우 민감하므로 이러한 작업을 올바르게 처리하고 데이터 세트를 가져오는 데 몇 번의 패스가 필요할 수 있습니다.

이러한 문제를 해결하는 첫 번째 단계는 UI에 표시된 오류 메시지를 확인하고 적절한 수정 조치를 취하는 것입니다. Google에서 이러한 메시지를 개선하기 위해 항상 노력하고 있는 가장 쉬운 메시지인 만큼 가장 일반적인 메시지를 설명하는 표를 정리해 두었습니다.

오류 설명
중복 키: ... 개념의 정의 테이블에는 반복되는 ID 값이 있습니다(즉, 개념과 이름이 동일한 열의 값). 이 값은 개념의 개별 인스턴스를 고유하게 식별하는 데 사용되므로 중복은 허용되지 않습니다.
[...] 속성의 조합으로 인해 발생한 소스에서 데이터 행을 파싱할 때 예외는 데이터에서 두 개 이상의 고유한 행 그룹에 표시됩니다. CSV가 제대로 정렬되지 않았습니다. 이 작업을 실행하는 방법은 위의 설명을 참조하세요.
잘못된 형식으로 인해 소스에서 데이터 행을 파싱할 때 예외가 발생합니다. '...'의 형식이 '...'로 잘못되었습니다. CSV에서 이 값의 형식 (일반적으로 날짜)이 XML 파일에 지정된 형식과 일치하지 않습니다. 일치하도록 형식 또는 값을 변경합니다.
행 (...)의 요소 수로 인해 소스의 데이터 행 파싱 예외가 [...] 행의 지정된 속성 수(...)와 일치하지 않습니다. CSV의 행에 값이 너무 많거나 너무 적습니다. 이 행의 형식을 수정하세요.
입력 문자열의 경우: '...'로 인해 소스에서 데이터 행을 파싱할 때 예외가 발생합니다. CSV의 값 (일반적으로 정수 또는 부동 소수점 수)에 숫자가 아닌 문자 (예: 달러 기호, 퍼센트 기호 등)가 있으면 값을 제대로 파싱할 수 없습니다. 이러한 추가 문자를 삭제하세요.
'...' Slice의 데이터 '...' 속성에 대한 데이터 값 '...'으로 인해 발생한 소스로부터 데이터 행을 파싱하는 예외는 참조된 개념 '...'의 키 값이 아닙니다. 슬라이스 중 하나에 인식할 수 없는 측정기준 값이 포함되어 있습니다 (예: 해당 개념에 대해 가능한 모든 값 목록에 없는 항목). 측정기준 개념 정의 표로 돌아가서 필요한 경우 값을 추가합니다.
데이터의 헤더 '...'는 테이블의 상수 속성입니다. CSV의 열 헤더가 XML 테이블 정의에 정의된 열 ID와 일치하지 않습니다. 둘 중 하나만 일치하도록 변경하세요.
XML 파싱 오류입니다. 요소 '...'로 시작하는 콘텐츠가 잘못되었습니다. '{...}', '{...}', ... 중 하나가 있어야 합니다. 참조된 XML 요소가 올바른 위치에 없습니다. 순서가 올바른지 확인하고 요소의 상위 요소도 올바른지 확인합니다 (예: name의 경우 info).
XML 파싱 오류입니다. 속성 '...'은(는) '...' 요소에 표시할 수 없습니다. XML 태그 속성의 철자, 대소문자, 위치가 잘못되었습니다. 문서에서 적절한 사용법을 확인하세요.
XML 파싱 오류입니다. ... 요소의 콘텐츠 유형이 요소 전용이므로 '...' 요소에 [하위 요소] 문자를 포함할 수 없습니다. XML 파일에 잘못된 텍스트가 있습니다 (< 또는 >가 누락된 태그로 인해 발생할 수 있음). 텍스트를 수정하고 다시 시도하세요.

위 목록에 없는 메시지를 이해하는 데 어려움이 있는 경우 DSPL 포럼에 메시지를 게시해 주시면 최선을 다해 도와드리겠습니다.

데이터 세트를 성공적으로 가져왔지만 공개 데이터 탐색기에 표시할 시각화를 가져올 수 없습니다. 왜 그럴까요?

이 문제는 데이터 세트가 유효한 DSPL이지만 공개 데이터 탐색기에 시각화할 수 있는 DSPL의 하위 집합에 속하지 않는 경우에 발생합니다. 여기에는 여러 가지 이유가 있을 수 있으며 가장 일반적인 원인은 다음과 같습니다.

  • 표 없이 측정기준 개념 정의: 이 정보가 없으면 Public Data Explorer에서 UI에 표시할 옵션을 알지 못합니다.
  • 측정항목만 사용하여 데이터 세트 만들기: 공개 데이터 탐색기에는 시각화 UI를 올바르게 구조화하려면 데이터 세트의 어딘가에 정의된 범주형 (즉, 시간 외) 측정기준이 하나 이상 필요합니다.
  • 슬라이스에 시간 측정기준을 포함하지 않음: 공개 데이터 탐색기는 시계열만 시각화할 수 있습니다. 비시간 슬라이스는 제품에서 무시됩니다.
  • 표준 time:... 개념이 아닌 시간 측정기준 사용: Public Data Explorer는 표준 time 개념을 사용하여 제품의 다양한 시각화를 배치하고 애니메이션화합니다. 자체 데이터 세트 내에서 생성된 개념 등 다른 시간 개념은 이해하지 못합니다.
  • 너무 크거나 작은 시간 값 사용: Public Data Explorer는 시간 세부사항이 하루 미만인 데이터 세트를 아직 시각화하지 않습니다. 다른 쪽에서는 도구에 연도 값이 매우 큽니다 (예: 수만 개). 이러한 세분화는 앞으로 더 유연해질 수 있습니다.

시각화된 데이터 세트를 웹사이트에 통합하려면 어떻게 해야 하나요?

Public Data Explorer 고객센터의 이 도움말을 참고하세요. 후자의 경우에서 설명했듯이 삽입 URL을 수동으로 조정하여 '전체 삽입'(탐색 분석 컨트롤을 포함한 전체 삽입)을 가져올 수 있습니다.