بینش‌های دینامیک جمعیت - کدهای پستی ایالات متحده

مستندات توسعه‌دهنده

توضیحات محصول

بینش‌های دینامیک جمعیت (PDI) یک مجموعه داده جاسازی‌شده است که داده‌های مربوط به رفتار انسان و تعامل ما با محیط را در جاسازی‌های مختصر و آماده برای تجزیه و تحلیل (یا "اثر انگشت‌های دیجیتال") در مکان‌های خاص خلاصه می‌کند.

این جاسازی‌ها، الگوهای موجود در داده‌های جمع‌آوری‌شده مانند روندهای جستجو، روندهای شلوغی و شرایط محیطی (نقشه‌ها، کیفیت هوا، آب و هوا) را ثبت می‌کنند و تصویری غنی و مختص به مکان از نحوه تعامل جمعیت با محیط اطراف خود ارائه می‌دهند. این جاسازی‌ها که در طول فضا و زمان جمع‌آوری می‌شوند، ضمن تضمین حریم خصوصی، امکان تجزیه و تحلیل و پیش‌بینی مکانی دقیق را برای کاربردهایی از سلامت عمومی گرفته تا مدل‌سازی اجتماعی-اقتصادی فراهم می‌کنند.

بررسی اجمالی محصول

جاسازی‌های دینامیک جمعیت با استفاده از یک مدل یادگیری ماشین هدفمند تولید می‌شوند، بر اساس مجموعه‌ای غنی از ویژگی‌ها آموزش داده می‌شوند و به یک نمایش برداری فشرده تبدیل می‌شوند. این جاسازی‌ها بر اساس موارد زیر آموزش داده شده و تولید می‌شوند:

  • روندهای جستجوی تجمیع‌شده : علایق و نگرانی‌های منطقه‌ای که در داده‌های جستجو منعکس شده‌اند.
  • داده‌های نقشه‌های تجمیع‌شده (شامل شلوغی) : امکانات، خدمات و مشاغل در مناطق به همراه روند بازدیدهای محلی.
  • آب و هوا و کیفیت هوای تجمیعی : معیارهای مرتبط با آب و هوا، از جمله دما و کیفیت هوا.

این ویژگی‌ها در سطح کد پستی تجمیع می‌شوند تا جاسازی‌های محلی و آگاه از متن ایجاد کنند که حریم خصوصی را حفظ می‌کنند. PDI یک مجموعه داده سری زمانی مداوم است که برش‌های داده جدید ماهانه پردازش و تقسیم‌بندی می‌شوند. داده‌ها تا آخرین روز ماه تقویمی بعدی به‌روزرسانی و به جدول داده‌ها اضافه می‌شوند (به عنوان مثال، داده‌های فوریه حداکثر تا 31 مارس منتشر می‌شوند).

پیش‌نیازها

برای دسترسی به جاسازی‌های Population Dynamics، باید به شما دسترسی داده شود. اگر دسترسی ندارید، با نماینده فروش یا مهندسی مشتری خود تماس بگیرید.

  • فعال کردن Analytics Hub API در Cloud Console
  • فعال کردن BigQuery API در Cloud Console
  • دانش عملی در مورد محصول BigQuery داشته باشید.
  • مطمئن شوید که حساب شما نقش مالک اشتراک Analytics Hub ( roles/analyticshub.subscriptionOwner ) را برای انجام وظایف مشترکین دارد.
  • مطمئن شوید که حساب کاربری شما، نقش کاربر BigQuery ( roles/bigquery.user ) را برای ایجاد مجموعه داده‌ها دارد.

اگر در کار با جاسازی‌ها یا یادگیری ماشین BigQuery تازه‌کار هستید، اکیداً توصیه می‌کنیم قبل از شروع تجزیه و تحلیل، مطالب آموزشی زیر را مطالعه کنید:

  • دوره فشرده یادگیری ماشین: جاسازی‌ها : مروری سریع و بنیادی بر چگونگی استفاده مدل‌های یادگیری ماشین از جاسازی‌ها برای تبدیل داده‌های با ابعاد بالا به فضای با ابعاد پایین‌تر، ضمن حفظ روابط معنایی.
  • شروع کار با جستجوی برداری و جاسازی‌ها : یک آزمایشگاه عملی برای تقویت مهارت‌های Google Cloud که جاسازی‌های برداری، شباهت معنایی و نحوه استفاده از جاسازی‌ها را در اکوسیستم گسترده‌تر Google Cloud معرفی می‌کند.
  • آموزش‌های یادگیری ماشین BigQuery (BQML) : از آنجایی که مجموعه داده‌های PDI در BigQuery میزبانی می‌شود، به شما امکان می‌دهد مدل‌های یادگیری ماشین را مستقیماً روی جاسازی‌ها با استفاده از SQL استاندارد، بدون نیاز به خروجی گرفتن از داده‌ها، آموزش داده و اجرا کنید.

از جاسازی‌ها استفاده کنید

داده‌ها را درک کنید

قبل از شروع تحلیل، لحظه‌ای را برای بررسی ساختار طرحواره اختصاص دهید.

سازماندهی مجموعه داده‌ها

این جاسازی‌ها برای هر کشور یا منطقه آزمایشی در جداول جداگانه BigQuery سازماندهی شده‌اند.

آناتومی بردار جاسازی

ستون features یک بردار ۳۳۰ بعدی است (که به صورت آرایه REPEATED FLOAT در BigQuery ذخیره شده است). هر بخش از آرایه مربوط به یک سیگنال داده خاص است که توسط مدل Population Dynamics استخراج شده است.

درک این ساختار امکان حذف ویژگی‌ها را فراهم می‌کند (برای مثال، تعیین اینکه رفتار جستجو در مقایسه با آب و هوا چقدر فروش را پیش‌بینی می‌کند).

شاخص‌های برداری منبع داده توضیحات
۰ – ۱۲۷ روندهای جستجوی تجمیع‌شده علایق و دغدغه‌های منطقه‌ای را در بر می‌گیرد (برای مثال، جستجو برای «باشگاه ورزشی»، «علائم آنفولانزا»، «کالاهای لوکس»).
۱۲۸ – ۲۵۵ نقشه‌ها و شلوغی محیط ساخته شده (مکان‌های مورد علاقه مانند بیمارستان‌ها، پارک‌ها، مدارس) و بازدیدهای انسانی را برای نمایش مکان‌های مورد علاقه ثبت می‌کند.
۲۵۶ – ۳۲۹ آب و هوا و کیفیت هوا شرایط محیطی (دما، بارش، کیفیت هوا) را ثبت می‌کند.

ستون‌های کلیدی و فراداده‌ها

جدول جاسازی‌ها شامل فراداده‌های مکانی و زمانی است که امکان تجزیه و تحلیل مکانی، فیلتر کردن و قابلیت همکاری با سایر سرویس‌ها را فراهم می‌کند.

از آنجا که یک کد پستی واحد می‌تواند گاهی اوقات از مرزهای اداری (مانند مرزهای شهرستان) عبور کند، فیلدهای منطقه اداری به صورت آرایه ارائه می‌شوند.

  • geo_id : شناسه مکان منحصر به فرد مرتبط با این کد پستی.
  • geo_name : رشته کد پستی برای منطقه (برای مثال، '90210' ).
  • administrative_area_level_1_names : فهرستی ( ARRAY<STRING> ) از نام‌های قابل خواندن توسط انسان برای مرزهای سطح بالا (برای مثال، ['California'] ).
  • administrative_area_level_1_ids : فهرستی ( ARRAY<STRING> ) از شناسه‌های مکانی منحصر به فرد برای مرزهای اداری سطح بالا که این کد پستی با آنها تلاقی می‌کند (به عنوان مثال، ایالت یا استان).
  • administrative_area_level_2_names : فهرستی ( ARRAY<STRING> ) از نام‌های قابل خواندن توسط انسان برای مرزهای ثانویه (برای مثال، ['Los Angeles County'] ).
  • administrative_area_level_2_ids : فهرستی ( ARRAY<STRING> ) از شناسه‌های مکانی منحصر به فرد برای مرزهای اداری ثانویه‌ای که این کد پستی با آنها تلاقی می‌کند (به عنوان مثال، شهرستان یا منطقه).
  • features : بردار جاسازی ۳۳۰ بعدی اصلی، که به صورت پیش‌فرض به صورت ARRAY<FLOAT64> ذخیره می‌شود. بارگذاری این بردار در Pandas با استفاده از پایتون نیاز به مسطح‌سازی یا تبدیل به یک ماتریس NumPy دارد.
  • snapshot_date : یک DATE با فرمت YYYY-MM-DD که به صورت استاندارد فقط برای استفاده از اولین روز ماه طراحی شده است. نشان‌دهنده برش زمانی ماهانه خاصی است که ویژگی‌های ورودی برای تولید داده‌های جاسازی از آن جمع‌آوری شده‌اند. به عنوان مثال، داده‌های آوریل ۲۰۲۶ به صورت 2026-04-01 فرمت خواهند شد.

آماده‌سازی داده‌های واقعیت زمینی

برای استفاده از جاسازی‌های Population Dynamics، داده‌های واقعی شما باید در یک مرز جغرافیایی پشتیبانی‌شده (کد پستی) تجمیع شوند.

گزینه ۱: گنجاندن جاسازی‌ها در یک مدل موجود

  1. آماده‌سازی داده‌های زمینی مبتنی بر مدل موجود : از جاسازی‌ها به عنوان متغیرهای کمکی مکانی برای بهبود مدل موجود استفاده کنید.
  2. آموزش یک مدل تصحیح خطا : بهبود یک مدل موجود با ادغام جاسازی‌ها در مدلی که خروجی مدل اصلی، مقدار مورد انتظار یا حقیقت زمینه‌ای و جاسازی‌ها را برای یادگیری یک مدل تصحیح خطای جدید می‌گیرد.

گزینه ۲: تنظیم برای موارد استفاده خاص

  1. انتخاب نوع مدل پیش‌بینی : هر مدلی، مانند GBDT، MLP یا خطی، می‌تواند برای پیش‌بینی‌ها استفاده شود.
  2. استفاده از جاسازی‌ها برای پیش‌بینی : از جاسازی‌های دینامیک جمعیت به عنوان ویژگی‌های ورودی، در کنار سایر داده‌های زمینه‌ای، برای بهبود دقت پیش‌بینی استفاده کنید.

قطعه کدهای شروع سریع

از این قطعه کدها برای تأیید دسترسی خود و درک فرمت داده‌ها استفاده کنید.

۱. SQL: دریافت جاسازی‌ها برای یک ماه خاص

از آنجا که PDI یک مجموعه داده سری زمانی است، معمولاً باید بر اساس snapshot_date فیلتر کنید تا کدهای پستی تکراری را در چندین ماه برنگردانید. روز همیشه باید روی -01 تنظیم شود.

SELECT
  snapshot_date,
  geo_name AS postal_code,
  geo_id AS place_id,
  features -- The 330-dim vector
FROM
  `your-project.population_dynamics___us___domestic.v1_postal_code.embeddings_table`
WHERE
  snapshot_date = '2025-10-01' -- You must use the first of the month ('-01')
LIMIT 10;

۲. SQL: فیلتر کردن بر اساس ناحیه مدیریتی (آرایه‌های غیر تودرتو)

از آنجا که کدهای پستی می‌توانند چندین مرز اداری را در بر بگیرند، فیلدهای administrative_area_* به صورت آرایه ذخیره می‌شوند. برای فیلتر کردن همه کدهای پستی در یک ایالت خاص (به عنوان مثال، 'کالیفرنیا')، باید از تابع UNNEST() در BigQuery استفاده کنید.

SELECT
  snapshot_date,
  geo_name AS postal_code,
  admin1_name
FROM
  your-project.population_dynamics___us___domestic.v1_postal_code.embeddings_table,
  UNNEST(administrative_area_level_1_names) AS admin1_name
WHERE
  -- On or after October 2025
  snapshot_date >= '2025-10-01' -- You must use the first of the month ('-01')
  AND admin1_name = 'California'
LIMIT 10;

۳. SQL: یافتن مکان‌های مشابه

این پرس‌وجو مکان‌های مشابه از نظر رفتاری را بدون نیاز به داده‌های خارجی شناسایی می‌کند. این پرس‌وجو از تابع ML.DISTANCE برای محاسبه‌ی شباهت کسینوسی استفاده می‌کند و تطابق‌های برتر را برای یک کد پستی هدف برمی‌گرداند.

WITH TargetLocation AS (
  SELECT features AS target_vector
  FROM `your-project.population_dynamics___us___domestic.v1_postal_code.embeddings_table`
  WHERE snapshot_date = '2025-10-01' -- You must use the first of the month ('-01')
    AND geo_name = '90210' -- Replace with your target postal code
  LIMIT 1
)
SELECT
  t.geo_name AS postal_code,
  -- Calculate Similarity (1.0 is identical, 0.0 is dissimilar)
  (1 - ML.DISTANCE(t.features, p.target_vector, 'COSINE')) AS similarity_score
FROM
  `your-project.population_dynamics___us___domestic.v1_postal_code.embeddings_table` t,
  TargetLocation p
WHERE
  t.snapshot_date = '2025-10-01' -- You must use the first of the month ('-01')
  AND t.geo_name != '90210' -- Exclude the target itself
ORDER BY
  similarity_score DESC
LIMIT 20;

۴. SQL: اتصال داده‌های مشتری

این مثال نشان می‌دهد که چگونه می‌توانید داده‌های داخلی خود (مثلاً جدول عملکرد فروشگاه) را با تعبیه‌های رفتاری و با استفاده از کد پستی، غنی‌سازی کنید.

SELECT
  store.store_id,
  store.postal_code,
  store.total_revenue,
  embeddings.features AS pdi_vector
FROM
  `your-project.internal_data.store_performance` AS store
JOIN
  `your-project.population_dynamics___us___domestic.v1_postal_code.embeddings_table` AS embeddings
ON
  store.postal_code = embeddings.geo_name
WHERE
  embeddings.snapshot_date = '2025-10-01' -- You must use the first of the month ('-01')

۵. پایتون: بارگذاری داده‌ها برای یادگیری ماشین

جاسازی‌ها به صورت آرایه‌های BigQuery ذخیره می‌شوند. برای استفاده از آنها در کتابخانه‌های ML، باید ستون را به یک ماتریس NumPy تبدیل کنید.

from google.cloud import bigquery
import numpy as np
import pandas as pd

client = bigquery.Client()

query = """
SELECT
  geo_name,
  features -- Returns as a list of floats
FROM
  `your-project.population_dynamics___us___domestic.v1_postal_code.embeddings_table`
WHERE
  snapshot_date = '2025-10-01' -- You must use the first of the month ('-01')
LIMIT 1000
"""

# 1. Load data into DataFrame
df = client.query(query).to_dataframe()

# 2. Convert the 'features' column (Series of Lists) into a Matrix (2D Array)
X_matrix = np.stack(df['features'].values)

print(f"Data Loaded. Matrix Shape: {X_matrix.shape}")
# Output: Data Loaded. Matrix Shape: (1000, 330)

سوالات متداول (FAQ)

آیا می‌توانم به داده‌های ورودی خام (مثلاً، جستجوهای خاص یا ردیابی‌های تحرک) دسترسی داشته باشم؟

خیر. جاسازی‌های Population Dynamics از سیگنال‌های تجمیع‌شده و با حفظ حریم خصوصی تولید می‌شوند. برای اطمینان از حریم خصوصی کاربر، ما ردپاهای خاص کاربر، تاریخچه جستجوی فردی یا الگوهای حرکتی خام را ارائه نمی‌دهیم. این جاسازی‌ها به جای تجزیه و تحلیل خام، نمایشی پنهان از این رفتارها را ارائه می‌دهند که برای مدل‌سازی و پیش‌بینی بهینه شده است.

چگونه عبارات جستجوی مورد استفاده برای تولید جاسازی‌ها را انتخاب می‌کنید؟

ما به جای پرس‌وجوهای جستجوی خام، از موجودیت‌های نمودار دانش (KG) استفاده می‌کنیم. برای مثال، پرس‌وجوهایی مانند «taylor swift friendfriend» و «kc tight end» هر دو به یک موجودیت KG اصلی («Travis Kelce») نگاشت می‌شوند. این رویکرد وابسته به زبان نیست، دسته‌های معنایی وسیع‌تری را در بر می‌گیرد و حریم خصوصی را به طور قابل توجهی افزایش می‌دهد.

آیا ابعاد برداری قابل تفسیر هستند (برای مثال، آیا بُعد ۵ «قهوه» است؟)؟

خیر، بردارها نمایش‌های پنهان هستند. از آنجا که ویژگی‌ها توسط مدل یادگیری ماشین آموخته می‌شوند، هیچ نگاشت معنایی ساده یا ترجمه یک به یک از یک شاخص بردار نهایی به یک ورودی منبع خاص وجود ندارد. در حالی که ما می‌دانیم کدام بلوک‌های شاخص‌ها از کدام مجموعه داده‌ها مشتق می‌شوند (برای مثال، شاخص‌های 0 تا 127 نشان‌دهنده روندهای جستجو هستند)، یک شاخص خاص مانند شاخص 5 به یک کلمه کلیدی واحد نگاشت نمی‌شود. در عوض، نشان‌دهنده یک ویژگی پیچیده و انتزاعی است که توسط مدل آموخته شده است.

آیا مجموعه داده‌ها شامل مرزهای چندضلعی (Shapefiles) می‌شود؟

خیر. این مجموعه داده‌ها کدهای پستی ( geo_name ) و شناسه‌های مکان مرتبط با آنها ( geo_id ) را ارائه می‌دهد، اما شامل هندسه‌های خام چندضلعی (مانند WKT) نمی‌شود.

بسته به مورد استفاده شما، رویکردهای زیر را توصیه می‌کنیم:

  • برای تجسم در نقشه‌های گوگل : می‌توانید از شناسه‌های مکان ارائه شده در geo_id برای سبک‌دهی و رندر کردن مرزها مستقیماً روی نقشه با استفاده از Data-driven Styling استفاده کنید. اگرچه این مرزها برای نمایش بصری ایده‌آل هستند، اما نمی‌توان آنها را به عنوان فایل‌های هندسی خام صادر کرد.
  • برای اتصال و تحلیل مکانی : اگر به چندضلعی‌های مکانی خام نیاز دارید، توصیه می‌کنیم این مجموعه داده را با استفاده از کد پستی geo_name به مجموعه داده‌های مرزی عمومی (مانند داده‌های موجود در مجموعه داده‌های عمومی BigQuery) متصل کنید.

بازه زمانی مجموعه داده‌های embeddings چقدر است؟

جاسازی‌های PDI ماهانه به‌روزرسانی می‌شوند و هر ماه جدید به مجموعه داده‌ها اضافه می‌شود. داده‌ها با استفاده از ستون snapshot_date (با فرمت YYYY-MM-DD ) نمایش داده می‌شوند و یک خط پایه پایدار ارائه می‌دهند که نشان‌دهنده اثر انگشت رفتاری و فیزیکی یک مکان برای آن ماه خاص است.