পরীক্ষা-নিরীক্ষার উপর প্রতিবেদন

পরীক্ষার ফলাফল জানানোর দুটি প্রধান উপায় আছে:

  • সরাসরি পরীক্ষা প্রতিবেদন : মেট্রিক্সের জন্য experiment রিসোর্স থেকে তথ্য অনুসন্ধান করুন। এই বিকল্পটি একটি একক প্রতিক্রিয়ায় কন্ট্রোল এবং ট্রিটমেন্ট আর্মের মেট্রিক্স প্রদান করে, সাথে আপলিফ্ট এবং পি-ভ্যালুর মতো পরিসংখ্যানগত তুলনামূলক ডেটাও থাকে। আন্তঃ-ক্যাম্পেইন পরীক্ষাগুলোর উপর প্রতিবেদন করার এটিই একমাত্র উপায়।
  • ক্যাম্পেইন রিপোর্টিং : বেস এবং এক্সপেরিমেন্ট ক্যাম্পেইনের মধ্যে পার্থক্য করার জন্য campaign.experiment_type ব্যবহার করে মেট্রিক্সের জন্য campaign রিসোর্স কোয়েরি করুন। এই অপশনটি শুধুমাত্র সেইসব এক্সপেরিমেন্টের জন্য উপলব্ধ যেগুলিতে পৃথক কন্ট্রোল এবং ট্রিটমেন্ট ক্যাম্পেইন ব্যবহৃত হয়, যেমন সিস্টেম-পরিচালিত এক্সপেরিমেন্ট।

এই নির্দেশিকাটি প্রধানত সরাসরি পরীক্ষা-নিরীক্ষা প্রতিবেদন তৈরির উপর আলোকপাত করে, যা প্রতিবেদন তৈরি সমর্থন করে এমন সকল প্রকার পরীক্ষার সাথেই সামঞ্জস্যপূর্ণ।

সরাসরি পরীক্ষা প্রতিবেদন

আপনার কন্ট্রোল এবং ট্রিটমেন্ট আর্মের মধ্যে পারফরম্যান্স মেট্রিক্স ও পরিসংখ্যানগত তুলনা পেতে আপনি সরাসরি experiment রিসোর্সটি কোয়েরি করতে পারেন।

মেট্রিক্স এবং পরিসংখ্যানগত তাৎপর্য

ক্লিক, ইম্প্রেশন, খরচ, কনভার্সন এবং কনভার্সন ভ্যালুর মতো মূল মেট্রিকগুলোর জন্য, experiment রিসোর্সটি একই সারিতে ট্রিটমেন্ট মেট্রিক (যেমন, metrics.clicks ) এবং কন্ট্রোল মেট্রিক (যেমন, metrics.control_clicks ) উভয়ই প্রদান করে।

এটি দুটি শাখার মধ্যে যেকোনো পার্থক্যের পরিসংখ্যানগত তাৎপর্য মূল্যায়ন করতে সাহায্য করার জন্য ক্ষেত্রও প্রদান করে:

  • metrics.*_p_value : পরীক্ষাটির যদি মেট্রিকের উপর কোনো প্রকৃত প্রভাব না থাকতো, তাহলে পর্যবেক্ষণকৃত ফলাফলগুলো ঘটার সম্ভাবনা। একটি নিম্ন p-মান উচ্চতর পরিসংখ্যানগত তাৎপর্য নির্দেশ করে।
  • metrics.*_point_estimate : কন্ট্রোল আর্মের তুলনায় ট্রিটমেন্ট আর্মের জন্য প্রদত্ত মেট্রিকের আনুমানিক শতাংশ বৃদ্ধি (ধনাত্মক বা ঋণাত্মক)। margin_of_error সাথে মিলে, এগুলি অনুমিত পার্থক্যের জন্য একটি নির্ধারিত কনফিডেন্স লেভেলসহ একটি কনফিডেন্স ইন্টারভ্যাল বর্ণনা করে। যে পরিমাণটি অনুমান করা হচ্ছে তা হলো (ট্রিটমেন্ট / কন্ট্রোল - 1)। পয়েন্ট এস্টিমেট হলো কনফিডেন্স ইন্টারভ্যালের কেন্দ্র।
  • metrics.*_margin_of_error : কনফিডেন্স ইন্টারভালের ব্যাসার্ধ, যা point_estimate কে কেন্দ্র করে নির্ধারিত হয়। এটি একটি নির্দিষ্ট কনফিডেন্স লেভেলের জন্য গণনা করা হয়, যা পরীক্ষার ধরনের উপর নির্ভর করে।

experiment রিসোর্সটিতে নিম্নলিখিত মূল মেট্রিক ফিল্ডগুলো সমর্থিত, যার মধ্যে রয়েছে একটি ট্রিটমেন্ট গ্রুপ ভ্যালু, একটি কন্ট্রোল গ্রুপ ভ্যালু এবং পূর্বে তালিকাভুক্ত স্ট্যাট ফিল্ডগুলো:

  • clicks
  • impressions
  • cost_micros
  • conversions
  • cost_per_conversion
  • conversion_value
  • conversion_value_per_cost

বিশেষত রূপান্তরের জন্য, পরিসংখ্যানগত ক্ষেত্রগুলি আপেক্ষিক মান হিসাবে নয়, বরং নিম্নলিখিত absolute_change ক্ষেত্রগুলির মাধ্যমে উপলব্ধ হয়:

  • metrics.conversions_absolute_change_p_value : এই নাল হাইপোথিসিসের জন্য পি-ভ্যালু, যা নির্দেশ করে যে পরীক্ষাটির রূপান্তরের পরম পরিবর্তনের উপর কোনো প্রভাব নেই। এর মান ০ থেকে ১ পর্যন্ত হয়ে থাকে।
  • metrics.conversions_absolute_change_point_estimate : কনভার্সনের পরম পরিবর্তনের উপর পরীক্ষাটির প্রভাব অনুমান করার সময় ব্যবহৃত পয়েন্ট এস্টিমেট।
  • metrics.conversions_absolute_change_margin_of_error : কনভার্সনের পরম পরিবর্তনের উপর পরীক্ষাটির প্রভাব অনুমান করার ক্ষেত্রে ত্রুটির মার্জিন।

experiment রিসোর্সের জন্য বৈধ কোয়েরি তৈরি করতে সাহায্যের প্রয়োজন হলে, গুগল অ্যাডস কোয়েরি বিল্ডার টুলটি ব্যবহার করুন।

উদাহরণ কোয়েরি

নিম্নলিখিত GAQL কোয়েরিটি একটি এক্সপেরিমেন্টের জন্য মূল মেট্রিকগুলো পুনরুদ্ধার করে:

SELECT
  experiment.experiment_id,
  experiment.name,
  experiment.type,
  metrics.clicks,
  metrics.control_clicks,
  metrics.clicks_point_estimate,
  metrics.clicks_margin_of_error,
  metrics.clicks_p_value,
  metrics.conversions,
  metrics.control_conversions,
  metrics.conversions_absolute_change_point_estimate,
  metrics.conversions_absolute_change_margin_of_error,
  metrics.conversions_absolute_change_p_value
FROM experiment
WHERE experiment.experiment_id = EXPERIMENT_ID

ফলাফল ব্যাখ্যা করুন

আপনার পরীক্ষাটি পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ ফলাফল দিয়েছে কিনা তা নির্ধারণ করতে আপনি পি-ভ্যালু, পয়েন্ট এস্টিমেট এবং মার্জিন অফ এরর ফিল্ডগুলো ব্যবহার করতে পারেন। উদাহরণস্বরূপ, যদি conversions_absolute_change_p_value আপনার নির্বাচিত থ্রেশহোল্ডের (যেমন, ৯৫% কনফিডেন্সের জন্য ০.০৫) নিচে থাকে এবং conversions_absolute_change_point_estimate - conversions_absolute_change_margin_of_error শূন্যের চেয়ে বেশি হয়, তবে এটি নির্দেশ করে যে কনভার্সনের নিরিখে ট্রিটমেন্ট আর্মটি কন্ট্রোল আর্মের চেয়ে উল্লেখযোগ্যভাবে ভালো পারফর্ম করছে।

পি-ভ্যালু এবং লিফট এস্টিমেটের উপর ভিত্তি করে কীভাবে ফলাফল মূল্যায়ন করতে হয়, তা দেখানোর জন্য এখানে একটি পাইথন কোড স্নিপেট দেওয়া হলো:

জাভা

This example is not yet available in Java; you can take a look at the other languages.
    

সি#

This example is not yet available in C#; you can take a look at the other languages.
    

পিএইচপি

This example is not yet available in PHP; you can take a look at the other languages.
    

পাইথন

def evaluate_experiment(
    client: GoogleAdsClient, customer_id: str, row: GoogleAdsRow
) -> None:
    """Evaluates the performance of the experiment.

    Args:
        client: an initialized GoogleAdsClient instance.
        customer_id: a client customer ID.
        row: a GoogleAdsRow containing the experiment arm and metrics.
    """
    metrics = row.metrics
    experiment_resource_name = row.experiment.resource_name

    # 1. Evaluate conversion success as a primary success signal.
    # - Point Estimate: Represents the estimated average lift or difference in conversions.
    # - Margin of Error: Outlines the confidence interval bounds. Note that the margin_of_error provided by the API is calculated for a preset confidence level which is set based on the experiment type.
    # - Lower Bound: (Point Estimate - Margin of Error). If this value is above 0,
    #   we have statistical significance that performance has improved.
    conv_p_value = metrics.conversions_absolute_change_p_value
    conv_lift = metrics.conversions_absolute_change_point_estimate
    conv_error = metrics.conversions_absolute_change_margin_of_error
    conv_lower_bound = conv_lift - conv_error

    if conv_p_value <= P_VALUE_THRESHOLD:
        if conv_lower_bound > 0:
            print(
                "Significant Success: Conversions increased. Even at the lower"
                f" bound, the lift is {conv_lower_bound:.2f}. Promoting"
                " changes."
            )
            promote_experiment(client, customer_id, experiment_resource_name)
            return
        elif (conv_lift + conv_error) < 0:
            print(
                "Significant Decline: Even the upper bound"
                f" ({conv_lift + conv_error:.2f}) is below zero. Ending"
                " experiment."
            )
            end_experiment(client, customer_id, experiment_resource_name)
            return

    # 2. Evaluate click volume as a secondary signal.
    # This is helpful as an early indicator or for lower-volume accounts.
    click_p_value = metrics.clicks_p_value
    click_lift = metrics.clicks_point_estimate
    click_error = metrics.clicks_margin_of_error
    click_lower_bound = click_lift - click_error

    if click_p_value <= P_VALUE_THRESHOLD and click_lower_bound > 0:
        # We have a directional winner: high confidence in more traffic,
        # but not enough data to confirm conversion impact yet.
        print(
            f"Click volume is significantly up (+{click_lift*100:.1f}%). "
            "Graduating treatment for further manual analysis."
        )

        # Graduate if it's a separate campaign test.
        # This keeps the high-volume treatment running independently.
        # Intra-campaign experiments (like ADOPT_BROAD_MATCH_KEYWORDS and
        # ADOPT_AI_MAX) run directly within the base campaign, meaning there is only
        # a single campaign involved and no separate treatment campaign to graduate.
        # Therefore, graduation is not supported for intra-campaign experiments.
        experiment_type_name = row.experiment.type_.name
        if (
            experiment_type_name != "ADOPT_BROAD_MATCH_KEYWORDS"
            and experiment_type_name != "ADOPT_AI_MAX"
        ):
            graduate_experiment(client, customer_id, experiment_resource_name)
        else:
            print(
                "Intra-campaign trial detected: Graduation is not supported"
                " because there is only one campaign. Continuing to run to"
                " gather more conversion data."
            )
    else:
        # Both conversions and clicks are noisy.
        print(
            "Inconclusive: No significant lift in Conversions"
            f" (p={conv_p_value:.2f}) or Clicks (p={click_p_value:.2f})."
            f" Current estimated lift: {conv_lift:.2f} +/- {conv_error:.2f}."
            " Continue running."
        )
      

রুবি

This example is not yet available in Ruby; you can take a look at the other languages.
    

পার্ল

This example is not yet available in Perl; you can take a look at the other languages.
    

কার্ল

ক্যাম্পেইন রিপোর্টিং এর তুলনায় সুবিধা

আলাদাভাবে ক্যাম্পেইন রিপোর্ট কোয়েরি করার চেয়ে সরাসরি এক্সপেরিমেন্ট রিপোর্টিং-এর বেশ কিছু সুবিধা রয়েছে:

  1. কেন্দ্রীভূত মেট্রিক্স : কন্ট্রোল এবং ট্রিটমেন্টের মেট্রিক্স একটি সারিতেই পাওয়া যাবে।
  2. পরিসংখ্যানগত নির্ভরযোগ্যতার ডেটা : এতে গণনাকৃত পি-ভ্যালু, পয়েন্ট এস্টিমেট এবং মার্জিন অফ এরর প্রদান করা হয়।
  3. কার্যকারিতা : একাধিক রিপোর্ট থেকে ফলাফল ম্যানুয়ালি যুক্ত করা বা তুলনা করার প্রয়োজনীয়তা দূর করে।
  4. অন্তঃ-ক্যাম্পেইন সাপোর্ট : অন্তঃ-ক্যাম্পেইন পরীক্ষা-নিরীক্ষার ক্ষেত্রে কন্ট্রোল বনাম ট্রিটমেন্টের তুলনা করার এটিই একমাত্র উপায়, যেখানে একটি একক ক্যাম্পেইনের মধ্যেই ট্র্যাফিককে বিভক্ত করা হয়।

প্রচারণার প্রতিবেদন

যেসব এক্সপেরিমেন্ট আলাদা ট্রিটমেন্ট ক্যাম্পেইন তৈরি করে (উদাহরণস্বরূপ, SEARCH_CUSTOM ), সেগুলোর ক্ষেত্রে আপনি campaign রিসোর্স কোয়েরি করে এবং campaign.experiment_type ব্যবহার করে BASE (কন্ট্রোল) এবং EXPERIMENT (ট্রিটমেন্ট) ক্যাম্পেইন শনাক্ত করতে পারেন। এই পদ্ধতিটি তখন কার্যকর যখন আপনাকে আরও সূক্ষ্ম স্তরে (যেমন, অ্যাড গ্রুপ বা কীওয়ার্ড অনুযায়ী) মেট্রিক্স ভাগ করতে হয় অথবা এমন ক্যাম্পেইন মেটাডেটা দেখতে হয় যা experiment রিসোর্সে নেই। তবে, এর জন্য আপনাকে পারফরম্যান্স তুলনা এবং পরিসংখ্যানগত গণনা ম্যানুয়ালি করতে হবে।

আপনি আন্তঃ-ক্যাম্পেইন পরীক্ষার জন্য বিভিন্ন অংশের তুলনা করতে ক্যাম্পেইন-স্তরের রিপোর্টিং ব্যবহার করতে পারবেন না, কারণ ট্র্যাফিক বিভাজন একটি একক ক্যাম্পেইনের মধ্যেই অভ্যন্তরীণভাবে ঘটে থাকে। একটি আন্তঃ-ক্যাম্পেইন পরীক্ষার জন্য campaign কোয়েরি করলে শুধুমাত্র সমষ্টিগত মোট পরিমাণ ফেরত আসে।

সর্বোত্তম অনুশীলন

  • একটি উপযুক্ত কনফিডেন্স লেভেল নির্বাচন করুন : একটি নিম্ন পি-ভ্যালু থ্রেশহোল্ড নির্ধারণ করলে দ্রুত দিকনির্দেশনা পাওয়া যায়, বিশেষ করে কম বাজেট বা কম কনভার্সন ভলিউমের ক্ষেত্রে। ৯৫% কনফিডেন্স (পি-ভ্যালু <= ০.০৫) অ্যাকাডেমিক স্ট্যান্ডার্ড হিসাবে বিবেচিত হয় এবং দীর্ঘ সময় ধরে আরও সঠিক ফলাফলের জন্য এটি শ্রেয় হতে পারে।
  • যথেষ্ট দীর্ঘ সময় ধরে পরীক্ষা চালান : সাপ্তাহিক পারফরম্যান্স চক্র, রূপান্তর বিলম্ব এবং শেখার সময়কাল বিবেচনায় রাখতে কমপক্ষে ৪ সপ্তাহ ধরে পরীক্ষা চালান।
  • প্রস্তুতির জন্য সময় দিন : স্বয়ংক্রিয় বিডিং ব্যবহার করা ক্যাম্পেইন বা নতুন ফিচার পরীক্ষার ক্ষেত্রে, প্রথম ১-২ সপ্তাহের ডেটা উপেক্ষা করুন, যাতে বিডিং মডেল এবং ট্র্যাফিকের মাত্রা বিভাজনের সাথে পুনরায় সামঞ্জস্যপূর্ণ হওয়ার জন্য সময় পায়।
  • ৫০/৫০ বিভাজন ব্যবহার করুন : পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ ফলাফল অর্জনের জন্য ট্র্যাফিকের ৫০/৫০ বিভাজন সাধারণত দ্রুততম উপায়।
  • আগে থেকে সময়সূচী নির্ধারণ করুন : বিজ্ঞাপন পর্যালোচনা এবং অনুমোদন প্রক্রিয়ার জন্য সময় দিতে আপনার পরীক্ষা শুরুর তারিখটি ৩-৭ দিন পরে ঠিক করুন।
  • যেকোনো নির্দিষ্ট সময়ে আপনি একটি ক্যাম্পেইনের অধীনে কেবল একটিই পরীক্ষা চালাতে পারবেন।