कंपैरेटिव स्टडी

सितंबर 2010 में WebP, JPEG, और JPEG 2000 की तुलनात्मक स्टडी

ध्यान दें: हमने यह शुरुआती स्टडी, WebP के उस पहले वर्शन के साथ की थी जिसे हमने रिलीज़ किया था. इसमें libvpx लाइब्रेरी का इस्तेमाल किया गया था. इसके अलावा, सोर्स इमेज, JPEG फ़ॉर्मैट में थीं. हमने इन्हें वेब से क्रॉल किया था. कम्यूनिटी से मिले सुझावों के आधार पर, हमने libwebp के 0.1.2 वर्शन के साथ एक नई स्टडी शुरू की है. इसमें, सोर्स के तौर पर लॉसलेस इमेज (PNG) का इस्तेमाल किया जा रहा है. नई स्टडी, इस स्टडी की जगह ले लेगी.

WebP टीम ने 10 लाख इमेज के एक रैंडम सेट पर, इमेज को कंप्रेस करने के तीन तरीकों की तुलना की. इस स्टडी का मकसद, इन तरीकों से किए गए कंप्रेसन को मेज़र करना और इमेज के साइज़ और कंप्रेसन के बीच के समझौते का विश्लेषण करना था.

डेटा सेट में मौजूद 9,00,000 JPEG इमेज पर, कंप्रेशन के तीन तरीके, WebP, JPEG 2000, और Re-JPEG लागू किए गए. Re-JPEG की मदद से, JPEG इमेज को फिर से कंप्रेशन किया गया, ताकि हर इमेज, टारगेट पीक सिग्नल-टू-नॉइज़ रेशियो (PSNR) वैल्यू के जितना करीब हो सके. टीम ने इमेज को कंप्रेस करने के बाद उनका विश्लेषण किया.

बड़े पैमाने पर की गई स्टडी के अलावा, टीम ने 100 इमेज की मैन्युअल तौर पर जांच की. इसमें पता चला कि ज़्यादातर मामलों में, WebP फ़ॉर्मैट में इमेज की क्वालिटी अच्छी होती है.

मीटिंग में सामने आए नतीजे

WebP, JPEG या JPEG 2000 की तुलना में ज़्यादा कंप्रेशन करता है. फ़ाइल के साइज़ को कम करने से, खास तौर पर छोटी इमेज का साइज़ काफ़ी कम हो जाता है. वेब पर सबसे ज़्यादा इसी तरह की इमेज होती हैं.

डेटा सेट

इस स्टडी में इस्तेमाल किए गए डेटा सेट में, वेब से क्रॉल की गई इमेज के रिपॉज़िटरी से, 10 लाख इमेज का रैंडम सैंपल लिया गया था. यहां दी गई टेबल में, डेटा सेट में अलग-अलग तरह की इमेज का बंटवारा दिखाया गया है.

टाइप गिनती
JPEG ~900K
PNG ~47 हज़ार
GIF ~47 हज़ार
अन्य ~6 हज़ार

एक्सपेरिमेंट का डिज़ाइन

एक्सपेरिमेंट दो चरणों में चलाए गए:

  1. टीम ने इमेज पर WebP का इस्तेमाल किया. इसके लिए, 42 के टारगेट PSNR का इस्तेमाल किया गया. उन्होंने WebP एन्कोडर के लिए क्वालिटी पैरामीटर (QP) को तब तक ट्यून किया, जब तक उन्हें किसी इमेज के लिए 42 के आस-पास का नतीजा नहीं मिल गया. इसलिए, हर इमेज के लिए हासिल किया गया असल पीएसएनआर, ज़रूरी नहीं है कि वह 42 ही हो.

  2. टीम ने WebP में कंप्रेस की गई इमेज के लिए PSNR वैल्यू का इस्तेमाल, JPEG 2000 और Re-JPEG इमेज के लिए टारगेट PSNR के तौर पर किया. उन्होंने टारगेट PSNR के ज़्यादा से ज़्यादा करीब पहुंचने के लिए, JPEG 2000 और JPEG इमेज के क्वालिटी पैरामीटर पर लाइन खोज भी की.

कंप्रेशन का असल नतीजा, यहां दिए गए फ़ॉर्मूले का इस्तेमाल करके प्रतिशत के तौर पर मेज़र किया गया था:

compression_percentage = 100 * (original_image.length - compressed_image.length) / original_image.length

नतीजे

टेस्ट से, नेगेटिव और नॉन-नेगेटिव कमप्रेशन गेन के लिए ये नतीजे मिले:

कंप्रेस करने से फ़ाइल का साइज़ कम होना

अगर किसी तरीके से इमेज को कंप्रेस करने के बाद, उसका साइज़ बढ़ जाता है, तो टीम ने उस तरीके को दंडित नहीं किया. इसका मतलब है कि जब compressed_image.length, original_image.length से ज़्यादा थी, तब compression_percentage को 0 माना गया था.

नेगेटिव कंप्रेसन गेन

टीम ने अलग-अलग कंप्रेसर की परफ़ॉर्मेंस को बेहतर तरीके से समझने के लिए, नेगेटिव कंप्रेसन प्रतिशत के नतीजों को दिखाने की अनुमति दी.

यहां तीनों तरीकों से, कॉम्प्रेस करने के दौरान औसतन कितने प्रतिशत डेटा कम हुआ है, इसकी जानकारी दी गई है.

टाइप औसत PSNR औसत कंप्रेसन %
(कंप्रेसन में हुई बढ़ोतरी का प्रतिशत, जो नेगेटिव नहीं होना चाहिए)
औसत कंप्रेशन %
(नेगेटिव कंप्रेशन गेन)
WebP 39.38 41.30 39.80
JPEG 2000 39.49 27.67 9.71
Re-JPEG 39.36 22.37 14.62

नेगेटिव कंप्रेशन गेन की अनुमति होने पर, JPEG 2000 की औसत परफ़ॉर्मेंस, JPEG से कम थी. ऐसा JPEG इमेज में मौजूद हाई फ़्रीक्वेंसी आर्टफ़ैक्ट की वजह से हो सकता है. ये आर्टफ़ैक्ट, इमेज को सही तरीके से कंप्रेस नहीं कर पाते.

JPEG 2000 में बदलने के लिए, एक्सपेरिमेंट में इस्तेमाल किए गए Kakadu लागू करने की प्रोसेस में, करीब 2,40,000 इमेज बदलने में कामयाब नहीं हुई.

JPEG 2000 में, Re-JPEG के मुकाबले कम प्रतिशत कंप्रेशन था. इसकी मुख्य वजह यह है कि JPEG 2000 का नतीजा, कई इमेज के लिए नेगेटिव कंप्रेशन था. इस वजह से, JPEG इमेज को कंप्रेशन का कुल स्कोर कम मिला.

यहां दिए गए आंकड़े, तीनों तरीकों के लिए डिस्ट्रिब्यूशन ग्राफ़ दिखाते हैं:

पहली इमेज: इमेज के साइज़ के हिसाब से डेटा का बंटवारा

ग्राफ़ से पता चलता है कि ज़्यादातर इमेज छोटी थीं. आम तौर पर, 500 हज़ार से ज़्यादा साइज़ वाली इमेज की फ़्रीक्वेंसी 100 से कम होती है.

दूसरी इमेज: WebP, JPEG, और JPEG 2000 इमेज के लिए कंप्रेशन का प्रतिशत

इस ग्राफ़ से पता चलता है कि WebP फ़ॉर्मैट में कंप्रेस की गई इमेज की बॉडी, re-jpeg और JPEG 2000 से बेहतर कंप्रेस की गई. साथ ही, WebP फ़ॉर्मैट में कंप्रेस की गई तस्वीरों को अन्य फ़ॉर्मैट के मुकाबले ज़्यादा बेहतर तरीके से कंप्रेस किया गया.

तीसरा इमेज: इमेज के साइज़ और कंप्रेस करने के प्रतिशत की तुलना

इस ग्राफ़ से पता चलता है कि WebP, अन्य फ़ॉर्मैट की तुलना में बेहतर तरीके से इमेज को कंप्रेस करता है. खास तौर पर, छोटी इमेज के लिए.