نشر موصل CSV

هذا الدليل مخصّص لمشرفي أداة ربط ملفات CSV (قيم مفصولة بفواصل) في Google Cloud Search، أي أي شخص مسؤول عن تنزيل أداة الربط وإعدادها وتشغيلها ومراقبتها.

يتضمّن هذا الدليل تعليمات حول تنفيذ المهام الرئيسية المتعلّقة بنشر أداة ربط CSV:

تنزيل برنامج موصّل CSV في Google Cloud Search
ضبط الموصّل لاستخدامه مع مصدر بيانات CSV محدّد
نشر الموصّل وتشغيله

لفهم المفاهيم الواردة في هذا المستند، يجب أن تكون على دراية بأساسيات Google Workspace وملفات CSV وقوائم التحكّم بالوصول (ACL).

نظرة عامة على موصّل ملفات CSV في Google Cloud Search

يعمل موصّل CSV في Cloud Search مع أي ملف نصي بتنسيق قيم مفصولة بفواصل (CSV). يخزِّن ملف CSV البيانات الجدولية، وكل سطر في الملف هو سجل بيانات.

يستخرج موصّل CSV في Google Cloud Search الصفوف الفردية من ملف CSV ويفهرسها في Cloud Search من خلال واجهة برمجة التطبيقات Indexing API في Cloud Search. بعد اكتمال الفهرسة بنجاح، يمكن البحث عن الصفوف الفردية من ملفات CSV من خلال برامج Cloud Search أو واجهة برمجة التطبيقات الخاصة بطلبات البحث في Cloud Search. يتيح موصّل CSV أيضًا التحكّم في إذن وصول المستخدمين إلى المحتوى في نتائج البحث، وذلك باستخدام قوائم التحكّم بالوصول.

يمكن تثبيت "موصّل ملفات CSV" في Google Cloud Search على نظام التشغيل Linux أو Windows. قبل نشر موصّل ملفات CSV في Google Cloud Search، تأكَّد من توفّر المكوّنات المطلوبة التالية:

الإصدار 1.8 من Java JRE مثبَّت على جهاز كمبيوتر يشغّل موصّل CSV في Google Cloud Search
معلومات Google Workspace المطلوبة لإنشاء علاقات بين Google Cloud Search ومصدر البيانات:
- مفتاح Google Workspace الخاص (الذي يحتوي على معرّف حساب الخدمة)
- معرّف مصدر بيانات Google Workspace
في العادة، يمكن لمشرف Google Workspace للنطاق تقديم بيانات الاعتماد هذه لك.

خطوات النشر

لنشر موصّل ملف CSV في Google Cloud Search، اتّبِع الخطوات التالية:

تثبيت برنامج موصّل ملفات CSV في Google Cloud Search
تحديد إعدادات موصّل CSV
ضبط إعدادات الوصول إلى مصدر بيانات Google Cloud Search
ضبط إذن الوصول إلى ملف CSV
تحديد أسماء الأعمدة المطلوب فهرستها وأعمدة المفاتيح الفريدة وأعمدة التاريخ والوقت
تحديد الأعمدة التي سيتم استخدامها في عناوين URL لنتائج البحث القابلة للنقر
تحديد معلومات البيانات الوصفية وتنسيقات الأعمدة
جدولة عملية استرجاع البيانات
تحديد خيارات قائمة التحكّم بالوصول (ACL)

1- تثبيت حزمة تطوير البرامج (SDK)

ثبِّت حزمة SDK في مستودع Maven المحلي.

استنسِخ مستودع حزمة تطوير البرامج (SDK) من GitHub.

$ git clone https://github.com/google-cloudsearch/connector-sdk.git
$ cd connector-sdk/csv

اطّلِع على الإصدار المطلوب من حزمة تطوير البرامج (SDK):
```
$ git checkout tags/v1-0.0.3
```
إنشاء الموصّل:
```
$ mvn package
```

انسخ ملف zip الخاص بالموصل إلى دليل التثبيت المحلي:

$ cp target/google-cloudsearch-csv-connector-v1-0.0.3.zip installation-dir
$ cd installation-dir
$ unzip google-cloudsearch-csv-connector-v1-0.0.3.zip
$ cd google-cloudsearch-csv-connector-v1-0.0.3

2. تحديد إعدادات موصّل CSV

بصفتك مشرف الموصل، يمكنك التحكّم في سلوك موصل ملف CSV والسمات التي تحدّد المَعلمات في ملف إعداد الموصل. تشمل المَعلمات القابلة للضبط ما يلي:

الوصول إلى مصدر بيانات
موقع ملف CSV
تعريفات أعمدة ملف CSV
الأعمدة التي تحدّد معرّفًا فريدًا
خيارات الاجتياز
خيارات قائمة التحكّم بالوصول لحظر الوصول إلى البيانات

لكي يتمكّن الموصل من الوصول إلى ملف CSV وفهرسة المحتوى ذي الصلة بشكل صحيح، عليك أولاً إنشاء ملف الإعدادات الخاص به.

لإنشاء ملف إعداد، اتّبِع الخطوات التالية:

افتح محرِّر نصوص من اختيارك وسمِّ ملف الإعدادات.
أضِف أزواج المفتاح=القيمة إلى محتوى الملف كما هو موضّح في الأقسام التالية.
احفظ ملف الإعداد وسمِّه.
تنصح Google بتسمية ملف الإعدادات connector-config.properties حتى لا تكون هناك حاجة إلى معلَمات إضافية في سطر الأوامر لتشغيل المُوصِّل.

بما أنّه يمكنك تحديد مسار ملف الإعداد على سطر الأوامر، ليس من الضروري تحديد موقع ملف عادي. ومع ذلك، احتفِظ بملف الإعدادات في الدليل نفسه الذي يحتوي على الموصّل لتسهيل تتبُّع الموصّل وتشغيله.

لضمان تعرّف الموصل على ملف الإعداد، حدِّد مساره في سطر الأوامر. بخلاف ذلك، يستخدم الموصل connector-config.properties في الدليل المحلي كاسم تلقائي للملف. للحصول على معلومات حول تحديد مسار الإعداد في سطر الأوامر، راجِع تشغيل أداة ربط ملفات CSV في Cloud Search.

3- ضبط إذن الوصول إلى مصدر بيانات Google Cloud Search

المَعلمات الأولى التي يجب أن يحدّدها كل ملف إعداد هي تلك اللازمة للوصول إلى مصدر بيانات Cloud Search، كما هو موضّح في الجدول التالي. عادةً، ستحتاج إلى معرّف مصدر البيانات ومعرّف حساب الخدمة ومسار ملف المفتاح الخاص لحساب الخدمة من أجل ضبط إذن وصول الموصل إلى Cloud Search. تتوفّر الخطوات المطلوبة لإعداد مصدر بيانات في مقالة إدارة مصادر بيانات الجهات الخارجية.

الإعداد	المَعلمة
رقم تعريف مصدر البيانات	`api.sourceId=1234567890abcdef` الحقل مطلوب. معرّف مصدر Google Cloud Search الذي أعدّه مشرف Google Workspace، كما هو موضّح في إدارة مصادر البيانات التابعة لجهات خارجية
مسار ملف المفتاح الخاص لحساب الخدمة	`api.serviceAccountPrivateKeyFile=./PrivateKey.json` الحقل مطلوب. ملف مفتاح حساب خدمة Google Cloud Search لإمكانية الوصول إلى موصّل ملفات CSV في Google Cloud Search
رقم تعريف مصدر الهوية	`api.identitySourceId=x0987654321` مطلوب في حال استخدام مستخدمين ومجموعات خارجيين معرّف مصدر الهوية في Google Cloud Search الذي أعدّه مشرف Google Workspace

4. إعداد مَعلمات ملف CSV

قبل أن يتمكّن الموصل من الانتقال إلى ملف CSV واستخراج البيانات منه لفهرستها، عليك تحديد مسار الملف. يمكنك أيضًا تحديد تنسيق الملف ونوع ترميز الملف. أضِف المَعلمات التالية لتحديد خصائص ملف CSV في ملف الإعداد.

الإعداد	المَعلمة
مسار ملف CSV	`csv.filePath=./movie_content.csv` الحقل مطلوب. مسار ملف CSV الذي سيتم الوصول إليه واستخراج المحتوى منه لفهرسته
تنسيق الملف	`csv.format=DEFAULT` تمثّل هذه السمة تنسيق الملف. يجب أن تكون القيم من فئة CSVFormat في Apache Commons CSV. تشمل قيم التنسيق: `DEFAULT` و`EXCEL` و`INFORMIX_UNLOAD` و`INFORMIX_UNLOAD_CSV` و`MYSQL` و`RFC4180` و`ORACLE` و`POSTGRESQL_CSV` و`POSTGRESQL_TEXT` و`TDF`. في حال عدم تحديدها، تستخدم Cloud Search `DEFAULT`.
معدِّل تنسيق الملف	`csv.format.withMethod=value` تعديل على طريقة تعامل Cloud Search مع الملف الطُرق المتاحة هي من فئة CSVFormat في Apache Commons CSV وتشمل تلك التي تقبل قيمة حرف واحد أو سلسلة أو قيمة منطقية. على سبيل المثال، لتحديد فاصلة منقوطة كمحدد، استخدِم `csv.format.withDelimiter=;`. لتجاهل الأسطر الفارغة، استخدِم `csv.format.withIgnoreEmptyLines=true`.
نوع ترميز الملف	`csv.fileEncoding=UTF-8` مجموعة أحرف Java التي سيتم استخدامها عندما يقرأ Cloud Search الملف. في حال عدم تحديدها، تستخدم خدمة Cloud Search مجموعة الأحرف التلقائية للنظام الأساسي.

5- تحديد أسماء الأعمدة المطلوب فهرستها وأعمدة المفتاح الفريد

لكي يتمكّن الموصل من الوصول إلى ملفات CSV وفهرستها، يجب تقديم معلومات حول تعريفات الأعمدة في ملف الإعداد. إذا لم يكن ملف الإعدادات يتضمّن المَعلمات التي تحدّد أسماء الأعمدة المطلوب فهرستها وأعمدة المفاتيح الفريدة، يتم استخدام القيم التلقائية.

الإعداد	المَعلمة
الأعمدة المطلوب فهرستها	`csv.csvColumns=movieId,movieTitle,description,actors,releaseDate,year,userratings...` أسماء الأعمدة التي سيتم فهرسة البيانات منها في ملف CSV في حال عدم ضبط `csv.csvColumns`، يتم استخدام الصف الأول من ملف CSV كعنوان. في حال ضبط `csv.csvColumns`، تكون له الأولوية على الصف الأول من ملف CSV. إذا كنت قد ضبطت `csv.csvColumns` وكان الصف الأول من ملف CSV عبارة عن قائمة بأسماء الأعمدة، عليك ضبط `csv.skipHeaderRecord=true` لتجنُّب محاولة فهرسة الصف الأول كبيانات. القيم التلقائية هي الأعمدة في صف العناوين في الملف.
أعمدة المفتاح الفريد	`csv.uniqueKeyColumns=movieId` أعمدة ملف CSV التي سيتم استخدام قيمها لإنشاء المعرّف الفريد لكل سجلّ في حال عدم تحديد ذلك، يجب استخدام قيمة التجزئة لسجلّ CSV كمفتاح فريد. القيمة التلقائية هي رمز التجزئة للسجلّ.

6. تحديد الأعمدة التي سيتم استخدامها في عناوين URL لنتائج البحث القابلة للنقر

عندما يبحث مستخدم باستخدام Google Cloud Search، يردّ التطبيق بعرض صفحة نتائج تتضمّن عناوين URL قابلة للنقر لكل نتيجة. لتفعيل هذه الميزة، يجب إضافة المَعلمة الموضّحة في الجدول التالي إلى ملف الإعداد.

الإعداد	المَعلمة
تنسيق عنوان URL الخاص بنتائج البحث	`url.format=https://mymoviesite.com/movies/{0}` الحقل مطلوب. تنسيق إنشاء عنوان URL للعرض لمحتوى CSV
مَعلمات عناوين URL الخاصة بنتائج البحث	`url.columns=movieId` الحقل مطلوب. أسماء أعمدة ملف CSV التي سيتم استخدام قيمها لإنشاء عنوان URL الخاص بعرض السجلّ.
معلَمات عناوين URL الخاصة بنتائج البحث التي يجب تجاهلها	`url.columnsToEscape=movieId` اختيارية: أسماء أعمدة ملف CSV التي سيتمّ تحويل قيمها إلى تنسيق URL لإنشاء عنوان URL صالح للعرض.

7. تحديد معلومات البيانات الوصفية وتنسيقات الأعمدة وجودة البحث

يمكنك إضافة مَعلمات إلى ملف الإعداد تحدّد ما يلي:

مَعلمات إعداد البيانات الوصفية
تنسيقات الأعمدة
جودة البحث

مَعلمات إعداد البيانات الوصفية

تصف مَعلمات إعدادات البيانات الوصفية أعمدة ملف CSV المستخدَمة لتعبئة البيانات الوصفية الخاصة بالعناصر. إذا لم يكن ملف الإعدادات يحتوي على هذه المَعلمات، سيتم استخدام القيم التلقائية. يعرض الجدول التالي هذه المَعلمات.

الإعداد	المعلَمة
العنوان	`itemMetadata.title.field=movieTitle` `itemMetadata.title.defaultValue=Gone with the Wind` سمة البيانات الوصفية التي تحتوي على القيمة المقابلة لعنوان المستند القيمة التلقائية هي سلسلة فارغة.
عنوان URL	`itemMetadata.sourceRepositoryUrl.field=url` `itemMetadata.sourceRepositoryUrl.defaultValue=https://www.imdb.com/title/tt0031381/` سمة البيانات الوصفية التي تحتوي على قيمة عنوان URL للمستند في نتائج البحث.
الطابع الزمني للإنشاء	`itemMetadata.createTime.field=releaseDate` `itemMetadata.createTime.defaultValue=1940-01-17` سمة البيانات الوصفية التي تحتوي على قيمة الطابع الزمني لإنشاء المستند
وقت آخر تعديل	`itemMetadata.updateTime.field=releaseDate` `itemMetadata.updateTime.defaultValue=1940-01-17` سمة البيانات الوصفية التي تحتوي على قيمة الطابع الزمني لآخر تعديل على المستند.
لغة المستند	`itemMetadata.contentLanguage.field=languageCode` `itemMetadata.contentLanguage.defaultValue=en-US` لغة المحتوى للمستندات التي تتم فهرستها
نوع عنصر المخطط	`itemMetadata.objectType.field=type` `itemMetadata.objectType.defaultValue=movie` نوع العنصر الذي تستخدمه أداة الربط، كما هو محدّد في المخطط لن يفهرس الموصل أي بيانات منظَّمة إذا لم يتم تحديد هذه السمة.

تنسيقات التاريخ والوقت

تحدّد تنسيقات التاريخ والوقت التنسيقات المتوقّعة في سمات البيانات الوصفية. إذا لم يكن ملف الإعدادات يحتوي على هذه المَعلمة، يتم استخدام القيم التلقائية. يعرض الجدول التالي هذه المَعلمة.

الإعداد المعلَمة

تنسيقات إضافية للتاريخ والوقت structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX
قائمة مفصولة بفواصل منقوطة لأنماط java.time.format.DateTimeFormatter الإضافية. يتم استخدام الأنماط عند تحليل قيم السلسلة لأي حقول تاريخ أو تاريخ ووقت في بيانات التعريف أو المخطط. القيمة التلقائية هي قائمة فارغة، ولكن يتم دائمًا توفير تنسيقات RFC 3339 وRFC 1123.

تنسيقات الأعمدة

تحدّد تنسيقات الأعمدة معلومات حول الأعمدة التي يجب أن تكون جزءًا من المحتوى القابل للبحث. إذا لم يكن ملف الإعدادات يحتوي على هذه المَعلمات، يتم استخدام القيم التلقائية. يعرض الجدول التالي هذه المَعلمات.

الإعداد	المَعلمة
تخطّي العنوان	`csv.skipHeaderRecord=true` منطقي. تجاهُل سجلّ العنوان (السطر الأول) في ملف CSV إذا ضبطت `csv.csvColumns` وكان ملف CSV يتضمّن صف عناوين، عليك ضبط `skipHeaderRecord=true`. يمنع ذلك فهرسة الصف الأول في الملف كبيانات. إذا كان ملف CSV لا يحتوي على صف عنوان، اضبط القيمة على `skipHeaderRecord=false`. القيمة التلقائية هي "خطأ".
أعمدة متعدّدة القيم	`csv.multiValueColumns=genre,actors` أسماء الأعمدة في ملف CSV التي تتضمّن قيمًا متعددة القيمة التلقائية هي سلسلة فارغة.
محدّد الأعمدة المتعدّدة القيم	`csv.multiValue.genre=;` مُحدِّد الأعمدة المتعددة القيم الفاصل التلقائي هو الفاصلة.

جودة البحث

تتيح أداة ربط ملفات CSV في Cloud Search التنسيق التلقائي لملفات HTML لحقول البيانات. يحدّد الموصّل حقول البيانات في بداية عملية تنفيذه، ثم يستخدم نموذج محتوى لتنسيق كل سجلّ بيانات قبل تحميله إلى Cloud Search.

يحدّد نموذج المحتوى أهمية كل قيمة حقل للبحث. حقل العنوان مطلوب ويتم تحديده على أنّه الأولوية القصوى. يمكنك تحديد مستويات أهمية جودة البحث لجميع حقول المحتوى الأخرى: عالية أو متوسطة أو منخفضة. يتم تلقائيًا ضبط أي حقل محتوى غير محدّد في فئة معيّنة على أولوية منخفضة. يعرض الجدول التالي هذه المَعلمات.

الإعداد	المَعلمة
عنوان المحتوى	contentTemplate.csv.title=`movieTitle` عنوان المحتوى هو الحقل الذي يقدّم أعلى جودة بحث.
جودة البحث العالية لحقول المحتوى	contentTemplate.csv.quality.high=`actors` حقول المحتوى التي تم منحها قيمة عالية لجودة البحث القيمة التلقائية هي سلسلة فارغة.
جودة البحث المنخفضة لحقول المحتوى	contentTemplate.csv.quality.low=`genre` حقول المحتوى التي تم منحها قيمة منخفضة لجودة البحث القيمة التلقائية هي سلسلة فارغة.
جودة بحث متوسطة لحقول المحتوى	contentTemplate.csv.quality.medium=`description` حقول المحتوى التي تم منحها قيمة متوسطة لجودة البحث القيمة التلقائية هي سلسلة فارغة.
حقول المحتوى غير المحدّدة	contentTemplate.csv.unmappedColumnsMode=`IGNORE` كيفية تعامل أداة الربط مع حقول المحتوى غير المحدّدة القيم الصالحة هي: APPEND: لإلحاق حقول المحتوى غير المحدّدة بالنموذج IGNORE: لتجاهل حقول المحتوى غير المحدّدة القيمة التلقائية هي APPEND.

8. جدولة عملية استكشاف البيانات

التجوال هو عملية الموصل التي تتيح استكشاف المحتوى من مصدر البيانات، وهو في هذه الحالة ملف CSV. أثناء تشغيل موصّل CSV، سيجتاز صفوف ملف CSV، وسيفهرس كل صف في Cloud Search من خلال Indexing API.

يفهرس البحث الكامل جميع الأعمدة في الملف. لا تفهرس عملية الانتقال التدريجي سوى الأعمدة التي تمت إضافتها أو تعديلها منذ عملية الانتقال السابقة. لا ينفّذ موصّل CSV سوى عمليات اجتياز كاملة. ولا تنفّذ عمليات اجتياز تدريجية.

تحدّد مَعلمات الجدولة عدد المرات التي ينتظر فيها الموصل بين عمليات الاجتياز. إذا لم يكن ملف الإعداد يحتوي على مَعلمات الجدولة، سيتم استخدام القيم التلقائية. يعرض الجدول التالي هذه المَعلمات.

الإعداد	المَعلمة
التنقّل الكامل بعد فترة زمنية	schedule.traversalIntervalSecs=`7200` يُجري الموصل عملية بحث شاملة بعد فترة زمنية محدّدة. حدِّد الفاصل الزمني بين عمليات الاجتياز بالثواني. القيمة التلقائية هي 86400 (عدد الثواني في يوم واحد).
التصفّح الكامل عند بدء تشغيل الموصل	schedule.performTraversalOnStart=`false` ينفّذ الموصّل عملية اجتياز كاملة عند بدء تشغيله، بدلاً من انتظار انتهاء الفاصل الزمني الأول. القيمة التلقائية هي true.

9- تحديد خيارات "قائمة التحكّم بالوصول" (ACL)

يتيح موصّل ملف CSV في Google Cloud Search استخدام الأذونات من خلال قوائم التحكّم بالوصول (ACL) للتحكّم في إمكانية الوصول إلى محتوى ملف CSV في نتائج البحث. تتوفّر خيارات متعددة لقوائم التحكّم بالوصول (ACL) تتيح لك حماية وصول المستخدمين إلى السجلات المفهرسة.

إذا كان المستودع يتضمّن معلومات فردية عن قوائم التحكّم بالوصول مرتبطة بكل مستند، حمِّل كل معلومات قوائم التحكّم بالوصول للتحكّم في إذن الوصول إلى المستندات في Cloud Search. إذا كان المستودع يوفّر معلومات جزئية أو لا يوفّر أي معلومات عن قائمة التحكّم بالوصول، يمكنك تقديم معلومات تلقائية عن قائمة التحكّم بالوصول في المَعلمات التالية التي توفّرها حزمة تطوير البرامج (SDK) للموصل.

يعتمد الموصل على تفعيل قوائم التحكم بالوصول التلقائية في ملف الإعداد. لتفعيل قوائم التحكّم بالوصول التلقائية، اضبط defaultAcl.mode على أي وضع آخر غير none واضبطه باستخدام defaultAcl.*.

الإعداد	المَعلمة
وضع قائمة التحكم في الوصول	defaultAcl.mode=fallback الحقل مطلوب. يعتمد موصّل ملف CSV على وظيفة قائمة التحكّم بالوصول التلقائية. لا يتيح الموصل سوى وضع التراجع.
اسم قائمة التحكّم بالوصول التلقائية	defaultAcl.name=`VIRTUAL_CONTAINER_FOR_CONNECTOR_1` اختيارية: تتيح هذه السمة تجاوز اسم الحاوية الافتراضية الذي يستخدمه الموصل لإعداد قوائم التحكّم بالوصول التلقائية. القيمة التلقائية هي "DEFAULT_ACL_VIRTUAL_CONTAINER". يمكنك إلغاء هذه القيمة إذا كانت عدّة أدوات ربط تفهرس المحتوى في مصدر البيانات نفسه.
قائمة التحكم بالوصول العامة التلقائية	defaultAcl.public=`true` تم ضبط قائمة التحكّم بالوصول التلقائية المستخدَمة للمستودع بأكمله على إذن الوصول إلى النطاق العام. القيمة التلقائية هي false.
المستخدمون الذين يمكنهم قراءة مجموعة قائمة التحكّم بالوصول (ACL) الشائعة	defaultAcl.readers.groups=google:`group1, group2`
برامج قراءة قوائم التحكّم بالوصول الشائعة	defaultAcl.readers.users=`user1, user2, google:user3`
رفض القرّاء في المجموعة التي لديها قائمة ACL مشتركة	defaultAcl.denied.groups=`group3`
القراء الذين تم رفض وصولهم إلى قائمة التحكّم بالوصول الشائعة	defaultAcl.denied.users=`user4, user5`
إذن الوصول إلى النطاق بالكامل	لتحديد أن يكون كل سجل مفهرس متاحًا للجميع من قِبل كل مستخدم في النطاق، اضبط الخيارَين التاليَين على القيم التالية: defaultAcl.mode=fallback defaultAcl.public=true
قائمة التحكم بالوصول (ACL) المحدّدة الشائعة	لتحديد قائمة تحكّم بالوصول واحدة لكل سجلّ في مستودع البيانات، اضبط جميع قيم المَعلمات التالية: defaultAcl.mode=fallback defaultAcl.public=false defaultAcl.readers.groups=google:`group1, group2` defaultAcl.readers.users=`user1, user2, google:user3` defaultAcl.denied.groups=`group3` defaultAcl.denied.users=`user4, user5` يُفترض أنّ كل مستخدم ومجموعة محدّدين هما مستخدم/مجموعة محدّدين في النطاق المحلي ما لم يتم وضع البادئة "google:" (ثابت حرفي). المستخدم أو المجموعة التلقائيان هما سلسلة فارغة. لا توفِّر خيارات المستخدم والمجموعة إلا إذا تم ضبط defaultAcl.public على false. لإدراج مجموعات ومستخدمين متعددين، استخدِم قائمة مفصولة بفواصل. إذا تم ضبط defaultAcl.mode على none، لن يمكن البحث عن السجلات بدون قوائم ACL فردية محددة.

تعريف المخطط

تتيح خدمة Cloud Search فهرسة المحتوى المنظَّم وغير المنظَّم وعرضه. لكي تتمكّن من الاستفادة من طلبات البحث عن البيانات المنظَّمة في بياناتك، عليك إعداد مخطط لمصدر البيانات.

بعد تحديد المخطط، يمكن أن يشير "موصّل CSV" إلى المخطط المحدّد لإنشاء طلبات الفهرسة. لتقديم مثال توضيحي، لنفترض أنّ لدينا ملف CSV يحتوي على معلومات حول الأفلام.

لنفترض أنّ ملف CSV الخاص بالمعلومات المُدخَلة يتضمّن المحتوى التالي.

movieId
movieTitle
الوصف
سنة
releaseDate
الممثلون (قيم متعدّدة مفصولة بفواصل (،))
النوع (قيم متعدّدة)
التقييمات

استنادًا إلى بنية البيانات أعلاه، يمكنك تحديد مخطط لمصدر بيانات تريد فهرسة البيانات منه من ملف CSV.

{
  "objectDefinitions": [
    {
      "name": "movie",
      "propertyDefinitions": [
        {
          "name": "actors",
          "isReturnable": true,
          "isRepeatable": true,
          "isFacetable": true,
          "textPropertyOptions": {
            "operatorOptions": {
              "operatorName": "actor"
            }
          }
        },
        {
          "name": "releaseDate",
          "isReturnable": true,
          "isRepeatable": false,
          "isFacetable": false,
          "datePropertyOptions": {
            "operatorOptions": {
              "operatorName": "released",
              "lessThanOperatorName": "releasedbefore",
              "greaterThanOperatorName": "releasedafter"
            }
          }
        },
        {
          "name": "movieTitle",
          "isReturnable": true,
          "isRepeatable": false,
          "isFacetable": false,
          "textPropertyOptions": {
            "retrievalImportance": {
              "importance": "HIGHEST"
            },
            "operatorOptions": {
              "operatorName": "title"
            }
          }
        },
        {
          "name": "genre",
          "isReturnable": true,
          "isRepeatable": true,
          "isFacetable": true,
          "enumPropertyOptions": {
            "operatorOptions": {
              "operatorName": "genre"
            },
            "possibleValues": [
              {
                "stringValue": "Action"
              },
              {
                "stringValue": "Documentary"
              },
              {
                "stringValue": "Drama"
              },
              {
                "stringValue": "Crime"
              },
              {
                "stringValue": "Sci-fi"
              }
            ]
          }
        },
        {
          "name": "userRating",
          "isReturnable": true,
          "isRepeatable": false,
          "isFacetable": true,
          "integerPropertyOptions": {
            "orderedRanking": "ASCENDING",
            "maximumValue": "10",
            "operatorOptions": {
              "operatorName": "score",
              "lessThanOperatorName": "scorebelow",
              "greaterThanOperatorName": "scoreabove"
            }
          }
        }
      ]
    }
  ]
}

مثال على ملف الإعداد

يوضّح ملف الإعدادات المثال التالي أزواج المَعلمات key=value التي تحدّد سلوك أداة ربط نموذجية.

# data source access
api.sourceId=1234567890abcd
api.serviceAccountPrivateKeyFile=./PrivateKey.json

# CSV data structure
csv.filePath=./movie_content.csv
csv.csvColumns=movieId,movieTitle,description,releaseYear,genre,actors,ratings,releaseDate
csv.skipHeaderRecord=true
url.format=https://mymoviesite.com/movies/{0}
url.columns=movieId
csv.datetimeFormat.releaseDate=yyyy-mm-dd
csv.multiValueColumns=genre,actors
csv.multiValue.genre=;
contentTemplate.csv.title=movieTitle

# metadata structured data and content
itemMetadata.title.field=movieTitle
itemMetadata.createTime.field=releaseDate
itemMetadata.contentLanguage.defaultValue=en-US
itemMetadata.objectType.defaultValue=movie
contentTemplate.csv.quality.medium=description
contentTemplate.csv.unmappedColumnsMode=IGNORE

#ACLs
defaultAcl.mode=fallback
defaultAcl.public=true

للحصول على أوصاف تفصيلية لكل مَعلمة، راجِع مرجع مَعلمات الإعداد.

تشغيل موصّل ملفات CSV في Cloud Search

لتشغيل أداة الربط من سطر الأوامر، اكتب الأمر التالي:

$ java -jar google-cloudsearch-csv-connector-v1-0.0.3.jar -Dconfig=my.config

تتوفّر سجلّات الموصل تلقائيًا في الإخراج العادي. يمكنك تسجيل الدخول إلى الملفات من خلال تحديد logging.properties.