Anda dapat menyiapkan Google Cloud Search untuk menayangkan konten web kepada pengguna dengan men-deploy plugin pengindeks Google Cloud Search untuk Apache Nutch, web crawler open source.
Saat Anda memulai crawl web, Apache Nutch akan meng-crawl web dan menggunakan plugin pengindeks untuk mengupload versi biner (atau teks) asli konten dokumen ke Google Cloud Search Indexing API. API pengindeksan mengindeks konten dan menampilkan hasilnya kepada pengguna Anda.
Pertimbangan penting
Persyaratan sistem
Persyaratan sistem | |
---|---|
Sistem operasi | Khusus Linux:
|
Software |
|
Jenis dokumen Apache Tika | Format dokumen yang didukung Apache Tika 1.18 |
Men-deploy plugin pengindeks
Langkah-langkah berikut menjelaskan cara menginstal plugin pengindeks dan mengonfigurasi komponennya untuk meng-crawl URL tertentu dan menampilkan hasilnya ke Cloud Search.
Prasyarat
Sebelum men-deploy plugin pengindeks Apache Nutch Cloud Search, kumpulkan informasi yang diperlukan untuk menghubungkan Google Cloud Search dan sumber data:
- Kunci pribadi Google Workspace (yang berisi ID akun layanan). Untuk informasi tentang cara mendapatkan kunci pribadi, buka Konfigurasikan akses ke Google Cloud Search API.
- ID sumber data Google Workspace. Untuk informasi tentang cara mendapatkan ID sumber data, buka Tambahkan sumber data untuk penelusuran.
Langkah 1: Bangun dan instal software plugin dan Apache Nutch
Clone repositori plugin pengindeks dari GitHub.
$ git clone https://github.com/google-cloudsearch/apache-nutch-indexer-plugin.git $ cd apache-nutch-indexer-plugin
Lihat versi plugin pengindeks yang diinginkan:
$ git checkout tags/v1-0.0.5
Bangun plugin pengindeks.
$ mvn package
Untuk melewati pengujian saat membangun plugin pengindeks, gunakan
mvn package -DskipTests
.Download Apache Nutch 1.15 dan ikuti petunjuk penginstalan Apache Nutch.
Ekstrak
target/google-cloudsearch-apache-nutch-indexer-plugin-v1.0.0.5.zip
(yang dibuat di langkah 2) ke folder. Salin folderplugins/indexer-google-cloudsearch
ke folder plugin instal Apache Nutch (apache-nutch-1.15/plugins
).
Langkah 2: Konfigurasikan plugin pengindeks
Untuk mengonfigurasi Plugin Pengindeks Apache Nutch, buat file bernama plugin-configuration.properties
.
File konfigurasi tersebut harus menentukan parameter berikut, yang diperlukan untuk mengakses sumber data Google Cloud Search.
Setelan | Parameter |
ID sumber data | api.sourceId = 1234567890abcdef
Wajib diisi. ID sumber Google Cloud Search yang disiapkan admin Google Workspace untuk plugin pengindeks. |
Akun layanan | api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Wajib diisi. File kunci akun layanan Google Cloud Search yang dibuat admin Google Workspace untuk aksesibilitas plugin pengindeks. |
Contoh berikut menunjukkan contoh file konfigurasi dengan parameter yang diperlukan.
#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#
File konfigurasi juga dapat berisi parameter lain yang mengontrol perilaku plugin pengindeks. Anda dapat mengonfigurasi cara
plugin mengirimkan data ke Cloud Search API, defaultAcl.*
dan batch.*
. Anda juga dapat mengonfigurasi cara plugin pengindeks mengisi metadata dan data terstruktur.
Untuk deskripsi parameter ini, buka Parameter konektor yang disediakan Google.
Langkah 3: Konfigurasikan Apache Nutch
Buka
conf/nutch-site.xml
dan tambahkan parameter berikut:Setelan Parameter Plugin mencakup plugin.includes = text
Wajib. Daftar plugin yang digunakan. Daftar ini harus mencakup minimal:
- index-basic
- index-more
- indexer-google-cloudsearch
conf/nutch-default.xml
memberikan nilai default untuk properti ini, tetapi Anda juga harus menambahkanindexer-google-cloudsearch
secara manual ke properti tersebut.Nama metatag metatags.names = text
Opsional. Daftar tag yang dipisahkan dengan koma yang memetakan ke properti di skema sumber data yang sesuai. Untuk mempelajari lebih lanjut cara menyiapkan Apache Nutch untuk metatag, buka Metatag nutch-parse.
Contoh berikut menunjukkan perubahan yang diperlukan untuk
nutch-site.xml
:<property> <name>plugin.includes</name> <value>protocol-(http|httpclient)|urlfilter-regex|index-(basic|more| metadata)|query-(basic|site|url|lang)|indexer-google-cloudsearch|nutch-extensionpoints|parse-(text|html|msexcel|msword|mspowerpoint|pdf|metatags)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)|parse-(html|tika|metatags)|index-(basic|anchor|more|metadata)</value> </property>
Buka
conf/index-writers.xml
dan tambahkan bagian berikut:<writer id="indexer_google_cloud_search_1" class="org.apache.nutch.indexwriter.gcs.GoogleCloudSearchIndexWriter"> <parameters> <param name="gcs.config.file" value="path/to/sdk-configuration.properties"/> </parameters> <mapping> <copy /> <rename /> <remove /> </mapping> </writer>
<writer> berisi parameter berikut:
Setelan Parameter Lokasi ke file konfigurasi Google Cloud Search gcs.config.file = path
Wajib. Lokasi lengkap (absolut) ke file konfigurasi Google Cloud Search.
Format upload gcs.uploadFormat = text
Opsional. Format yang digunakan plugin pengindeks mengirim konten dokumen ke API pengindeks Google Cloud Search. Nilai yang valid adalah:
raw
: plugin pengindeks mendorong konten dokumen asli yang belum dikonversi.text
: plugin pengindeks mendorong konten tekstual yang diekstrak. Nilai defaultnya adalahraw
.
Langkah 4: Konfigurasikan web crawl
Sebelum memulai crawl web, konfigurasikan crawl agar hanya menyertakan informasi yang ingin disediakan oleh organisasi Anda di penelusuran hasil pengujian tersebut. Bagian ini memberikan ringkasan; untuk informasi selengkapnya tentang cara menyiapkan crawl web, buka Tutorial Nutch.
Siapkan URL awal.
URL mulai mengontrol lokasi web crawler Apache Nutch saat memulai meng-crawl konten Anda. URL awal harus memungkinkan web crawler untuk menjangkau semua konten yang ingin Anda dalam crawling tertentu dengan mengikuti link. URL mulai wajib diisi.
Untuk menyiapkan URL mulai:
Ubah direktori kerja ke direktori penginstalan nutch:
$ cd ~/nutch/apache-nutch-X.Y/
Buat direktori untuk url:
$ mkdir urls
Buat file bernama
seed.txt
dan cantumkan URL di dalamnya dengan 1 URL per baris.
Siapkan aturan ikuti dan aturan jangan ikuti.
Ikuti aturan URL mengontrol URL mana yang di-crawl dan disertakan dalam indeks Google Cloud Search. Crawler web memeriksa URL terhadap mengikuti aturan URL. Hanya URL yang cocok dengan aturan tersebut yang akan di-crawl dan diindeks.
Aturan jangan ikuti mengecualikan URL agar tidak di-crawl dan disertakan dalam indeks Google Cloud Search. Jika URL berisi pola jangan di-crawl, web crawler tidak akan meng-crawlnya.
Untuk menyiapkan aturan ikuti URL dan aturan jangan ikuti URL:
Ubah direktori kerja ke direktori penginstalan nutch:
$ cd ~/nutch/apache-nutch-X.Y/
Edit
conf/regex-urlfilter.txt
untuk mengubah aturan ikuti/jangan ikuti: \$ nano conf/regex-urlfilter.txt
Masukkan ekspresi reguler dengan "+" atau "-" mengikuti / tidak mengikuti pola dan ekstensi URL, seperti yang ditampilkan dalam contoh berikut. Ekspresi terbuka diizinkan.
# skip file extensions -\.(gif|GIF|jpg|JPG|png|PNG|ico) # skip protocols (file: ftp: and mailto:) -^(file|ftp|mailto): # allow urls starting with https://support.google.com/gsa/ +^https://support.google.com/gsa/ # accept anything else # (commented out due to the single url-prefix allowed above) #+.
Edit skrip crawl.
Jika parameter
gcs.uploadFormat
tidak ada atau disetel ke "raw", kamu harus tambahkan "-addBinaryContent -base64
" argumen yang akan diteruskan kenutch index
perintah. Argumen ini memberi tahu modul Pengindeks Nutch untuk menyertakan konten biner di Base64 ketika memanggil plugin pengindeks. Skrip ./bin/crawl tidak memiliki argumen ini secara {i>default<i}.- Buka skrip
crawl
diapache-nutch-1.15/bin
. Tambahkan opsi
-addBinaryContent -base64
ke skrip, seperti pada contoh berikut:if $INDEXFLAG; then echo "Indexing $SEGMENT to index" __bin_nutch index $JAVA_PROPERTIES "$CRAWL_PATH"/crawldb -addBinaryContent -base64 -linkdb "$CRAWL_PATH"/linkdb "$CRAWL_PATH"/segments/$SEGMENT echo "Cleaning up index if possible" __bin_nutch clean $JAVA_PROPERTIES "$CRAWL_PATH"/crawldb else echo "Skipping indexing ..."
- Buka skrip
Langkah 5: Mulai crawl web dan upload konten
Setelah Anda menginstal dan menyiapkan {i>plugin<i}
pengindeks, Anda dapat menjalankannya di
itu sendiri dalam mode lokal. Gunakan skrip dari ./bin
untuk menjalankan tugas crawling atau
setiap perintah Nutch.
Contoh berikut mengasumsikan bahwa komponen yang diperlukan berada di lokasi
saat ini. Jalankan Nutch dengan perintah berikut dari direktori apache-nutch-1.15
:
$ bin/crawl -i -s urls/ crawl-test/ 5
Log crawling tersedia di output std (terminal) atau di direktori logs/
. Kepada
mengarahkan output logging atau untuk logging yang lebih panjang, edit
conf/log4j.properties
.