Định nghĩa từ đồng nghĩa

Các tổ chức thường có thuật ngữ riêng biệt hoặc nhiều cách để đề cập đến một khái niệm hoặc sự vật. Bạn nên xác định các từ đồng nghĩa để thiết lập các cụm từ tương đương nhằm giúp người dùng tìm thấy các mục khi tìm kiếm.

Từ đồng nghĩa được xác định bằng cách lập chỉ mục các mục bằng giản đồ phổ biến _dictionaryEntry.

Các mục thuộc loại _dictionaryEntry có thể có các thuộc tính sau:

Tài sản Loại Nội dung mô tả Bắt buộc?
_term string Thuật ngữ cần định nghĩa. Giá trị đề xuất là những từ hoặc cụm từ không được chèn dấu gạch nối và không có dấu câu. Bắt buộc
_synonym string (repeated) Các cụm từ thay thế sẽ được đưa vào truy vấn phù hợp với chuỗi được định nghĩa trong _term. Bắt buộc
_onlyApplicableForAttachedSearchApplications boolean Cho phép bạn nhóm các từ đồng nghĩa theo nguồn dữ liệu và ứng dụng tìm kiếm. Để biết thêm thông tin, hãy xem bài viết Xác định từ đồng nghĩa cụ thể cho nguồn dữ liệu. Không bắt buộc

Khi người dùng đưa giá trị của thuộc tính _term vào một truy vấn, cụm từ tìm kiếm có hiệu lực sẽ trở thành "từ đồng nghĩa OR từ khoá". Ví dụ: nếu từ khoá "scifi" được xác định bằng từ đồng nghĩa "science fiction", thì truy vấn có chứa từ "scifi" sẽ khớp với các mục chứa "scifi" hoặc "science fiction."

Từ đồng nghĩa không được áp dụng hai chiều. Nếu truy vấn là "science fiction," Cloud Search thì không áp dụng từ đồng nghĩa nào cho truy vấn. Truy vấn chỉ khớp với các mục chứa "science fiction." mục chứa "scifi" sẽ bị bỏ qua.

Để làm cho tất cả các thuật ngữ có thể thay thế cho nhau, hãy xác định riêng từng thuật ngữ:

Thuật ngữ Từ đồng nghĩa
scifi science fiction
science fiction scifi

Trong quá trình xử lý truy vấn, dấu gạch nối và dấu câu khác sẽ bị xoá trước khi áp dụng từ đồng nghĩa. Truy vấn "sci-fi" của người dùng khớp với _term "sci fi." Để tạo từ đồng nghĩa với những từ mà người dùng có thể gạch nối, trước tiên hãy chuẩn hoá _term để sử dụng khoảng trắng thay vì dấu gạch nối.

Tiếp tục ví dụ, các định nghĩa sau đây so khớp với các truy vấn của người dùng, xem "sci-fi," "sci fi," "scifi,""science fiction" là thay thế được cho nhau:

Thuật ngữ Từ đồng nghĩa
scifi science fiction, sci fi
sci fi science fiction, scifi
science fiction scifi, sci fi

Theo mặc định, các từ đồng nghĩa trong bất kỳ nguồn dữ liệu nào cũng áp dụng trên toàn bộ miền. Cụ thể, các từ đồng nghĩa được áp dụng trên các ứng dụng tìm kiếm cho mọi lượt tìm kiếm bất kể nguồn dữ liệu là gì. Nếu bạn muốn có từ đồng nghĩa cụ thể cho nguồn dữ liệu, hãy tham khảo bài viết Xác định từ đồng nghĩa cụ thể cho nguồn dữ liệu.

Xác định các từ đồng nghĩa chung bằng Cloud Search SDK

Bạn có thể sử dụng SDK Trình kết nối nội dung để xác định các cụm từ và từ đồng nghĩa của chúng. Xem bài viết Tạo trình kết nối nội dung để biết hướng dẫn về cách tạo trình kết nối.

Đoạn mã sau minh hoạ cách tạo RepositoryDoc đại diện cho thuật ngữ và từ đồng nghĩa dựa trên bản ghi tệp CSV:

DictionaryConnector.java
/**
 * Creates a document for indexing.
 *
 * For this connector sample, the created document is domain public
 *  searchable. The content is a simple text string.
 *
 * @param record The current CSV record to convert
 * @return the fully formed document ready for indexing
 */
private ApiOperation buildDocument(CSVRecord record) {
  // Extract term and synonyms from record
  String term = record.get(0);
  List<String> synonyms = StreamSupport.stream(record.spliterator(), false)
      .skip(1) // Skip term
      .collect(Collectors.toList());

  Multimap<String, Object> structuredData = ArrayListMultimap.create();
  structuredData.put("_term", term);
  structuredData.putAll("_synonym", synonyms);

  if (Configuration.getBoolean("dictionary.attachedToSearchApp", false).get()) {
    structuredData.put("_onlyApplicableForAttachedSearchApplications", true);
  }

  String itemName = String.format("dictionary/%s", term);

  // Using the SDK item builder class to create the item
  Item item =
      IndexingItemBuilder.fromConfiguration(itemName)
          .setItemType(IndexingItemBuilder.ItemType.CONTENT_ITEM)
          .setObjectType("_dictionaryEntry")
          .setValues(structuredData)
          .setAcl(DOMAIN_PUBLIC_ACL)
          .build();

  // Create the fully formed document
  return new RepositoryDoc.Builder()
      .setItem(item)
      .build();
}

Lưu ý những điều sau đây khi xác định các từ đồng nghĩa:

  • Các mục từ đồng nghĩa phải được đặt ở chế độ công khai trong miền. Trong ví dụ trước, việc này được thực hiện bằng cách đặt ACL thành DOMAIN_PUBLIC_ACL.
  • Bạn không nên xác định các thuộc tính sau cho tệp cấu hình, vì các thuộc tính này sẽ ghi đè chế độ cài đặt công khai của miền trong mã của bạn:
    • defaultAcl.mode=FALLBACK
    • defaultAcl.public=true

Xác định các từ đồng nghĩa dành riêng cho ứng dụng tìm kiếm

Theo mặc định, các từ đồng nghĩa được áp dụng cho tất cả các nguồn dữ liệu trên tất cả các ứng dụng tìm kiếm.

Tuy nhiên, giả sử tổ chức của bạn có các nhóm kỹ thuật và bán hàng riêng biệt và bạn muốn cung cấp cho mỗi nhóm một trải nghiệm tìm kiếm khác nhau, bao gồm cả các từ đồng nghĩa theo vai trò công việc cụ thể. Trong trường hợp này, bạn có thể tạo một ứng dụng tìm kiếm với nguồn dữ liệu cụ thể về kỹ thuật và các từ đồng nghĩa, đồng thời tạo một ứng dụng tìm kiếm khác với nguồn dữ liệu dành riêng cho giao dịch bán hàng và các từ đồng nghĩa. Để thực hiện mục tiêu này, hãy lập chỉ mục từng từ đồng nghĩa trong một nguồn dữ liệu cụ thể bằng cách sử dụng _onlyApplicableForAttachedSearchApplications=true. Chế độ cài đặt này giới hạn các từ đồng nghĩa để chúng chỉ được áp dụng cho những ứng dụng tìm kiếm có chứa một nguồn dữ liệu cụ thể.

Ví dụ: việc thêm dòng mã sau đây vào mã mẫu trước đó đảm bảo các từ đồng nghĩa được lập chỉ mục là dành riêng cho nguồn dữ liệu:

structuredData.put("_onlyApplicableForAttachedSearchApplications", true);