多言語のウェブサイトの構築

2010 年 3 月 19 日(金曜日)

多言語のウェブサイトとは、複数の言語でコンテンツを提供するウェブサイトです。多言語のウェブサイトの例には、英語版とフランス語版があるカナダ企業のサイトや、スペイン語とポルトガル語で公開されている南米のサッカーチームのブログなどがあります。

通常、多言語のウェブサイトを作成する意味があるのは、複数の言語にわたってターゲット オーディエンスが存在する場合です。南米のサッカーチームのブログがブラジルのユーザーに向けたものであれば、ポルトガル語のみで公開しても問題ありません。しかし、アルゼンチンのサッカーファンにも読んでもらいたいと考えるなら、スペイン語のコンテンツも用意すると役に立つでしょう。

Google の言語認識

Google は各ページについて主となる言語を判断しようとします。言語を認識されやすくするには、ページごとに使用する言語を統一し、原文と訳文を一緒に表示することは避けるようにしてください。1 ページで複数の言語を認識することもできますが、ページ内のすべての要素(ヘッダー、サイドバー、メニューなど)には同じ言語を使用することをおすすめします。

Google は「lang」属性からドキュメント タイプ定義(DTD)まで、コードレベルの言語情報をすべて無視します。一部のウェブ編集プログラムではこれらの属性が自動的に作成されるため、ウェブページの言語を判断する際にこうした情報はあまり信頼できません。

自身の言語を使って Google で検索を行うユーザーは、ローカライズされた検索結果が表示されることを期待しています。そのためウェブマスターは、ローカライズを行う場合、それが検索結果に表示されるようにする必要があります。以下にそのためのヒントをいくつか紹介します。

多言語のサイトの分析: URL 構造

多言語のウェブサイトを作成するときに、特別な URL を用意する必要はありません。とはいえ、ユーザーが URL を見てウェブサイトのどのセクションにいるのかわかれば便利です。たとえば、https://example.ca/en/mountain-bikes.html または https://en.example.ca/mountain-bikes.html という URL の場合、ユーザーはこのサイトの英語セクションにいることがわかります。一方、https://example.ca/fr/mountain-bikes.html または https://fr.example.ca/mountain-bikes.html という別の URL の場合、ユーザーは同じページのフランス版を見ていることがわかります。また、このような URL 構造を使うと、多言語コンテンツのインデックスを分析しやすくなります。

非英語文字が含まれる URL を作成する場合は、必ず UTF-8 エンコードを使うようにしてください。UTF-8 でエンコードされた URL がコンテンツ内からリンクされた場合は、適切にエスケープされるようにしてください。手動で URL をエスケープする必要がある場合は、この処理を行うオンラインの URL エンコーダを利用するのが簡単です。たとえば、https://example.ca/fr/mountain-bikes.html という URL を英語からフランス語に変換すると、https://example.ca/fr/vélo-de-montagne.html のようになります。この URL には英語でない文字が 1 文字(é)含まれているため、ページ内のリンクで使用するために適切にエスケープすると https://example.ca/fr/v%C3%A9lo-de-montagne.html のようになります。

多言語のウェブサイトのクロールとインデックス登録

自動翻訳したページがインデックスに登録されないようにすることをおすすめします。自動翻訳は意味が通じない場合があり、スパムとみなされる可能性があります。さらに重要な点として、多言語のウェブサイトを作成する目的は、有益なコンテンツを複数の言語で提供してより多くのオーディエンスに見てもらうことです。ユーザーが自動翻訳されたコンテンツを見て、理解できない場合や不自然に感じる場合は、そのようなコンテンツを本当に提供したいかどうか考えてみてください。

ローカライズを行う場合は、Googlebot がサイトのすべての言語バージョンを簡単にクロールできるようにしてください。ページ間で相互リンクすることをおすすめします。つまり、異なる言語での同一コンテンツのページ間をリンクします。ユーザーにとってもこのリンクは非常に便利です。上記の例で、フランス語を話すユーザーが意図せず https://example.ca/en/mountain-bikes.html にアクセスしたとします。すると、ワンクリックで https://example.ca/fr/vélo-de-montagne.html に移動して、同じコンテンツをフランス語で表示できます。

サイトのすべてのコンテンツをさらにクロールされやすくするには、ユーザーの認識言語に基づいた自動的なリダイレクトを行わないようにします。このようなリダイレクトを行うと、ユーザー(および検索エンジン)がサイトのすべての言語バージョンを見られなくなる場合があります。

最後に、各言語のコンテンツには別々の URL を使用します。翻訳版のページを表示するために Cookie を使用することは避けてください。

文字エンコードの使用

Google では、HTTP ヘッダー、HTML ページヘッダー、コンテンツから文字エンコードを直接抽出します。文字エンコードに関して必要な作業はほとんどなく、コンテンツとヘッダーの間などで情報が矛盾していないか注意することのみです。Google ではさまざまな文字エンコードを認識できますが、可能な限りウェブサイトでは UTF-8 を使用することをおすすめします。

最後に

多言語のウェブサイトの作成についての説明は以上です。多言語を話す方は、言葉に行き詰まることもあるでしょう。しかしウェブサイトはそうなりません。

詳細については、多地域のサイトについての投稿をご覧ください。また、次の投稿ではグローバルなウェブサイトを作成する際に発生する可能性がある特殊な状況について詳しく説明する予定です。ぜひご確認ください。それまで、ご不明な点があれば、お気軽にヘルプフォーラムでディスカッションにご参加ください