理学部情報科学科

メニュー

インターネット検索について(3)

3.検索システムの技術

検索システムは大きく分けてディレクトリ型とロボット型に分類されます。ディレクトリ型とは、Webページをカテゴリや特徴に基づいて分類し整理して提示するものです。ユーザは、大分類から中分類、小分類とカテゴリを選択していきながら目的とするページを検索していきます。ディレクトリでは、ページの内容をきちんと分類するために、人間の手による内容の評価が行われています。
ディレクトリ型検索サイトdmozの例とカテゴリ
図2 ディレクトリ型検索サイトdmozの例とカテゴリ
Yahooの審査基準は、次のようになっています。
人間の手によるWebページの評価は正確ですが、手間と時間がかかるため多くのWebページを評価することができません。そこで、自動的にWebページを評価するためのシステムが開発されています。ロボット型のシステムでは、ロボットと呼ばれるソフトウェアが自動的にリンクをたどりながらWebページを収集し、そのページを分析していきます。どのような単語がどこにいくつ出現したか、それらの相対的な位置関係や前後関係なども分析されていきます。

検索システムに検索用キーワードが入力されると、そのキーワードが多く含まれるWebページ、あるいはタイトルなど重要な場所に含まれるWebページがリストの上位に表示されます。また、複数のキーワードで検索する場合には、それらのキーワードが含まれるだけでなく、その位置関係が近い物ほどリストの上位に表示されることになります。
ロボット型検索エンジンの構成
図3 ロボット型検索エンジンの構成
このようなWebページの重要度を判定する性質を利用して、自分のWebページを検索結果の上位にリストアップされることを目的とした検索エンジン最適化という技術がWebページ作成者の間で広まっています。これは、本来は内容を判断して上位に上げるべきページがキーワードをたくさん含めるなどの小手先のテクニックでリストの上位に上がってしまうことによります。検索エンジンの技術者は、これらの小手先のテクニックに惑わされないように更に複雑な評価方法を取り入れるようになっており、いたちごっことなっています。

この点で、GoogleはWebページ自体の特徴による評価より、そのページがどれだけ他のページからリンクが張られているか(バックリンク)を評価尺度としたページランキングという手法を導入した点で画期的でした。またこの方法は、重要なページは他のページから多くのリンクが張られるとともに、そのリンク元のページも重要度が高いものである、という原理からなりたっており、単純にお互いのページをリンクしあっているだけでは評価が上がらないしくみになっています。つまり、Webページ作成者が検索エンジンを惑わすことが難しいしくみになっているわけです。

このWebページの重要度の計算について、次のような例題がGoogleのサイトにもリンクされています。以下の図は、Webページの相互リンクの例です。この図から、次のような隣接行列Aが作られます。Aのi行j列の要素は、Webページiからjへのリンクがあることを示します。また、その隣接行列から、次のような推移行列Mが作られます。Mのi行j列要素は、ページiがページjから移行されてくる重要度に対する重みで、これは出リンク本数分の1の値です。この推移行列の重みを使って、初期のページ重要度を更新していき、収束したページ重要度を使ってランキングを行うものです。
ページの相互リンクの例
図4 ページの相互リンクの例
図4の相互リンクの場合の隣接行列と推移行列
図5 図4の相互リンクの場合の隣接行列と推移行列
いま、ページの初期重要度をW0=[1 0 0 0 0 0 0 0]としたとき、推移行列から、W1T=W0T・Mとなります。これを繰り返し演算すると、ページの重要度が求められます。例えば、25回繰り返すと、W25=[0.30  0.17  0.14  0.11  0.18  0.04  0.06]という値となり、外部リンクの多いID=1のページの重要度が高いということが分かります。

お問い合わせ先

東邦大学 理学部

〒274-8510
千葉県船橋市三山2-2-1
習志野学事部

【入試広報課】
TEL:047-472-0666

【学事課(教務)】
TEL:047-472-7208

【キャリアセンター(就職)】
TEL:047-472-1823

【学部長室】
TEL:047-472-7110