表紙へ   前の記事   次の記事

ターミノロジー

サーチエンジン

三波千穂美

 インターネットのユーザは,ブラウザにURL (Uniform Resource Locator)を指定するだけで ページを見ることができる.その際,行き着いたペ ージにリンクされている他のページへとアクセスを 繰り返してハイパーテキスト空間を移動していくこ とを,ネットサーフィンと呼ぶ.しかしこの方法で はそこに広がったページしか読めないため,ハイパ ーテキストの全体像をつかむのは難しい.そもそも WWWサーバ上にどれだけのページが存在するのか がはっきりとわかっていない上に,それぞれが絶え ず更新されたり消えたりもしている.さらに,サー バがあるだけの状態ではHTMLファイル置き場がで きたというだけで,そこから情報を必要に応じて探 し出すことはできない.
 これらの問題を解決するべくWWWを検索するた めのシステム,サーチエンジン(Search Engine)が 開発された.サーチエンジンは様々なWebページを データベース化し,目的とするページへ利用者を案 内するサービスであり,分散した未整理な情報を集 中的に処理してしまおうとするものである.
 サーチエンジンは大きく分けるとディレクトリ型 とロボット型の2種類に分かれる.例えて言えば, ディレクトリ型は目次でロボット型は索引というこ とになろう.ディレクトリ型は,多くのページへの リンクを主題別に分類して提供するサービスで,利 用者はまず,分類階層のいちばん上のページにアク セスし,次の分類,さらに次の分類とリンクを選ん でいくことで,目的に合致したページを探していけ る.登録されているのは,運営スタッフが選別した ページか,利用者によって登録申請されたページな ので,一部にしかアクセスできないという欠点はあ るが,使い方を覚える必要はなくリンクを選んでい けばよいので,初心者にも使いやすいのが利点であ る.YahooSnapNTTDirectoryNET PLAZA などがこの型である.
 それに対して, AIta VistaExciteInfoseekLycosMicrosoftNetscapeAmerica OnlineNorthern LightGooTITANなどがロボット型エ ンジンであり,これらは「ロボット」と呼ばれるソ フトウェアを用いてWWW上のページを自動的に集 め,それらに対するキーワードを用いた検索を提供 することができる.検索対象が大規模で網羅性が高 いのが特徴である.また,ページが多いだけでなく, ページ中のほぼ全ての語句を検索できる全文検索を 採用しているのが普通になってきている.しかし情 報収集が自動化されているため,ありがちなキーワ ードで検索すると結果が膨大になりすぎるなどの問 題が生じるため,適切なキーワードを使うことが重 要である.最近はロボット型でもディレクトリを併 用したものもあり,両者の区別ははっきりしなくな っている.
 多くのサーチエンジンは文字列検索しか行わない ので,検索キーワードとしてはページ中に登場して いそうな言葉を用いなければならない.検索結果と なるべき自分の得たい情報を含んだページをイメー ジすることが重要である.また,ロボット型エンジ ンで一般名詞中心の検索を行ってしまうと,検索結 果が膨大になり過ぎるので,固有名詞などの特定的 な言葉を用いるのが適切であろう.逆に言えば,自 分のページにエンジンの検索をヒットさせたい場合 には,多くの人が考えつきそうな言葉でページを構 成することが有効となろう.
 この他に,複数のサーチエンジンに同時に検索質 問を送り,その結果をまとめて表示するメタサーチ エンジンと呼ばれるものがある.これには,検索質 問自体を解釈して適切なサーチエンジンを使うもの や,結果の重複を除いて表示するものなどがあり, Ask JeevesMammaMetacrawlerMeta FindInference Findなどがある.
 全文検索技術によって検索用のキーワードなどの 情報を設定する手間が省けるようになったが,メタ データが全く不要と言うわけではない.ロボット型 の検索結果出力が使いにくいのも,一次情報のみで 処理しているからだと言えよう.メタデータが様々 に整えられれば検索結果の表示が改善され,きめ細 かい検索条件の指定が可能となろう.


本学助手
Search Engine,by Chihomi SANNAMI