■要約:
小学館グループの株式会社ネットアドバンス(東京・千代田区、代表・相賀昌宏)は7月12日、
有料会員制の総合知識探索サイト『JK: JapanKnowledge(ジャパンナレッジ)』
(http://www.japanknowledge.com/)において、
日本初のWHAT検索エンジンを用いた実験的検索サービスを無料公開しました。
従来のキーワード検索ではできなかった、未知の名前や事柄を検索できるという点が特徴です。
サービス概要
WHAT検索とは、説明はできるけれども正しい名前を思い出せないような検索要求に対して、その名前を直接返す検索のことを言います。
従来の検索エンジンでは、「誰」「何」といった名前や事柄を探す場合、
複数の適当なキーワードで検索した文を読んで、その周辺から求めている名前を見つけ出すという間接的な方法しかありませんでした。
今回JapanKnowledgeのJK実験工房として無料公開される、
WHAT検索エンジンCTXは、(株)小学館(代表・相賀昌宏)、(株)シーエーシー(代表・島田俊夫)、(株)ネットアドバンス(代表・相賀昌宏)が共同で独自に開発したエンジンです。
説明に使うキーワードと、知りたい名前や名称のカテゴリーを指定するだけで、該当する名前の候補一覧を検索結果として返すことができるところが、
従来のキーワード検索エンジンとは異なる大きな特徴となっています。
ある物や人、場所の名前をうっかり忘れてしまって、どうしても思い出せない、ということがよくあります。
そういうとき、CTXではその名前を確認するような使い方が可能です。
またそれだけでなく、例えば、明治維新で活躍した人名の一覧を知りたい、
あるいは、ガソリンの代替燃料と言われるエタノールを生産している会社名を知りたいというように、
未知の名前や名称を検索することも可能です。
なお、(株)小学館と(株)シーエーシーではこのCTXを日米両国で特許出願中です。
ニッポニカURLセレクト・コーパス
CTXが検索対象とするのは、ニッポニカURLセレクト。
これは、ニッポニカ編集部が百科事典の項目の参考情報として厳選したインターネットサイト集です。
約4万サイト(※1)のうち日本語で書かれたサイト約3万サイト分のデータを検索の対象にしています。
各分野にわたって、公式サイト、学術サイト、官公庁のサイトを中心に選定しており、
検索対象の総ページ数は、約700万ページです。
※1…公開時のデータは2006年春時点のものです。データは公開後、適宜更新の予定です。
WHAT検索エンジンCTXと分類知識
文脈や文意を反映した情報検索を目的にしたという開発経緯から、この検索エンジンはCTX(ConTeXt Searh)と名付けられました。
CTXには、小学館が出版社として、百科事典や国語辞典の編集で培ってきた概念や語の分類の知識が凝縮されており、
計算機が人間の検索を支援できるように工夫されています。
分類知識を内蔵した検索エンジンで、WHAT検索を目指したものはCTXの他に前例がありません。
CTXは20台のPC-UNIXで構成された分散処理システムで、約700万ページ相当分の検索用DBをメモリー上に展開して高速な処理を可能にしています。
CTXをより詳しく
CTXが従来の検索エンジンと大きく異なる点は二つあります。
- CTXは、キーワードの照合の範囲をページ全体ではなくキーワード周辺に限定しています。
従来の論理型検索は、指定されたキーワードの有無をページ全体にわたって調べ上げるだけでした。 複数のキーワードを指定しても、ページ上のどの場所に書かれているかは配慮されませんでしたから、 質問者の意図と無関係なページが検索されることがありました。
質問者の検索の意図が、質問文として表現されるなら、質問文に含まれるキーワードは、 ページ全体という広い範囲ではなく、せいぜい章や数文の内に含まれていると考えるのが自然です。
CTXは、検索の範囲をページ全体ではなく、キーワードの周辺に限定しています。 このため、ネット検索のように大量のデータを対象にした場合に、検索のノイズを減らすことができるのです。 また、キーワード間の距離を勘案することで、検索結果の並べ方に反映させることができます。
- CTXは、質問者が知りたい名前や名称のカテゴリーを理解しています。
WHAT検索で重要なことは、質問者が知りたい名前や名称の種類を特定することです。
人の名前なのか、企業の名前なのか、物の名前なのかについて、CTXは個々の語の分類名を理解しています。 質問者が指定した分類名に従って、キーワードの周辺を調べ上げてから、 ヒットした回数とキーワードからの距離を勘案したスコアを付けてランク付けするため、 より関連の強い名前や名称の順に検索結果を列挙することができます。
従来の論理型検索では、たまたま見つけた答えのほかに可能性のある候補の一覧を出力するということが出来なかったため、 検索結果を比較することが容易ではありませんでした。
CTXは、名前のリストから、個々の文脈を比較して確認することができます。
さらなる発展を求めて
CTXはまだまだ産声をあげたばかりで、ときには「なぜ?」と思わせるような答えを返すことがあります。
実験工房として公開に踏み切ったのは、ユーザーの皆さまに使っていただくことを通じて、より使いやすい検索サービスに成長できるよう、これから鍛え上げていきたいと考えてのことです。
まったく新しいWHAT検索の世界を、どうぞ体験・堪能してみてください。
知識探索サイト JapanKnowledge (一般会員向けサイト)
http://www.japanknowledge.com/
JKセレクトシリーズ 字通 (一般会員向けサイト)
(※JapanKnowledgeの一般会員であれば、登録のみで無料で利用できます)
http://moji.japanknowledge.com/
本件に関するお問い合わせ先
株式会社 ネットアドバンス
担当:谷田 隆行(jk_press@netadvance.co.jp)
〒101-0051 千代田区神田神保町2-30 昭和ビル3F
TEL: 03-5213-0871
FAX: 03-5213-0876
(※営業時間は月-金の9:30-5:30)
関連企業概要
株式会社 小学館
所在地:〒101-8001 東京都千代田区一ツ橋 2-3-1
代表者:代表取締役社長 相賀昌宏
http://www.shogakukan.co.jp/
株式会社 シーエーシー(CAC)
所在地:〒103-0015 東京都中央区日本橋箱崎町24番1号
代表者:代表取締役社長 島田俊夫
http://www.cac.co.jp/