[田中の研究成果] [Researchers' Know-how]

多ファイル型文献リストの検索 (工事中)

田中 重人 (東北大学文学部 日本語教育学研究室 講師)

目次

はじめに
一般論 具体例

はじめに

文献の書誌情報をあつめた文献リスト・データベースの類はたくさんありますが、 そこから目的の文献情報を集めるのに苦労することがあります。

文献データベースには、まず

のようなかたちのものがあります。 前者はキーワードや著者名などで目的の文献をさがしだすことができますし、 後者でもブラウザの文字列検索機能その他の手段で検索をかけることができます。

始末にこまるのは

です。 分割の基準としては、著者別、タイトル順、発行者別、掲載誌別、分野別などがよくつかわれています。 分野別にわけられている場合、興味ある分野のファイルがちょうどみつかれば、それはそれで有用といえます。 でも、タイトル順や発行者別にわけられてもあまりしかたありません。 そうした文献リストから自分の関心にあった文献情報をとりだすには、 いくつにもわかれたたくさんのファイルをいちいちみていくことになります。 多大の労力をついやしてつくられた文献リストも、これでは利用価値が半減してしまいます。

そこで役にたつのが、ロボット巡回型の検索エンジン (代表は goo) です。 リンクをたどってつながっているファイルが自動的に記録されているので、 目的の文献リストの諸ファイルも検索対象になっています。 うまく条件を設定して検索すれば、 どのファイルにめざす情報がふくまれているかをしぼりこむことができます。

このページでは、こうした 多ファイル型文献リスト からの文献検索の補助として ロボット巡回型の検索エンジンを活用するノウハウを書いていきます。


一般論

ファイル群を特定して検索するにはつぎのふたつのやりかたがあります。
(1) そのファイル群に共通の文字列がヘッダなどにふくまれている場合
その文字列を条件にふくめて AND (論理積) 検索をかける
(2) 特定のサーバあるいはディレクトリ内におかれている場合
そのサーバ内あるいはディレクトリ内だけをさがすオプションを利用する
両方を利用するのがいちばん確実ですが、 検索エンジンのマニアックなつかいかたになれていないかたには (1) の方法のほうがずっとやさしいので、 そちらだけでまにあえばそれにこしたことはないでしょう。 いずれにせよ、目的の文献リストについて、
  1. 諸ファイルがどういう形式で書かれているか
  2. どういうディレクトリ構造のもとに配置されているか
という情報が必要です。

ロボット巡回型検索エンジンというのはたくさんあるのですが、 わたしがためしてみたかぎり、つかいものになるのは goo だけでした。 InfoseekLycos では 多少検索条件を工夫してみても、下記文献リストのなかのファイルはヒットしません。 たぶんロボットの巡回先にはいっていないのでは、と推測します。 ODINHole-in-one などではひっかかることもあるようなので、 検索方法を工夫すればなんとかなるかもしれません (調査中)。

最近 Google を使ってみました。 ここはかなりいけそうな気がします。 単純な検索の方法は goo と同様なので、下記の例のような検索語を打ちこんで検索してみます。 検索結果はサイト単位で表示されます。 多分当該サイトが上位に来ていると思うので、そのサイト内で「追加検索」をすれば、goo と同様の結果がえられます。 Google の使える点は ヒットした検索語の前後が検索結果に表示される というところですね。 これで文献名までほとんど特定できます。 ただし、収録データ自体は goo よりすくなそうです。 ひまができたら比較検討してみます。
(2000-12-03)

もちろん、goo でもほんとうにすべてのファイルが記録されているという保証はありません。 下記のデータベースに関してもぜんぶのファイルが網羅的に記録されているかどうかは確かめていませんし、 将来は記録されなくなる可能性もあります。 ですから、下記の検索方法でみつからない場合でも、これらのデータベースに記載がないとはかぎらず、 たんにgooの巡回先からはずれているだけかもしれないということに留意してください。

またこの検索のやりかたはあくまでもファイル単位のものであって、 個々の文献情報を検索しているわけではないという点も要注意です。 たとえば "米朝 新聞" というキーワードで検索した場合、 「米朝関係に関する新聞報道の内容分析」 というような論文があれば当然ヒットしますが、 それ以外に、 「桂米朝の話芸」 「河内音頭における新聞詠みの発展」 のような別々の論文がならんでのっているファイルもひろってしまいます。 個々の文献情報を特定してきめこまかい検索をかけられないので、 通常の文献検索サービスよりは精度がずいぶんおちてしまいます。

これらの欠点があるとはいえ、 いちいちリンクをたどってしらみつぶしにファイルをみていくよりは効率的であり、 「あたりをつける」手段としては有用とおもいます。


具体例

つぎのような文献リストについて、実際にやってみました。

女性学文献一覧 (奈良女子大学付属図書館) の場合

奈良女子大学付属図書館女性学文献一覧 というデータベースがあります。 同図書館所蔵の図書から「女性問題関連図書」6,000点以上をリストアップしたものだそうです (「作成の経緯」を参照)

データベース全体は「書名順索引」「著者名順索引」のふたつの索引からなり、 書名または著者名のよみの頭文字べつにファイルがわかれています。 むかし図書館によくあった (いまでもあるか) 書名・著者名別カード・ボックスを そのままインターネットにのせたというかんじです。 書名や著者がすでにわかっている場合はこれでさがせますが、それだったら Webcat のほうがずっと便利です。 国立大学図書館のデータベースにのってるようなものなら、確実にこちらでみつかるはずです。 まともなつかいかたをしたのでは、じつはあまりつかいみちのないデータベースといえます。

ではgooを使って強引にキーワード検索をしてみましょう。

「女性学文献一覧」のファイル群は、 http://www.lib.nara-wu.ac.jp/josei/ 以下にHTMLファイルのかたちで置かれています。 それぞれのファイルのヘッダには、

というタイトルがついています (XX には書名・著者名頭文字をローマ字化したものが入る)。

著者名順索引のタイトル中の単語 (author, index) はそれほどめずらしいものではないので、 あまりつかえません。 書名順索引のほうをターゲットにするのがいいでしょう。 goo の検索画面で検索文字列に

josei data title なんとか

と打ちこんで「検索」をかけます (「なんとか」には目的のキーワードをいれる)。 ためしに "josei data title 家事" で検索してみると、 22件のヒットすべてがこのデータベースのファイルでした (1999.12.7)。

もし「女性学文献一覧」とは関係のないものがたくさんヒットしてしまった場合には、 「ドメイン順」に並べ替えすると、みつけやすくなります。

どうしても大量に関係ないものがヒットしてしまう場合は、 「エキスパートgoo」 をつかって、

検索文字列:
josei data title なんとか
ドメイン:
www.lib.nara-wu.ac.jp
ディレクトリ:
josei

と指定して検索します。


公的機関の調査研究報告書リスト (科学技術振興事業団) の場合

これから調べます。 とりあえず URL はこちら:
科学技術振興事業団
公的機関の調査研究報告書リスト

学術雑誌目次速報データベース (国立情報学研究所) の場合

国立情報学研究所 (旧 NACSIS) のサイトのなかに、 学術雑誌目次速報データベース (SOKUHO) のページがあります。 さまざまな雑誌・紀要などの目次を大学図書館や学会などが統一形式で電子化し、 それをまとめて公開しているもののようです。 本来は有料で、 NACSIS-IR (情報検索サービス) に加入しないと検索サービスが受けられません。 ただしファイルそのものはWWW上で公開されているので、上記の流儀で検索をかけることができます。

「学術雑誌目次速報データベース」のファイル群は、 http://www.nii.ac.jp/sokuho/articles/ (および旧サイトの http://www.nacsis.ac.jp/sokuho/articles/) 以下にHTMLファイルのかたちで置かれています。 ファイルは大別して雑誌名リスト (50音別)、雑誌の巻号一覧、各巻の目次の3種類があります。 それぞれのファイルのヘッダには、

というタイトルがついています (Xには頭文字のかな、xxxxxxxxにはその雑誌に NACSIS でつけているID番号がはいる)。

個々の論文名がのっているのは「目次」なので、 goo の検索画面で検索文字列に

articles なんとか
と打ちこんで「検索」をかけます (「なんとか」には目的のキーワードをいれる)。 ためしに "articles 家事" を検索してみたところ、 103件のヒット数のなかで36件がこのデータベースのファイルでした (1999.12.7)。 表示件数を「100件」にして「ドメイン順」にならべかえると、1ページめの後半に該当ファイルがずらっとならびます。

個々の論文ではなく雑誌名を対象に検索したいときは

volumes なんとか
とします。 ちなみに "volumes 社会学" では、 76ヒット中12件がこのデータベースのファイルでした (1999.12.14)。

"articles" や "volumes" はけっしてめずらしい単語ではないので、 この検索のしかただと関係ないものがかなり大量にヒットしてしまいます。 とくにアルファベットだけからなるキーワードを検索する場合、 たとえば "articles SSM" などとすると悲惨な結果になります。 こうした事態をふせぐには、 「エキスパートgoo」 をつかって、

検索文字列:
articles なんとか
ドメイン:
www.nii.ac.jp
ディレクトリ:
sokuho/articles

のように指定して検索します。 新しいサイトと旧いサイトの両方が goo の巡回先になっているとはかぎらないので、 ドメイン:には www.nacsis.ac.jp もいれてみてためしたほうがいいかもしれません。


東北大学 / 文学部 / 日本語教育学 / 田中重人 / 研究の現場
E-mail tsigeto(AT)nik.sal.tohoku.ac.jp

Created: 1999-12-07. Updated: 2002-04-22. Sorry to be Japanese only (encoded in accordance with MS-Kanji: "Shift JIS").