田中 重人 <http://www.sal.tohoku.ac.jp/~tsigeto/sociodb/>
(東北大学大学院文学研究科・日本社会学会データベース委員会)
これからの発展が見込まれる「セマンティックWeb」技術に基づいて社会学関連の情報を収集・配信する「日本社会学会RDF知識統合システム」(仮称) を創設し、学会員の協力のもとに運営していくことを提案する。このシステムでは、RDF記述によって情報を配信している既存の信頼できるサービス(たとえば国立国会図書館や国立情報学研究所)の文献情報を公開インターフェイス(API)によって収集する。また学会員、関連学会、各種機関から情報を収集する。これらの情報はすべて統合し、外部に配信する。これまで作成してきた「社会学文献情報データベース」(BJS) は、このシステムの基幹データとして統合する。学会員はこのシステムにアカウントを作成し、RDF形式での情報の登録のほか、HTMLその他の形式による文書を公開できる。将来的には、学会大会の報告申し込みや機関誌への投稿・査読のインターフェイスを兼ねることにより、学会において生産される知的資産を統合・管理・公開するシステムとして機能させることを目指す。
「社会学文献情報データベース」(BJS) は、現在、つぎのような問題点をかかえている。
BJSのデータ = 固定フィールドのテキストファイル
- → すべてのデータを自前で管理する必要がある。
RDFによる記述 = 「ノード S」と「ノード O」の関係を「プロパティ V」であらわす → S V O .
# (本当は dc, dcterms, prism についても接頭辞宣言 (@prefix ...) が必要だが、省略) @prefix bjs: <http://sociodb.jp/search/details.php?ID=> . bjs:110101727 dc:creater <http://ci.nii.ac.jp/nrid/9000002337108> . bjs:110101727 dcterms:isPartOf <urn:isbn:9784861631467> . bjs:110101727 prism:pageRange "99-118" .
これらの記述はばらばらに書かれていてもかまわない。この形式のデータをほかのシステムからとってこられれば、それを自前のデータをあわせて解釈できる。複数の記述をまとめて解釈したとき、ノードをプロパティでつないだ有向グラフとして、データの全体像があらわれる(=semantic Web)。
公開APIによる外部への RDF 提供と永続的URIの提供。
標準的なインターフェイスによって、正確な書誌情報が取得できるようになった。 ISBNや著者IDなどの識別子がわかれば、対応する文献を自動的に取得して、情報をインポートできる。
RDFを用いて情報を配信する仕組みとしては、ブログやニュースの記事配信で広く使われているRSS (RDF Site Summary)、学術レポジトリでメタデータを配信する仕組みとして普及しているOAI-PMH (Open Archive Initiative Protocol for Metadata Harvesting) がある。またRDF で記述されたデータを対象に検索する仕組みとしては SPARQL (SPARQL Protocol and RDF Query Language) があり、国立国会図書館などでつかわれている。取得したい情報のURLがわかっていれば、こうした仕組みを使わなくても直接HTTPでアクセスすればよい。
「日本社会学会RDF知識統合システム」においても、入力・出力の両方について、これらのインターフェイスに対応する。いずれも特にめずらしい技術ではなく、現在基盤(B) 科研で構築をすすめているXOOPSで対応できるはずである。
「社会学文献情報データベース」(BJS) に収録されている10万件あまりのデータは、新システムであつかえる形式 (RDF) に変換して統合する。 BJSで付与されているIDは、そのまま利用する。
- ※ RDFの記述を集積してつくられる知識構造(プロパティ付き有向グラフ)をどういうデータ形式で格納するのかは、要調査
現在すすめている、BJSデータ再構築の方向はこのRDF化に向けたひとつのステップと位置付けられる。ただし、現行の文献情報のかたちは、新システムには完全には移せない。これは、広くつかわれているプロパティ語彙 (Dublin Core とそこから派生したもの) の規定が図書館で使われている目録規則よりゆるいためである。図書館規則よりのことを表現するためにいろいろ工夫することは可能だが、かなりの労力を要する上に、かえって流通性を下げるおそれがあるため、ある程度のところでわりきるしかない。
日本社会学会員は、新システムにアカウントをつくり、RDFをデータベースに追加することができる。仕組みとしては、通常のブログサービスと同様のもので、ただしテキストやHTMLだけでなく、RDFでかかれたファイルを投稿できる仕組みにしておけばよい。
RDFを記述するには複数の方式があるが、いずれも複雑であるため、入力補助のインターフェイスが必要である。具体的にとりうる手段としては、つぎのようなものがありうる:
もちろん、自分で手書きするほか、アプリケーションで生成したものをコピーすることもできる。また、EndNote / CSV / 社会学評論スタイル文献記述などのデータからもRDFを作成できるようにする。
文法のチェックの仕組みをつくる。既存データとの整合性についても、投稿時にチェックする。(矛盾する記述については、書き換え希望を出せる)
内容についても、データベースに統合する前にチェックする仕組みが必要。特に、同一ユーザによる大規模なデータの書き換えなどは、一応(データベース委員が?)チェックする。また、どの記述を誰が追加したかは記録しておく。
参加者は、各自のブログ記事を公開したり、ファイルをアップロードしたりできる。これらについてのメタデータは、データベースに自動的に追加される。この仕組みは、学会員が日記、書評、ワーキングペーパー、調査報告書などを公表するために使える。
また、一定のテンプレートを用意しておくことにより、学会報告要旨や機関誌への投稿に利用することが可能である。これらを支援する仕組として、文献情報を「社会学評論スタイルガイド」にしたがって整形する、リンクや文献参照やセクション構造について自動的にRDFを生成するといったサービスを提供する。
RDFは、対応するURIがあって必要なプロパティ語彙が定義されていれば、なんでも記述できる。文献情報にかぎらず、社会学の研究で使われるあらゆるものが言及対象になりうる。
セマンティックWebに社会学的知識を集積していくには、そのためのリソースを持続的なURIで公開しておく必要がある。
BJSにふくまれる内容分類やキーワードなどは社会学的知識の記述のためのベースとして活用できるだろう。また、各種の事典、教科書、会員の授業資料、調査の質問項目なども、重要なリソースになりうる。こうした知識を集積していくことを通じて、新システムが社会学研究者のコミュニティの再創造の核となることが期待できる。たとえば、ワーキングペーパーを公開した場合、そのペーパー内で参照している文献についての情報、主要な概念、使用したデータ、結論として主張したい命題などをシステムに登録できる (それらのデータから逆にたどってくることができる)。通常のブログやSNSではこうしたことをおこなうのはむずかしい。この点は、学会によるコミュニティをつくることの重要な利点といえる。
※ 鮮明な画像は、PDF 版 をご覧ください
東北大学 / 文学部 / 日本語教育学 / 田中重人 / 「社会学文献情報データベース」東北大学サイト / 再創造