2018年11月2日金曜日

国立国会図書館件名標目表(NDLSH)を使って蔵書検索をつくってみた。その1


その1 | その2 | その3 | その4 | その5 | その6


ゴジラグラフデータベースや文豪グラフデータベース作りながら…これならすぐにできるかも!ということで…作ってみた。 

国立国会図書館件名標目表(NDLSH)を使った山中湖情報創造館の蔵書検索システムです。

◎まずは、国立国会図書館の件名標目表をダウンロード ・http://id.ndl.go.jp/information/download/

 ページの 1. 利用条件 にあるように

  • 非営利の目的に限ります。 
  • 本データを利用した成果物を公表する場合、本サービスが提供したデータであることを明示してください。

ダウンロード用のファイルは、

がありましたので、今回は TEB区切りテキスト形式データを使いました。

【手順】
  1. 国立国会図書館件名標目表を正規化してFileMaker Proを使って件名データベースをつくる。これにより[件名]に対する[同義語][上位語][下位語][関連語]の関係を表示できるようになる。
  2. 所蔵している書誌情報を件名を含めて書き出し、所蔵データベースをつくる。
  3. 1と2を[件名]でリレーションをとり、お互いにクリック/タップで呼び出せるようにする。
という感じ。

【手順1】
  1. TAB区切りテキスト形式データをダウンロード
  2. Excelに読み込む(ただし一度に全てが読み込めないので、テキストエディタで分割して読み込む必要がある) ※というよりも、FileMaker Proがあるので、それを使ったTAB区切りテキストを読み込ませ、その上でExcel形式で保存。
  3. 問題はここから。
  4. ひとつの件名に対して、同義語、上位語、下位語、関連語があるのだが…複数の同義語、複数の上位語、複数の下位語、複数の関連語が、それぞれ[ひとつのセル]に収まっている状態。これらを分解しなければならない。

[都市]という件名に対して、
 同義語[都会; 都市問題; Cities and towns]
 上位語[地域社会]
 下位語[城郭都市‖衛星都市‖田園都市‖学園都市‖郊外‖首都‖ニュータウン‖市街地‖スラム‖広場‖教育と都市‖エコシティ‖企業城下町]
 関連語[都市社会学‖都市経済学‖都市化‖都市地理‖都市再開発‖都市計画‖都市行政‖都市交通‖都市圏‖都市農業]


とある。これを分解するのだ。

同義語はこんな感じ

上位語は、この場合はひとつ

下位語は、13語

関連語は、10語

それぞれ一つのセルに入っている複数語を分解します。
区切り文字が[;]があるので関数を使って分解、コピペによる整形作業で作成します。

ひとまずここまで。

0 件のコメント: