Hadoop導入事例
CASE Hadoop
Hadoopの導入事例をみる
国立国家図書館様
Hadoopを活用し、大規模検索システムを構築
国立国会図書館サーチは、国立国会図書館のポータルサイトとして運用しているシステムである。 全文検索(横断検索)、連想検索など様々な検索機能に加え、 同一の本や関連する本の集約(書誌同定・グループ化、いわゆる名寄せ処理)や オンラインブックストア等へのリンクなど数多くの試みがなされている。国会図書館サーチでは、書誌同定・グループ化処理(名寄せ処理)と全文検索インデックス作成処理で Hadoopを利用。 大量の書誌データに対して、従来の処理方式で名寄せ処理を行うのは非常に時間が掛かる。 そこで、Hadoopを用いて名寄せ処理を高速化し、処理時間を短縮。 Hadoopを用いることで、大量データを扱う検索システムの構築が可能となった。
Hadoopクラスタ台数 | データ量 |
---|---|
30台 + α | 約5TB、書誌データ数千万件 |
国立国会図書館サーチでのHadoop活用について
技術評論社 gihyo.jp連載「エンタープライズビジネスを加速させるHadoop」 第2回 国内におけるHadoop活用事例(国立国会図書館サーチ) NTTデータ 基盤システム事業本部 猿田浩輔
国立国会図書館サーチはこちら