本にまつわる話: 2011年12月アーカイブ
2011年11月9日にリニュアルしたCiNiiについて、主として、CiNii Books(以下、Books)について栞輪(2011/11/21)にとりあげました。今回は後編としてCiNii Articles(以下、Articles)を見てみましょう。
今回のリニュアルで、Articlesに全文検索機能が追加されました。つまり、Articlesに収録されている全文情報(PDFファイル)から、本文中の単語が検索できるようになったのです。ただし、全文検索ができるのは、「CiNii本文PDF」のみ。CiNii Linkや機関リポジトリなど外部にリンクされている全文は対象としていません。
2011年11月10日、第13回図書館総合展にて開催された「学術コンテンツサービスのフロンティア―CiNii Booksの挑戦」によると、本文がCiNiiに収録されていた400万論文について、3、4ヵ月間かけてOCR処理し、索引データを生成したと言います。これにより、本文、図のキャンプション、参考文献までArticle上でテキスト検索が可能になりました。
"旧"CiNiiでは論文タイトルや著者名、キーワードなどから検索できましたが、本文中の単語は検索できませんでした。では、本文が検索できると何が便利になるのでしょう。私たち図書館での調査を例にとってみましょう。国際会議の発表原稿の書誌事項は、調査が難しいもののひとつです。通常の検索で結果が得られない場合、本文中の参考文献から手がかりを得ることができます。図書館員にとって、全文検索はありがたい機能のひとつと言えるでしょう。
OCRでは、絵として収録された文字をテキストファイルに変換します。つまり、ドットの集合を文字コードに置き換えるのです。変換した文字は、辞書と参照して認識率を上げる工夫もされていますが、誤認識を避けることはできません。私たちがArticlesの全文検索機能を利用する時、本文データが完璧に検索できるわけではないことを理解しておく必要があります。
ひとつの例として、Articlesの全文検索で、ギリシャ神話の性愛の神「エロース」について検索してみましょう(2011年12月20日の検索結果、以下同じ)。
(1) エロース (すべてカタカナ)
検索結果:1,323件
(2) 工口-ス (漢字 + カタカナ)
検索結果:2件
上の(2)の"工"は、「工作(こうさく)」の"工"、"口"は「口語(こうご)」の"口"、"-"はハイフンです。これによって得られた2件の文献(上の図参照)は、どちらも本文に「エロース」(すべてカタカナ)を含みますが、"工口-ス"(漢字+カタカナ)という摩訶不思議なな言葉は含んではいません。後者の"工口-ス"という用語は世の中に存在しませんから、これはOCRによる誤認識ということになります。つまり、システムがカタカナの"エ"と"ロ"を漢字の"工"と"口"に間違えて変換したのです。
しかし、このような誤認識について、CiNiiを提供している国立情報学研究所は先刻ご承知だったようです。というのは、カタカナのみの"エロース"で全文検索した結果には、誤認識された2件も含まれているからです。これは、CiNiiの索引で、誤認識を前提として"工=エ"、"口=ロ"といった補正が行われていることを示しています。
同様の例は、カタカナの"ヘベペ"とひらがなの"へべぺ"にも見られます。"ベートーベン"(すべてカタカナ)、"べートーべン"("べ"のみひらがな)、どちらでも、全文検索の結果は同じ311件になります。うまく補正されているようです。ただし、同じ全文検索でも、"ヴェートーベン"は1件、"ヴェートーヴェン"は6件です。全文検索をつかいこなすには、使う側にそれなりのスキルが求められます。
参考文献
拙稿: 図書館員がインターネットを使う意味. 現代の図書館. 37(4), 272-275, 1999.
(瀬戸のスタッフ りんたろう)