スタッフ: 2011年12月アーカイブ
2011年11月9日にリニュアルしたCiNiiについて、主として、CiNii Books(以下、Books)について栞輪(2011/11/21)にとりあげました。今回は後編としてCiNii Articles(以下、Articles)を見てみましょう。
今回のリニュアルで、Articlesに全文検索機能が追加されました。つまり、Articlesに収録されている全文情報(PDFファイル)から、本文中の単語が検索できるようになったのです。ただし、全文検索ができるのは、「CiNii本文PDF」のみ。CiNii Linkや機関リポジトリなど外部にリンクされている全文は対象としていません。
2011年11月10日、第13回図書館総合展にて開催された「学術コンテンツサービスのフロンティア―CiNii Booksの挑戦」によると、本文がCiNiiに収録されていた400万論文について、3、4ヵ月間かけてOCR処理し、索引データを生成したと言います。これにより、本文、図のキャンプション、参考文献までArticle上でテキスト検索が可能になりました。
"旧"CiNiiでは論文タイトルや著者名、キーワードなどから検索できましたが、本文中の単語は検索できませんでした。では、本文が検索できると何が便利になるのでしょう。私たち図書館での調査を例にとってみましょう。国際会議の発表原稿の書誌事項は、調査が難しいもののひとつです。通常の検索で結果が得られない場合、本文中の参考文献から手がかりを得ることができます。図書館員にとって、全文検索はありがたい機能のひとつと言えるでしょう。
OCRでは、絵として収録された文字をテキストファイルに変換します。つまり、ドットの集合を文字コードに置き換えるのです。変換した文字は、辞書と参照して認識率を上げる工夫もされていますが、誤認識を避けることはできません。私たちがArticlesの全文検索機能を利用する時、本文データが完璧に検索できるわけではないことを理解しておく必要があります。
ひとつの例として、Articlesの全文検索で、ギリシャ神話の性愛の神「エロース」について検索してみましょう(2011年12月20日の検索結果、以下同じ)。
(1) エロース (すべてカタカナ)
検索結果:1,323件
(2) 工口-ス (漢字 + カタカナ)
検索結果:2件
上の(2)の"工"は、「工作(こうさく)」の"工"、"口"は「口語(こうご)」の"口"、"-"はハイフンです。これによって得られた2件の文献(上の図参照)は、どちらも本文に「エロース」(すべてカタカナ)を含みますが、"工口-ス"(漢字+カタカナ)という摩訶不思議なな言葉は含んではいません。後者の"工口-ス"という用語は世の中に存在しませんから、これはOCRによる誤認識ということになります。つまり、システムがカタカナの"エ"と"ロ"を漢字の"工"と"口"に間違えて変換したのです。
しかし、このような誤認識について、CiNiiを提供している国立情報学研究所は先刻ご承知だったようです。というのは、カタカナのみの"エロース"で全文検索した結果には、誤認識された2件も含まれているからです。これは、CiNiiの索引で、誤認識を前提として"工=エ"、"口=ロ"といった補正が行われていることを示しています。
同様の例は、カタカナの"ヘベペ"とひらがなの"へべぺ"にも見られます。"ベートーベン"(すべてカタカナ)、"べートーべン"("べ"のみひらがな)、どちらでも、全文検索の結果は同じ311件になります。うまく補正されているようです。ただし、同じ全文検索でも、"ヴェートーベン"は1件、"ヴェートーヴェン"は6件です。全文検索をつかいこなすには、使う側にそれなりのスキルが求められます。
参考文献
拙稿: 図書館員がインターネットを使う意味. 現代の図書館. 37(4), 272-275, 1999.
(瀬戸のスタッフ りんたろう)
何の風情もありません 友子」
ハガキの送り主である 友子(大竹しのぶ)を訪ねるというストーリー。
この運命を決めたのが、上官がひくクジだった。
99歳の新藤兼人監督である。
戦死した94人のためにも、自分が見た戦争を映画にしなければ、
"死ねない"という思いで作られた。
50名定員の会場は満員、年齢層はかなり高く、大竹しのぶの演技の
うまさもあり、舞台をみているような劇場の一体感をあじわった。
さすが名古屋の名劇場である。
映画「一枚のハガキ」の脚本を元に小説化されたものである。
2011年10月6日~8日にかけて
「世界各地の雪男に関する情報交換の国際会議」が開催されたという
記事が一部新聞や週刊誌で報道されました。
また、朝日新聞も2011年11月1日付けで同様の報道をしています。
日本でも雪男を探している人がいる??????
著者「角幡唯介」が2008年に「雪男捜索隊」に参加したときのドキュメントである。
その旅に出るまえ、予備知識としてこれまでに雪男を目撃したという証言を、色々な
人々にインタービューし、物語に盛り込んである。
雪男 の存在を信じて(?)6回も捜索に出かけ命を落とした「鈴木紀夫」
「田部井淳子」や「今井道子」など有名な登山家の多くが「足跡」(らしきもの)や
「影」を遠望していることに脅かされる。
「捜索隊」の捜索が終了した後、「角幡」は単独で再度捜索をつづけた・・・
はたして彼は 雪男 に出会えたのか。・・・・・・・・・
(瀬戸のスタッフ スージー)