私の研究室は、1988年に埼玉大学工学部に情報システム工学科(当時は情報工学科)が設立されて以来、音声処理(音声強調、ピッチ推定、品質改善)、通信処理(適応等化)、画像処理(画像復元、ノイズ除去)、信号処理(スペクトル推定)などの分野で研究を続けています。98年までは教員が3名おり、それぞれ専門分野を担当していましたが、私以外の先生方は埼玉大学を離れ、現在では私のみとなり、これまでの研究成果は当研究室に蓄積されています。歴史のある研究室ではほぼ同じ状況と思いますが、それらの資料はほとんど紙で保存されています。そのため、研究室内にある文献を探す作業は書籍や紙の束を出したりしまったりの重労働となりますので、電子化したいという思いは前々から抱いていました。
最近になって、オーバーヘッドタイプのスキャナPFU社「ScanSnap SV600」とメディアドライブ社OCRソフト「e.Typist」を導入して電子化を進めています。このスキャナを選んだ理由は、裁断する必要が無い点に魅力を感じました。研究で使う専門分野の参考書は分厚いハードカバーのものが多く、発行部数も少ないので買い増すことは難しい状況です。高価であるというのも理由です。そのため、よく自炊の手段として行われる、裁断してスキャンすることは易々と実行できません。「SV600」を使うと本のまま手軽にスキャンできます。複合機でも可能ではありますが、重い本を1ページずつめくって引っ繰り返すのは労力を使う作業となります。対して「SV600」はスキャナヘッドの下に置いた本のページをめくるだけで良く、作業効率の点でも優れています。また、複合機でページごとに切り出したいときは、ページの境界を手作業で慎重に合わせる必要がありますが、「SV600」のソフトウェアによるページ補正機能では自動で行うことが可能で、さらにページ境界線付近の文字の歪みまで補正してくれるので、視認性は一段と高まります。
国際会議のプロシーディングなどの場合、分厚い本の中から欲しい論文は数本(十数ページ)ということがよくあります。そのような場合も必要なページだけPDFにしておけば、気軽にスマートデバイスに入れて持ち歩けるので重宝します。
「e.Typist」では、綺麗で軽い透明テキスト付PDFが作れるので、本数が増えてもあまり容量を気にせずデバイスに詰め込めます。OCR処理で透明テキスト付にしておくと、検索が可能になることから資料の価値が飛躍的に向上します。国内OCR老舗のメディアドライブ社の培った文字認識技術は年々改良が積み重ねられており、信頼性が高いOCRと言えます。特に論文などはフォントやフォーマットがある程度統一されているので、文字領域取得のミスはほとんど見られません。もちろんOCRはパターン認識ですので、完璧ではありませんが、キーワードや著者名で検索する分には充分有用です。電子化しておくと、必要な文献の原本が見つからなくても、検索して瞬時に参照することが可能なので、資料を探す手間は激減されます。OCR処理はページ数が多いと時間がかかりますが、放っておけばソフトが自動で処理してくれるので、手間ではありません。
「ScanSnap SV600」+「e.Typist」で電子化した資料は、文献調査、論文作成など研究活動に無くてはならない作業の効率を大幅に改善してくれるツールとして大いに役に立っています。