2010年7月7日水曜日

Googleドキュメントを使って画像に含まれる文字をテキストとして取得

Googleドキュメントではローカルに保存された画像ファイルやPDFファイルをアップロードする時に、画像に含まれる文字をテキストとして抽出してくれる機能があります。スキャナの代わりとまではいかないまでも便利な機能なので実際に試してみます。

今回例として、WikipediaでSEOと検索した時に表示される画面をキャプチャした画像ファイル(docs1.png)を使います。



Googleドキュメントの画面から左上にある「アップロード」ボタンを押します。



ファイル選択画面が表示されます。「アップロードするファイルを選択」のリンクをクリックして先ほどのdocs1.pngファイルを指定します。



変換オプションの中で「PDF や画像ファイルからテキストを Google ドキュメントのドキュメントに変換する。」と書かれた左側にチェックをします。



「アップロードを開始」ボタンを押すと「ドキュメント」としてアップロードが行われます。
Googleドキュメント上ではアップロードされたファイルは「docs1.png」のように表示されています。



「docs1.png」をクリックして開いてみます。





作成された「ドキュメント」の最初の部分に元になった画像ファイルがそのまま貼り付けられていますが、その後に画像ファイルに含まれている文字が読み取られテキストとして表示されています。(読み取り精度はまあまあといったところでしょうか)。

このようにGoogleドキュメントを使用することで画像データの中の文字をテキストに落とすことが簡単に行えます。残念ながら認識可能な言語は英語、フランス語、イタリア語、ドイツ語、およびスペイン語ということで日本語はまだ対応していませんが、今後期待ですね。