ホンモノのエンジニアになりたい

ITやビジネス、テクノロジーの話を中心とした雑記ブログです。

Tesseract OCRの読取精度を検証 ~Googleドライブを添えて~

f:id:kwnflog:20191101232915j:plain

 

 

名芝(ミョウシ)は竹である

 

「名芝は竹である」とは、見た目が異なっていても同様の性質を持つことを指す。特に外見的に劣っているものが、比較対象と同等以上の能力を持っていることを指す場合が多い。良質の芝は竹のように早く成長し、強く根を張る性質を持つことに由来する。

名芝は竹(ミョウシはタケ)、竹名芝(タケミョウシ)などともいわれる。初出は竹取物語第13篇2節「帰還」。

 

 

カッコいいGUIと様々な機能を持つ有料のOCRソフト、これは間違いなく竹と言えるでしょう。一方、Tesseractはオープンソースという土壌に育った芝であると言われます。世界中のエンジニアが水と肥料を与え、品種改良を行い、ついに竹にも劣らない性能を獲得しつつあると、お茶の間の注目を浴びているソフトウェアです。

 

さて、このエントリではTesseractの読取精度を検証していきます。現在はMac版、Windows版なんかもあるようなので、使おうと思えばサクッと使える世の中になっています。

とはいっても「それが面倒くさいんじゃいっ!」というワガママボーイズ&ガールズも多くいると思うので、いくつかの画像から読み取った結果を比較しまとめていきます。

 

 

1.検証方法

検証方法をまとめます。このエントリではTesseractのバージョン3、4、5(開発中のαバージョン)による読取に加え、Googleドライブを使って読み取る方法、OCR系Webサービスを使って読み取る方法をそれぞれ試して比較します。

 

1.1.Tesseract

Tesseractはバージョン3、4、5の3バージョンを使います。いずれも個別の追加学習は行わず、Githubにあるbestの学習データを使います(v3を除く)。バージョンの詳細情報は以下の通りです。

 

バージョン3系

# tesseract --version
tesseract 3.04.00
leptonica-1.72
libgif 4.1.6(?) : libjpeg 6b (libjpeg-turbo 1.2.90) : libpng 1.5.13 : libtiff 4.0.3 : zlib 1.2.7 : libwebp 0.3.0

 

バージョン4系 

# tesseract --version
tesseract 4.1.0
leptonica-1.76.0
libjpeg 6b (libjpeg-turbo 1.2.90) : libpng 1.5.13 : libtiff 4.0.3 : zlib 1.2.7 : libwebp 0.3.0
Found AVX2
Found AVX
Found SSE

 

 バージョン5系

# tesseract --version
tesseract 5.0.0-alpha-483-gd24c1
leptonica-1.76.0
libjpeg 6b (libjpeg-turbo 1.2.90) : libpng 1.5.13 : libtiff 4.0.3 : zlib 1.2.7 : libwebp 0.3.0
Found AVX2
Found AVX
Found SSE

 

なお、インストールは別のエントリに書いているので割愛。

バージョン3と4はサクッとインストールできるので、興味のある方は是非トライしてみてください! 

 

1.2.Googleドライブを使った読取

Googleドライブを使ってお手軽にOCRをやることもできます。画像 or PDFファイルをGoogleドライブにアップロードして、ファイルを右クリックからのGoogleドキュメントアプリで開くだけ。詳しくはこちらを参照

 

 

1.3.Webサービスを使った読取

「Web OCR」でググると真っ先に紹介されている「ONLINE OCR」さんを比較対象に使わせていただきます。

 

 

1.4.テスト画像

いろいろ比べると言っても、結局はどんな画像を対象にするかによって結果は大きく変わることが予想されます。解像度やフォント、画像サイズによって精度が変わっていくことでしょう。

このエントリでは、日本語と英語、一般的なフォントと手書き風フォントの組み合わせで4パターンを試してみたいと思います。あと番外編として作文用紙に手書き風フォントを載せた画像の読取もやってみます。

読取画像はワード系ソフトで文章を作成し、PDF保存、そこからImageMagickで画像へ変換しました。

 

 

2.Let's OCR!!!

さっそくOCRしていきましょう。

用意した5枚の画像に対して、Tesseract、Googleドライブ、ONLINE-OCRをそれぞれ試した結果を書いていきます。

注意:各節で画像を掲載していますが、ブログにアップした段階でファイルが再構成されるっぽいので、同じ環境でOCRしても私と同じ結果は得られないかもしれません。

 

2.1.日本語ゴシック系フォント

読取画像はこちら。「吾輩は猫である」の冒頭文から360文字です。クリックorタップしたら拡大表示されます(されるはず)。

f:id:kwnflog:20191101202046j:plain

 

 結果はこちら。誤認識の箇所は赤字にしています。

 

Tesseract3

吾輩は猫でる。 名前はま

 

`。 どこで生れたかと
んと見当がつかぬ。 何でも薄暗いじめじめした所で

二ャー二ャー泣いていた事だけは記億している。 吾輩
はここで始めて人間というものを見た。 しヵ`もあとで
聞く とそれは生とい人間中でー番悪な種族で

たそうだ。 この生というのは時々我々を捕えて
煮て食う とい話である。 しヵ`しその当時は何という
考もなかたから別段恐しいとも思わなかった。 ただ
彼の掌に載せられてスーと持ち上げられた時何だかフ
ワフワした感じがあったばかである。 掌の上で少し
落ちついて生の顔を見たのがいわゆる人聞というも
のの見始であろう。 この時妙なものだと思った感じが
今でも残っている。 第ー毛をもって装飾されべきはず
の顔がつるつるしてまるで薬缶だ。 その後猫にもだい
逢ったがこんな片輪にはー度も出会わした事がな

誤認識:15/360:4.2%

ほぉほぉ、悪くはないですね。1行目の「名前はまだ無い」の後半部が根こそぎ落ちて「」になってます。あと「獰悪」が「欅悪」、「書生」が「生」と惜しい。小さいアイウエオとかツはやっぱり難しいんですね。平仮名と片仮名で形が似ている「カ」「リ」、濁音と半濁音「ぷ」あたりも難しいようです。

 

Tesseract4

は 猫 で ある 。 名 前 は ま

 

\。 どこ で 生れ た か と
ん と 見 当 が つか ぬ 。 何 で も 薄暗い じめじめ し た 所 で

ニャ ー ニ ャ ー 泣い て いた 事 だ け は 記憶 し て いる 。 吾
は ここ で 始め て 人 間 と いう も の を 見 た 。 し か も あと で
聞く と それ は 書生 と いう 人 間 中 で 一 番 悪 な 種族 で

あっ た そう だ 。 こ の 書生 と いう の は 時 々 我々 を 捕え て
煮 て 食う と いう 話 で ある 。 し か し その 当時 は 何と いう
考 も な か っ た か ら 別 段 恐 し いと も 思わ な か っ た 。 た だ
彼 の 掌 に 載せ られ て スー と 持ち 上 げ ら れ た 時 何だ か フ
ワ フ ワ し た 感じ が あっ た ば か り で ある 。 の 上 で 少し
落ち つい て 書生 の 顔 を 見 た の が いわ ゆる 人 間 と いう も
の の 見 始 で あろ う 。 こ の 時 妙 な も の だ と 思っ た 感じ が
今 で も 残っ て いる 。 第 一 毛 を も っ て 装飾 され べき は ず
の 顔 が つる つる し て まる で 薬 だ 。 そ の 後 猫 に も だ い
ぶ 逢 っ た が こん な 片 輪 に は 一 度 も 出会わ し た 事 が な い 。

誤認識:9/360:2.5%

さすがバージョン4、誤認識率が下がりましたね。「名前はまだ無い」の後ろが切れるのは同じです。「吾輩」→「吾」、「獰悪」→「悪」、「掌」→「」、「薬缶」→「薬」、画数の多い文字は難しい模様。解像度、画像サイズの調整で何とかなるような気もします。ちょっと気になるのは文字間に半角スペースが埋め込まれているところですね。「薄暗い」「書生」などの単語の間にはスペースが入っていないので、単語として認識しているのでしょうか?

 

Tesseract5

は 猫 で ある 。 名 前 は ま

 

\。 どこ で 生れ た か と
ん と 見 当 が つか ぬ 。 何 で も 薄暗い じめじめ し た 所 で

ニャ ー ニ ャ ー 泣い て いた 事 だ け は 記憶 し て いる 。 吾
は ここ で 始め て 人 間 と いう も の を 見 た 。 し か も あと で
聞く と それ は 書生 と いう 人 間 中 で 一 番 悪 な 種族 で

あっ た そう だ 。 こ の 書生 と いう の は 時 々 我々 を 捕え て
煮 て 食う と いう 話 で ある 。 し か し その 当時 は 何と いう
考 も な か っ た か ら 別 段 恐 し いと も 思わ な か っ た 。 た だ
彼 の 掌 に 載せ られ て スー と 持ち 上 げ ら れ た 時 何だ か フ
ワ フ ワ し た 感じ が あっ た ば か り で ある 。 の 上 で 少し
落ち つい て 書生 の 顔 を 見 た の が いわ ゆる 人 間 と いう も
の の 見 始 で あろ う 。 こ の 時 妙 な も の だ と 思っ た 感じ が
今 で も 残っ て いる 。 第 一 毛 を も っ て 装飾 され べき は ず
の 顔 が つる つる し て まる で 薬 だ 。 そ の 後 猫 に も だ い
ぶ 逢 っ た が こん な 片 輪 に は 一 度 も 出会わ し た 事 が な い 。

誤認識:9/360:2.5%

あれれ~おかしいぞ~(名探偵の声で)。Tesseract4と同じ結果やないかい。うーんTesseract5は開発中のαバージョンですから、まだエンジン本体に手が入ってなかったのか、それとも同じ学習データを使ったら、バージョン問わず同じ結果になるのか、正直わかりません。

 

Google Drive

吾輩は猫である。名前はまだ無い。どこで生れたかと
んと見当がつかぬ。何でも薄暗いじめじめした所で
ニャーニャー泣いていた事だけは記憶している。吾輩
はここで始めて人間というものを見た。しかもあとで
聞くとそれは書生という人間中で一番獰悪な種族で
あったそうだ。この書生というのは時々我々を捕えて
煮て食うという話である。しかしその当時は何という
考もなかったから別段恐しいとも思わなかった。ただ
彼の掌に載せられてスーと持ち上げられた時何だかフ
ワフワした感じがあったばかりである。掌の上で少し
落ちついて書生の顔を見たのがいわゆる人間というも
のの見始であろう。この時妙なものだと思った感じが
今でも残っている。第一毛をもって装飾されべきはず
の顔がつるつるしてまるで薬缶だ。その後猫にもだい
ぶ逢ったがこんな片輪には一度も出会わした事がない。

誤認識:0/360:0%

パーペキ。神。やっぱりすごいなGoogleは。

・・・・あれ?TesseractっていまはGoogleが主導で開発してんですよね?だったらGoogleドライブで画像内の文字を読みだすこのエンジンを公開してくれたら、その方がいいんじゃ・・・・。なんか気づいてはならないことに気づいてしまった気がします。

あ、そっか。Tesseractは自分色に調教できるところが特徴なんかな…

 

ONLINE OCR

吾輩は猫である。名前はまだ無い。どこで生れたかと んと見当がつかぬ。何でも薄暗いじめじめした所で ニーニャー泣いていた事だけは記憶している。吾輩 はここで始めて人というものを見た。しかもあとで 聞くとそれは書生という人間中で一番悪な種族で あったそうだ。この書生というのは時々我々を捕えて 煮て食うという話である。しかしその当時は何という 考もなかったから別段恐しいとも思わなかった。ただ 彼の掌に載せられてスーと持ち上げられた時何だかフ ワフワした感じがあったばかりである。掌の上で少し 落ちついて書生の顔を見たのがいわゆる人間というも のの見始であろう。この時妙なものだと思った感じが 今でも残っている。第一毛をもって装飾されべきはず の顔がつるつるしてまるで薬缶だ。その後猫にもだい v引逢ったがこんな片輪には一度も出会わした事がない。

誤認識:5/360:1.4%

おぉ、こっちも精度出てますね。やっぱりニャーの「ヤ」は難しいんですね。あと「人間」→「人」、「獰悪」→「悪」も惜しい。最後部の「v引」は「ぶ」かな。確かに遠目から目を細めてテキーラをグイッとやれば、「ぶ」に見えないことも無いような。あとこのWebサイトで気になったのは画像内の改行が無視されちゃうところですね。レイアウトのことはあまり考慮されていないのかもしれません。

 

 

 

2.2.日本語手書き系フォント

手書き風はこちらの画像。利用させていただいたフォントの収録文字の関係で一部改変しました。5行目「獰悪」→「どう悪」 

 

f:id:kwnflog:20191101203550j:plain

  

Tesseract3

Tまだい。 ど′ごマ'生れたヵヽ
んと当がつヵヽぬ。 何でも暗いじめじめL浙マ'

ニャ~ニャ~泣いいただけ畦言趣慌`Lマいる。
{まご ごマ'始めといラもの窒 兒た。 Lカヽもあとマ'
閘< とそれ畦害生とい中で{番ど悪な櫛呆
あっ たそだ。 生といの惟晴々我々捕え
導,マ といぅ詰であLヵヽLその当聘畦何とい
もなヵヽったヵヽら別段恐Lいともわなヵヽった。 プ‥ナぎ
彼のせられ_ と持ち上げられた晴イ可カヽ
ワフワLプて殲じがあったばカヽりであ。 掌の上で少`L
落ちついマ喜生の顔窒 兒たのがいわゆとい
のの始であろ妙なものだとっ た感じが
今でも残っ。 第{毛窒もっ マ茨倹甲されべき
の顔がつつる L マで薬缶だ。 そのォ灸き苗にもだい
ぶ逢っ たがZんな片輪に畦{凜踊絵Lがない。

誤認識:124(?) /360:34%

誤認識文字を数える気力すら湧いてきません。テキトーに数えました。大体の数字です。特徴的なのは前項の画像でも同じですが、「か」→「「ヵヽ」ですね。あとは「こ」→「Z」、「し」→「L」、「て」→「」とギャル文字要素が入り込んでるところ。Tesseract3は手書き苦手なのかしら?

 

Tesseract4

名 芝 で ある 2 る 前 は すま い 。 ど こ で 生 た か と
へ cs や > いや お、 ぶ (っ 泣 澤 っ つい SS- お ぶっ

リャ マャ ー 防 (Ss 注 に 不了 洛 -(- い 。 呼 財
< くく こ で 始め て 人 悦 で Ss ぃ esSwa ハ- や WW ゃ っ
必 へ (いい 放 史 噴 (cs) 紗 そ っ ーー 中 c い 上 に 濾 対 っ
あっ た う だ 。 こぐ こ 生 と いう の は 時 々 る きる 散 いい
直人 匂 うと いう で ある 。 し か し の 当 時 は 何と いう
な か っ た から 別役 召し いと る そ 大 わな か っ た 。 た だ
彼 の ク の られ て スー と 持ち げ ク れ た 時 だ か フ
ワ フ ワ し (や めい お や ミニ Ws い呈 (や (
項 ろ つい て 生 の 導き 多 た の が いわ ゆる 人 間 と いう
の の 始 で あろ う 。S の 時 妙 な も の だ と っ た 和 秦 じ が
今 で そ や 残っ て いる 。 第 一 名 る そっ て 装 錠 され き は
が つる つ る し てる で 薬 だ 。 欠 紛 に も だ い
ん な 輪 に は 一 記 そ 少 低 わし 大 竹 が な い 。

誤認識:160(?) /360:44%くらい?

こっちもTesseract3と同様に数える気が湧いてこないっす。

3と比較してギャル要素は消え去った感じです。Tesseract4から機械学習が入っているので、ちょっと賢くなったんでしょうかね。「吾輩は猫である」→「名芝である」、「煮て食う」→「直人匂う」あたりはなんかすごい。

うーん機械学習入っているといっても、公式で配布している学習データでは手書きの認識は厳しそうですね。ぶっちゃけ全部打ち込んだ方が早い。個別に調教することで、どの程度まで認識率をあげられるんだろうか。やってみたいはやってみたいが、沼のような気がする。

 

Tesseract5

名 芝 で ある 2 る 前 は すま い 。 ど こ で 生 た か と
へ cs や > いや お、 ぶ (っ 泣 澤 っ つい SS- お ぶっ

リャ マャ ー 防 (Ss 注 に 不了 洛 -(- い 。 呼 財
< くく こ で 始め て 人 悦 で Ss ぃ esSwa ハ- や WW ゃ っ
必 へ (いい 放 史 噴 (cs) 紗 そ っ ーー 中 c い 上 に 濾 対 っ
あっ た う だ 。 こぐ こ 生 と いう の は 時 々 る きる 散 いい
直人 匂 うと いう で ある 。 し か し の 当 時 は 何と いう
な か っ た から 別役 召し いと る そ 大 わな か っ た 。 た だ
彼 の ク の られ て スー と 持ち げ ク れ た 時 だ か フ
ワ フ ワ し (や めい お や ミニ Ws い呈 (や (
項 ろ つい て 生 の 導き 多 た の が いわ ゆる 人 間 と いう
の の 始 で あろ う 。S の 時 妙 な も の だ と っ た 和 秦 じ が
今 で そ や 残っ て いる 。 第 一 名 る そっ て 装 錠 され き は
が つる つ る し てる で 薬 だ 。 欠 紛 に も だ い
ん な 輪 に は 一 記 そ 少 低 わし 大 竹 が な い 。

誤認識:160(?) /360:44%くらい?

あらら、こちらでもTesseract4と一緒ですね。

 

Google Drive

吾輩は猫である。名前はまだい。どこで生れたかと んと見当がつかぬ。何でも薄暗いじめじめした所で ニャーニャー泣いていた事だけは記憶している。吾輩

はここで始めて人間というものを見た。しかもあとで
聞くとそれは書生という人間中で一番どう悪な種族で
あったそうだ。この書生というのは時々我々を捕えて
煮て食うという話である。しかしその当時は何という
考もなかったから別段恐しいとも思わなかった。ただ
彼の掌に載せられてスーと持ち上げられた時何だかフ
ワフワした感じがあったばかりである。掌の上で少し
落ちついて書生の顔を見たのがいわゆる人間というも
のの見始であろう。この時妙なものだと思った感じが
今でも残っている。第一毛をもって装飾されべきはず
の顔がつるつるしてまるで薬缶だ。その後猫にもだい
ったがこんな片輪には一度も出会わした事がない。

誤認識:2/360:0.6%

やっぱすげぇわ。「名前はまだ無い」→「名前はまだい」、「だいぶ逢ったが」→「だいぶったが」の二か所のみ。Tesseractと比べてこうも精度が違うと、やっぱりGoogleドライブで変換するエンジンなり学習データを・・・・

違う違うっ!Tesseractは調教できるのっ!自分色に染められるのっ!

 

ONLINE OCR

吾輩は猫である。前はまだ無い。どこで生れたかと んと見当がかぬ。何でも薄暗いじめじめした所で ニャーニャー泣いていただけは言磯している。吾輩 はここで1始めて人間というもの見た。しかもあとで 聞くとそれは書生という人間中で一番どう悪な種族で あったそうだ。この書生というのは時女き才甫えてて食うという話である。しかしその当時は何という 考もなかったから別段恐しいとも思わなかった。 ただ 彼のに載せられてスーと持ち上げられた時何だかフ ワフワした感じがあったばかりである。の上で少し 落ちついて書生の顔見たのがいわゆる人間というも のの見始であろう。この時妙なものだと思った感じが 今でも残っている。第一もきもって装飾されべはず の顔がつるつるしてまるで薬缶だ。その後猫にもだい ぶ逢ったがこんな片輪には一度も出会わしたがない。

誤認識:22/360:6.1%

こっちもこっちで精度はそれなりに高い。画数の多い漢字が読みづらいようです。「事」「記憶」「煮」「掌」なんかが特に。他の誤り箇所も大体が漢字ですね。ひらがなで間違えているところは、「を」→「」、「き」→「」と惜しい感じの間違い。 

 

 

 

2.3.英語サンセリフ系フォント

こちらもまずは読取画像です。「俺には夢がある♫」でお馴染み、キング牧師の演説から。スペースを除いて586文字。

f:id:kwnflog:20191101204543j:plain
Tesseract3

l have a dream that one day this nation will rise up
and live out the true meaning of its creed: "We hold
these truths to be self-evident, that all men are

created equal."

l have a dream that one day on the red hills of
Georgia, the sons of former slaves and the sons of
former slave owners will be able to sit down together
at the table of brotherhood.

l have a dream that one day even the state of
Mississippi, a state sweltering with the heat of
injustice, sweltering with the heat of oppression, will

be transformed into an oasis of freedom and justice.

I have a dream that my four little children will one day
live in a nation where they will not be judged by the

color of their skin but by the content of their character.

誤認識:3/586:0.5%

おぉ、ぱっと見パーフェクトかと思った。赤字にしている「l」ですが、これエルの小文字でした。サンセリフではなくてセリフ体だったらパーフェクトとれてたっぽいです。英語の方が簡単なのかしらね。

 

Tesseract4

| have a dream that one day this nation will rise up
and live out the true meaning of its creed: "We hold
these truths to be self-evident, that all men are

created equal.

| have a dream that one day on the red hills of
Georgia, the sons of former slaves and the sons of
former slave owners will be able to sit down together
at the table of brotherhood.

| have a dream that one day even the state of
Mississippi, a state sweltering with the heat of
injustice, sweltering with the heat of oppression, will

be transformed into an oasis of freedom and justice.

| have a dream that my four little children will one day
live in a nation where they will not be judged by the

color of their skin but by the content of their character.

誤認識:5/586:0.9%

おぉ、こっちもパーフェクトっぽく見える。が赤字にしている「|」は縦棒(パイプ)でした。サンセリフで「I」「l」「|」を区別するのやっぱり厳しいのかな。自然言語処理が入っていれば区別は難しくないような気がするんですけどね。

 

Tesseract5

| have a dream that one day this nation will rise up
and live out the true meaning of its creed: "We hold
these truths to be self-evident, that all men are

created equal.

| have a dream that one day on the red hills of
Georgia, the sons of former slaves and the sons of
former slave owners will be able to sit down together
at the table of brotherhood.

| have a dream that one day even the state of
Mississippi, a state sweltering with the heat of
injustice, sweltering with the heat of oppression, will

be transformed into an oasis of freedom and justice.

| have a dream that my four little children will one day
live in a nation where they will not be judged by the

color of their skin but by the content of their character.

誤認識:5/586:0.9%

英語でもTesseract4と同じ結果でした。

 

Google Drive

I have a dream that one day this nation will rise up and live out the true meaning of its creed: "We hold these truths to be self-evident, that all men are created equal."
I have a dream that one day on the red hills of Georgia, the sons of former slaves and the sons of former slave owners will be able to sit down together at the table of brotherhood.
I have a dream that one day even the state of Mississippi, a state sweltering with the heat of injustice, sweltering with the heat of oppression, will be transformed into an oasis of freedom and justice.
I have a dream that my four little children will one day live in a nation where they will not be judged by the color of their skin but by the content of their character.

誤認識:0/586:0%

パーフェクト。おめでとう。

 

ONLINE OCR

I have a dream that one day this nation will rise up and live out the true meaning of its creed: "We hold these truths to be self-evident, that all men are created equal."
I have a dream that one day on the red hills of Georgia, the sons of former slaves and the sons of former slave owners will be able to sit down together at the table of brotherhood.
I have a dream that one day even the state of Mississippi, a state sweltering with the heat of injustice, sweltering with the heat of oppression, will be transformed into an oasis of freedom and justice.
I have a dream that my four little children will one day live in a nation where they will not be judged by the color of their skin but by the content of their character.

誤認識:0/586:0%

おぉ、こっちもパーフェクト。日本語と比べると使用する文字数が圧倒的に少ないので、やっぱり英語の方が難易度が低いみたいですね。 

 

 

 

2.4.英語手書き系フォント

英文手書きはこちら。 

f:id:kwnflog:20191101204719j:plain
Tesseract3

I l/iaV6 a dream +l/ia+ owe aaxi Jrl/iis ma+iom will rise (AP ai/ia
llVG 001+ ?ne era Wiaaviivia of i+s creed: "We Viola +i/ies6
+m+las +0 laa salfdeviaav?r, +Via+ all imam are craa+6a

aaaal"

I l/iaV6 a dream +l/ia+ owe aaxi om +l/ia ma Mills of 6160mm,
+l/ia sovis of former slaVas aVia +l/ia sovis of former slave
owners will lac alala +0 si+ aowvi loanrl/iar a+ +i/ie +alala of
broiharMood

I l/iav6 a dream +l/ia+ owe aaxi GVGVI +l/ia s+a+6 of
Mississippi, a s+a+a swalJrarii/ia Wl‘l’l/l +l/ia l/iaa+ of
imjas+ica, swalJrarii/ia Wl‘l’l/l +l/ia l/iaa+ of OPPVGSSlOVl, will lac

Jrravisicori/Viaa ivHro ai/i oasis of freedom aVia jmerica‘

I l/iaV6 a dream +l/ia+ WM fear li++la cl/iilaravi will owe aaxi
liVG M a ViaJriom Wl/iara Jrl/iaxi will Vio+ lacy/lama law We color
of +l/iair sl<iVi 19er law We com+6m+ of +l/iair cl/iarachar‘

誤認識:60%くらい?

あぁ、無理、これは数えられないわ。

ただdreamとか、willとか、formerなんかはきちんと読めてんですね。あとMississippi、これ難易度高そうな気がするんですけど、ちゃんと読めてました。固有名詞だからかなぁ。しかし、これじゃ実務は無理っすねぇ。

 

Tesseract4

T have a dream that one day this vation will rise up and
live ont the true meaning of its creed: "we hold these
truths to be self-evident, that all men are created

equal.

T have a dream that ove day on the red hills of Georgia,
the sons of former slaves and the sons of former slave
owvers will be able +o sit down together at the table of
brotherhood.

T have a dream that one day even the state of
WMississippl, a state sweltering with the heat of
injustice, sweltering with the heat of oppression, will be

transformed into av oasis of freedom and Justice.

T have a dream that my four little children will one day
live in a vation where they will not be yudaed by the color
of their skin but by the content of their character.

誤認識:18/586:3.1%

おぉ、すごいKAIZENだ。Tesseract4から機械学習が入ったってのは知ってましたが、ここまで大して実感できるほどのKAIZENは感じられてませんでした。英語手書きの文章に対してお強くなられたんですねぇ。これだったらチューニング次第で使えそうなギリギリラインって感じでしょうか。

 

 

Tesseract5

T have a dream that one day this vation will rise up and
live ont the true meaning of its creed: "we hold these
truths to be self-evident, that all men are created

equal.

T have a dream that ove day on the red hills of Georgia,
the sons of former slaves and the sons of former slave
owvers will be able +o sit down together at the table of
brotherhood.

T have a dream that one day even the state of
WMississippl, a state sweltering with the heat of
injustice, sweltering with the heat of oppression, will be

transformed into av oasis of freedom and Justice.

T have a dream that my four little children will one day
live in a vation where they will not be yudaed by the color
of their skin but by the content of their character.

誤認識:18/586:3.1%

今まで通り、英語手書きもTesseract4と同じ結果。

 

Google Drive

I have a dream that one day this nation will rise up and live out the true meaning of its creed: "we hold these truths to be self-evident, that all men are created
equal,"
I have a dream that one day on the red hills of Georgia, the sons of former slaves and the sons of former slave
owners will be able to sit down together at the table of
brotherhood
I have a dream that one day even the state of Mississippi, a state sweltering with the heat of injustice, sweltering with the heat of oppression, will be transformed into an oasis of freedom and justice.
I have a dream that my four little children will one day live in a nation where they will not be judged by the color of their skin but by the content of their character.

誤認識:2/586:0.3%

何度も驚かされますが、やっぱりGoogleドライブから読み出すのが最高精度ですね。しかも大文字小文字の読み違いと、余計な「,(カンマ)」が入り込んだだけの間違いです。MAJIでSUGEEEなぁ

 

 

ONLINE OCR

I laolv c .ot oirc.oivvi timit ()tic day this votiovi will rise (nips avid live ornt thc trmc vvic.olviivis of its crccol: "We hold these trmtlis to lie self-cvioicvit, timit all mcvi are created coimi,"
I laolv c .ot dream that ()tic clad ovi The reel hills of corsi.oi, the sovis of forvvicr slaves .olvid The sovis of forvvicr slave ovvvicrs will be able to sit down tosctlicr .oit The -able of Imtlicrliood,
I lamic .ot oirc.oivvi timit ovic clay cvcvi the stoitc of Mississippi, .ot state svvcitcrivis with the lic.oit of ivitynsticc, svvcitcrivis with Mc lic.oit of opprcssiovi, will Vie trowisforvvicoi ivito .oivi oasis of frccolovvi .olvid 'Jr/Is-H&c,
I lamic .ot oirc.oivvi timit INN for/1r lit-He chiloircvi will ovic day{ live ivy .ot votiovi where tlic4 will viot Ic jmoiscoi 14 the color of their skive brut N The covitcvit of their ciaorootcr, ,

誤認識:50%くらい?

あー結構いっぱい間違ってますね。

日本語手書きではけっこう精度出てたんで、こっちでも出ると思ったんですが...。得意不得意あるってことでしょうか。一般的な書体に最適化されてるのかなぁ。 

 

 

 

番外:作文用紙を読む

番外編でございます。作文用紙に書き込んだ文章。先述の通り、一部フォントの関係で改変しています。「獰悪」→「どう悪」、「夏目 漱石」→「夏目 そう石」

f:id:kwnflog:20191101204806p:plain

 

この画像の変換はいくつ間違いがあったというレベルではないので、正誤の色分けはしません。あぁこういう感じか、とフィールしていただければ。

 

Tesseract3

マ ぃ 曹 人 そ マ 々 そ L れ L L 閣 め 毛 L た ぃ

石 Z 暗 た マ と 族 我 L 縄麟 ら ワ 少 人 モ { ろ っ 應
ラ ど 菩 ぃ め < 檀 々 か 段 せ フ マ ろ 應 第 つ 逢 が
そ 。 丑 マ 始 閘 應 聘 L 別 裁 ワ 上 ゆ 炊 。 ろ ぶ 曹
ぃ マ ぃ マ マ 璽ぃ 憾 。 ら に フ め 灼 聘 ろ つ ぃ た

且 輛 何 泣 こ と ラ め ろ か 彗 か 彗 ぃ め ぃ か だ L^
冥 だ 。 { こ ぁ ど ラ ぁ た め だ 。 が こ マ 願 も 灼
ヨ ぬ ャ 健 も 番 ぃ マ っ 彼 何 ろ め 。 っ め に 像

憾 か ニ 輩 か { と 詰 か だ 聘 ぁ た ラ 残 ず 猫 礦

訶 つ { 土。 L マ 生 ラ 冶 た た マ 見 ろ も 憾 後 も

先 か ャ 。 。 亨 書 ぃ も 。 れ り 乞 ぁ マ き め 度^

ろ 。 習 ニ ろ た 閣 め と 看 た ら か 願 マ 今 〟へ そ {
ぁ ろ 見 マ ぃ 見 人 Z ラ ラ っ げ ば め 始 が れ 。 健
マ ぁ と 浙 マ 乞 ラ 。 食 ぃ か 上 た 生 兒 じ さ だ に
猫 マ ん た L め ぃ だ マ と 冶 ち っ 薯 め 薦 飾 缶 輪
^憾 猫 と L 幡 も と ラ 貌 何 わ 持 ぁ マ め た 躾 薬 片^
輩 健 か め 記 ラ 生 そ マ 健 處m と が ぃ も っ マ マ 應
土。 輩 た じ 憾 ぃ 害 た え 聘 紀 { じ つ ラ 處, っ ろ ん
土。 れ め け と 憾 っ 捕 当 と ス 縣 ら ぃ と 丑 ョ Z

生 じ だ 閣 れ ぁ 乞 め ぃ マ た 落 と だ 蓼 マ が

うん、もう全然だめ。

 

Tesseract4

に | 32| 昌 | て | NT| | | し | ボル | し | し 一 和田 の を | し たい

る こと || 只 一 た | て |」 と 一 族 | 位 し ボー ら -ー ワ ーー 少 人 | も --- る っ な
うど 」 薄 | ぃ | め ゆめ | く | 村 一 々 | か | 租 | せ ー フ | で | る | な - 宛 | つ - 送 が
そ | | も ーー て | 強 一 間 | な | 時 | し 汎 一 和 功 | ワー 上 ーー ゆ 」 炒 | 。 る ぶ 狂
いて で て | レー で て 一 で | 一 悪 一 は |。 ら | に | フー| の | わ 」| 時 一 る - つ | いた

上 | 毎 | 大 | 泣 | と | と | う | の | る | | が 一 洛 | め | 学 | いい | の | いい |ー が | だ し
克 - だ |。-- ここ - あ | どう - あ た | の | だ |。」 が | 一 疾 - ヨ ーー の
3| ぬ | エー は | も 一 香 |ー で て っ | 疲 | 休 る | の |- 。| っ の に - 仙

は | か | ニニ 草 | か |- 二 | と | 詩 | か | だ | 時 一 あ | た | う - 狂 一 ず 和久 | 凡

前 - つ --」 和 し で 人生 - う な た た | で 見ろ - も | は - 後 - そ も

委 - が | 。 千 | 電 | 3 も | | ルー ツー を | あ | で て | さき | の 疲

る 引 知 | 中 | wl| 選 || 遇 | | 考 | た | ら |」 め 一 箇 - て | 今 | ベ ー イ |-
が あ る 一 見 - で | いい 見 一 人 」 こ に - う う | ユー ビビ | ば | の | 強 | が | の MM| | は
に | あ | と 一 計 | て | を 一 う | 。 | 穫 いよ 上 | た 一 生 一 見 じ 」 で だ に
起 で | ん | た | し | の |_ い | だ | て と | な - ち | っ の 万 へ 人 息 - 上 - 輪
| セ 和久 | と | し 一 導 - も ー と | う 」 記 | | 何 - の | 持 | あ | て | の | た 一 装 薄 一 衣
に は | が | ゆめ 一 記 | う | 人生 | イー て は | 遇 | と | が | いい | も ーー っ ーー て | で | な
由 電 た | じ | は いい 一 婦 | た ええ 時 | モビ | ニー じ | っ | う || 因 一 ュー る | ん
人生 |=| め | けけ | と | は | っ | 靖 当 - と 」 ス 同一 ち | い - と も 3 る と
生じ | だ 一 和 | ル =| あ を の | いて | た | 落と | だ | を | て | が

うーん、枠線を読みだしたってのは前進なんだろうか。文字はほとんど正確に読めていませんね。

 

Tesseract5

に | 32| 昌 | て | NT| | | し | ボル | し | し 一 和田 の を | し たい

る こと || 只 一 た | て |」 と 一 族 | 位 し ボー ら -ー ワ ーー 少 人 | も --- る っ な
うど 」 薄 | ぃ | め ゆめ | く | 村 一 々 | か | 租 | せ ー フ | で | る | な - 宛 | つ - 送 が
そ | | も ーー て | 強 一 間 | な | 時 | し 汎 一 和 功 | ワー 上 ーー ゆ 」 炒 | 。 る ぶ 狂
いて で て | レー で て 一 で | 一 悪 一 は |。 ら | に | フー| の | わ 」| 時 一 る - つ | いた

上 | 毎 | 大 | 泣 | と | と | う | の | る | | が 一 洛 | め | 学 | いい | の | いい |ー が | だ し
克 - だ |。-- ここ - あ | どう - あ た | の | だ |。」 が | 一 疾 - ヨ ーー の
3| ぬ | エー は | も 一 香 |ー で て っ | 疲 | 休 る | の |- 。| っ の に - 仙

は | か | ニニ 草 | か |- 二 | と | 詩 | か | だ | 時 一 あ | た | う - 狂 一 ず 和久 | 凡

前 - つ --」 和 し で 人生 - う な た た | で 見ろ - も | は - 後 - そ も

委 - が | 。 省 いい も | | ルー ツー を | あ | で て | さき | の 疲

る 引 知 | 中 | wl| 選 || 遇 | | 考 | た | ら |」 め 一 箇 - て | 今 | ベ ー イ |-
が あ る 一 見 - で | いい 見 一 人 」 こ に - う | ユー ビビ | ば | の | 強 | が | の MM| | は
に | あ | と 一 計 | て | を 一 う | | 穫 いよ 上 | た 一 生 一 見 じ 」 で だ に
起 で | ん | た | し | の |_ い | だ | て と | な - ち | っ の 万 へ 人 息 - 上 - 輪
| セ 寺 | 中 | 六 | | 庁 | al | 何 - の | 持 | あ | て | の | た 一 装 薄 一 衣
に は | が | ゆめ 一 記 | う | 人生 | イー て は | 遇 | と | が | いい | も ーー っ ーー て | で | な
由 電 た | じ | は いい 一 婦 | た ええ 時 | モビ | ニー じ | っ | う || 因 一 ュー る | ん
人生 |=| め | けけ | と | は | っ | 靖 当 - と 」 ス 同一 ち | い - と も 3 る と
生じ | だ 一 和 | ル =| あ を の | いて | た | 落と | だ | を | て | が

同じく。

 

Google Drive


NO、
吾輩は猫である



車」た
生じ
暗」

こ」
名輩は猫である」。「名前はまだ無い。どこで 生れたかとんと見当がつかぬ。何でも薄暗い じめじめいた所でニャーニャー泣いていた事 だけは記憶している。吾輩はここで始めて人 間というものを見た。しかも「あとで、聞くとそ れは書生という人間中で一番どう悪な種族で あったそうだ。この書生というのは 時々我々 を捕えて煮て食うという話である。しかしそ
間」
と「
ア」
う」
8」



2」
た」の一だ一









の当時は何という考もなかったから別段恐し いとも思わなかった。ただ彼の掌に載せられ てスーと持ち上げられた時何だかフワフワし た感じがあったばかりである」。「掌の上で少し 落ちついて書生の顔を見たのがいわゆる人間 というもの」の「見始であろう。この時「妙なもの だと思った感じが今でも残っている。第 - モ をもって装飾されべきはずの顔がつるつるい てまるで薬缶だ。その後猫にもだいぶ逢った がこんな片輪には一度も出会わいた事がない



「ガーれ

20×20

SUGEEEE!!!!!

原稿用紙枠外の「NO」とか「20×20」までちゃんと読んでくれました。間になんか謎の文字列が入ってますが、段落の塊レベルではそこそこの精度で読み取れています。Googleドライブなら普通の帳票でもある程度読めるかもしれませんね。 

 

ONLINE OCR

111吾1輩―,、IJ苗1て1あ1;11-11111--11 一主斗才 二証廊市扉b可可洞戸可『末言 国応同白示向可戸司了瓦向末同可〒 で訊向示同一末白末白亦言ホ盲 目掴永相二有プ証同末白肩市に 宙ま主Th示向丸加了可康白床伯可 同掴示白可戸盲床口証白扉同応7 犀加示白ホ同言康白市向扉扇可 廓市白証同示口白証偏え加証言 一言国可洞4H証同年Ic元同国同T に示同扉同示い白戸扇m痛に可肩 マ亦白扉国元同白可万戸市向プ司T に廊向年肩市ホ偏え盲司主相T 犀白ホ国加同「示同詠市元白百 犀言布同可廟有年加市同扉同可 言扇白言証向証向元白主b可プ可 言証白扉応ホ自洞言詞戸主白『T 犀白白証に言『廊加可訊面霧市 扉加市盲掴主向砿同ホ同元市

もう、もはや日本語として認識していないようにも見えます。あーっ!そうか、作文用紙のマス目のラインを含んで読み込んでるんだ。ほら、「□」の入ってる文字が多いでしょう。国とか宙とか白とか、カクカク系の漢字ばっかり。

うーん、これはこれで賢いソフトウェアってことでしょうか。でも、そう考えるとGoogleドライブがちゃんと読み取ってることの凄さをあらためて実感しますね。

 

3.結果まとめ

前項で画像5枚に対して、ソフト(サービス)5本を試してみたので、最終結果をまとめて所感を書いていきます。

 

3.1.結果発表っ!

各競技の結果がこちらとなります。作文用紙は無かったことにします。

 

誤認識率一覧

  日-ゴ 日-手 英-サ 英-手 作文
Tesseract3 4.2% 34% 0.5% 60% -
Tesseract4 2.5% 44% 0.9% 3.1% -
Tesseract5 2.5% 44% 0.9% 3.1% -
Google 0.0% 0.6% 0.0% 0.3% -
ONLINE 1.4% 6.1% 0.0% 50% -

日:日本語、 英:英語、 ゴ:ゴシック、 サ:サンセリフ
青字:1%以下、赤字:10%以上

 

上記結果となりましたので、第一回 勝手にOCRグランプリの優勝は・・・

 

「Google ドライブ」さんに決定しましたっ!!!おめでとうございまーすー!!!

 

3.2.(偉そうに)講評

出場選手のみなさん、大変ご苦労様でした。みなさんが額に汗を流しながら懸命にOCRしている姿はとても感動的であり、多くの人に勇気を与える素晴らしい大会だったと感じています。

今大会の結果を分けたのは、手書き文字であります。Googleドライブ選手の完全優勝に目を奪われがちですが、ゴシック、サンセリフ競技では意外にも大きな差はついておりません。日本語画像においてはONLINE-OCR選手が、英語画像においてはTesseract4選手がGoogleドライブ選手に肉薄した結果を出しており、正に紙一重の勝負だったと言えるでしょう。今大会で調整不足により実質棄権となったTesseract5選手が出場していれば、結果がどうなったかは予想がつきません。

今大会はここで閉幕となりますが、Tesseract選手は世界中の支援者の力を借りて更に力をつけていくでしょう。ONLINE-OCR選手も専用Webサイトとしての意地があるでしょう。次回大会でどのような結果が出るか、今から楽しみです。

 

~第一回 勝手にOCRグランプリ 閉幕~

 

 

オマケ:次回大会に向けたメモ

 

Tesseractを使った変換コマンド

# tesseract file.jpg stdout -l eng

 

ImageMagickインストール(競技画像作成用)
convert実行時にエラーが出たのでghostscriptをインストール

# yum install ImageMagick
# yum install ImageMagick-devel
# yum install ghostscript

 

ImageMagickを使った変換(PDF→画像)

# convert -density 600 -units PixelsPerInch origin-file.pdf dest-file.jpg

 

おわり