忍者ブログ

晋江文学城の文章をどうやって機械翻訳にかけているか

晋江の無料部分は普通にコピペすればいいんですが有料部分はちょっと工夫が必要なので自分のやり方を書いてみました。


①スクショからの文字起こしで読む方法


前までは②の方法で読んでましたが、最近はPCで本文部分を丸ごとスクショ→Googleドライブで文字起こしがかなり楽でその方法ばっかりです。
文章のスクショ→Googleドライブにアップロード→右クリックで「アプリで開く」からGoogleドキュメントを選んで開く、以上です!
ただ完璧には読み取ってくれないので手作業で多少整形します。
(ブラウザはFirefoxやChromeにFire shotを入れたりすると選択範囲だけのスクショが撮れて便利)
下に書いた通りリーダービューにするとコピペできるのでそのへんも利用しつつ整形してます。

(2021年10月追記)
最近メジャータイトルの作品(二哈、天官、鎮魂、殺破狼、天涯客)で続々ロック(【鎖】になって購入済みでも読めなくなること)が行われており、修正の上で再公開されることもあるんですが①のGoogleドライブにスクショを保存しておく方法だと鎖になった時のバックアップになって②よりいいかもしれません。



②コピペ&虫食い穴埋めで読む方法

・晋江の有料部分は普通に開くとコピペ不可なので(最近は無料分も普通にはコピペ不可になりましたね)、Firefoxのリーダービューに切り替えるとコピペできるようになります
・Safariのリーダー表示やChromeのリーダービュー用アドオンもOK


・2020年の年末くらいにコピペ対策として有料部分はリーダービューにしたりコピペしたりすると所々文字が記号に置き換わってしまい、直接翻訳できなくなってしまいました
・なので、作品ページを二つのタブで開いておいて、①普通に開く、②リーダービューで虫食い箇所を見比べられるようにしています
・①と見比べてどの文字が抜けているのかを最初の数段落くらい手作業で確認して埋めていきます
・虫食い文字には規則性があって、同じページ内で記号に置き換わっているのは同じ文字なので、数段落くらい見比べるとどの文字がこのページでは抜けているのか見当がつくようになります
・抜けてるのは大体、我、你、他、不、没、当、同、正、太、事、时、们、在、要、这、那、一、两、个などなど(もっとたくさんあるけど)基本単語が虫食いになってるので、数段落を手で埋めたらあとは虫食い後の文章を見るだけでなんとなくどの文字が抜けてるのか推測できる……かも……
・わからなかったら素直に①を見て確認する……の繰り返しです
・不とか没とか否定形の単語が抜けてると意味が正反対になるのでその場合は注意ですが、主語(我、你、他)はわざわざ手打ちで埋めなくても推測しやすく大体意味は通るし、们、个とかは抜けててもまあ読める文章にはなってるし、というわりと適当翻訳ではあります
虫食い文字は慣れてくると目視で読み飛ばせるようになるので……。



③iPhoneで読む方法

ここまではPCで読む方法でしたが、iPhoneやスマホオンリーで読むときは晋江アプリをスクショ→Google画像翻訳で読み取り→それをまた任意の翻訳アプリに貼りつけ……で読んでます。
画像の文字起こしは一太郎アプリとかでも良さそう。


拍手[9回]

PR