網頁

2013年5月7日 星期二

英文PDF檔翻譯實作

收到的英文PDF文獻檔案,常常字很小,掃描的品質也不是很好,印出來看浪費紙又傷眼,更要用手工的方法一個字一個字查字典,總而言之就是麻煩。
我的翻譯實作是先將PDF轉出來變成可以編輯的文件檔,收先用PDFill這一套工具將PDF轉成圖片檔,原本單一的文件在轉成tif圖檔格式之後可以再用文件辨識軟體辨識,但是檔案也會變成數個,如果原本的檔案有十頁,轉出來也會有十個檔案
當所有頁面都轉成圖片檔之後,用OFFICE內建的OCR軟體Microsoft Office Document Imaging進行辨識即可,要注意的事情是圖片的檔名有沒有照順序編號,不然檔案一多轉出來就一團亂,另外可以將原本的圖片分資料夾分好,放在好選取的位置,然後成果放在另一區(我是放在Dropbox轉好就等於備份到網路上),Microsoft Office Document Imaging轉出來的word檔是htm格式的,不過不打緊,也可以在複製到自己的word檔中,如果要直接用google翻譯翻成中文,也可以直接餵食,google很容易讀懂這種檔案格式

沒有留言: