今天来介绍一些用来作翻译的提效工具。平常的时候我会经常阅读一些英文的文献或者网站之类,为了提升阅读速度,就希望它能自动地把英文转换成中文。容易想到一种方法是复制文本的段落到翻译软件里,但还是很麻烦,希望能有一键操作,或者傻瓜式的工具。

目前有两种场景可能会用到这个功能,一是阅读 pdf 的英文文献时候,二是浏览一些英文网站的时候。

EasyTrans: 将英文 pdf 翻译为中文

第一个要介绍的工具是 EasyTrans,它的优势是可以直接将英文的 pdf 翻译成中文,并且输出格式还是 pdf,或者输出成 word 文档。EasyTrans 并不是一个软件,而是一个 GitHub 项目,作者是 leoqin。

它借助 PyMuPdf、谷歌、有道翻译实现了pdf英译汉的功能,翻译后的pdf格式基本保持不变,还可以下载docx和pdf格式的翻译文档,简单的满足看论文以及写总结的需求。

因为不是开箱即用的软件,它在使用上有一点点小门槛,就是需要了解一些基本的 python 知识,例如如何装软件包之类的。踩过一些坑之后,我总结了要用这个工具,所最小需要安装的 python 包有如下这些:

1
pip install PyMuPDF PyExecJS python-docx lxml requests

原项目还用 Django 实现了一个前端界面,这个看自己的需求了,我是没有用这块。

实际在用的时候,我是直接在项目根目录下运行 trans_file.py 这个文件,然后就开始魔改。

  1. 它默认环境是 Windows,所以有盘符的概念,但我系统是 Mac,于是对文件路径这里做了些改动
  2. 默认用的是谷歌翻译,但实测下来似乎不太稳定;我换成有道翻译,但在翻译长句子的时候,总是没有结果
  3. 最后选用的是百度翻译(申请网址),免费版可以无限用但是QPS限制为1,VIP版QPS限制为10但要身份认证但是超过限制后还要交钱

最后用了免费版,限QPS么就加 time.sleep(1) 呗,测试下来服务很稳定,就是需要稍微等一会儿。
其实快了也没用,因为看不过来那么多。

上图为转换后的 pdf ,格式基本和之前一样(用 arXiv 的论文格式生成的似乎效果都可以,其他还没试),文献中的图片也能完美还原。可能是由于中文比英文更紧凑的缘故,段落中间会出现小片的空白,不过基本不影响阅读。

而 word 文档则不会有这个空白,但是可能会丢失一双栏排版信息。如果愿意的话,可以把中英文都加上,这样在读不通中文翻译的时候,还可以查找到对应的原文。

总体来说,这种方式适合自己英文不好、看英文文章就头疼的同学,或者就是想偷懒随便看看。如果想仔细研读,那还是要看第一手资料滴~

TranslateMan:网页划词翻译

在网页这端,翻译工具就比较多了。例如 Chrome 浏览器自带的 “右键 - 翻译整个网页” 就蛮好用的。

插件的话,这里推荐 TranslateMan,安装完之后,直接 Ctrl + Q,就会弹出个小框框,如果剪贴板中有内容,就会自动识别其语言并且翻译,如果没有的话就自己输入。

经过测试,直接复制整段文字,也是可以翻译的,中译英、英译中都是可以的。


好,翻译的事情就讲到这里。

你以为这篇文章就这样结束了吗?当然没有啦,下面是加餐时间。

有些小伙伴可能还会有第三种需求,那就是阅读一些扫描版的pdf时候,它的文字是没有办法复制出来的。这时候就上面的工具就捉襟见肘了。但是不用怕,这时候就需要放大招了 —— OCR文字识别功能。

OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。

工具到用时方恨少哪,你可能会遇到下面这些场景:

  1. 一个扫描版PDF中的文字无法直接复制;
  2. 从一篇文献中复制粘贴文字时,出现格式错乱或乱码了;
  3. 想要识别一张图片上的大量文字时;
  4. 百度文库、道客巴巴巴的文档需要付费才能下载时;
  5. 一些网页禁止文字复制时;(某乎,说的就是你)

如果你是 Windows 系统,那么推荐 天若OCR。如果你是 Mac 系统,那么推荐两款软件工具。

Mac QQ: 文本识别功能

诶,不是推荐软件么,怎么开始 QQ 聊天了呀!不要误会,这是在 Mac QQ 内的隐藏功能。

打开QQ,菜单栏选择QQ—>偏好设置。设置识别文字的快捷键即可。默认的快捷键是 Control + Command + O,大致效果是这样的。

值得一提的是,上图右下角还提供了三个非常实用的功能:修改、复制、下载。

这里重点说一说下载功能。点击下载按钮,可以将原图和识别的文字都保存到本地。

如果目的是翻译的话,那就点击复制之后,再配合用上文提到的翻译插件即可。

iText: 小巧实用的 OCR 工具

这是一个 Mac 下的软件,安装之后会在上方出现一个小 icon,点击之后就可以画框框选文字然后进行识别了。
快捷键是 Shift + Command + 1

因为它的整体窗口比较小,所以它应该适合那种小范围的框选,比如查询某个单词的涵义之类的。
附带的两个小功能是,英译中,与文本连续识别。

英译中的作用就很明显了。文本连续识别是指下一次截取时,前一次内容不删掉。

其实都蛮好用的,哈哈哈。