唐库学习是以双语内容为特色的创作社区,提供一键翻译整本书并制作为双语读物工具。

在AI时代是否会觉得翻译资料特别简单?发给AI瞬间就有回复了。但你想完美翻译一整本书一整篇论文时,还是有很多问题的,例如专有名称的翻译,AI每次翻译可能不一样,如果想做到中英对照,就更麻烦了。

唐库学习网站首页的批量问答工具,即可用于批量翻译:
批量问答1.jpg
操作如下:

1 粘贴一段英文文本到问题文本区;

2 Prompt输入($source表示原始问题文本):[$source],请翻译为中文?

3 拆分问题选择:空行分隔问题

4 选择 “全部问题”,“唐库初级AI”, 点击“生成问题列表”“开始问答”,很快就能得到结果:
批量问答2.jpg
从“问答对照”中可以看到英文,中文是一一对应的。

如何翻译整本书并制作为双语对照工具呢?

唐库学习网站是以双语内容为特色的创作社区,专门提供了一键翻译整本书并制作为双语读物工具,下面介绍操作步骤:

1,注册唐库,创建一个专辑;

2,将要翻译的书的文本内容导入专辑。如果原始文件是word,pdf文件,要导出为txt文件,再将txt文件内容导入刚刚创建的专辑。如果原书中有很多章节,是一个树状的目录结构,如何导入树状的目录结构呢?唐库提供了文本导入导出工具,编辑刚刚创建的专辑,找到“导入导出文本”图标,点击弹出对话框:
文本导入导出2.jpg
上面可以看到,原始内容有3个章节,从标题行上找标题行关键词(即每个标题行都有这个词,且文章内容中没有这个词),在文章标题关键词处输入“节”(只有标题有内容没有),点击“预览拆分文本”,即可看到原始文章被拆分成3篇文章(标题及内容长度均会给出),点击“导入拆分文本到服务器”,即会将3篇文章导入到专辑中,并形成树状目录结构。注意标题栏中的 “|”表示目录层级。

如果内容中也包含“节”字怎么办?文章标题关键词处是可以输入正则表达式的,例如 “第\d+节”(\d+表示1个以上的数字),不懂正则表达式只能自己编辑标题行,让一个词只有标题行有正文里没有。

导入后的目录层级(来自哈姆雷特双语对照):
树状目录1.jpg
3,拆分大段落

在编辑界面点击“拆分段落”工具(小剪刀图标),弹出:
拆分段落1.jpg
超过400个字符的段落将会被拆分,拆分依据是句号问号感叹号分号(不包括逗号),被拆分的段落末尾有“—-”标志。

为什么要将大段落拆分?这是为了后面制作短句版双语对照。

4,批量翻译

导入后在编辑界面点击“全局翻译”工具:
全书翻译1.jpg
这个界面有很多功能:指定文章是翻译本专辑全部文章还是一篇文章,目标语言:可选择任意语言,如没有输入新语言名称。单次翻译字符数:单次让AI翻译的文本内容量,经过测试发现该数字越大,AI的指令遵循会变差,建议在1000-4000,越小当然AI越可靠,但会产生断章取义现象,也更浪费AI流量(因为每次都要加上prompt文字)。

目前的AI都有“窗口大小”限制,即一个问题只能处理有限的信息,有的是4K,有的是16K,也有宣称能做到很大的文本。窗口越大,服务器消耗也就越大,即使能处理大文本,估计普通用户也没有机会使用,太消耗服务器了。

全书翻译的第一步是提取书中的名称,为什么有这一步呢?因为批量翻译会多次发送文本给AI,AI每次对名称的翻译会不一样,例如“Lizzy”, 可以翻译为“利兹”“丽兹”“莉兹”,Goneril(李尔王的不孝女儿)可能翻译成“甘妮莉尔”,“甘妮尔”,“高内利尔”,“贡纳里尔”,“贡娜莉”,“高奈尔”,“耿尼尔”,“顾纳利尔”,“耿娜丽”,这样的翻译是不可接受的。

名字提取后,点击“翻译名称”即可让AI翻译名字,翻译完成后可人工编辑名称。

实际上不仅是名称,某些特定行业有自己的术语,也可以在翻译前将这些术语替换好,再让AI翻译。

名称翻译好之后,点击“翻译文章”,开始批量翻译,一本书大约需要1-2个小时才能翻译完。

翻译完成后,长句版双语对照已经得到,而且可以按标点符号任意拆分句子:

tanglib2.jpg

5,制作短句版双语对照

在编辑界面点击“拆分段落”工具(小剪刀图标),弹出:
拆分段落2.jpg
段落大小设为60,拆分字符增加中英文逗号,即逗号分隔的句子也拆分,短句版双语对照效果如下:
短句双语对照.jpg

这样的双语对照对学习者是更友好的,没有阻力的(注:唐库双语的中文部分是可隐藏的)。

虽然ChatGPT的翻译已经很接近人类,但机器翻译的作品目前还需要人类审核,唐库学习平台发布作品需要通过审校老师审核,唐库正在招募兼职翻译人员,如果你有翻译方面的技能,欢迎你加入唐库,提交资料,认证成为审核老师后即可接单。

可不可以在翻译前就将段落拆分到这么细呢?经测试是不行的,会导致AI断章取义。

6,生成pdf版图书

在编辑界面点击“生成Pdf下载文档”工具,等10分钟,即可在阅读专辑首页看到pdf下载链接,生成的是手机版pdf, 例如:
羊脂球2pdf.jpg
你可以将你翻译的书发布到唐库上供其他人阅读,这要求原始书籍是公版书(即不再有版权约束),如何保证某本书是公版书呢?世界上最大的公版书网站是古登堡计划网站(Project Gutenberg),里面的图书基本上是公版书。

古登堡计划(Project Gutenberg)是一个志愿者项目,旨在数字化、存档以及分发全球的文化作品,以便在电子书阅读器或者其他电子设备上阅读。该项目由迈克尔·哈特在1971年发起,是最早的电子图书项目之一。

古登堡计划的主要目标是鼓励创造和分发电子书。这些电子书主要是公有领域的文本,包括许多已经出版的书籍。古登堡计划的电子书大部分是以纯文本格式提供,但也有一些提供HTML格式。此外,古登堡计划也提供一些音频和视频文件。

古登堡计划的名称源于约翰内斯·古登堡,他是15世纪的一位德国发明家,被誉为印刷术的发明者,他的发明极大地推动了知识的传播和普及。

古登堡计划的网站是:http://www.gutenberg.org 你可以在这里找到大量的免费电子书。