Calibre用epub转txt也很简单,转换时输出选txt就行了,pdf,txt,mobi等格式,都能转换成kindle支持的格式。
Calibre电子书阅读器是一款完全免费的“一站式”的电子书解决方案,它可以全面满足你的电子书需求。它是一个完整的电子图书馆,包括图书馆管理,格式转换,新闻,将材料转换为电子书,以及电子书阅读器同步功能、整合进电子图书阅读器。
软件介绍
Calibre是免费的电子书制作、阅读软件,源代码开放,拥有跨平台的设计,支持多个基于不同系统的便携式移动设备,包括苹果iPhone、Amazon电子书等设备。它是一个完整的电子图书馆,包括图书馆管理,格式转换,新闻,将材料转换为电子书,以及电子书阅读器同步功能、整合进电子图书阅读器。
软件特色
1、源代码开放,拥有跨平台的设计,可在Linux,OS X和Windows操作系统中运行。
2、拥有完整的电子图书馆,包括图书馆管理,格式转换,新闻,材料转换为电子书。
3、电子书阅读器同步功能、整合进电子图书阅读器。
功能介绍
calibre可以完成对各种格式的电子书籍的管理和格式转换。尤其对于拥有手机/ipad等电子阅读器或E Ink设备的同学来说,这个软件尤其具有价值。如果把电子书想象成MP3音乐的话,calibre的功能可以类比于iTunes。它还可以把网络上的新闻或RSS下载转换成电子书格式,同步到相关的阅读设备中,这是一个非常实用的功能。
calibre可以从Google Books或Amazon等网站下载书籍的元数据,包括书籍的名称、作者、出版社、封面或者读者评价等信息。
Calibre 犹如一个电子书的图书馆,它支持大多数格式的电子书文件,只要用鼠标将文件轻轻一拽,即可把电子书添加到 Calibre 中来。
Calibre 是一个“一站式”的电子书解决方案,包括图书馆管理、格式转换、阅读等功能,只要你想得到的电子书功能,它都能帮你一一实现。
Calibre 是一个免费、开源和跨平台的软件,是您的电子书好管家,让您轻松管理、轻松阅读。
calibre不是一个电子书下载软件,它只能从网上下载书籍的信息,但不能下载书籍本身。calibre不是电子书制作工具,虽然它提供格式转换功能,且在转换过程中提供一些定制功能,但这些功能非常有限,并不能用于精细控制和从头制作电子书。
优点是功能全,可定制化程度高,可以折腾。缺点是体积庞大、速度慢、BUG较多(不过修得很快)。
使用教程
就比如说我突然想看本书,格式是PDB的,但是pdb的格式不能在kindle上直接打开,需要转换。先装一个pdb for calibre的插件,http://kanru.github.com/calibre-haodoo/。
我们在calibre当中把下载的pdb文件拖到calibre中去,点击工具栏上的“convert books", 左上角是输入格式,右上角是输出格式,如果你需要不高的话,直接点击ok,就是直接转成了mobi格式了。
好的,我们用kindle for pc打开刚才转换好的书,看看效果。
虽然在转换的过程当中完美地将TOC(目录)输出,但是从kindle for pc里面看到的效果有两点我不太满意,繁体,看起来还是有点费劲,首行没有两字缩进,看来还是需要自己动手,重新排版一下,好吧,这次我们选择输出成txt格式的。
用emeditor打开转换好的txt文件,发现还存在问题:繁体,首行没有缩进,段落之间有空行。
OK,把文件拷贝到GIDOT TYPESETTER中去,选择左下角的“简体字”,再点击工具栏中的“排版”,然后再拷贝回emeditor中去。
经过GIDOT TYPESETTER排版的文本特点:首行缩进是两个全角空格,段落之间没有空行。
为什么我要强调中文空格呢?calibre在转换的时候会自动忽略首行缩进的掉半角空格,为了保证首行两字缩进,我们用全角空格来控制。
好,下面我们对排版好的文本进行处理。
好的书是自带toc(目录),所以我们要在txt当中加入标记,让calibre在转换的过程当中遇到相应标记时自动生成toc。
calibre支持txt中的markdown (http://daringfireball.net/projects/markdown/syntax, 什么是markdown,请自己google)语法标记。简单来说calibre可以生成三级目录,每一级目录标记可以使用html当中h1,h2,h3....等等。而使用markdown语法在txt格式当中进行html标识时,每一行开头以# (#空格)对应h1, ## (##空格)对应h2,以此类推。
ok,我们现在就需要在每一章标题前面加入#或者##,在emeditor当中按ctrl+h,在寻找栏中填入\s\s第(一|二|三|四|五|六|七|八|九|十|百|[0-9])+(章)\s+.*,这是正则表达式的语法,\s表示空格, \s\s表示两个空格, (一|二|三|四|五|六|七|八|九|十|百|[0-9]),表示在第和章之间只要符合(一|二|三|四|五|六|七|八|九|十|百|[0-9])里面任一个字符即可,.*表示任意字符,所以\s\s第(一|二|三|四|五|六|七|八|九|十|百|[0-9])+(章)\s+.*表示只要以两个空格开始的第(*)章后面跟空格的任意文字串。
在替换栏中输入##\0, ##是h2的表示, \0表示寻找到符合正则表达式的字符串。点击replace all,所有章节名前面都加入了##标记。
好,下一步我们来保存。calibre在转换中文文档时需要是unicode格式,我们在emeditor中file-->save as,在下面的encode当中选择unicode 8即可。
在calibre删除掉刚才的pdb格式的欢乐英雄,然后把刚刚保存的文本文件拖到calibre当中去,点击工具栏的convert books。
先编辑书籍的基本信息,metadata,kindle是读取mobi的metadata的信息的,不管你的mobi文件名是什么。
书籍的封面,我一般去豆瓣找,点击look&feel, 选中”Remove spacing between paragraphs", 这个选项确保在转换过程中去掉段与段之间的空行。
本来拍过版的text段间是没有空行的,但是为了保险起见,我们还是选中这个选项的好。
如果不选中这个选项,原有的段间空行会被保留,且首行缩进通过indent size来控制,这是单位是em,不大好刚刚好控制在两个汉字的标准(因为kindle当中的字体是可以放大缩小的),所以我们通过排版,在每行首行前加入两个全角空格来保证首行缩进。
page setup这里面没有什么好设置的,因为epub, lit, mobi都会随着屏幕的大小、字号的大小来自动调整,我们还是循例选择kindle。
structure dection这里选择默认的,唯一要注意的就是下方的insert page breaks before... 默认的设置是在h1,h2标记前加入强行分页符,如果你不想这样的话,自己修改。
注意事项
中文txt文件转换成别的格式后全部变为乱码
因为Windows上大部分中文TXT文件是用System Codepage编码的,而calibre默认用UTF-8编码解析。解决方法是:可以把文件转成UTF-8编码后再放入calibre转换格式;也可以在calibre的转换对话框中左边选择“外观”,然后在右侧的“输入字符编码”中填入“gbk”或“gb18030”,calibre就可以正常转换格式了。
自动生成的封面图片中的中文字符变成问号
calibre自带并硬编码了一些字体文件,这些字体中不包含中文字符,渲染出来的图片就只能显示成问号了。解决方案是:打开“首选项”->“优化调整”中的“Current Tweaks”中填入优化选项:generate_cover_title_font = 'c:\\windows\\fonts\\simhei.ttf',这样就可以用指定的黑体做为封面标题的字体,就不会乱码了。如果电脑上没有simhei.ttf这个字体,也可以换成任意路径下的任意字符文件。
0.7.25以前版本的用户:用中文字体替换掉英文字体:在calibre安装目录下找到resources\fonts\liberation目录,用中文字体(比如文泉驿微米黑)替换掉里面的LiberationMono-Regular.ttf和LiberationSerif-Bold.ttf即可(删除原来的字体文件,把中文字体文件放进去并改名成这两个名字)。
“保存到磁盘”和“发送到设备”后中文文件名变为拼音
为了保证在各个平台各种文件系统下文件都可以正常的保存,calibre的作者采用了把非英语字符转为英语字符的方式来解决多语言文件名,中文就变成拼音了。对于“保存到磁盘”,可以去掉“首选项”->“保存图书到磁盘”->“将非英语字符转换为对应英语字符”的选项来强制calibre以原始字符保存文件名。不过这个功能有Bug,对于有些字符,保存后会乱码。对于“发送到设备”,目前没有解决方案。有关这个问题,目前正在与calibre作者积极沟通中,寻找最佳的解决方案。不过总的来说,只有极少数阅读器设备(如iRiver Story)的书架是用文件名而不是用图书元信息来显示的,所以对大部分阅读器而言即使用拼音文件名也不会带来太多的不便。
更新日志
1. 对部分功能进行了优化。