在古籍数字化过程中,安装大的汉字字体库,能解决大部分汉字的输入与显示问题。目前比较成熟的输入法有很多,但任何一种输入法都难以囊括字体库中的所有汉字。因此,对输入法的选择至关重要。合适的输入法,不但决定了汉字的输出能力,更影响着古籍数字化的效率。
笔者建议选择“极点五笔”输入法,其一,此输入法既可单独进行“五笔字形、拼音输入法”的选择,也可选择“五笔拼音输入法”,在这种输入状态下,对于那些目前还不能通过五笔输出的汉字,可直接输入该字的拼音进行输出,省去了在五笔和拼音之间来回切换的操作;其二,该输入法的繁简切换非常直观、明了、方便,对于那些不是很熟悉的繁体字,通过输入其简体字就能显示对应的繁体字,这样建库人员能很快地确定其正误。比如“萧”和“齑”,不仔细区别感觉像是同一个字,但实际上它们分别是“斋”和“齐”的繁体字。
2.2 偏僻字的录入技巧
目前汉字字库中有大量的生僻字,无法通过五笔输入法输出,需通过拼音输入法才能输出,此时可在Word中输入与生僻字偏旁和笔画相近的字,并选定该字,点击右键,在弹出菜单中选择“符号”,便很快能找到所需文字,双击该字,即可直接输入到Word中,这样建库人员在不知道其读音的情况下,也能很快地输入该字,从而提高古籍数字化的进程。
2.3 自造古字
目前在古籍文献数字化处理的过程中,通用于业界的Uni code字符集具有近7万字的容量,但在古籍数据库建设中还是不够用。因此,我们使用微软操作系统自带的“TrueType”造字程序进行造字,避免数据库中使用符号或说明性文字代替目前输入法无法正常输出的文字现象。
3、古籍数字化汉字处理过程中需注意的问题及对策
古籍数字化汉字处理过程中遇到的最大障碍是汉字字库问题,它不但影响着古籍数字化的进程,还制约着古籍数字化的发展。汉字字库问题多年来经过专家学者的研究,正在不断的完善中,但仍未囊括古籍中的所有汉字,在进行古籍数字化时仍有不少字需要利用相关程序进行造字。目前有一些具备造字功能的程序,笔者主要介绍使用微软操作系统自带的“TrueType”造字程序进行造字时需要注意的问题及解决方法。
3.1 造字时截取字库中已有字的有关部位
在造字时,最好截取现成字中需要的部分进行造字,这样比分别输入所造字的各个部分而造出的字要美观。比如:我们通过截取“映”的左半部和“换”的右半部造出的字比直接输入“日”和“奂”字而造出的字,看上去要自然美观。
3.2 自造字大小的调节
自造的字如果不通过区位码输入法进行输出,而是直接将其复制粘贴到Word或Excel文档中的话,字号大小的调节不要在造字程序中进行,而应在Word或Excel文档中进行,否则字的笔划线条太粗,放入相应文档中也会显得很不协调。
3.3 自造字的输出
将自造字直接放入Excel单元格中时,单元格的状态应处于编辑状态(即单击该单元格)而不是可修改状态(即双击单元格),否则无法将自造字粘贴到指定位置。但这种直接将自造字复制粘贴到Excel或Word文档中的操作,当需对其进行排版时,它不会随之移动,要人工调整它所在的位置,故生僻字造好后,应利用区位码输入法输出到相应文档中,这样排版时就不会出现自造字不随文移动的现象了。
3.4 自造罕的显示
自造的字缺乏通用性,因此若要在不同的计算机上都可以正常显示Excel或数据库中的自造字,就必须将eudc.euf和eudc.tff这两个自造字库文件拷贝到字体目录下。需要指出的是,将这二个文件拷贝到指定目录时,根据计算机设置的不同,其拷贝方法也不同。即:操作系统中没有携带TrueType造字程序,只需直接将自造字的二个文件粘贴到指定目录,重启计算机就行了;其他情况就只有通过command命令进行拷贝操作,当然如果造字程序或自造字文件处于运行状态,则拷贝操作无法进行。
4、结语
古籍数字化建设是一项艰巨而复杂的系统工程,尽管目前古籍数字化建设中还存在一些问题,但随着国家“中国古籍数字化工程”的启动及数字化技术的发展与完善,相信在不久的将来,古籍数字化过程中所遇到的问题都将逐步得到解决。
|