揭“中华字库”玄机
刘 茜
①为满足文字及其他书面符号在计算机上的表示、传输、存储等种种要求,需要对文字和符号予以编码,并用符号的位序将它们组织为一个字符集。这一编码字符集,俗称“字库”。简单地说,“中华字库”就是一个收纳了中国古今的汉字及少数民族文字形体的庞大编码字符集。“中华字库”工程是要“建立全部汉字及少数民族文字的编码和主要字体字符库。重点研发汉字的编码体系、输入、输出、存储、传输以及兼容等关键技术”。
②这项工程不是只简单地收集文字进行编码整理。一方面,我们要从数千年流传下来的文字载体中,尽可能全面地搜集汇聚古今各种文字形体,在所出现过的实际文本原形图像的基础上,确定其历史演变,整理字际关系。这项工作对学术质量的要求很高。另一方面,这么庞大的整理工作,若像传统的那样人工搜集、抄录,将不可避免地存在人为错误多、记录信息量少等问题。因此,“中华字库”工程将以现代信息技术做支撑,通过有效的人机结合,让计算机巨大的存储能力和便捷的检索类聚能力为文字专家的专业研究服务,利用机器来放大和倍增专家的工作效力。
③由此看来,“中华字库”不仅关乎学术,还关乎技术,“文理”结合十分紧密。这项工程是在对文字学深入研究的基础上,研究各种文字收集、筛选、整理、对比和认同的方法与原则;充分利用先进的数字化技术,开发相应的软件工具,在统一的数字化平台上,建立人—机结合的文字收集、整理、筛选、比对和认同的操作与管理流程。中华字库工程不仅会全面收集整理全部汉字、建立汉字的主要字体字符库,还会尽可能全面地收集整理少数民族文字并为其建立主要字体字符库;不仅要提交古今汉字及少数民族文字的国家编码、国际编码标准提案,还要为中华字库在不同领域的应用提供支撑工具与环境、实现中华字库在互联网的在线发布,并且建成面向用户的动态补字系统。在数字化服务方面,可谓是一应俱全。
④与之前已有的文字整理工作相比,“中华字库”的优势还在于,其文字整理将面向出版及网络数字化需求。也许有人会问,咱们的电脑不是已经能方便地输入汉字了么?是,可能你觉得够用了,可是像派出所负责户籍管理的警察或者街道办事处负责人口普查的同志等肯定会给出不一样的回答。目前,我国的数字化建设正遭遇瓶颈。小到自然资源、地名、人口等清理普查,大至国家的经济、地理空间等战略性、基础性的信息库建设,还有公安、民政、金融、保险、海关、民航等行业的信息服务与监管存在很大的用字缺口。我国文字种类繁多且字量庞大,特别是汉字,内部关系又异常复杂,现有的计算机字库,无论是国家标准还是国际标准,都存在收字不全、字际关系不清等问题。少数民族文字缺口更大,除几种主要少数民族的文字外,许多甚至还没有编码。这些问题都严重影响了国家数字化建设的方方面面,也在直接或间接地影响着人们的生活。建设“中华字库”工程,就是要彻底解决这一瓶颈问题,全面推动我国的数字化建设。
⑤审定过“中华字库”研发方案的专家说,这项文字整理工程比秦始皇统一汉字规模更大,必将对中国乃至世界文明的历史产生重大而深远的影响。