海边的贝壳
来源: BlogBus 原始链接: http://www.blogbus.com:80/blogbus/blog/diary.php?diaryid=136240 存档链接: https://web.archive.org/web/20050101132853id_/http://www.blogbus.com:80/blogbus/blog/diary.php?diaryid=136240
海边的贝壳 “我好像是在海上玩耍,时而发现了一个光滑的石子儿, 时而发现了一个美丽贝壳而为之高兴的孩子。 尽管如此,那真理的海洋还是神秘地展现在我们面前。” ――伊萨克・牛顿 <<<繁简转化资料的页面 | 首页 | Wiki资料:刘韧―WikiWiki 快点快点>>> 维基百科繁简体转换的设想 mountain @ 2004-04-12 本段文字来自 维基百科 上我们对繁简体问题的讨论,作者为我本人。 首先说说我为什么要分类:因为我意识到繁简转换是一个复杂的问题,虽然大部分繁简体字之间确实可以一一对映,但也有相当数量的繁简体字之间不是简单的一一对映,所以我想作一个细致的调查。下面先举几个例子说明繁简转换的复杂。 就拿“台湾”的“台”字举例来说,简体的“台”字对应着繁体“�”、“��”和“�U”,如果“台湾”一词在台湾确实是写作“台�场倍�非“��场钡幕埃�那么简体的“台”字对应着四个繁体字“台”、“�”、“��”和“�U”。另一方面,一个繁体字也可能映射为多个简体字,具体取决于这个字的含义,比如“乾、�q、�x”这三个字,作“乾坤”的“乾”讲时,被简化为“乾”,但作“乾湿”的“乾”字讲时被简化为“干”字。而“干”字本来在繁体中还有它自己的意思,如“干预”,这样的话,简化的“干”字映射为繁体字时也是一对多的,它既可以映射为“乾”字,还可以保持不变为“干”字。 从上面的例子我们可以看到,我们必须整理细分到同一个字的不同含义,才能正确转换繁简。同时,还有异体字的问题,比如“�q、�x”三个是“乾”的异体字。所有这些,都需要一个细致的调查。然后,我们还有对每一个字给出它们的unicode编码和utf-8编码。 对于我们分类的方案,我觉得是可以讨论的。如果不采用汉语拼音,那么还可以采用部首检字法。用部首检字法还有一个好处,就是Unicode编码本身是采用部首检字法来给字集排序的。 这里有一个难点,就是让计算机确定一个字在某个上下文的具体含义,这是非常困难的,但也是高质量繁简转换所必须的。我想我们可以建立一个词典,用最大匹配法匹配出一个词(这种技术在大陆叫做“分词”),然后再在词的基础上作繁简转化。比如简体的“台”字化为繁体时大概按下面的方式进行:通过分词确定出“台”字所在的词,如果是“台州”就转化为“台州”,如果是“台榭”就转化为“�榭”,如果是“梳妆台”就转化为“梳�y��”,如果是“台风”就转化为“�U�L”,如果是“台湾”就转化为“台�场保�等等。这个方案不能保证完全正确,但我想足以应付大多数情况。 我设想期望中的程序(程式)应该具备下述特点: 应该可以进行繁->简和简->繁的双重转换 必须注意到这样的情况: 在简体版本中,我们偶然但必须引用一个字的繁体,比如在维基字典中介绍“台”时,必须说明它是“�”、“��”和“�U”的简化。 在繁体版本中,我们偶然但必须引用一个字的简体,比如在维基字典中介绍“�”时,必须说明它的简体字是“台”。 针对两种上面的情况,我们必须提供手段,表明一个字不作繁简转换。我建议采用C语言中常用的手段,加一个反斜线。比如:用“\�U”表明“�U”字不作简化,或者“\台”表明“台”字不作繁化。 某些上下文(不论是简体还是繁体版本)中,我们很难让计算机判断出某字的具体含义,我们不得不手工指明如何繁简转换。我建议采用两道反斜线的方法。比如“\台�”说明一个字在简体版用“台”,在繁体版用“�”。 程序(程式)不用PHP写,而是用 C编程语言 写成,然后再在PHP脚本中用dl引入C的库函数。这样可以提高繁简转换的效率。 繁简转换需要的词典放在MediaWiki名空间维护。在服务器(伺服器)启动的时候由PHP读入词典,然后生成繁简转换的运行时环境(Runtime environment),再在此基础上进行繁简转换。 词典更新后,不用重启服务器(伺服器),运行时结构可以得到自动更新。 引用(0) 评论 XML blogger del.icio.us furl.net Wikipedia 发表评论 最后更新 来自Wikipedia最初创办者的批评 新年快乐 串联我们的爱心 小行星可能要撞地球 大灾难和维基百科 2014年的互联网 UML与DSL的争论 Ongoing关于维基百科的评论 维基百科的入门与提高 是大家的,而不只是专家的 <<<繁简转化资料的页面 | 首页 | Wiki资料:刘韧―WikiWiki 快点快点>>>