网页资讯视频图片知道文库贴吧地图采购
进入贴吧全吧搜索

 
 
 
日一二三四五六
       
       
       
       
       
       

签到排名:今日本吧第个签到,

本吧因你更精彩,明天继续来努力!

本吧签到人数:0

一键签到
成为超级会员,使用一键签到
一键签到
本月漏签0次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行补签。
连续签到:天  累计签到:天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
09月09日漏签0天
五笔吧 关注:34,351贴子:703,407
  • 看贴

  • 图片

  • 吧主推荐

  • 视频

  • 游戏

  • 3回复贴,共1页
<<返回五笔吧
>0< 加载中...

几篇关于词库的文章(转载)

  • 取消只看楼主
  • 收藏

  • 回复
  • templarrr
  • 五笔高人
    7
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
浅析小词库的本质—醉翁之意不在酒
作者:SeaLaugh

  偶得半日闲,决定把以前已经写了一半的关于小词库的文章写完,就当是拉家常了,呵呵。本文仅代表个人观点 

  在分析小词库的本质之前,我们先来对这个问题进行界定,我说的小词库是指任何形码的小词库,也就是说不单指五笔的小词库,这个共性是由形码的特点所决定的。由于字和词的输入是共用编码空间的,也就是同样编码的字和词会有重码,所以我们把单字和词组看作是一个有机的组成部分。在目标是提高输入速度,增强输入舒适度的前提下,换个角度来看待小词库的本质。

  这里还有一个小的插曲,也就是输入速度与输入舒适度是否不可兼得的问题,我想大家很容易联想到形码的高速与音码的易学性,但注意易学性只是舒适度的一部分,这里说的舒适度是指广义的、一切应被包括的感官上的舒适度。很多人认为小词库有打空的问题,所以大、中型词库应更舒适,应该说对于词组输入率较高的人是这样的,但随着后面我们对小词库本质的揭示,你就会发现,原来我们的看法都是从一个角度来看的,如果从小词库的本质这个角度来看,不但不存在打空的问题,而且其输入流畅度要高于大、中型词库,最重要的是越步入高级阶段,输入速度与输入舒适度将不再对立,并且从反比走向了正比,是一个真正的质变,我想这是对词库依赖性较强的人所想不通的,后面我们会逐层分析。

  用形码并且有一定输入速度的朋友都明白,提高输入速度的过程其实就是一个提高条件反射强度的过程,强度越高,字与词的界限就越模糊,也就产生了“字为字,词亦为字”的情况,因为字是绝对固定的编码,而词是相对字的次级编码组合,这个组合的过程需要时间,但当条件反射达到了很高的强度时,在大脑中就不再需要这个组合的过程了,此时已经把这个词的相对组合编码变成了用字的固定编码的方式来记忆了,例如“一个”这个词,你一定不用过多的想,也不需要组合的时间就能很快打出它的词组编码,因为对于词组方式输入的人来说这个词太常用了,你已经达到了高强度的条件反射,但“壹个”这个词呢?(我们假定你的词库里有这个词)很显然这个词远远没有“一个”常用,所以即使你对形码单字的编码烂熟于胸,也难以用条件反射式的速度打出一个相对不熟悉的编码的组合,即使是极短的思考与停顿时间,其速度也将慢于条件反射式的速度数倍不止。另一方面,对于“打词派”来说,打“一个”很舒服,其舒适度很高,但打“壹个”就不那么舒服了,因为这个词不常用,打出它还需要附加的时间。

  从词长的角度来看,二字词是最常用的,词组越长在一般情况下词频就越低,如果你打“中国”毫不费力的话,那么打“阿拉伯联合酋长国”就不会那么从容了,长词有两个劣势,一是组合效率低,二是视觉识别干扰大:对于非条件反射式的记忆,你需要先打出前三个字的第一个编码,再跨越中间的部分找到最后一个单字,然后再将其第一个编码打出,显然这种组合编码的效率是很低的;从视觉识别的角度来看,越长的词干扰就越大,当我们看到这个词的第3个字时,还不能确定其是否为一个完整的长词,我们需要有再往下识别的时间,应该说一直到“国”字也无法确认,最终是我们看到了国字后面的部分与前面毫不相干了,我们才能确定这个长词的具体长度,但你要明白,这时我们还没有开始打编码,前面的时间都浪费在了视觉识别上,后面我们还需要按1、2、3、末的规则来组合,第一个劣势中已经说明了这个组合的效率又是很低的,可想而知我们在打长词时浪费了多少时间。即使我们对这个长词已经达到了高强度的条件反射式的记忆,但你会发现只抵消了第一个劣势,而视觉识别的时间问题仍无法解决,人的视觉集中点只有一个,在一个最短的单位时间内只能看到一个单字,其他的文字全部是余光,二字词还不那么明显,到了三字词以上的时候便明显无法顾及周全了。这也就出现了连达到条件反射式的记忆都无法避免的弊端,长词的优势在于其组合的确定性,至少在词库正确的情况下,上面那个词你不会打成“阿拉伯联合球长国”,很显然如果不考虑速度因素,这个优势是属于音码的,音码不追求条件反射而追求高舒适度和确定性,单字则不是音码的强项,这个舒适度的扩展还体现在整句识别上,形码和音形的特点决定了它们有着很强的互补性。

  醉翁之意不在酒,在于山水之间。由此引申,字有限而词无穷,不常用的,或是没有形成条件反射的词,相比之下打起来就不会那么舒适。也就是说,只有字才能全部达到条件反射式的记忆,而词是根本不可能的,条件反射与非条件反射的对比前面已经介绍过了,这就引出了高速小词库的本质——小词库之意不在词,而在于单字之间。如果小词库的主导输入方式为词组的话,那么相对大、中型词库而言除了重码少之外没有任何优势,而对于依赖词组输入的人来说更多追求的是舒适度,或者说是舒适度与速度的均衡,这在以速度见长的小词库身上是难以实现的,也就出现了很多大词库派的人所说的小词库不好用、词太少等现象。所以小词库的核心是单字。更深入的讲,如果以高速为主要目标的话,小词库不能称为真正意义上的词库,而是把词组看作是单字。


  • templarrr
  • 五笔高人
    7
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
“窝子第二定律”:

 “第一定律”说的都是大道理,比较容易理解,下面就来具体深入一下,探究到底什么因素影响词库效率,或者说客观评价一个词库优劣的标准是什么?

 作为一般的五笔用户来说,并不会去深思这个问题,他们只是感性地以自己的切身体验来评价一个词库:有的人说王码五笔自带的小词库好,因为重码低,而且通用;有人还说零重码的词库更好,又能打词又不用选重码;有人说中型词库好,够用就行;有人说大词库好,想打什么词就打什么词,就算重码多点也没关系。

 从作词库这么长时间来的思考,觉得上面说的各种说法不无道理,但又是“只见树木,不见森林”,不乏偏颇和误导的地方,每一种说法都能轻而易举地举出反例。作为一个词库的作者,需要寻找出对词库来说最本质的效率元素,而不能被表面的概念所迷惑。

 大多用过五笔的人都会说,五笔比拼音打得快,五笔比拼音可以盲打;五笔比拼音的击键数少。仔细追究来说,这里的快有两个因素:击键数少;可以盲打。具体来分析:

 在同等击键速度下,击键数少自然能打得更快。从编码和词库的角度来说,击键数少是因为词库中的平均码长较短,在同样一篇文章中能用更少的码键“表达”出来。这点容易理解,而且确实是衡量词库效率的一个非常重要的因素。拼音之所以比较“低效率”,一个重要原因就是因其平均码长要比五笔长。五笔用户为什么要打词组而不仅仅打单字,原因也是这样可以降低均码长。有些朋友在五笔长码方面的尝试,之所以在目前支持者甚寡,一个致命缺陷就在于其比目前的标准四码编码增加而不是降低了均码长。

 但事情还有另一面,就是怎样方便盲打——不少人把这一点归结为词库的重码率。这是一个重要因素,但,不完全。完整正确地说,影响能否盲打的真正因素,是对一个词库的熟悉程度,或者记忆程度。一个重码再少的词库,假如第一次用,还是可能不便盲打,而对于一个你非常熟悉的词库,即使它的重码很多,假如你能熟悉它的每一个位置的话,也是可以盲打的,当然这需要你更多的功夫去熟悉它。

 那么在同等初次接触条件下,你就可以说,一个需要更少记忆量,更容易熟悉和上手的词库就是个相对较好的词库。需要明确和对不少用户澄清的一点(不假思索可能很容易认同)是,一个词库所需的记忆量并不简单取决于其收词的多少和重码率的高低,一个大词库不一定就比一个小词库需要更多的记忆量,一个零重码率词库也不一定就比一个有重码的词库更好熟悉和上手。具体道理可在“第三定律”一节中阐释,在这里,我把这个决定着词库记忆信息量的因素称为“确定性”——这是一个影响输入速度的一个非常非常关键的因素,高确定性可让你顺畅地输入,而低确定性(高不确定性)则让你举棋不定,严重影响输入的正确性和效率。

 所以这里就有了“窝子三大定律”中的重要的“第二定律”:

 窝子第二定律:词库效率与词库的确定性成正比,与词库的均码长成反比。

 用公式来表示就是:

 词库效率=确定性/均码长

 这就是著名的窝子公式了。这个公式可作为用来评价一个词库的优劣标准。(什么,没听说过?太孤陋寡闻了吧。这也难怪,是我今天早上才想出的名称^_^)


2025-09-09 21:24:41
广告
不感兴趣
开通SVIP免广告
  • templarrr
  • 五笔高人
    7
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
“窝子第三定律”:

 均码长的概念和原理容易理解,也能量化出来比较,而确定性这个概念,相信大多数人还缺乏理性的完整认识,有必要在这进一步深究其构成要素。

 我们从多年的学生生涯中明白一个道理:学习一样东西,深入理解其道理比死记硬背重要的多,也省力得多。一个有规律(规则)的东西比无规律(规则)的东西容易掌握,而一个规律(规则)简单的东西又比一个规律(规则)复杂的东西容易掌握。

 也就是说,一个有规律(规则)的东西比无规律(规则)的东西所需的“记忆信息量”少,而一个规律(规则)简单的东西又比一个规律(规则)复杂的东西所需的“记忆信息量”更少。

 可以看出,记忆信息量的多寡已超出简单的对象的数量多寡了。这与其规则的明晰度有关。实际上,一个词库的记忆信息量是指这个词库中所需专门记忆的那部分的总和,而不是词库的词组数量本身。 (对于大词库还是小词库,同样需要记忆其重码的词组,另外,小词库需要记忆其所有的词组量,而大词库需要记忆其所无的词组量。我们大致可以把少量特别高频的常用词组排除出这个记忆信息量范围。)

 对于两个同样初次接触的词库,这个决定着其熟悉上手程度的难易的元素就是其“确定性”,具体分析,这个词库确定性高低由以下三要素构成:词组重码率、词组打空率、词组单纯度。

 词组重码率是三要素中最直观最容易看到和理解的概念,就是词库中在输入时需要按选择键才能使其上屏的词组占全部词组数量的比例。显然,重码部分的词组是需要专门记忆其位置的,这增加了一个词库的记忆信息量。在其它同样条件下,重码率越高,该词库所需记忆信息量就大,词库的确定性就越低。反之亦然。

 词组打空率指在你不了解这个词库是否有某个词组的情形下,想当然地以词组编码的方式输入这个词组,没有打出来的数量占你全部的想以词组编码方式输入的词组总量的比例。可以打出来的词组不需要你记忆,而打不出来的词组则需要记忆,以免下回重新打空。显然,打空率越高,该词库所需的记忆量越大。词库的确定性就越低。反之亦然。

 显而易见的是,打空率和词库中的收词量有直接的联系。但注意,两者并无绝对的必然关系。这点可能会出人意外,理由是这里有一个常人容易忽略和被误导,而对词库来说,又是决定其记忆信息量和科学合理性的重要要素:词组单纯度。

 词库收录的全部词组有单纯词和复合词之分,这就象是原子和分子之分的概念一样,分子是由原子组成的。一个词库的词组单纯度就是指单纯词占全部收词中的比例。单纯词是个不可再分出词组而只能分出单字的词组,包括二字词、一些三字词、成语、音译词、专用名词等词组。复合词则是可拆分出多个单纯词组的多字词组,最常见的形式是“二字词+二字词”的四字构词形式,如“国际贸易”“对外开放”。 

 中文的语言要素可以这样等级来划分:单字、单纯词、复合词。严格来说,复合词并不算语言要素。在这些当中,单字最少,常用单字更少,三四千个左右;单纯词较多,常用单纯词虽多些,但数量也是有限的,个人主观估计是在五万左右,不超过十万个。而复合词则可以说是无限多了。

 单字的编码容易记忆和熟悉,常用单纯词的编码也容易上手打出,复合词的情况就大相径庭了。复合词组数量无限,组词数量和长度无限,具有非常大的不确定性。 在词库中,单纯词数量和复合词数量的对比我称之为词库收词结构。在两个词库词组总量相当的情况下,显然,一个单纯词更多、复合词更少的词库显然要比另一个词库具有更高的确定性,更少的记忆信息量,从而也更科学合理些。

 因为,输入复合词组,虽然有均码长短的优点,但由于其不确定性高,表现为你不能确定这个复合词组在词库中是否收录了,你打它的编码是否会打空,有这个是否就有另外一个类似的,加上复合词组用途更加专门,常用度更低,输入时编码规则和一般的单字和二字单纯词不一样等一大堆的原因,这些不确定性完全可能抵消了其均码长短的优点而过之,结果当你想以复合词组形式打出时,所耗时间完全够分开单纯词来打出而有余了。可以说,五笔(形码)打复合词组并不是个高效的输入方式——除了一种极其特殊的情形,你的输入法支持海量的巨型词库,使其拥有巨量的复合词组,(词库之所以海量主要原因就在于复合词组的无限多)而且你喜欢和习惯了打复合词组,且不讨厌重码选择(当然可以用长码规则解决,但那样连均码长短的优点也丧失了)。对五笔或其它一些形码来说,这种特殊情形几乎是不存在的,或者没有存在的必要理由——和形码快速盲打的理念背道而驰,与其这样,还不如用日益智能化的拼音输入方式。

 所以就有了“窝子三大定律”中的第三定律:

 第三定律:词库的确定性由其收词的打空率、重码率和单纯度构成。

 “窝子三大定律”在极爽词库中的逐步落实


  • templarrr
  • 五笔高人
    7
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
归纳以上的“窝子三大定律”是:

 第一定律:中文键盘输入的速度,等于用户的纯击键熟练度和其所使用编码的词库效率的乘积。

 第二定律:词库效率与词库的确定性成正比,与词库的均码长成反比。

 第三定律:词库的确定性由其收词的打空率、重码率和单纯度构成。

 窝子公式:词库效率=确定性/均码长

 这些词库理念是我在半年的词库编制实践中逐渐思考成型的,并逐渐地一步步应用落实到极爽词库的编制实践中。

 极爽词库追求的是高效的五笔输入效率,极爽的输入体验。这体现在词库上,就是要作到两点:低均码长,高确定性。

低均码长在极爽词库中通过两点达成:

 1、在遵循王码五笔86的标准编码方案和编码规则的基础上,同时在兼容王码输入习惯的前提下,在五笔词库中首创添加编制了“一二级三重简码字”,在输入五笔单字方面缩短了均码长;

 2、在词组输入方面,加大单纯词组的收录数量。在目前的多个常用五笔词库中,极爽词库的单纯词组数量是明显地领先于其它多个词库的。

 高确定性通过贯彻词组收录的低重码率、低打空率、高单纯度来实现:

 1、低重码率:极爽拥有相对大多数词库要低得多的词组重码率,该重码率比较接近最早的王码标准小词库——我所仅知的在极爽词库之前常用词库中唯一的个位数重码率。

 2、低打空率:如前面提到的,极爽词库拥有领先于当前多个常用词库的最多的单纯词数量,只要遵循用极爽词库打单纯词不打复合词的简单规则,你将很少遇到词组打空的情形。

 3、高单纯度:极爽词库4.0版本的修订升级,一大特点是全面贯彻落实我的单纯词原则,将词库中原来剩余不多的复合词组比较全面彻底地删除了。

 我知道第三点做法会有不少人反对,但我去除的理由前面已经阐释得很充足和清楚了——为了提高确定性,或者说消除不确定性,把这些词组(极爽3.0中约有一两千个这样的多字复合词)去掉是值得的。道理很简单,举个例子,你在极爽词库3.0中可以直接以复合词编码打出“有期徒刑”,于是你想当然地想用词库以复合词编码方式打出“无期徒刑”。可是你打空了——因为“无期徒刑”和“载重”重码而没在词库中收录。你得重新一个词一个词地输入了。你打了一个复合词组会自然地想当然地打另外一个,但那个词有可能没有——可能是因为重码,也可能仅仅是因为词库作者的疏忽——这些都是一般词库中收录复合词组经常会遇到的情形。这增加了很多不确定性和打空的机率。

 所以我的作法是彻底的,消除这种不确定性。我告诉用户一个非常简单的规则:你用极爽词库,就不要打复合词组,需要输入时主打单纯词,其次打单字就行了。这样你就可以很顺畅地输入而极少会碰到因打空而卡住的情形了。(实际上,据论坛上众多用户的反映来看,很少有用户喜欢打复合词组的)

 有了这些,或许你就能较快地熟悉掌握极爽词库,较快地实现高效率的五笔盲打了。当然词库不会完美,总会有不足,完全掌握也需要过程,关于这点,请再看看我在文章开头时首先说明的第一点。


窝子草于2004年10月5日上午

修订文字于该日晚上10时


登录百度账号

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频!
  • 贴吧页面意见反馈
  • 违规贴吧举报反馈通道
  • 贴吧违规信息处理公示
  • 3回复贴,共1页
<<返回五笔吧
分享到:
©2025 Baidu贴吧协议|隐私政策|吧主制度|意见反馈|网络谣言警示