其次,原来的输入法只有单向搜集用户输入习惯和用户主动构词信息的能力,并没有实时让用户共享这些输入习惯的设置。哪怕是对单个用户本身,我们也没有开放学习并记忆其输入习惯的功能。这一点,目前如果重写一个输入法的话,也可以解决掉。
最后一点,则是我们原本缺乏对不同类型用户提供定制化细胞词库的服务,比如有两个用户,他们同样打hui-wu这样的拼音,第一个用户是个秘书,他可能希望打出‘会晤’这个词;而第二个用户是写散文的,或许他就希望打出‘悔悟’这个词。要知道即使是最大样本的词频统计,也只是对最接近大众的用户最优化,而非对每一个用户定制化地最优化。只有加入了细胞词库,让输入法在服务文秘用户的时候给一种词频,给普通用户的时候另一种词频,二笔用户的时候第三种词频,才能精确抓住所有人。”
初音娘BLABLA说了一大堆,顾莫杰越听越是惊喜。
其实如果不是他对后世的记忆已经被洗得七七八八的话,说不定此刻他就会惊讶万分:这不就是2006~07年左右才上市的“搜狗拼音输入法”才做到的功能么?当然了,07年左右的搜狗,也只做到前两点改进而已,至于定制化设计和细胞词库这些功能,后世的搜狗其实都是到了08~09年光景才慢慢发展出来的。
随后,顾莫杰又冒出了一个新的问题:“那为什么半年之前我们做不到这些功能点?当时是因为什么障碍,导致没法一步到位的?”
“当时咱刚刚到这个时空,人家又没有2050年的云端数据库可以调用,当然没法一步到位。如今好歹通过软件商那个搜集用户习惯数据的后门,花了这半年,勉强搜集够了所需的大数据,有了素材基础,才能解锁这些新功能点的。”
顾莫杰一听确实是这个道理,没有继续追问下去。
不过初音娘却没有说完,顿了一顿,似乎觉得顾莫杰已经入彀,才狡黠地补充道:“还得提醒你一点,如果你真的准备按照刚才所说的三个技术要点升级的话,你可得多弄一些服务器资源了。现在这些服务器,只够后门搜集、定期更新版本所需。要想实时统计、实时更新、实现细胞词库的话,服务器和带宽起码增加十倍。”
得!顾莫杰一听,就知道初音娘压抑了许久的剁手党属性又爆发了。
“成,只要这笔买卖赚得够多,别说租服务器了,就算是买又如何。到时候划个两百万预算,专门用来买服务器。”
……
经过和初音娘的