LDA主题模型的一些想法

前段时间了解了一下LDA主题模型,里面涉及很多数学方面的内容,看起来很吃力,以目前了解的内容来看,我个人对于这个模型在输入法方面的应用前景还是很看好。目前几乎所有输入法都是基于HMM模型+词库,并且我觉得词库的重要性要大于HMM算法,Sogou目前在这方面投入很多,而且词库的分类很详细很广泛,用户可以很容易找到自己常使用的词库分类。
从语义上来说,词组有“分类”这个概念吗?没有,他们只有相关性,某些词组和另外一些词组同时出现的概率是不同的,以前我曾经考虑使用SVM(支持向量机)来对文档进行分类,然后在用户输入的时候不断确定输入的内容属于哪个分类,进而提高预测候选词的准确性,但后来前辈提醒我,把语料预先设定分类是有局限性的,显然我们需要的不是一个“分类”算法,而是一个“聚类”算法。
把语料库以非监督形式进行聚类能够更好的反应词语之间的关系,而非人为设定一个圈子让词语自己往里面跳,这样得到的结果就不是简单的“新闻”,“军事”,“娱乐”等这样具体的分类,而是一组组没有任何名称的#001, #002等等分类,LDA主题模型非常适合这样的场景。
今后我会以Sogou的语料库进行一些前期的验证,LDA主题模型本身不能进行增量计算,也需要改进支持增量计算以便能够不断调整聚类的效果。和以前发布HMM研究结果一样,会在随后的日志里发布自己实验的结果。

QIM 3.0的一些介绍

其实这是一个很早就改发布的版本。3.0里的一个重大变化就是把QIT集成进入了QIM里,这样所有用户都可以体验到QIT带来的整句体验。代价嘛就是包超过200MB -_-||

还有一些用户反馈外挂码表有时候会自动恢复为拼音,我修改了一下,不知道行不行。

 

上次研究完成3元马尔科夫模型以后,接着打算去研究神经网络,不过到目前为止还在门外转悠,一头雾水。Deep Learning那套东西需要不少数学基础才看得懂。

Glider's Home