多文档的文本摘要,挺考验算法灵敏度的,尤其你想提炼重点、还不想漏掉细节的时候。这篇研究用了模糊逻辑加深度学习,还搭了受限玻尔兹曼机(RBM),有点意思。两个阶段流程——训练 + 测试,设计得比较清晰,适合需要一堆文本做信息浓缩的项目,比如舆情、政策汇总、文献梳理那种。
受限玻尔兹曼机本身就比较适合做特征抽取,这里用来缩短文档,不容易丢掉重要信息。如果你之前没接触过 RBM,推荐先看看这个MATLAB 实验代码,对理解结构蛮有。
模糊逻辑部分也挺关键,尤其在信息模糊、多义词多的时候更显优势。你可以配合这个模糊逻辑工具包用用,支持 MATLAB,响应也快。
如果你用 MATLAB 开发多,顺手再翻翻这个工具箱使用指南和模糊逻辑在 Matlab 中的应用,接口和语法都讲得比较细。
对了,模糊控制这块你要是想拓展下应用场景,可以顺便看看频率控制和光伏逆变器的案例,逻辑套路是通的。
建议:你用前先理下文档结构,训练集最好分得清楚,避免误学;还有就是 RBM 的迭代次数别设太少,不然提取的信息不准。
如果你手上正好有一堆文档等着搞摘要,可以试试把这个思路迁过去,说不定效率提高不少。