(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211163179.3
(22)申请日 2022.09.23
(71)申请人 中国科学院计算机网络信息中心
地址 100190 北京市海淀区中关村南四街 4
号院内2号楼
(72)发明人 林磊 杜义华 王闰强
(74)专利代理 机构 北京亿腾知识产权代理事务
所(普通合伙) 11309
专利代理师 陈霁
(51)Int.Cl.
G06F 40/216(2020.01)
G06F 16/35(2019.01)
G06F 40/284(2020.01)
(54)发明名称
一种基于用户行为预测的传播内容增强方
法及系统
(57)摘要
本发明涉及一种基于用户行为预测的传播
内容增强方法及系统, 该方法包括: 根据文本内
容相关的用户历史行为数据进行文本特征词提
取; 通过提取的文本特征词和用户历史数据训练
用户行为的预测分类器; 面向需要预测的文本内
容, 通过预测分类器预测用户群体对 此文本内容
的用户行为; 针对需要预测的文本内容提取文本
特征词, 在原文本特征词基础上采用新增特征词
的方法提升用户群体行为的概率, 使用预测分类
器进行提升判别; 新增特征词的搜索方法采用组
合优化算法或随机优化算法或启发 式算法, 得到
新增文本 特征词组合; 通过增加的文本特征词组
合, 反向理解特 征来补充改进原来的文本内容。
权利要求书2页 说明书6页 附图2页
CN 115438648 A
2022.12.06
CN 115438648 A
1.一种基于用户行为预测的传播内容增强方法, 其特 征在于, 包括:
根据文本内容相关的用户历史行为数据进行文本特 征词提取;
通过提取的文本特 征词和用户历史数据训练用户行为的预测分类 器;
面向需要预测的文本内容 通过训练好的分类 器预测用户群 体对此文本的用户行为;
对需要预测的文本内容的特征词基础上采用新增特征词的方法提升用户群体行为的
概率, 使用预测分类器进行提升判别; 新增特征词的搜索方法采用组合优化算法或随机优
化算法或启发式算法, 得到新增文本特征词组合, 这组特征词可以提升预测分类器对用户
行为预测概 率; 通过增 加的文本特 征词组合, 反向理解特 征来补充改进原来的文本内容。
2.根据权利要求1所述的方法, 其特征在于, 所述训练分类器为二分类问题的分类器,
其输入数据包括: 第一段为预测用户ID的编码uid和用户基本信息特征, 其中uid取自{id1,
id2,id3,…idm}, m个用户, 用户基本信息特征包括, 用户的粉丝数、 用户的关注数、 用户的发
文数、 用户转 发数、 用户点赞数和用户喜好; 第二段为 发布用户的特征, 包括 发布用户, 即为
文本信息的发布者; 发布文本特征, 即为分类器判断预测用户是否产生行为的文本特征, 采
用BOWs方式进行编码, 此处的编码方式必须有利于可解释进行反向理解回推, 其中文本使
用去停用词和去符号进行预处理, 同时通过TF ‑IDF进行关键词 提取, 只保留训练数据文本
的关键词进行 预处理, 或使用LDA分主题提取关键词, 最后再进行BOWs编码。
3.根据权利要求1所述的方法, 其特征在于, 所述使用组合优化或随机优化算法或启发
式算法对提取的文本特征进行增量微调步骤, 包括使用优化算法对文本特征进行增量微调
来提高分类 器对用户产生行为的预测概 率, 至少增 加大于1个文本特 征。
4.根据权利要求1所述的方法, 其特征在于, 所述随机优化算法包括: 遗传算法、 粒子群
算法、 随机 爬山算法; 所述组合优化 算法包括: 分支定界法; 启发式算法指前向选择 方法。
5.根据权利要求1所述的方法, 其特 征在于, 还 包括, 文本特 征理解和内容强化 步骤:
在优化后的候选特 征词组集 合中选择和上 下文融合的特 征词组;
通过增加含有特征词组 的文本的方法把特征词融合 回原文本; 融合的过程就是把增加
的特征反向 映射回原文的过程, 在BOWs中由于其中不考虑词序, 是一个多对一的映射, 反向
进行文本特征理解和内容 强化是一个一对多的文本创作改写过程, 把需要增加的特征词组
通过创作加入到原文本中。
6.一种基于用户行为预测的传播内容增强系统, 其特 征在于, 包括:
提取模块, 用于根据文本内容相关的用户历史行为数据进行文本特 征词提取;
训练模块, 用于通过提取的文本特 征词和用户历史数据训练预测分类 器;
预测模块, 用于面向需要预测的文本内容, 通过预测分类器对用户群体预测此文本内
容的用户行为, 包括用户浏览、 点赞、 转发和评论行为的预测值;
优化模块, 用于针对需要预测的文本内容提取文本特征词, 使用完成训练的预测分类
器对用户群体行为进 行预测; 在原文本特征词基础上采用新增特征词的方法提升用户群体
行为的概率, 使用预测分类器进行提升判别; 新增特征词的搜索方法采用组合优化算法或
随机优化算法或启发式算法, 得到新增文本特征词组合, 这组特征词提升预测分类器对用
户行为预测概 率; 通过增 加的文本特 征词组合, 反向理解特 征来补充改进原来的文本内容。
7.根据权利要求6所述的系统, 其特征在于, 所述训练分类器为二分类问题的分类器,
其输入数据包括: 第一段为预测用户ID的编码uid和用户基本信息特征, 其中uid取自{id1,权 利 要 求 书 1/2 页
2
CN 115438648 A
2id2,id3,…idm}, m个用户, 用户基本信息特征包括, 用户的粉丝数、 用户的关注数、 用户的发
文数、 用户转 发数、 用户点赞数和用户喜好; 第二段为 发布用户的特征, 包括 发布用户, 即为
文本信息的发布者; 发布文本特征, 即为分类器判断预测用户是否产生行为的文本特征, 采
用Bag of words(BOWs)方式进行编码, 此处的编码方式必须有利于可解释进行反向理解回
推; 其中文本使用去停用词和去符号进行预 处理, 同时通过T F‑IDF进行关键词提取, 只保留
训练数据文本的关键词进行 预处理, 或使用LDA分主题提取关键词, 最后再进行BOWs编码。
8.根据权利要求6所述的系统, 其特征在于, 所述随机优化算法包括: 遗传算法、 粒子群
算法、 随机爬山算法; 所述组合优化算法包括: 分支定界法; 启发式算法指前向选择方法
(forward selection)。
9.根据权利要求8所述的系统, 前向选择方法进行搜索, 即选择增量最大的第 一个特征
加入文本特征后, 再选择增 量最大的第二个特征, 以此类推直到达到预先设定的增加特征
数。
10.根据权利要求6所述的系统, 其特 征在于, 还 包括, 文本特 征理解和内容强化 步骤:
在优化后的候选特 征词组集 合中选择和上 下文融合的特 征词组;
通过增加含有特征词组 的文本的方法把特征词融合 回原文本; 融合的过程就是把增加
的特征反向 映射回原文的过程, 在BOWs中由于其中不考虑词序, 是一个多对一的映射, 反向
进行文本特征理解和内容 强化是一个一对多的文本创作改写过程, 把需要增加的特征词组
通过创作加入到原文本中。权 利 要 求 书 2/2 页
3
CN 115438648 A
3
专利 一种基于用户行为预测的传播内容增强方法及系统
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 02:11:26上传分享