团体标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211007604.X (22)申请日 2022.08.22 (71)申请人 北京航空航天大 学 地址 100191 北京市海淀区学院路37号 (72)发明人 孙海龙 应昌君 齐斌航  (74)专利代理 机构 北京中创阳光知识产权代理 有限责任公司 1 1003 专利代理师 尹振启 (51)Int.Cl. G06F 8/10(2018.01) G06F 16/332(2019.01) G06F 16/35(2019.01) G06F 40/295(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种面向工业APP开发的群智化需求获取方 法 (57)摘要 本发明通过人工智能领域的方法, 实现了一 种面向工业APP开发的群智化需求获取方法。 基 于从工业APP平台和移动APP市场获取的数据, 构 建用户需求获取方法和宏观需求预测方法两个 模型实现群智化需求获取系统。 本发 明提供的方 法针对工业APP与移动APP的用户需求并不一致 以及工业APP评论数据量小的问题, 结合迁移学 习的技术, 通过大量移动APP评论数据对模型进 行预训练, 再使用少量工业APP评论数据对模型 进行微调。 针对部分工业APP没有领域分类的问 题以及现有的研究缺乏从宏观层面对市场进行 需求预测的问题, 通过描述信息对APP进行多标 签分类, 根据APP的领域标签与发布时间, 进行市 场的宏观需求预测。 权利要求书2页 说明书6页 附图3页 CN 115357220 A 2022.11.18 CN 115357220 A 1.一种面向工业APP开发的群智化需求获取方法, 其特征在于: 基于从工业APP平台和 移动APP市场获取的用户评论数据, 构建用户需求 获取方法和宏观需求预测方法两个模型, 用户需求获取方法聚焦于用户, 从用户评论中获取需求, 宏观需求 获取方法聚焦行业领域, 从宏观角度获取需求, 实现群智化需求获取系统, 从用户评论中得出的关键 短语, 并从过去 一段时间各工业领域的工业app数量分布中预测出未来工业领域 急需的工业app, 最 终输出 评论中代 表用户需求的关键短语以及急需工业AP P的工业领域; 所述用户需求获取方法具体步骤为: 第一步进行正负样本生成, 将移动APP的评论中与 特定网络信息源的实体进行匹配, 筛选得到匹配到的短语, 将这些筛选得到的短语标注为 需求短语, 然后在每条移动APP 评论中筛选得到出现两次及以上的短语, 将这些短语也标注 为需求短语, 这些被标注的需求短语将作为正样本, 然后在移动APP 评论中随机截 取部分连 续词语序列, 将这些随机得到的词语序列作为负样 本; 之后, 进 行进行特征抽取, 将移动APP 评论数据集和迁移学习的工业APP评论放入预训练模型RoBERTa中, RoBERTa将评论文本进 行编码, RoBERTa沿袭BERT采用Tran sformer作为特征抽取器, 使用Tran sformer的多头注意 力机制, 对每个正负样本 短语生成对应的注意力机制图; 然后进 行需求短语分类, 在得到每 个样本对应的注意力机制图之后, 将注意力机制图输入卷积神经网络CNN中进行二分类训 练, 采用CNN根据每个短语的注意力机制图将短语分类成需求短语还是非需求短语; CNN训 练完成之后, 将工业APP 评论数据放入 预训练模 型中进行编码, 随后为前面随机生 成的每个 词语序列计算得到注意力机制图, 将这些注意力图放入CNN分类器中进 行分类, 得到需求短 语, 最后将得到的需求短语根据其所属于的APP进行分组, 对每个APP下的各条评论的需求 短语进行需求短语聚类, 得到的聚类核心就是用户关注点; 所述宏观需求预测方法通过工业APP的发布时间和工业APP的领域标签来预测出哪些 工业领域 急需工业APP, 包含多标签分类以及趋势预测两个部 分, 通过选取一个领域分类标 准, 对所有的工业APP进行领域标签分类, 通过工业APP描述信息对工业APP进行多标签分 类, 然后再根据标签以及发布时间预测出 未来急需工业AP P的领域反馈给用户。 2.如权利要求1所述一种面向工业APP开发的群智化需求获取方法, 其特征在于: 所述 正负样本生成方法为: 使用无监督的方式对评论数据进行需求抽取, 从数据本身的特点入 手, 根据需求短语的特点, 从文本将其自动挖出, 对一条评论中出现两次及以上的短语作为 需求短语。 3.如权利要求2所述一种面向工业APP开发的群智化需求获取方法, 其特征在于: 所述 特征提取方法为: 通过自注意力机制, 挖掘出短语与其 他词汇的联系程度。 4.如权利要求3所述一种面向工业APP开发的群智化需求获取方法, 其特征在于: 所述 需求短语 分类方法为: 采用正负样本数据集对分类器进 行训练, 在特征提取中使用RoBERTa 对数据集进行特征提取, RoBERTa默认模式下拥有12层, 每层拥有12个注意力头, 对于一个 拥有N个单词的文本, 将 输入数据看作是一个长宽为N并且有着144个通道的图片, 针对于 短 语文本分类的问题转换成一个图像分类的问题, 通过给定一个多通道的注意力机制图像, 判断短语是否是需求短语, 使用两层卷积神经网络CNN模型对多通道注意力机制图进行分 类。 5.如权利要求4所述一种面向工业APP开发的群智化需求获取方法, 其特征在于: 所述 迁移学习技术手段为: 使用移动APP评论对模型进行训练, 在对模型充分训练完后之后, 再权 利 要 求 书 1/2 页 2 CN 115357220 A 2将模型迁移至工业APP评论数据集上微调工作, 针对移动APP评论数据与工业APP评论数据 相似性较高, 词汇频率, 文本长度, 以及文本格式, 文本语义非常接近, 并且工业APP评论数 据集比较小的特点, 对原有的CNN模型并不重新训练参数, 对全连接层进行重新训练, 最后 在全连接层后面添加一层sigmo id层, 对工业AP P评论数据进行迁移学习。 6.如权利要求5所述一种面向工业APP开发的群智化需求获取方法, 其特征在于: 所述 需求短语聚类方法为: 采用无监督的K ‑means算法对需求短语进 行聚类, 使用余弦相似度计 算词语之间的距离 。 7.如权利要求6所述一种面向工业APP开发的群智化需求获取方法, 其特征在于: 所述 多标签分类部分从各个工业互联网平台爬虫得到了大量的APP描述信息, 而描述信息包含 了工业APP适用的工业领域, 通过APP的描述信息将工业APP分类给不同的领域; 首先, 通过 现有的已标注标签的数据对模型进行训练, 然后运用到其他未标注标签的数据上, 使用 ALBERT与TextCNN的组合方式进行多标签的分类, ALBERT作为数据集的编码, TextCNN为编 码后的文本 向量进行特征提取, 使用不同的卷积核进行卷积池化之后再将数据连接, 为了 防止模型过拟合, 丢弃一部 分数据进行训练, 最后, 数据被输入至全 连接层, 通过sigmoid函 数得到多标签分类结果。 8.如权利要求7所述一种面向工业APP开发的群智化需求获取方法, 其特征在于: 所述 趋势预测部分根据领域标签的数量与工业APP发布 时间进行宏观趋势预测, 以月为时间单 位, 统计截至每个月月底, 各领域的工业APP数量, 根据过去每个月的工业APP的数量, 预测 未来三个月的各领域的工业APP数量, 使用多项式回归方程来进行预测, 使用python的 sklearn包为每个领域生成了一个多项式回归方程, 过去一年工业APP月平均增长率为 5.8%, 在对每个工业领域预测 了未来三个月的工业APP数量变化之后, 筛选出预测结果中 平均增长率超过10%的领域, 将其认为是需求旺盛的工业领域。权 利 要 求 书 2/2 页 3 CN 115357220 A 3

.PDF文档 专利 一种面向工业APP开发的群智化需求获取方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向工业APP开发的群智化需求获取方法 第 1 页 专利 一种面向工业APP开发的群智化需求获取方法 第 2 页 专利 一种面向工业APP开发的群智化需求获取方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:13:13上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。