团体标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211073424.1 (22)申请日 2022.09.02 (71)申请人 联通 (广东) 产业互联网有限公司 地址 510000 广东省广州市黄埔区(中新广 州知识城)亿创街1号 406房之555 (72)发明人 王旺意 张迎峰 吴仲维 索晨  (74)专利代理 机构 广州润禾知识产权代理事务 所(普通合伙) 44446 专利代理师 郑永泉 (51)Int.Cl. G06F 16/958(2019.01) G06F 16/951(2019.01) G06F 16/35(2019.01) G06F 40/284(2020.01) G06N 3/04(2006.01)G06Q 30/02(2012.01) (54)发明名称 一种传销舆情分类训练方法、 系统、 计算机 设备及存 储介质 (57)摘要 本发明公开了一种传销舆情分类训练方法、 系统、 计算机设备及存储介质, 属于网络信息安 全技术领域。 本发明步骤如下: S1.设定敏感词; S2.根据敏 感词爬取文章; S3.将爬 取文章进行句 子切分, 得到切分后的句子; S4.将切分后的句子 输入用于传销分类的Bert模型, 得到不同类型的 标注句子且将不同类型的标注句子转换为分类 矩阵; S5.将分类矩阵输入SPPNet, 生成固定长度 的向量; S6.将固定长度的向量输入ResNet 50, 得 到不同类型的标注句子在所属爬取文章的比例 阈值。 本发 明可以解决传销舆情网站分类不精确 的问题。 权利要求书3页 说明书8页 附图5页 CN 115391707 A 2022.11.25 CN 115391707 A 1.一种传销舆情分类模型训练方法, 其特 征在于, 包括以下步骤: S1.设定敏感词; S2.根据敏感词爬取文章; S3.将爬取文章进行句子切分, 得到切分后的句子; S4.将切分后的句子输入用于传销分类的Bert模型, 得到不同类型的标注句子且将不 同类型的标注句子转换为分类矩阵; S5.将分类矩阵输入S PPNet, 生成固定 长度的向量; S6.将固定长度的向量输入ResNet50, 得到不同类型的标注句子在所属爬取文章的比 例阈值。 2.根据权利要求1所述的一种传销舆情分类训练方法, 其特征在于, 所述步骤S1.设定 敏感词, 具体为: 设置三个 类别的敏感词, 拉人头、 团队计酬、 入门费。 3.根据权利要求2所述的一种传销舆情分类训练方法, 其特征在于, 所述设置三个类别 的敏感词, 拉人头、 团队计酬、 入门费, 具体为: 拉人头类别 包含的敏感词有: 间接粉丝, 间接推荐, 间推, 开发市场, 拉人, 累计升级, 裂 变, 美粉, 上下级, 市场推广, 团队扶持, 推广达人, 推广大使, 推广 代理商, 推广 专家, 推荐代 理, 推荐关系, 推荐人, 下级代理, 下线, 邀请, 邀请好友, 招商会, 直接升级, 直接推荐, 直属 粉丝, 直推, 直推人, 层级, 层数, 担保人, 分享商品, 公排, 横排, 活跃度, 继承权, 健康产业, 健康顾问, 金板凳, 晋升, 经销权, 卡位, 跨级, 联创, 总代, 上家, 省代, 师长, 市代, 收租式, 首 席总监, 署理商, 淘友, 淘主, 特权, 徒弟, 微商, 微信群, 县代, 线上专卖店, 小宇宙, 行动大 使, 大将, 小将, 中将, 执董, 直营店, 职级, 至尊, 组长, 邀请码, 团长, 美商, 工会会长, {白银, 黄金, 铂金, 钻石, 一星, 二星, 三星, 四星, 五星, 初级, 中级, 高级, VIP, V1, V2, plus, 超级, 一 级, 二级, 三级, 四级, 五级, 普通, 特约}+会员, {白银, 黄金, 铂金, 钻石, 一星, 二星, 三星, 四 星, 五星, 初级, 中级, 高级, 区域, 县级, 市级, 省级, 特级, 城市, 大区, 国际, 一级, 二级, 三 级, 四级, 五级, 普通, 官方, 战略, 平台, 特约, 总, 金牌}+代理, {初级, 中级, 高级, 区域, 县 级, 市级, 省级, 特级, 城市, 大区, 国际, 一级, 二级, 三级, 四级, 五级}+经 理, {初级, 中级, 高 级, 区域, 县级, 市级, 省级, 特级, 城市, 大区, 国际, 一级, 二级, 三级, 四级, 五级, 普通, 官 方, 战略, 平台, 特约, 总, 金牌}+经销, {实习, 正式, 直属, 间接}+店主/掌柜, {初 级, 中级, 高 级, 区域, 县级, 市级, 省级, 特级, 城市, 大区, 国际, 一级, 二级, 三级, 四级, 五级, 普通, 官 方, 战略, 平台, 特约, 总, 金牌}+加盟商/分销商/零售商, {一星, 二星, 三星, 四星, 五星, 全 球}+CEO, {见习+高级}+主任, {一星, 二星, 三星, 四星, 五星}+创客, {普通, 官方, 战略, 平 台, 特约}+合伙人, {一星, 二星, 三星, 四星, 五星, 金牌}+董事, 领导人, 顾问, 主管, 负责人, 大使, 创始人, 分公司, 用户, 大师, 创 业, 村民, 导师, 二代, 服务商, 股东, 级别, 考核, 入门, 入驻, 三代, 上线, 社群, 升级, 投资, 团队, 推广, 学员, 招商, 资格等及其外文; 团队计酬类别包含的敏感词有: 层级递增, 差价, 代理佣金, 代下级奖励, 多级分销, 返 点, 返利, 返现, 返佣, 分佣, 感恩分红, 高回报收入, 高佣收入, 级差, 加权 分红, 拼团, 全球分 红, 三层返利, 市场培育奖, 躺赚, 梯度返佣, 提佣, 推荐奖励, 推荐收益, 佣金分配, 月返点, 运营商权益, 自动消费奖, 组织发展奖, 被动收入, 层碰奖金, 达标, 代理权益, 地盘分红, 地 盘收益, 对碰奖金, 二级分销, 分红考核, 分润, 分享奖, 分享奖金, 分销, 复购, 感恩提成, 贡权 利 要 求 书 1/3 页 2 CN 115391707 A 2献奖, 贡献值, 管道收入, 管道收益, 管 理奖, 管理奖金, 管 理奖励, 户主 奖, 回本, 回收, 活跃, 积分返还, 奖励佣金, 金卡, 津贴, 进货价, 静态收益, 居间提成, 流量奖金, 旅游卡, 秒到, 秒 提, 培养分红, 培养奖励, 平级奖, 平级奖励, 平推奖, 区域分红, 权益值, 全返, 日结, 社区奖 励, 省区奖励, 提成, 提现, 团队分红, 团队销售额, 团队销售奖励, 团队业绩, 推广奖金, 推广 奖励, 推广收益, 推荐奖金, 推荐奖励, 消费佣金, 销售奖励, 销售提成, 销售业绩奖, 业绩收 益, 银卡, 油票, 折旧费, 直推奖, 直推奖金, 重复消费, 重销 奖金, 重销优惠, 主动收入, 总 监 平级奖, 钻卡, 回款, 销售佣金, 销售分红权, 佣金, 分红, 复制, 供应, 积分, 奖金, 奖励, 利润, 流水, 任务, 收益, 业绩, 团队奖等及其外文; 入门费类别包含的敏感词有: 保证金, 充值, 定金, 门槛, 预充, 预存货款, 预存金额, 补 货, 达成条件, 店补, 店铺差价, 分享购, 复投, 加盟费, 加盟奖, 金豆, 零元代理, 拿货金额, 管 理服务费, 荣耀值, 入门费用, 手续费, 提前定金, 消费会员, 优惠价, 原始股, 招募, 折扣代 理, 抽取, 大礼包, 档次, 福利, 加盟, 加速, 礼包, 平台, 入场券, 入门, 投资, 赠送, 注册, 资格, 激活, 拿货, 团购, 折扣, 流 量包, 会员等及其外文。 4.根据权利要求1所述的一种传销舆情分类训练方法, 其特征在于, 所述步骤S3.将爬 文章进行句子切分, 得到切分后的句子, 具体为: 将爬取到的数据切分为长度不超过m个字符的短句。 5.根据权利要求1所述的一种传销舆情分类训练方法, 其特征在于, 所述步骤S4中用于 传销分类的Ber t模型, 具体为: 将切分后的句子的每一句均根据敏感词标注对应的类别, 得到不同类型的标注句子; 将不同类型的标注句子按M: N比例划分为训练集和验证集; 将训练集输入到Bert模型, 对Bert模型进行训练, 得到传销分类Bert模型以及不 同类 型的标注与所属文章比例的阈值; 用验证集验证所述传销分类Bert模型, 当标注句子的准确率达到准确率阈值时, 将该 模型作为用于传销分类的Ber t模型。 6.根据权利要求5所述的一种传销舆情分类训练方法, 其特征在于, 所述步骤, 将切分 后的句子的每一句均根据敏感词标注对应的类别, 得到不同类型的标注句子, 具体为: 如果切分后的句子中仅包含拉人头或入门费, 则标注为相应的类别; 如果句子中包含 团队计酬则标注为团队计酬; 如果句子中不包含团队计酬, 并且同时包含拉人头和入门费, 则标注为入门费; 其 余句子标注为中性。 7.根据权利要求1所述的一种传销舆情分类训练方法, 其特征在于, 所述步骤S4中分类 矩阵, 具体为: 所述分类矩阵的维度为n ×4, 其中n表示句子的条数, 4表示4个类别的置信度, 所述置 信度分别为拉人头、 入门费、 团队计酬和中性。 8.一种传销舆情分类训练的系统, 其特 征在于, 包括: 敏感词模块, 用于设定的敏感词; 数据爬取模块, 用于根据敏感词爬取 数据, 得到 爬取文章; 切分模块

.PDF文档 专利 一种传销舆情分类训练方法、系统、计算机设备及存储介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种传销舆情分类训练方法、系统、计算机设备及存储介质 第 1 页 专利 一种传销舆情分类训练方法、系统、计算机设备及存储介质 第 2 页 专利 一种传销舆情分类训练方法、系统、计算机设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:10:24上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。