团体标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211147725.4 (22)申请日 2022.09.21 (71)申请人 安徽信息 工程学院 地址 241000 安徽省芜湖市湾沚区永和路1 号 (72)发明人 汪忠国 张宝  (74)专利代理 机构 安徽华普专利代理事务所 (普通合伙) 34151 专利代理师 蔡庆新 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/35(2019.01) G06K 9/62(2022.01) G06Q 50/20(2012.01) (54)发明名称 基于TF-IDF算法的校园机 器人算法优化 (57)摘要 本发明提供基于TF ‑IDF算法的校园机器人 算法优化, 包括以下步骤: TF ‑IDF算法优化; 对训 练语料库进行分类, 以提高或降低某类别特征词 的权重; 拆词模型优化; 通过 实体词配置功能, 将 校园通用易错词进行了归纳整理, 并前置于TF ‑ IDF优化算法拆词模型中; 冗余词剔除; 在拆词模 型实际拆词后, 对常用的冗余词进行剔除, 并前 置于TF‑IDF优化算 法拆词模型中, 用来解决传统 TF‑IDF通过TF来获取文本内部信息 过于简单, 忽 略了词在文本中的其他特征; 通过IDF获取文本 外部信息时, 仅考虑了特征项在 文本集中出现的 文档数作为词语重要程度的衡量参数, 而忽略了 特征项在 文本集中的类别分布情况, 因此不能准 确地表现特 征项的类别区分能力。 权利要求书1页 说明书5页 附图2页 CN 115438165 A 2022.12.06 CN 115438165 A 1.基于TF ‑IDF算法的校园机器人算法优化, 其特 征在于: 包括以下步骤: TF‑IDF算法优化; 对训练语料库进行分类, 以提高或降低某类别特 征词的权 重; 拆词模型优化; 通过实体词配置功能, 将校园通用易错词进行了归纳整理, 并前置于 TF‑IDF优化算法拆词模型中; 冗余词剔除; 在拆词模型实际拆词后, 对常用的冗余词进行剔除, 并前置于TF ‑IDF优化 算法拆词模型中。 2.根据权利要求1所述的基于TF ‑IDF算法的校园机器人算法优化, 其特征在于: 对TF ‑ IDF算法进行优化包括以下步骤; 利用k‑means聚类算法对训练语料库进行分类; 计算第j个文档中第i个特 征项所对应的类别权 重σij, 计算公式如下; 其中, dfe为文档频率的均值, Cik为类别k中第i个特征词出现的次数, 为第i个特征 词在类别间出现的均值; 最后利用优化的TF ‑IDF算法进行计算 最终结果进行识别, 计算公式如下; 3.根据权利 要求1所述的基于TF ‑IDF算法的校园机器人算法优化, 其特征在于: 拆词模 型优化主要自定义分词有校园卡、 综合素质学分、 学科竞赛、 文化创新活动、 学术与行业讲 座、 智慧运动、 调停课、 培养方案、 诚信管理、 智慧资助、 完美校园、 校园通讯录、 座位预约、 校 车时刻、 校园卡交易、 报修管理、 安小信、 课表查询、 学分查询、 校园卡余额、 新生报道流程、 学分绩点、 休学流 程、 退学流程、 辅修毕业要求、 缓考 流程、 参军保留学 籍、 辅修收费标准。 4.根据权利 要求1所述的基于TF ‑IDF算法的校园机器人算法优化, 其特征在于: 常用的 冗余词有礼貌用语、 语气助词, 并支持对冗余词进行配置添加, 在拆词模型实际拆词后, 对 词组与预设的冗余词进行匹配, 并删除其在模糊度计算公式 中的得分。 5.一种基于TF ‑IDF算法的校园机器人, 其特征在于: 包括使用权利 要求1‑4中的任一项 算法优化的校园机器人。权 利 要 求 书 1/1 页 2 CN 115438165 A 2基于TF‑IDF算法的校园 机器人算法优化 技术领域 [0001]本发明主要涉及校园机器人技术领域, 具体涉及 基于TF‑IDF算法的校园机器人算 法优化。 背景技术 [0002]本发明涉及信息检索与数据挖掘领域, 具体地, 涉及一种基于改进地TF ‑IDF智能 服务机器人自动问答的算法优化。 [0003]随着人工智能技术的不断发展, 智能服务机器人在各个行业应用越来越广泛。 高 校智慧校园规划也把最新的信息技术融入到教育教学管理软硬件建设中, 也推出了面向广 大学生的智能服务机器人。 这些实体机器人配备了 自动问答系统来回答学生的常见问题, 例如: 学分查询、 入学缴费、 个人课表等。 [0004]自动问答系统是指以自然语言理解技术为核心, 首先识别学生的问题, 并把问题 与后台配置信息进行匹配, 从而实现学生和机器的有效交流。 现有问答系统流程是机器人 获取学生的提问语句, 将提问语句与问答库中的问题进行对比, 获取相应的答案。 然而, 面 对复杂的问题以及特殊的问法, 例如口语化、 个性化表达等, 现有的问答系统显得较为吃 力。 我们需要引入一种改进的T F‑IDF算法, 并结合对语料冗余词剔除、 自定义分词等预 处理 技术, 使智能服 务机器人的答案更准确。 [0005]TF‑IDF (term  frequency –inverse document  frequency) 是一种用于信息检索与 数据挖掘的常用加权技术。 TF代表词频(Term  Frequency), 表示语料出现的次数除以该 问 答库中的总句数。 IDF代表逆文本频率指数(Inverse  Document  Frequency), 表示问答库里 包含的问答句总数除以语料, 公式如下 所示。 [0006] 其中, 为词频, 是第j个文档第i个特征在文档中出现 的次数; 为文档频率, 是第j个文档第i个特 征项在所有 文档中出现的次数。 [0007]学生问题和问答库中的问题最后都转化为文本的形式, 判断学生问题的意图就是 要寻找和学生问题最接近的问题答案, 在自然语言处理中通常利用向量之 间的相似度来计 算两个文本的相似程度, 常用欧式距离、 余弦距离等距离公式。 [0008]传统TF‑IDF通过TF来获取文本内部信息过于简单, 忽略了词在文本中的其他特 征; 通过IDF获取文本外部信息时, 仅考虑了特征项在 文本集中出现的文档数作为词语重要 程度的衡量参数, 而忽略了特征项在文本集中的类别分布情况, 因此不能准确 地表现特征 项的类别区分能力。说 明 书 1/5 页 3 CN 115438165 A 3

.PDF文档 专利 基于TF-IDF算法的校园机器人算法优化

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于TF-IDF算法的校园机器人算法优化 第 1 页 专利 基于TF-IDF算法的校园机器人算法优化 第 2 页 专利 基于TF-IDF算法的校园机器人算法优化 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:13:50上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。