(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211533046.0
(22)申请日 2022.12.02
(71)申请人 广州数说故事信息科技有限公司
地址 510620 广东省广州市天河区黄埔大
道西120号15 01室
(72)发明人 牟昊 陈冰凌 何宇轩 徐亚波
李旭日
(74)专利代理 机构 广州三环 专利商标代理有限
公司 44202
专利代理师 江嘉玲
(51)Int.Cl.
G06Q 30/02(2012.01)
G06F 16/31(2019.01)
G06F 16/35(2019.01)
G06F 40/247(2020.01)G06F 40/295(2020.01)
G06Q 30/06(2012.01)
(54)发明名称
电商商品的标品库构建方法、 数据对齐方
法、 装置和设备
(57)摘要
本发明公开了一种电商商品的标品库构建
方法、 数据对齐方法、 装置和设备, 基于电商平台
的已有数据构建可定期更新的标品库, 从而在电
商平台的商品上新时, 基于标品库对这一商品的
数据进行对齐。 应用本发明实施例构建得到的标
品库, 无需前期人工标注大量的训练数据去训练
模型也无需耗费大量人工构建同义词数据库, 能
提高电商商品在数据对齐时的准确率和时效性。
另外, 标品库中写入的数据除了包括电商商品的
产品标准名称外, 还包括其余标准数据, 比如上
市信息和品牌标准名称, 提高了电商商品的数据
完整性。
权利要求书3页 说明书15页 附图3页
CN 115545809 A
2022.12.30
CN 115545809 A
1.一种电商 商品的标品库构建方法, 其特 征在于, 包括:
从电商平台的商 品详情页中获取待处理商品的商品信 息, 并根据 所述商品信息中的品
类信息对所述商品信息进行分类;
对同处于一个品类信息的所述商品信息, 获取 所述商品信息中的产品识别 信息;
获取与当前品类信 息对应的匹配策略, 并根据所述匹配策略利用所述产品识别信 息对
所述商品信息进行数据处理, 以得到所述待处理商品的产品总称; 其中, 所述产品总称中包
括一个产品标准名称和至少一个产品其 他名称;
将所述待处理商品的产品总称和其余标准数据作为一条数据信息写入标品库中; 其
中, 所述标品库每间隔预设时间段会进行自动更新。
2.如权利要求1所述的电商商品的标品库构建方法, 其特征在于, 当所述品类信 息为化
妆品类时, 所述产品识别 信息为官 方备案号, 所述匹配策略包括:
在与所述品类信息对应的官 方数据库中查找与所述官 方备案号对应的官 方产品;
当所述待处理商 品的品牌信 息与所述官方产品的品牌信 息对应时, 从所述待处理商品
的标题中获取对应的产品名称并写入所述产品总称中;
将所述商品信息中的产品名称与所述官 方产品的产品标准名称进行相似度匹配;
当所述产品名称与 所述产品标准名称的相似度值大于预设的第 一相似度阈值 时, 获取
所述官方产品的产品标准名称作为所述待处 理商品的产品标准名称。
3.如权利要求2所述的电商商品的标品库构建方法, 其特征在于, 当所述产品名称与 所
述产品标准名称的相似度值小于或等于所述第一相似度阈值时, 所述匹配策略还 包括:
获取处于同一品牌下的待处 理商品的产品名称向量;
对所述产品名称向量进行社区聚类, 并在执行完社区聚类后, 将处于同一个簇的产品
名称向量所对应的产品名称归类为属于同一待处 理商品的候选别称;
从所述候选别称中选择符合预设字符长度的产品名称作为当前待处理商品的产品标
准名称。
4.如权利要求1~3中任一项所述的电商商品的标品库构建方法, 其特征在于, 当所述品
类信息为化妆品类时, 所述产品识别信息为官方备案号, 所述其余标准数据包括官方备案
号、 上市信息和品牌标准名称。
5.如权利要求1所述的电商商品的标品库构建方法, 其特征在于, 当所述品类信 息为3C
类时, 所述产品识别 信息为3C认证编号, 所述匹配策略包括:
获取处于同一3 C认证编号的所述商品信息, 得到第一聚合商品信息;
在所述第一聚合商品信息中, 筛选出具有相同品牌信息的商品信息, 得到至少一个第
二聚合商品信息;
在所述第二聚合商 品信息中, 获取含有相同品牌信 息数量最多的第 二聚合商品信 息为
目标聚合商品信息;
在所述目标聚合商品信息中选择一个符合预设字符长度的产品名称作为所述待处理
商品的产品标准名称, 并将所述待处理商品对应的标题中的产品名称作为所述产品其他名
称。
6.如权利要求5所述的电商商品的标品库构建方法, 其特征在于, 当所述品类信 息为3C
类时, 所述 其余标准数据包括3 C认证编号、 上市信息和品牌标准名称。权 利 要 求 书 1/3 页
2
CN 115545809 A
27.一种电商 商品的数据对齐方法, 其特 征在于, 包括:
获取待对齐商品的标题, 并根据所述标题获取所述待对齐商 品的实体信息; 其中, 所述
实体信息包括品类信息和产品名称;
根据所述品类信息在预设的标品库中获取候选数据; 其中, 所述标品库采用上述权利
要求1~6中任一项所述的电商 商品的标品库构建方法构建得到;
根据所述产品名称在所述 候选数据中的产品总称中查找目标产品名称;
将所述待对齐商品的数据信息替换为所述目标产品名称对应的数据信息 。
8.如权利要求7所述的电商商品的数据对齐方法, 其特征在于, 所述根据 所述产品名称
在所述候选数据中的产品总称中查找目标产品名称, 包括:
利用bert语言模型将所述产品名称转 化为产品名称向量;
将所述产品名称向量与所述候选数据的产品总称中的任一候选名称向量进行相似度
匹配;
当所述产品名称向量与任一候选名称向量的相似度值大于预设的第 二相似度阈值 时,
取所述相似度值中的最大值所对应的候选名称向量的产品标准名称作为目标产品名称。
9.如权利要求8所述的电商商品的数据对齐方法, 其特征在于, 所述根据 所述产品名称
在所述候选数据中的产品总称中查找目标产品名称, 还 包括:
当所述产品名称向量与所有候选名称向量的相似度值均小于或等于所述第二相似度
阈值时, 判定当前待对齐商品为特殊商品;
检测所述标品库的更新操作;
在检测到所述标品库 更新完毕后, 根据所述电商品台中各商 品的收录时间筛选出所述
特殊商品的商品信息;
根据所述特殊商 品的品类信 息在更新后的标品库中获取新候选数据, 并根据 所述产品
名称在所述 新候选数据中的产品总称中查找目标产品名称。
10.如权利要求7所述的电商商品的数据对齐方法, 其特征在于, 所述实体信息还包括
品牌信息; 则, 所述 根据所述品类信息在预设的标品库中获取候选数据, 包括:
根据所述品类信息和所述品牌信息在预设的标品库中获取候选数据。
11.一种电商 商品的标品库构建装置, 其特 征在于, 包括:
商品信息分类模块, 用于从电商平台的商品详情页中获取待处理商品的商品信息, 并
根据所述商品信息中的品类信息对所述商品信息进行分类;
识别信息获取模块, 用于对 同处于一个品类信息的所述商品信息, 获取所述商品信息
中的产品识别 信息;
产品标准名称获取模块, 用于获取与当前品类信息对应的匹配策略, 并根据所述匹配
策略利用所述产品识别信息对所述商品信息进行数据处理, 以得到所述待处理商品的产品
总称; 其中, 所述产品总称中包括 一个产品标准名称和至少一个产品其 他名称;
数据写入模块, 用于将所述待处理商 品的产品总称和其余标准数据作为一条数据信 息
写入标品库中; 其中, 所述标品库每间隔预设时间段会进行自动更新。
12.一种电商商品的标品库构建设备, 其特征在于, 包括处理器、 存储器以及存储在所
述存储器中且被配置为由所述处理器执行的计算机程序, 所述处理器执行所述计算机程序
时实现如权利要求1至 6中任意一项所述的电商 商品的标品库构建方法。权 利 要 求 书 2/3 页
3
CN 115545809 A
3
专利 电商商品的标品库构建方法、数据对齐方法、装置和设备
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 02:15:54上传分享