Page 232 - 《软件学报》2024年第4期
P. 232
1810 软件学报 2024 年第 35 卷第 4 期
如咖啡、IQOS (烟草巨头菲利普莫里斯公司生产的加热式电子烟)、大切诺基 (进口 Jeep) 等方面; “消费”领域中
的“人民生活”子领域主要描述人们日常生活中的消费产品, 如牛肉、龙虾、扇贝等方面.
表 8 共享“对外经贸”方面的子主题的主题词
进出口 政府财政 消费
离岸人民币; 中间价; 反补贴; 报关单; 反倾销调查; 空置税; 零关税; 免税店; 计税毛利率; 增值税
中俄原油管道; 服务出口; CNH; CNY; 直销; 寡头; 暂行条例; 地方主体税种; 成品油消费税; 中韩; 外贸; 进口博览会; 中国
纸币; 离岸; 降准; 贸易帐; 自由化; 免税品; 资源性 包工; 反垄断; 经营权; 要债; 热潮; 回暖; 关税; 茶; 阿斯匹林; 马息岭; 美
产品; 博览会; 集成电路产业; 先行指数; 出口订单 贸易战; 单边主义; 贸易保护主义; 乐视; 税收; 元; 护照; 海关; 药; 茶叶;
指数; FDI; 周一欧市; 免税购物额; 货币错配; 应税; 关口; SDR(特别提款权); 免税款; 无纸化; 政策 药品; 假药; 假冒; 价格; 假
衰退性顺差; 丝绸之路经济带; 自由贸易园区; 一带 性金融机构; 关税配额管理 货
一路; 滑准税; 税目; 自由贸易区; 贸易顺差
表 9 共享“人民生活”方面的子主题的主题词
投资 进出口 消费
纪念币; 茅台酒; 老酒; 金块; 赌球; 石油币; 咖啡; 中成药; 民族主义; 乌木; 广交会; 啤 牛肉; 龙虾; 扇贝; 大闸蟹; 死猪; 宠物;
高铁币; 航天纪念钞; 投资理财产品; 月租; 酒; 老干妈; 楚菜; 导盲犬; IQOS; 大切诺 床单; 泡面; 冷冻; 奶茶; 狗肉; 兔子; 西
金银币; B站; 充电; 供暖; 单身公寓; 四万亿 基; 中药; 房车; 黄唇鱼; 四国; 赤霞珠; 山 红柿; 蛋壳; 车位; 餐具; 饲料; 灭火器;
计划; 募资; 快递公司; 购物中心; 主题公园; 寨食品; 排他性条款; 美国葡萄酒; 路虎神 虹鳟; 三文鱼; 大米; CPI; 胚胎; 洋奶粉;
纪念邮票; 证券投资a者保护基金; 乐视汽 行者2; 国产版; 雷克萨斯; 可乐; 揽胜; 原 番茄炒蛋; 象牙; 盒饭; 蜗牛; 恩格尔系
车; 克强指数; 菜鸟驿站; 虾米音乐; 收藏行 研药; 星巴克; 平行进口车; 甜味剂; Coco 数; 松鼠; 女装; 生蚝; 鲤鱼; 散热片; 酸
为; 航天纪念币纪念钞; 菜篮子; 迅雷看看 Cola Life; Pepsi; 金丝楠阴沉木; 费列罗巧 奶; 肉类; 汉堡; 白领; 枪手; 鸭子; 导盲
电影院; 冤枉钱; 金银纪念币; 采暖; 新能源 克力; 智利红酒; 护肤品; 纸尿裤; 真空保 犬; 猫咪危房; 鸭肉; 炒饭; 鸟类; 炸鸡
车 温杯; 太阳镜
在 20NewsGroup 数据中抽取出反映不同领域主题下的关联子主题在“sys”方面的主题-词语分布, 结果如表 10
所示.
表 10 共享“sys”方面的子主题的主题词
comp rec sci
rfus; odometer; starter; hood; hump; power-
stylewriter; selling; macintosh; canon; uhf; ing; efficiency; parachute; faa; runway;
det; buf; tor; har; min; chus; ott; edm; nyy;
cellular; mobile; equip; surround; eprom; qualcomm; cdma; mileage; pace; suing;
mil; matchup; transmit; swap; countersteer; panda; communicant; incrementally; per-
dpl; micor; camcorder; delivered; converter;
scma; listserv; moog; replica; lojack;
deskjet; license; combo; receiver; amd; usm; sonel; ebcdic; rado; thermic; gasturbine;
eeprom; westfield; zeppelin
scanjet; prologic; adaptec thermoelement; gaz; capacity; modulation;
improment
从表 10 中发现, “comp (计算机软硬件)”中的“sys (系统, 偏硬件)”主要描述计算机硬件, 如 macintosh (苹果电
脑)、eprom (只读存储器)、camcorder (摄影机)、deskjet (打印机)、combo (光驱)、amd (主板) 等方面; “rec (休闲
娱乐)”中的“sys”主要描述与汽车系统相关的硬件, 如 det (结构设计鉴定)、ott (互联网电视)、mil (故障指示灯)、
listserv (服务器)、moog (音响合成器)、eeprom (电可擦除只读存储器) 等方面; “sci (科学研究方面)”中的“sys”主
要描述航天系统中的硬件, 如 rfus (光度计上检测荧光强度)、powering (动力估计)、qualcomm (高通公司, 通信技
术)、cdma (电信版)、gasturbine (燃气轮机)、thermoelement (热元件).
实验结果表明, 结合领域知识和 nCRP+层次构造方法的 rHDP_DK 层次主题模型可以有效地挖掘出不同主题
下的关联子主题, 明确关联主题中主题词的差异性.
5 总 结
领域主题之间不仅包含纵向的领域层次关系而且还包括横向的子领域方面共享关系, 且不同领域下关联子领
域的词语也具有领域差异性. 因此, 通过机器学习方法、深度模型思想和基于 nCRP 的层次主题模型均无法挖掘