python - 一个关键词分组的问题
巴扎黑
巴扎黑 2017-04-17 15:42:32
[Python讨论组]

现有一组关键词表,如下:

会计一个月工资多少钱
挖掘机一个月工资多少钱
化妆师一个月工资多少钱
美容师工资多少钱
育婴师工资多少钱
化妆师工资多少钱
咖啡师工资多少钱
理财工资分配
会计工资分配
银行工资分配
如何进行工资分配
......

同类关键词的最长后缀是一样的,想根据关键词后缀来进行分组,最终效果如下:

会计一个月工资多少钱 >> 一个月工资多少钱
挖掘机一个月工资多少钱 >> 一个月工资多少钱
化妆师一个月工资多少钱 >> 一个月工资多少钱
美容师工资多少钱 >> 工资多少钱
育婴师工资多少钱 >> 工资多少钱
化妆师工资多少钱 >> 工资多少钱
咖啡师工资多少钱 >> 工资多少钱
理财工资分配 >> 工资分配
会计工资分配 >> 工资分配
银行工资分配 >> 工资分配
如何进行工资分配 >> 工资分配
......

关键词总共有4w个,咋实现...

巴扎黑
巴扎黑

全部回复(2)
黄舟
  1. 分词
    使用中文分词后再提取
    https://github.com/fxsjy/jieba

迷茫

不知道题主现在想出什么好方法来了没有。在这里我给一个我的想法。

4万个记录其实并不算多,我认为可以参考Trie树的思路,只不过不是找前缀而是后缀,所以要从关键词的最后一个位置向前搜索。

因为英语的基本构成只有26个字母,所以如果关键词是英语的话使用Trie树的变种来解决这个问题应该很容易。但是汉语的常用汉字至少有几千个,就不得不考虑一个空间效率的问题。

解决空间效率的问题还是要使用到中文分词,将对比对象由汉字转变为词。这只是一个想法,是否具有可行性不清楚

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号