正则表达式 - Java 读取txt格式语料库并匹配指定字符串,如何可以快速完成?
迷茫
迷茫 2017-04-17 17:50:07
[Java讨论组]

有一个9M多行的语料库,文件大小4G。现在需要匹配指定动词,符合句子条件的输出。
但是文件过大。每次读取一行。匹配下来要好久。请问有没有什么方法可以加快处理速度。

BufferedReader cpreader = new BufferedReader(new InputStreamReader(new FileInputStream(this.getCorpusPath())));
tring line = cpreader.readLine();
while(line != null)
            {
                ArrayList<String> verbList = new ArrayList();
                matcher_line = Pattern.compile("(.*\\%\\&\\$cook\\%\\&\\$VB.*)").matcher(line);
                if(matcher_line.find())
                {
                    System.out.println(line);
                }
                
                
                
                line = cpreader.readLine();
            }
迷茫
迷茫

业精于勤,荒于嬉;行成于思,毁于随。

全部回复(4)
ringa_lee

读文件的话应该是没有问题的,不过你可以尝试改为缓冲式读取,因为一行的大小 可能是不确定的,会对效率造成影响吧。。
匹配的话如果是单个单词的话,可以改用更好的匹配方法,正则的话就不晓得了

高洛峰

你的程序是按行处理,单线程处理肯定慢,用多线程处理,每个线程处理一行,处理完后再请求处理下一行,读取行的话最好用缓存读取多行,然后再分配给多个线程处理,这样可以最大利用CPU。

PHP中文网

nio+多线程

怪我咯
Pattern.compile("(.*\\%\\&\\$cook\\%\\&\\$VB.*)")

这个在循环里边,每次都要编译正则,所以很慢,你把这个放到while外边看看

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号