登录  /  注册
首页 > Java > java教程 > 正文

详解JAVA读取PDF、WORD文档的方法

Y2J
发布: 2017-04-28 09:56:53
原创
2904人浏览过

本篇文章主要通过实例代码介绍了java读取pdf、word文档,需要的朋友可以参考下

读取PDF文件jar引用

<dependency>
  <groupid>org.apache.pdfbox</groupid>
  pdfbox</artifactid>
  <version>1.8.13</version>
</dependency>
登录后复制

读取WORD文件jar引用

<dependency>
  <groupid>org.apache.poi</groupid>
  poi-scratchpad</artifactid>
  <version>3.16-beta1</version>
</dependency>
<dependency>
  <groupid>org.apache.poi</groupid>
  poi</artifactid>
  <version>3.16-beta1</version>
</dependency>
登录后复制

读取WORD文件方法

/**
   * 
   * @Title: getTextFromWord
   * @Description: 读取word
   * @param filePath
   *      文件路径
   * @return: String 读出的Word的内容
   */
  public static String getTextFromWord(String filePath) {
    String result = null;
    File file = new File(filePath);
    FileInputStream fis = null;
    try {
      fis = new FileInputStream(file);
      @SuppressWarnings("resource")
      WordExtractor wordExtractor = new WordExtractor(fis);
      result = wordExtractor.getText();
    } catch (FileNotFoundException e) {
      e.printStackTrace();
    } catch (IOException e) {
      e.printStackTrace();
    } finally {
      if (fis != null) {
        try {
          fis.close();
        } catch (IOException e) {
          e.printStackTrace();
        }
      }
    }
    return result;
  }
登录后复制

读取PDF文件方法

/**
 * 
 * @Title: getTextFromPdf
 * @Description: 读取pdf文件内容
 * @param filePath
 * @return: 读出的pdf的内容
 */
public static String getTextFromPdf(String filePath) {
  String result = null;
  FileInputStream is = null;
  PDDocument document = null;
  try {
    is = new FileInputStream(filePath);
    PDFParser parser = new PDFParser(is);
    parser.parse();
    document = parser.getPDDocument();
    PDFTextStripper stripper = new PDFTextStripper();
    result = stripper.getText(document);
  } catch (FileNotFoundException e) {
    e.printStackTrace();
  } catch (IOException e) {
    e.printStackTrace();
  } finally {
    if (is != null) {
      try {
        is.close();
      } catch (IOException e) {
        e.printStackTrace();
      }
    }
    if (document != null) {
      try {
        document.close();
      } catch (IOException e) {
        e.printStackTrace();
      }
    }
  }
  return result;
}
登录后复制

以上就是详解JAVA读取PDF、WORD文档的方法的详细内容,更多请关注php中文网其它相关文章!

智能AI问答
PHP中文网智能助手能迅速回答你的编程问题,提供实时的代码和解决方案,帮助你解决各种难题。不仅如此,它还能提供编程资源和学习指导,帮助你快速提升编程技能。无论你是初学者还是专业人士,AI智能助手都能成为你的可靠助手,助力你在编程领域取得更大的成就。
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2024 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号