龙盟编程博客 | 无障碍搜索 | 云盘搜索神器
快速搜索
主页 > 软件开发 > JAVA开发 >

采用POI和ANTLR提取WORD文档数据[组图]

时间:2009-12-23 15:42来源:未知 作者:admin 点击:
分享到:
1. POI提取Word文档内容 POI是Apache开源项目之一,用Java实现跨平台MS Word/Excel文档解析。 也就是说可以在非Windows平台提取MS Word/Excel文档内容。 本文采用POI的一个扩展Jar包tm-extractors_0.4.j

1. POI提取Word文档内容

POI是Apache开源项目之一,用Java实现跨平台MS Word/Excel文档解析。 也就是说可以在非Windows平台提取MS Word/Excel文档内容。 本文采用POI的一个扩展Jar包tm-extractors_0.4.jar提取Word文档内容。 Word文档内容如下:(该文档有2页,每页记录一个组件内容),

Java类中Import import org.textmining.text.extraction.WordExtractor;然后在方法中:

  protected String getText() throws Exception {
                  WordExtractor extractor=null;
                  String text=null;
                  extractor = new WordExtractor();
                  text=extractor.extractText(in);   // in为 FileInputStream(new File("Word文档地址"));
                  return text;
   }

 运行结果如下:

Colimas Component Specification

1. Component: Apache Jakarta POI Java API To Access Microsoft Format Files
   
  1.1 Basic Information
  ?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦

Alias                               : POI
  Author                            : http://jakarta.apache.org/poi/index.Html
  Version                           : 0.0.1
  Language                        : Java
  Platform                          : Windows, Linux, Unix
  Status                              : Confirmed
  Is public?                         : Y
  ?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦
  1.2 Developers
  ?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦
  Apache developer1
  Apache developer2
  ?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦


  

精彩图集

赞助商链接