Hola alguien a obtenido el texto de un fichero .doc que esta en una direccion url???? Es que no he encontrado ningun ejemplo que haga esto. Les agradeceria si me ayudan con esto. Estoy trabajando con la libreria poi de apache en Java.
Les comparto algo de mi código, pero me tira una excepción al probarlo con una url.
Código:
public static void main(String [] args) throws IOException {
InputStream entradaUrl = null;
//prueba con url
URL url = new URL("http://xxxx/yyyyyy/zzzzz/sentencias/Familia/1993/93 142.DOC");
// Se abre la conexión
URLConnection conexion = url.openConnection();
conexion.connect();
try{
entradaUrl = conexion.getInputStream();
} catch(Exception ex){}
String textoDeURL = leerDoc1(entradaUrl);
System.out.println(textoDeURL);
}
private static String leerDoc1(InputStream doc) throws IOException {
//Creamos el extractor pasandole el stream
WordExtractor we = new WordExtractor(doc);
//Regresamos lo leído
return we.getText();
}
me devuelve la siguiente excepcion:
Exception in thread "main" java.io.IOException: Stream closed
at java.io.PushbackInputStream.ensureOpen(PushbackInp utStream.java:74)
at java.io.PushbackInputStream.read(PushbackInputStre am.java:166)
at java.io.FilterInputStream.read(FilterInputStream.j ava:107)
at org.apache.poi.hwpf.HWPFDocumentCore.verifyAndBuil dPOIFS(HWPFDocumentCore.java:95)
at org.apache.poi.hwpf.HWPFDocument.<init>(HWPFDocume nt.java:174)
at POI.DocExtractor.main(DocExtractor.java:53)
Java Result: 1