Foros del Web » Programación para mayores de 30 ;) » .NET »

Indexar y buscar en documentos PDF con PDFBox y Lucene

Estas en el tema de Indexar y buscar en documentos PDF con PDFBox y Lucene en el foro de .NET en Foros del Web. Hola! Me gustaría pedir su ayuda..... Se que a través de las librerias de PDFBox Lucene puede indexar y realizar búsqueda de texto en archivos ...
  #1 (permalink)  
Antiguo 02/08/2010, 12:18
 
Fecha de Ingreso: agosto-2010
Mensajes: 1
Antigüedad: 13 años, 8 meses
Puntos: 0
Información Indexar y buscar en documentos PDF con PDFBox y Lucene

Hola!
Me gustaría pedir su ayuda..... Se que a través de las librerias de PDFBox Lucene puede indexar y realizar búsqueda de texto en archivos PDF; el problema qu he encontrado es que en la red no encuentro info de como realizarlo en Net; ya sea VB.NET o C#; encontre estas líneas de código:


Dim JavaFile As java.io.File = New java.io.File("C:\indexdir\Puntos a considerar.pdf")
Dim doc As Document = LucenePDFDocument.getDocument(JavaFile)

El problema es que me muestra el siguiente error: Value of type 'org.apache.lucene.document.Document' cannot be converted to 'Lucene.Net.Documents.Document en la siguiente línea : LucenePDFDocument.getDocument(JavaFile)

Si alguno de ustedes ha trabajado con estas DLL y pudieran orientarme o proporcionar un ejemplo; les estaría completamente agradecida.
  #2 (permalink)  
Antiguo 20/08/2010, 00:33
 
Fecha de Ingreso: agosto-2010
Mensajes: 1
Antigüedad: 13 años, 8 meses
Puntos: 0
Respuesta: Indexar y buscar en documentos PDF con PDFBox y Lucene

Hola, Dexya:

Yo las he utilizado únicamente para extraer el contenido de un PDF en una string. Es relativamente fácil. Debes añadir dos referencias a tu proyecto:

IKVM.GNU.Classpath.dll
PDFBox-0.7.3.dll

Te copio el código que yo utilizo para extraer el PDF:

using org.pdfbox;
using org.pdfbox.util;
using org.pdfbox.pdmodel;

private string leeFichero(string fichero)
{
PDDocument documento = PDDocument.load(fichero);
PDFTextStripper lector = new PDFTextStripper();
string texto = lector.getText(documento);
return texto;
}

Espero que te haya servido de ayuda.

Etiquetas: documentos, indexar, lucene, pdf
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 17:16.