c# - iText7 extracting text from pdf ignoring carriage return line feed, - Stack Overflow

admin2025-04-02 51

 public List<string> ExtractTextFromPdfA(string pdfPath)
    {
        var extractedText = new List<string>();
        try
        {
            
            using (PdfReader pdfReader = new PdfReader(pdfPath))
            using (PdfDocument pdfDocument = new PdfDocument(pdfReader))
            {
                for (int i = 1; i <= pdfDocument.GetNumberOfPages(); i++)
                {
                    //ITextExtractionStrategy strategy = new LocationTextExtractionStrategy();
                    ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
                    string pageText = PdfTextExtractor.GetTextFromPage(pdfDocument.GetPage(i), strategy);
                    extractedText.Add(pageText);
                }
                return extractedText;
            }

        }
        catch (Exception ex)
        {
            //_logger.LogError(ex, "Error extracting text from pdf");
            throw;
        }
       
    }

The following code extracts text from pdf file but the extract is missing additional new line feed. \n\n return \n and \r\n returns \n.

转载请注明原文地址:http://www.anycun.com/QandA/1743557268a70477.html

c# - iText7 extracting text from pdf ignoring carriage return line feed, - Stack Overflow

ciText7 extracting text from pdf ignoring carriage return line feed

Stack Overflow