[feat]: extract_text_from_pdf

2025-05-10 04:54:01 +00:00 · 2022-10-02 22:46:10 +05:30 · 2022-10-02 22:46:10 +05:30 · 47f35b7358
commit 47f35b7358
parent 8618617f1e
2 changed files with 16 additions and 0 deletions
--- a/scripts/extract_text_from_pdf/README.md
+++ b/scripts/extract_text_from_pdf/README.md
@ -0,0 +1,9 @@
+# extract text from pdf
+
+This simple script will extract text from pdf
+
+## Usage
+
+- requires PyPDF2
+- Use `pip3 install PyPDF2`
+- Run `python script.py`
--- a/scripts/extract_text_from_pdf/script.py
+++ b/scripts/extract_text_from_pdf/script.py
@ -0,0 +1,7 @@
+import PyPDF2
+pdfFileObject = open('sample.pdf', 'rb')
+pdfReader = PyPDF2.PdfFileReader(pdfFileObject)
+count = pdfReader.numPages
+for i in range(count):
+    page = pdfReader.getPage(i)
+    print(page.extractText())