Rumah Tutorial sistem LINUX Kira watak dan perkataan dalam fail pdf menggunakan python di linux

Kira watak dan perkataan dalam fail pdf menggunakan python di linux

Mar 14, 2025 am 11:08 AM

Skrip Python ini dengan cekap mengira perkataan dan watak dalam fail PDF, yang menawarkan fleksibiliti dalam mengendalikan aksara baru. Mari kita meneroka fungsinya dan penggunaannya.

Menganalisis kandungan PDF dengan Python

Mengekstrak data teks dari PDFs dan melaksanakan kiraan perkataan/aksara mudah dicapai menggunakan perpustakaan Python's PyPDF2 . Skrip ini memanfaatkan PyPDF2 untuk memproses fail PDF, menyediakan laporan analisis yang komprehensif.

Kerosakan skrip:

Skrip, pdfcwcount.py , terdiri daripada tiga fungsi teras:

  1. extract_text_from_pdf(file_path) : Fungsi ini membaca fail pdf yang ditentukan, mengekstrak teks dari setiap halaman, dan menggabungkannya ke dalam satu rentetan. Ia dengan anggun mengendalikan pengecualian FileNotFoundError .

  2. count_words_in_text(text) : Fungsi ini hanya memisahkan rentetan teks input ke dalam kata -kata (menggunakan ruang sebagai pembatas) dan mengembalikan kiraan perkataan.

  3. count_characters_in_text(text, include_newlines=True) : Fungsi ini mengira aksara. Parameter include_newlines menawarkan kawalan ke atas sama ada aksara baru ( \n ) dimasukkan ke dalam kiraan.

Bahagian utama skrip menggunakan modul argparse untuk mengendalikan argumen baris arahan, yang membolehkan pengguna menentukan laluan fail PDF. Selepas mengekstrak teks, ia mengira bilangan perkataan dan watak (dengan dan tanpa garis baru) dan membentangkan laporan yang diformat.

Pemasangan dan Penggunaan:

  1. Pasang PYPDF2: Gunakan PIP: pip install PyPDF2

  2. Jalankan skrip: Laksanakan skrip dari terminal anda, menyediakan laluan fail PDF sebagai hujah:

     python pdfcwcount.py /path/to/your/file.pdf
    Salin selepas log masuk

    Ganti /path/to/your/file.pdf dengan laluan sebenar ke fail pdf anda.

Output Contoh:

Skrip menghasilkan laporan yang serupa dengan ini:

 <code>--- PDF File Analysis Report --- File: /path/to/your/file.pdf Total Words: 123 Total Characters (including newlines): 789 Total Characters (excluding newlines): 750 -----------------------------</code>
Salin selepas log masuk

Kira watak dan perkataan dalam fail pdf menggunakan python di linux

Kesimpulan:

Skrip Python ini menyediakan penyelesaian yang mantap dan cekap untuk menganalisis kandungan teks fail PDF. Strukturnya yang jelas dan antara muka baris membuatnya mesra pengguna dan disesuaikan dengan pelbagai keperluan. Pilihan untuk memasukkan atau mengecualikan aksara Newline menambah fleksibiliti yang berharga untuk keperluan analisis yang berbeza.

Atas ialah kandungan terperinci Kira watak dan perkataan dalam fail pdf menggunakan python di linux. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Tutorial Java
1662
14
Tutorial PHP
1261
29
Tutorial C#
1234
24
Bagaimana untuk belajar asas Linux? Bagaimana untuk belajar asas Linux? Apr 10, 2025 am 09:32 AM

Kaedah untuk pembelajaran asas Linux dari awal termasuk: 1. Memahami sistem fail dan antara muka baris perintah, 2. Master arahan asas seperti LS, CD, MKDIR, 3.

Apakah yang paling banyak digunakan Linux? Apakah yang paling banyak digunakan Linux? Apr 09, 2025 am 12:02 AM

Linux digunakan secara meluas dalam pelayan, sistem tertanam dan persekitaran desktop. 1) Dalam bidang pelayan, Linux telah menjadi pilihan yang ideal untuk menganjurkan laman web, pangkalan data dan aplikasi kerana kestabilan dan keselamatannya. 2) Dalam sistem tertanam, Linux popular untuk penyesuaian dan kecekapan yang tinggi. 3) Di persekitaran desktop, Linux menyediakan pelbagai persekitaran desktop untuk memenuhi keperluan pengguna yang berbeza.

Apakah operasi Linux? Apakah operasi Linux? Apr 13, 2025 am 12:20 AM

Inti sistem pengendalian Linux adalah antara muka baris arahannya, yang boleh melakukan pelbagai operasi melalui baris arahan. 1. Operasi Fail dan Direktori Gunakan LS, CD, MKDIR, RM dan arahan lain untuk menguruskan fail dan direktori. 2. Pengguna dan Pengurusan Kebenaran Memastikan keselamatan sistem dan peruntukan sumber melalui UserAdd, Passwd, CHMOD dan arahan lain. 3. Pengurusan proses menggunakan PS, membunuh dan arahan lain untuk memantau dan mengawal proses sistem. 4. Operasi rangkaian termasuk PING, IFCONFIG, SSH dan arahan lain untuk mengkonfigurasi dan menguruskan sambungan rangkaian. 5. Pemantauan sistem dan penyelenggaraan sistem seperti TOP, DF, DU untuk memahami status operasi sistem dan penggunaan sumber.

Adakah Internet berjalan di Linux? Adakah Internet berjalan di Linux? Apr 14, 2025 am 12:03 AM

Internet tidak bergantung pada sistem operasi tunggal, tetapi Linux memainkan peranan penting di dalamnya. Linux digunakan secara meluas dalam pelayan dan peranti rangkaian dan popular untuk kestabilan, keselamatan dan skalabiliti.

Adakah Linux sukar belajar? Adakah Linux sukar belajar? Apr 07, 2025 am 12:01 AM

Linuxisnothardtolearn, butthedifficultydependsonyourbackgroals.forthosewithosexperience, shewhand-linefamiliarity, linuxisaneasytransition.beginnersmayfaceasterlepercurveButcananageWithPropenuSourcesources

Apakah kelemahan Linux? Apakah kelemahan Linux? Apr 08, 2025 am 12:01 AM

Kelemahan Linux termasuk pengalaman pengguna, keserasian perisian, sokongan perkakasan, dan keluk pembelajaran. 1. Pengalaman pengguna tidak mesra seperti Windows atau MacOS, dan ia bergantung pada antara muka baris arahan. 2. Keserasian perisian tidak sebaik sistem lain dan tidak mempunyai versi asli banyak perisian komersial. 3. Sokongan perkakasan tidak begitu komprehensif seperti Windows, dan pemandu boleh dikumpulkan secara manual. 4. Keluk pembelajaran adalah curam, dan menguasai operasi baris arahan memerlukan masa dan kesabaran.

Apakah gaji Pentadbir Linux? Apakah gaji Pentadbir Linux? Apr 17, 2025 am 12:24 AM

Purata gaji tahunan pentadbir Linux ialah $ 75,000 hingga $ 95,000 di Amerika Syarikat dan € 40,000 hingga € 60,000 di Eropah. Untuk meningkatkan gaji, anda boleh: 1. Secara berterusan mempelajari teknologi baru, seperti pengkomputeran awan dan teknologi kontena; 2. Mengumpulkan pengalaman projek dan menubuhkan portfolio; 3. Mewujudkan rangkaian profesional dan mengembangkan rangkaian anda.

Meningkatkan Produktiviti dengan Pintasan Perintah Custom Menggunakan Linux Aliases Meningkatkan Produktiviti dengan Pintasan Perintah Custom Menggunakan Linux Aliases Apr 12, 2025 am 11:43 AM

Pengenalan Linux adalah sistem operasi yang kuat yang disukai oleh pemaju, pentadbir sistem, dan pengguna kuasa kerana fleksibiliti dan kecekapannya. Walau bagaimanapun, kerap menggunakan arahan panjang dan kompleks boleh membosankan dan er

See all articles