• 您的位置:首頁 >聚焦 >

    Python 超強大的PDF表格提取器 — Camelot

    2022-04-04 06:00:56    來源:程序員客棧

    如果你有從PDF中批量提取表格的需求,那么這篇文章就是你的福音。

    Python 第三方模塊 Camelot 能夠精準識別PDF中的表格信息,并提取為pandas數據結構,而且還能導出為多種格式:JSON,Excel,HTML和Sqlite。

    下面給大家介紹這個模塊的使用方法:

    1.準備

    開始之前,你要確保Python和pip已經成功安裝在電腦上,如果沒有,可以訪問這篇文章:超詳細Python安裝指南?進行安裝。

    如果你用Python的目的是數據分析,可以直接安裝Anaconda:Python數據分析與挖掘好幫手—Anaconda,它內置了Python和pip.

    此外,推薦大家用VSCode編輯器,它有許多的優點:Python 編程的最好搭檔—VSCode 詳細指南。

    請選擇以下任一種方式輸入命令安裝依賴:1. Windows 環境 打開 Cmd (開始-運行-CMD)。2. MacOS 環境 打開 Terminal (command+空格輸入Terminal)。3. 如果你用的是 VSCode編輯器 或 Pycharm,可以直接使用界面下方的Terminal.

    pip install camelot-py[cv]

    2.使用

    最簡單的使用方式如下:

    import?camelot# 1.讀取pdftables = camelot.read_pdf("foo.pdf", flavor="stream")# 2.導出pdf所有的表格為csv文件tables.export("foo.csv", f="csv") # json, excel, html, sqlite

    第一行,導入camelot這個模塊。

    第二行,以stream的模式讀取當前目錄的foo.pdf文件。

    第三行,將所有表格數據導出為 foo.csv 文件,并保存在當前文件夾下。

    相當簡單,請注意,read_pdf 的 flavor 參數是可選的,如果你不帶這個參數,請注意需要安裝 ghostscript 這個驅動,因為它默認使用 ghostscript 去用 lattice 模式。

    3.進階

    3.1 處理背景線:

    可以看到,很多表格的線都隱藏在背景中。這種表格默認是不支持的,這時候我們需要讓程序能夠自動識別這樣的表格:

    tables = camelot.read_pdf("background_lines.pdf", process_background=True)

    增加?process_background=True?參數即可。

    3.2 指定表格區域

    某些情況下無法正確識別到PDF中的表格,此時手動設定左上角和右下角的邊界可能是有效果的:

    tables = camelot.read_pdf("table_areas.pdf", flavor="stream", table_areas=["316,499,566,337"])

    其中?table_areas接受格式為 x1,y1,x2,y2 的字符串,其中(x1,y1) -> 左上角, (x2,y2) -> 右下角。在PDF坐標空間中,頁面的左下角是原點,坐標為(0,0)。

    往期推薦1、美國國家安全局是如何入侵你的電腦的?2、美國四大科技巨頭:蘋果、微軟、Facebook、谷歌的愛恨情仇3、幾行Python代碼實現動圖倒放,太好玩4、烏克蘭國防系統賬號:admin,密碼:1234565、這代碼誰寫的,太可怕了!點擊關注公眾號,閱讀更多精彩內容

    關鍵詞: 數據分析 所有的表格 需要安裝

    相關閱讀

    BB电子