解決:Re: PDF解析14636年筆記本-磚

Kamal2 · ‎09-23-2021

我已經存儲在azure adls pdf文件。

我想解析pdf文件在pyspark dataframes

我怎麼能這樣做呢?

User16752240003 · ‎10-15-2021

如果你有熟悉Scala可以使用Tika。Tika PDFBox的包裝器。如果您想在磚我建議你去使用它博客和Git存儲庫。你可能想要使用基於python代碼PyPDF2作為一個熊貓UDF在火花。

Kaniz · ‎09-23-2021

你好@卡邁勒!我的名字叫Kaniz,我這裏的技術主持人。很高興認識你,謝謝你的問題!看看你的同行在社區有一個先回答你的問題。否則我將與我的團隊跟進,回到你soon.Thanks。

werners1 · ‎09-23-2021

我所知道的Apache Tika。但這是一個java自由,我不知道如果有python綁定。

Pypi有一個python版本:

它可能會有所幫助。

User16752240003 · ‎10-15-2021

如果你有熟悉Scala可以使用Tika。Tika PDFBox的包裝器。如果您想在磚我建議你去使用它博客和Git存儲庫。你可能想要使用基於python代碼PyPDF2作為一個熊貓UDF在火花。

磚