題:
物理文本到數字文本
Kyle Bridenstine
2018-06-09 21:53:43 UTC
view on stackexchange narkive permalink

讓我首先給這個問題加上前綴,我不知道哪個StackExchange網站最適合這個問題,但是我認為LifeHacks可能會起作用...

1998年,我媽媽在家裡有一次大家庭聚會(我的曾祖母有十個孩子,所以那真的是一個大聚會)。我的一個遙遠的叔叔為這次聚會寫了一本關於我們家庭歷史的書,而媽媽則把這本書給我看。我不敢相信本書有多大,有多少研究。我想找出一種方法,將整本書放在網站上,然後與家人分享,最終將歷史保存得比這本脆弱的書更長。

希望我不必逐字鍵入整個300頁的書,有沒有辦法我可以掃描頁面並將其轉換為數字文本?顯然,我可以拍照並使用圖片製作網站,但我覺得將其作為實際文本會更有益,因為當有人搜索家庭成員姓名或類似名稱時,它可能會更好地顯示在Google搜索中。另外,如果這個家庭中的某人曾經做過一個關於我們家庭的研究項目,他們將能夠複製一些文本並更輕鬆地進行引用。

所以有人知道我能獲得的最好方法嗎

Book front page

Book indicating thickness

五 答案:
hlecuanda
2018-06-11 08:56:22 UTC
view on stackexchange narkive permalink

使用Android手機,並將“ Google Lens。”功能最近添加到照片應用和相機照片查看工具中。

通過 Google Lens進行OCR 超越了我曾經使用的任何OCR軟件,都非常驚人且準確。

下面是一些屏幕快照,概述了使用便宜的(100美元)諾基亞3 的過程,自從我心愛的Nexus 4放棄了幽靈以來,我一直很高興使用它

我將詳細介紹1976年印刷的一本希臘民族學書籍的OCR掃描樣例,我不敢拆開以進行掃描,它似乎具有相似的字符密度和字體。

I在不太理想的照明條件下拍攝了這張原始照片,使用了一般的手機攝像頭上的所有自動設置,沒有使用任何特殊的照片技術或用於增強效果的固定裝置,您可以說它只是一個普通的業餘拍攝的手機圖片書頁上的內容。 (只需確保文本已聚焦,沒有OCR會解密模糊的離焦文本)

enter image description here

點擊Google鏡頭圖標(可用在拍照後通過預覽或使用Google相冊應用在照片上顯示圖片

enter image description here

此處為-Skynet- ^ M ^ M ^ M ^ M ^ M ^ M 我的意思是, Google Lens 進行了神奇的掃描(點有點令人毛骨悚然,但他們必須做些什麼才能讓您知道 googley AI 正在做它的事情)

enter image description here

掃描圖像後,您會發現圖片上 Google鏡頭找到的文本區域輪廓清晰,文本已經提取到屏幕的下半部分。如果您只想要某些區域而不想要其他區域,只需觸摸您的選擇以激活/停用它們。

如果您觸摸提取的文本,則會將其放置在剪貼板中,以便在手機上的任何地方複製/粘貼

enter image description here

然後,只需將文本粘貼到 Google文檔 ​​strong>文檔中即可。在那裡,您可以: -在此處或在您的PC上更正任何錯誤,-將文檔共享到您的心臟內容中,-將其發佈為網頁,實時更新您的編輯內容,或-導出為-純文本,-Word文檔,-打開Office文檔,-具有重排文字的 epub 兼容電子書,或者-良好的Non-DRMd PDF

可以說這可能是最短的出版途徑,

您可以在一台設備(安裝了適當應用的Android手機)上完成所有操作,並且基本上可以免費以高準確率立即完成操作。

這是Google文檔粘貼的片段
enter image description here

這是Google文檔的URL共享,請隨時發表評論。您還可以找人幫助您同時遠程進行遠程編輯。

https://docs.google.com/document/d/1aizUDOHerSraU3fIw6lHLabmLSNsQ7PMXOl1IHHE0RU/edit?usp=drivesdk / p>

最後是一個使用上述文檔作為鏈接源發布的Google協作平台網站

https://sites.google.com/h-lo.me/ocrsample

啟用了https,台式機和移動設備,並取決於口味,通常不會引起眼痛。對於15分鐘的總工作時間來說還不錯,並且不需要任何編碼。


還有一個細化之處,那就是在Google文檔上創建適當的段落,因為Google Lens在提取的文本的每一行之後插入一個硬返回,這使每一行成為其自己的段落,如果您要使用Google文檔功能(例如目錄),或者當您將您的文檔導出到與kindle兼容的電子出版物電子書中(使重排文本雜亂無章)

您只需在每一行的開頭按空格鍵即可加入每一行,或者這可以通過腳本自動執行。

因此,我正在編寫一個應用程序腳本插件,我將稍後發布該插件以自動化該過程。完成後,我會在這裡告訴您。

很詳細。我喜歡這個免費的解決方案。謝謝!
我的榮幸!您甚至可能已經擁有了所需的一切! :)
For a thick book, this is a really labor-intensive approach: you have to manually flip each page and then photograph it.
Stan
2018-06-10 03:54:56 UTC
view on stackexchange narkive permalink

您可以分階段執行此操作。首先在頁面掃描時將所有內容聯機,並在可能的時候進行更新。 cerlox™塑料梳狀裝訂使其易於拆開並重新裝回裝訂中。

由於印刷品看起來是相同尺寸的普通襯線字體,因此可以使用光學字符識別將掃描數字化軟件。 OCR可以為您提供文本文件草稿,您可以對文本文件進行校對並以其最終形式發佈在網站上。

同時,您可以整理圖片和其他圖片資料。

隨著時間/資源可用於項目,您可以執行此操作。

與先前的答案類似,但不詳細。
@TrajanEspelien以前的答案是什麼?檢查時間戳記。答案是第一,即提交希科達之前兩天。 :)
是的,但是沒有其他答案那麼詳細,這就是為什麼我對此接受了另一個答案。它不是先到先得的服務器..這是最好的答案。
@KyleBridenstine不要開玩笑!我也贊成hiecuanda。這是一個很好的答案。順便說一句,如果您沒有Android手機或無法訪問Glass,該怎麼辦?我對這個問題給出了通用答案。 :)
是的,如果您提供了指向免費OCR軟件的特定鏈接,而該鏈接可能已經將您的答案賣給了我。這是我要接受您的答案的灰色區域,但想等待,以便人們仍然傾向於發布解決方案。但是,當我看到hlecuanda的回答如此詳細時,我決定接受它。您仍然有一個很好的答案,我肯定會自己投票。
@KyleBridenstine謝謝您的客氣。我們同意。我認為您通過等待做對了事情。第一個答案不是最好的(除非出於某種原因*是*畢竟有最後期限。)我將鏈接發送給您的問題,並將hiecuanda的出色答案發送給必須在一大堆學校做同樣事情的同事來自巴西的記錄!
不使用更詳細答案的主要原因是它正在使用逐頁OCR流程。掃描完所有頁面後,您可以使用Tesseract(或使用Tesseract引擎的東西)一次對所有頁面進行OCR批處理,以自動創建完整的PDF。
therobyouknow
2018-06-23 05:38:34 UTC
view on stackexchange narkive permalink

這裡有一些很好的答案供您自己使用。

我想補充一下我付錢給別人為您做這件事的經驗。

我使用了 Digitise My英國的圖書(我自己也是英國的人)。

我對結果非常滿意:每本書以PDF格式返回,其中包含可搜索(可複制)的文本。使用標準的PDF技術,從而保留了每個頁面的原始圖像,但帶有文本覆蓋,因此您可以突出顯示頁面上的原始文本。很好的價值。作為來自英國的海外人士,您仍然可以將書寄給他們。

他們還提供了將書製成可編輯的Word文檔格式的選項,但需要支付額外但非常合理的費用。

如果您不要求退還原書,則可以最便宜的選擇是選擇破壞性掃描。這是從書中單獨取出頁面並進行掃描的地方。默認情況下,原書不會退回,儘管我相信您可以要求提供,可能要額外付費(例如,退回郵資),但書頁會很鬆散,已被取走以單獨掃描。破壞性掃描是我為所有書籍選擇的選項,並且我不要求退回原件。

如果確實需要原件,它們還提供非破壞性複印,但是成本更高。如果您已經自己掃描過一本書,他們還將接受您自己的數字掃描-他們可以將其轉換為可搜索的,可複制的PDF或Word文檔。

在他們的網站周圍看看。我真的認為這是最好的選擇:花時間省錢,而不是花時間省錢。

我不是在Digitize My Books工作,也沒有任何財務利益(股東)或其他方式。

最初,我本人已經開始使用DSLR相機照相(比平板掃描更快,照相)來“掃描”書籍,每頁都用剪貼板夾和Blu-tak保持打開狀態。但是我發現這相當費力。

如果您仍然熱衷於自己做, ScanTailor是一個開源Windows應用程序,它將格式化,將掃描的雙頁/成對的頁面拆分成單獨的頁面,拉直並使它們“變形”。這樣,生成的頁面就可以按需要看起來平坦而筆直,但是它不會執行OCR:結果仍然是位圖圖像。但是至少可以通過某種方式使批處理自動整齊,以消除頁面的任何變形,特別是非破壞性複制,在這種情況下,很難將大本書的頁面完全平整。

已更新

添加了有關服務提供的掃描選項的更多信息。 ScanTailor的更多信息。語法更正。

Hobbes
2018-12-17 19:47:44 UTC
view on stackexchange narkive permalink

最快的方法是聯繫您的親戚,看看他們是否仍然擁有用於創建該書的原始文件。從頭版照片上,我會說它是在計算機上製作的。從{在這裡插入非常老的文字處理程序包}轉換為當前格式就可以完成。

將一疊印刷材料轉換成數字文檔的第二快的方法:

  1. 刪除裝訂。
  2. 剪掉紙的左邊緣頁面擺脫漏洞。孔會干擾文檔進紙器。
  3. 翻閱書本,展開會干擾文檔進紙器的摺痕和其他損壞。
  4. 查找具有文檔進紙器和掃描功能的任何合理的現代雙面打印機。掃描為PDF。
  5. ol>

    然後使用任何OCR軟件包將掃描的頁面轉換為Word文件。為此,我在完整版本的Adobe Acrobat中使用了OCR功能,但是周圍有許多OCR引擎。

Alan
2018-06-15 01:23:07 UTC
view on stackexchange narkive permalink

您可能想嘗試一種非常便宜的服務:preserve-your-memories.info。當我自己執行此操作時,我使用掃描儀掃描到OCR程序OmniPage,然後另存為可完全搜索的pdf文件。由於您的出版物是用塑料梳子裝訂的,因此很容易拆開掃描&的各個頁面,然後重新進行裝訂。拍攝以上建議中概述的照片也是非常可行的-在許多方法中都是不錯的選擇。



該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 4.0許可。
Loading...