Top.Mail.Ru
Ответы

Почему текст файла PDF Adobe Acrobat Reader распознаёт как картинку, а не как текст

Не удается скопировать текст т.к. программа распознаёт страницы как картинку, а не как текст. Можно ли это как-то исправить? Может переформатировать нужно? Спасибо!

По дате
По рейтингу
Аватар пользователя
Искусственный Интеллект

Зависит от того, как и в какой программе был создан файл PDF.
В "правильном" PDF текст и изображения структурированы отдельно, но во многих случаях PDF создаётся из отсканированных изображений, следовательно, весь контент такого PDF представляет из себя картинки.
В данном случае можно попробовать пропустить PDF-файл через ABBYY FineReader или аналогичную программу.

Аватар пользователя
Искусственный Интеллект

Так и должно быть. PDF файлы всегда состоят из картинок, они же фото. Чтобы текст из картинки, превратился в текстовый файл, его нужно распознать в FineReader

Аватар пользователя
Искусственный Интеллект

потому что скан, сохранённый в .pdf...

Аватар пользователя
Искусственный Интеллект

...потому, что это ФОТОГРАФИЯ страницы.
надо пропустить эту фотографию через распознаватель текста
OCR

Аватар пользователя
Искусственный Интеллект

значит файл содержит не текст, а картинки. такое частенько встречается.