Google Диск: функция распознавания текста (OCR).

Google Диск: функция распознавания текста (OCR).

Иногда возникает необходимость перевести текст в графическом формате (картинка, фото, скан, скриншот) или же PDF-файл в текстовый формат – например, в DOCX (Microsoft Word). Такая конвертация позволит полноценно работать с данными в том или ином текстовом редакторе – изменять, форматировать, редактировать, сохранять изменения, копировать текст в буфер обмена, выводить на печать либо публиковать в интернете… – все что угодно!

С проблемой конвертации JPG, GIF, PNG-файлов либо PDF-файлов в текстовый формат чаще всего сталкиваются:

• Офисные работники. Скажем, есть некие документы на бумажном носителе, которые в кратчайшие сроки необходимо привести в надлежащий вид – например, нужно всего лишь изменить дату и название организации. Ну не ручками же все набирать! Ведь куда проще сделать скан документа (графический формат), далее перевести в текстовый формат (редактируемый!), изменить две строчки и распечатать. Вот сейчас прям слышен вопрос – а что, так можно было?!)

• Студенты. Следующая ситуация многим знакома: нашли в интернете информацию, которая «Ура – как раз то, что нужно!», но вот беда – текст не копируется… Либо же владелец ресурса защитил в такой способ свой контент, либо же это PDF-файл… Решение простое – делайте скриншот (снимок/фото экрана или выделенной области), конвертируйте скриншот в текстовый формат. В случае же с PDF, можно конвертировать весь документ, если, конечно, он вам весь нужен – учитывая, что для распознавания текста понадобиться время, возможно, проще и быстрее сделать скриншот.

Рерайтеры, копирайтеры, журналисты, блогеры. Сколько же полезной, нужной, ценной, интересной информации в старых журналах, книгах, газетах… Информации, которую, например, рерайтер может использовать для создания уникальных статей, а владелец веб-сайта – для публикаций на своем ресурсе. Разумеется, не забывая при этом об авторском праве! Как бы там ни было, а работать с информацией в текстовом формате (выделять, добавлять, разбавлять, изменять, редактировать, сохранять и т. д.) гораздо удобнее. Именно поэтому есть смысл сфотографировать книгу/газету/ журнал либо сделать скан с последующей конвертацией картинки в текстовый формат.

А теперь главное – как перевести картинку, фото, скан, скриншот или PDF-файл в текстовый формат. Сама технология называется оптическим распознаванием символов – OCR (optical character recognition). Программ (как бесплатных, так и платных), работающих по данной технологии, достаточно много.

Недостаток бесплатного софта по конвертации графических файлов в текстовый формат – некорректная обработка данных, в результате чего вы получаете сложно читаемый текст (местами с кракозябрами), требующий существенной коррекции.

Платные программы справляются с задачей, на удивление хорошо, а некоторые – даже на «отлично»: например, такая известная программа, как ABBYY FineReader. Сложность в том, что не все готовы платить деньги, особенно если потребность в конвертации файлов возникает редко – эпизодически.

А что если мы предложим вам высокое качество обработки – как у ABBYY FineReader – и совершенно бесплатно?! Вернее, это не мы предлагаем) – такую замечательную возможность предоставляет всеми любимый Google!

Google Диск: функция распознавания текста (OCR). Google Drive – это популярное облачное хранилище данных с множеством полезных функций, среди которых присутствует и распознавание текста в режиме онлайн – т. е. скачивать и устанавливать на свой компьютер ничего не надо – все будет осуществляться прямо в облаке. Если у вас есть аккаунт Google (проще говоря, почтовый ящик), значит, у вас есть доступ и к Google Диск, впрочем, как и ко всем другим сервисам Google.

Теперь давайте рассмотрим на конкретном примере, как в Google Drive выполнить конвертацию графического файла (картинка с текстом, фотография, скриншот экрана, скан страницы) в текстовый формат DOCX (Microsoft Word).

Специально для этих целей мы сделали скриншот в формате PNG. Итак, пошагово вся последовательность действий:

1. Заходим в Google Диск, выбираем пункт меню «Мой диск» – «Загрузить файлы», и загружаем со своего компьютера файл в графическом формате (JPG, GIF, PNG) либо в формате PDF.

Google Диск: функция распознавания текста (OCR).

2. Дожидаемся завершения загрузки, кликаем по нашему файлу правой клавишей мыши и выбираем – «Открыть с помощью» – «Google Документы». Начнется процесс распознавания текста.

Google Диск: функция распознавания текста (OCR).

3. Результат распознавания мы увидим в текстовом редакторе Google Документы, где вверху будет графическое изображение, а внизу – текст с картинки.

Google Диск: функция распознавания текста (OCR).

4. Вот в принципе и весь процесс. Текст можно тут же отредактировать, распознается он довольно-таки корректно – ошибок совсем мало. Несколько исправлений и можно копировать в буфер обмена либо, воспользовавшись функционалом текстового редактора Google Документы, сохранить в нужном формате. В нашем случае – это DOCX. Для этого выбираем пункт меню «Файл» – «Скачать как» – «Microsoft Word (DOCX)».

Google Диск: функция распознавания текста (OCR).