Парсинг задач из скриншотов: как это работает технически

Вы сфоткали баг на экране, кинули скрин в планировщик и получили готовую карточку задачи. Как это работает под капотом? В этой статье разберём pipeline распознавания: от картинки до структурированной задачи с заголовком и квадрантом.

Зачем парсить скриншоты

Не всегда удобно копировать текст. Иногда задача это скрин ошибки, фото с доски, снимок переписки в мессенджере, где «выделить текст» невозможно или слишком долго. Скриншот передаёт контекст точнее, чем пересказ.

Как устроен pipeline

Шаг 1. Загрузка изображения

Пользователь выбирает файл (JPEG, PNG, WebP) или перетаскивает его в форму. Изображение отправляется на сервер в виде base64 или multipart-запроса.

Шаг 2. Vision-модель описывает картинку

Изображение передаётся в vision-модель (например, GLM-4.5V через Hugging Face или Groq Vision). Модель возвращает текстовое описание: что она видит на скриншоте. Это может быть «скриншот чата в Telegram, в котором обсуждают дедлайн по отчёту» или «ошибка 500 на странице авторизации».

Шаг 3. Текстовая модель формирует задачу

Описание из шага 2 передаётся в текстовую LLM с промптом: «На основе этого описания скриншота сформулируй задачу: заголовок, описание, квадрант Эйзенхауэра». Результат возвращается пользователю как черновик карточки.

Почему двухшаговый процесс

Можно было бы передать картинку напрямую в одну модель и попросить сразу сформировать задачу. Но на практике двухшаговый подход надёжнее:

Vision-модели лучше всего справляются с описанием того, что они видят, без попытки структурировать
Текстовые модели лучше формулируют заголовки и определяют приоритеты
Если vision-модель ошиблась в описании, это видно в промежуточном результате. Легче отладить, чем «чёрный ящик»

Ограничения

Мелкий текст

Если текст на скриншоте маленький или размытый, vision-модель может пропустить его или прочитать неправильно. Чем выше разрешение и контрастность, тем лучше результат.

Сложная вёрстка

Скрин с кучей вкладок, всплывающих окон и уведомлений может запутать модель. Она не понимает, какая часть экрана «главная». Лучше обрезать скрин до нужной области.

Рукописный текст

Фото с доски или записки от руки распознаётся хуже, чем текст на экране. Vision-модели становятся лучше с каждым поколением, но идеального OCR для почерка пока нет.

Одна задача за раз

Если на скриншоте несколько разных задач (например, длинный список в мессенджере), модель попытается обобщить всё в одну карточку. Лучше делать отдельные скрины или использовать текстовый парсинг.

Какие модели используются

В AI Planner vision-провайдеры подключаются через OpenAI-совместимый API. Приоритет: Groq Vision, затем xAI Vision, затем HuggingFace (GLM-4.5V). Какой ключ первый в конфигурации, тот и используется.

Для текстового шага аналогично: DeepSeek, Groq, HuggingFace. Модели доступные или бесплатные, что позволяет держать сервис без подписки.

Итого

Парсинг скриншотов это двухшаговый процесс: vision-модель описывает картинку, текстовая модель формирует задачу. Работает хорошо на чётких скринах с текстом, хуже на рукописных заметках и сложных макетах. Попробуйте: сфоткайте баг или кусок переписки и киньте в AI Planner.