Вы сфоткали баг на экране, кинули скрин в планировщик и получили готовую карточку задачи. Как это работает под капотом? В этой статье разберём pipeline распознавания: от картинки до структурированной задачи с заголовком и квадрантом.
Зачем парсить скриншоты
Не всегда удобно копировать текст. Иногда задача это скрин ошибки, фото с доски, снимок переписки в мессенджере, где «выделить текст» невозможно или слишком долго. Скриншот передаёт контекст точнее, чем пересказ.
Как устроен pipeline
Шаг 1. Загрузка изображения
Пользователь выбирает файл (JPEG, PNG, WebP) или перетаскивает его в форму. Изображение отправляется на сервер в виде base64 или multipart-запроса.
Шаг 2. Vision-модель описывает картинку
Изображение передаётся в vision-модель (например, GLM-4.5V через Hugging Face или Groq Vision). Модель возвращает текстовое описание: что она видит на скриншоте. Это может быть «скриншот чата в Telegram, в котором обсуждают дедлайн по отчёту» или «ошибка 500 на странице авторизации».
Шаг 3. Текстовая модель формирует задачу
Описание из шага 2 передаётся в текстовую LLM с промптом: «На основе этого описания скриншота сформулируй задачу: заголовок, описание, квадрант Эйзенхауэра». Результат возвращается пользователю как черновик карточки.
Почему двухшаговый процесс
Можно было бы передать картинку напрямую в одну модель и попросить сразу сформировать задачу. Но на практике двухшаговый подход надёжнее:
- Vision-модели лучше всего справляются с описанием того, что они видят, без попытки структурировать
- Текстовые модели лучше формулируют заголовки и определяют приоритеты
- Если vision-модель ошиблась в описании, это видно в промежуточном результате. Легче отладить, чем «чёрный ящик»
Ограничения
Мелкий текст
Если текст на скриншоте маленький или размытый, vision-модель может пропустить его или прочитать неправильно. Чем выше разрешение и контрастность, тем лучше результат.
Сложная вёрстка
Скрин с кучей вкладок, всплывающих окон и уведомлений может запутать модель. Она не понимает, какая часть экрана «главная». Лучше обрезать скрин до нужной области.
Рукописный текст
Фото с доски или записки от руки распознаётся хуже, чем текст на экране. Vision-модели становятся лучше с каждым поколением, но идеального OCR для почерка пока нет.
Одна задача за раз
Если на скриншоте несколько разных задач (например, длинный список в мессенджере), модель попытается обобщить всё в одну карточку. Лучше делать отдельные скрины или использовать текстовый парсинг.
Какие модели используются
В AI Planner vision-провайдеры подключаются через OpenAI-совместимый API. Приоритет: Groq Vision, затем xAI Vision, затем HuggingFace (GLM-4.5V). Какой ключ первый в конфигурации, тот и используется.
Для текстового шага аналогично: DeepSeek, Groq, HuggingFace. Модели доступные или бесплатные, что позволяет держать сервис без подписки.
Итого
Парсинг скриншотов это двухшаговый процесс: vision-модель описывает картинку, текстовая модель формирует задачу. Работает хорошо на чётких скринах с текстом, хуже на рукописных заметках и сложных макетах. Попробуйте: сфоткайте баг или кусок переписки и киньте в AI Planner.