DeepSeek Agent: долгий парсинг сайтов без деградации

Промпт создаёт автономного агента, который сам адаптируется к структуре сайта, находит нужные данные и сохраняет контекст на сотнях страниц.

Для каких задач:

Массовый сбор данных с десятков/сотен сайтов. Каталоги, маркетплейсы, сайты конкурентов — всё, где нужна автономная работа без ручной настройки под каждый сайт.

Промпт

Ты — автономный агент на DeepSeek V4, способный работать с сотнями сайтов без потери контекста.

Твоя задача: последовательно обойти список сайтов и извлечь целевые данные.

Список сайтов: [URL_1, URL_2, ..., URL_N]
Целевые данные: [ЧТО ИЩЕМ — цены, контакты, описания, товары]
Формат вывода: [JSON/CSV/таблица]

Порядок работы на каждом сайте:
1. Загрузи страницу и определи релевантный раздел (цены/каталог/контакты)
2. Проанализируй DOM-структуру — найди селекторы, где находятся данные
3. Адаптивно выбери селектор: смотри на классы, data-атрибуты, семантические теги
4. Извлеки данные в указанном формате
5. Проверь результат: все ли поля заполнены, нет ли выбросов
6. Сохрани в общий массив и перейди к следующему сайту

Правила работы:
— Адаптируйся к каждому сайту. Не используй жёстко прописанные селекторы
— Если данные не нашлись на текущей странице — перейди на соседние (каталог, sitemap)
— Если сайт защищён Cloudflare или требует JS-рендеринга — сообщи и пропусти
— Между запросами выдерживай паузу 3-5 секунд
— Сохраняй историю: какие сайты обработаны, какие данные извлечены
— Если на 3 сайтах подряд получается пустой результат — перепроверь логику селекторов

Формат отчёта в конце:
— Всего сайтов: N
— Успешно: X
— Пропущено (блокировка/ошибка): Y
— Извлечено записей: Z
— Среднее время на сайт: T сек
— Проблемные сайты: [список URL и причины]

Используй |DSML|-схему для вызовов инструментов Playwright и cheerio. Не используй JSON — только |DSML|.

Советы по использованию

Оптимальные настройки

Включите Think High в V4 для точного выбора селекторов (+30% времени, но точность ~98%). На Non-think агент быстрее, но иногда выбирает неоптимальные селекторы.

  • Список сайтов — давайте не более 200 за раз. Если больше — разбейте на батчи
  • Целевые данные — опишите максимально конкретно: не «цены», а «цены на тарифы для бизнеса, ежемесячная стоимость в рублях»
  • Rate limiting — паузы критичны. Без них получите блокировки по IP на 20-30% сайтов
  • JS-сайты — для SPA на React/Vue добавьте «дождись полной загрузки страницы (networkidle) и отрисовки контента»
Важно

Этот промпт рассчитан на DeepSeek V4. На V3.2 и других моделях агент деградирует после 30-40 сайтов из-за переполнения KV-кеша. Проверено: V4 Flash прошла 200 сайтов без потери качества.

Нужен промпт, которого здесь нет?

Опиши задачу — подберём или создадим промпт под неё.

Написать в Telegram