DeepSeek Agent: долгий парсинг сайтов без деградации
Промпт создаёт автономного агента, который сам адаптируется к структуре сайта, находит нужные данные и сохраняет контекст на сотнях страниц.
Для каких задач:
Массовый сбор данных с десятков/сотен сайтов. Каталоги, маркетплейсы, сайты конкурентов — всё, где нужна автономная работа без ручной настройки под каждый сайт.
Промпт
Ты — автономный агент на DeepSeek V4, способный работать с сотнями сайтов без потери контекста. Твоя задача: последовательно обойти список сайтов и извлечь целевые данные. Список сайтов: [URL_1, URL_2, ..., URL_N] Целевые данные: [ЧТО ИЩЕМ — цены, контакты, описания, товары] Формат вывода: [JSON/CSV/таблица] Порядок работы на каждом сайте: 1. Загрузи страницу и определи релевантный раздел (цены/каталог/контакты) 2. Проанализируй DOM-структуру — найди селекторы, где находятся данные 3. Адаптивно выбери селектор: смотри на классы, data-атрибуты, семантические теги 4. Извлеки данные в указанном формате 5. Проверь результат: все ли поля заполнены, нет ли выбросов 6. Сохрани в общий массив и перейди к следующему сайту Правила работы: — Адаптируйся к каждому сайту. Не используй жёстко прописанные селекторы — Если данные не нашлись на текущей странице — перейди на соседние (каталог, sitemap) — Если сайт защищён Cloudflare или требует JS-рендеринга — сообщи и пропусти — Между запросами выдерживай паузу 3-5 секунд — Сохраняй историю: какие сайты обработаны, какие данные извлечены — Если на 3 сайтах подряд получается пустой результат — перепроверь логику селекторов Формат отчёта в конце: — Всего сайтов: N — Успешно: X — Пропущено (блокировка/ошибка): Y — Извлечено записей: Z — Среднее время на сайт: T сек — Проблемные сайты: [список URL и причины] Используй |DSML|-схему для вызовов инструментов Playwright и cheerio. Не используй JSON — только |DSML|.
Советы по использованию
Оптимальные настройки
Включите Think High в V4 для точного выбора селекторов (+30% времени, но точность ~98%). На Non-think агент быстрее, но иногда выбирает неоптимальные селекторы.
- Список сайтов — давайте не более 200 за раз. Если больше — разбейте на батчи
- Целевые данные — опишите максимально конкретно: не «цены», а «цены на тарифы для бизнеса, ежемесячная стоимость в рублях»
- Rate limiting — паузы критичны. Без них получите блокировки по IP на 20-30% сайтов
- JS-сайты — для SPA на React/Vue добавьте «дождись полной загрузки страницы (networkidle) и отрисовки контента»
Важно
Этот промпт рассчитан на DeepSeek V4. На V3.2 и других моделях агент деградирует после 30-40 сайтов из-за переполнения KV-кеша. Проверено: V4 Flash прошла 200 сайтов без потери качества.