Как ИИ выбирает, какие сайты цитировать: полный разбор
Почему ChatGPT упоминает одних и игнорирует других? Какие сигналы читают нейросети? Разбираем механику отбора источников в ChatGPT, Perplexity и Gemini — и что с этим делать.
Два режима работы ИИ: обучение vs поиск
Чтобы понять, как ИИ выбирает источники, нужно разделить два принципиально разных режима работы нейросетей:
Параметрическая память
База знаний из обучения
Нейросеть усвоила информацию во время обучения на огромных массивах текста. ChatGPT (без поиска), Claude — работают преимущественно на основе этих знаний. Обновляется раз в несколько месяцев.
Retrieval-Augmented Generation
Поиск в реальном времени
ChatGPT Search, Perplexity, Bing Copilot — дополнительно ищут в актуальном веб-индексе. Используют алгоритм RAG: находят релевантные документы, потом генерируют ответ на их основе.
Для продвижения важно оптимизировать под оба режима: и попасть в обучающие данные (через авторитетность и цитируемость), и обеспечить хорошую индексацию для RAG-поиска.
Фактор 1: Авторитет источника (E-E-A-T)
Нейросети обучены на данных, включая сигналы качества, которые Google использует для оценки E-E-A-T. В результате они хорошо научились различать авторитетные источники от ненадёжных.
Что означает авторитет для ИИ:
Опыт (Experience)
Контент, демонстрирующий реальный практический опыт: кейсы, примеры, конкретные ситуации — не абстрактные советы.
Экспертиза (Expertise)
Авторы с подтверждёнными компетенциями: образование, регалии, публикации в профильных изданиях.
Авторитетность (Authoritativeness)
Цитируемость в других авторитетных источниках: СМИ, Wikipedia, академические работы, отраслевые публикации.
Доверие (Trustworthiness)
HTTPS, реальные контакты, юридические данные, чёткая редакционная политика, актуальность контента.
Фактор 2: Структура и извлекаемость контента
RAG-системы (и LLM в целом) предпочитают контент, из которого легко извлечь точный ответ на вопрос. Это называется «extractability» — способность контента быть процитированным.
Рейтинг форматов от лучшего к худшему:
Прямой ответ в начале абзаца
«AEO — это...» / «Главная причина — ...»
FAQ-блок с конкретными ответами
Вопрос → чёткий ответ 50–150 слов
Нумерованный список шагов
«1. Сделать X. 2. Затем Y. 3. Проверить Z.»
Таблица сравнения
X vs Y по конкретным параметрам
Связный текст без структуры
Длинные абзацы с рассуждениями
Маркетинговый текст
«Мы лучшие на рынке...», «Уникальный подход...»
Фактор 3: Семантическая разметка Schema.org
JSON-LD разметка — это машиночитаемый слой поверх контента, который прямо говорит нейросети: «эта страница — статья эксперта», «этот блок — FAQ», «это организация с такими-то данными». Это эквивалент структурного описания данных.
Нейросети, особенно RAG-системы, извлекают Schema.org данные и используют их при ранжировании источников. Страницы с корректной разметкой получают преимущество в частоте цитирования.
Важно: Schema.org не заменяет качественный контент — она усиливает уже хороший контент, помогая ИИ правильно его классифицировать.
Фактор 4: Свежесть и актуальность
Для RAG-систем (ChatGPT Search, Perplexity) свежесть контента — один из ключевых факторов ранжирования. Старая статья, написанная в 2021 году и не обновлённая, проигрывает более свежему материалу.
Указывайте дату публикации и дату последнего обновления в Schema.org (datePublished, dateModified)
Регулярно обновляйте актуальные материалы: статистику, примеры, рекомендации
Добавляйте «Обновлено: [дата]» в начало статей — это повышает CTR в ИИ-ответах
Новый контент по актуальным темам индексируется быстрее
Фактор 5: Цитируемость в интернете
LLM обучены на интернет-данных, где одни источники цитируются другими. Если ваш контент упоминается в авторитетных изданиях, форумах, Reddit, профессиональных сообществах — нейросеть «видела» эти упоминания в процессе обучения и воспринимает вас как авторитет.
Что работает:
- Публикации в отраслевых СМИ и блогах с обратными ссылками
- Упоминания в профессиональных сообществах (Habr, профильные телеграм-каналы, Reddit)
- Гостевые публикации на авторитетных площадках
- Упоминания в Wikipedia (если применимо)
- Цитирование в академических и исследовательских материалах
- Активное присутствие на отраслевых конференциях с публикацией материалов
Как разные платформы принимают решения
Несмотря на общие принципы, каждая платформа имеет нюансы:
ChatGPT (без поиска)
Параметрическая памятьКлючевые факторы: Авторитет, цитируемость до даты обучения, E-E-A-T
Совет: Важна историческая авторитетность — будьте заметны в сети до момента обновления модели
ChatGPT Search
Bing-индекс + RAGКлючевые факторы: Свежесть, структура, Schema.org, Bing-ранжирование
Совет: Оптимизация под Bing Search напрямую влияет на видимость в ChatGPT Search
Perplexity AI
Собственный индекс + RAGКлючевые факторы: Извлекаемость контента, релевантность, авторитет домена
Совет: Чёткая структура и FAQ особенно важны — Perplexity часто показывает источники явно
Google AI Overviews
Google-индекс + LLMКлючевые факторы: Классическое SEO + AEO-факторы + Knowledge Graph
Совет: Для этой платформы нужна комбинация SEO и AEO — они неразделимы
Частые вопросы
Проверим, соответствует ли ваш сайт критериям ИИ
Диагностика по всем параметрам, которые разобраны в этой статье — с конкретным планом исправления.
Узнать, как нейросети видят мой сайт