AI Detection Benchmark + Skill Architecture

Проект Егора | Бенчмарк 3 AI-детекторов + архитектура writer/checker скиллов

Маркировка: verified = подтверждено из первоисточника | observed = наблюдение из тестов | estimate = расчёт/оценка | third-party = данные из независимых исследований

Disclaimer: Этот документ — research brief для принятия архитектурных решений. Не является рекламой или endorsement конкретных сервисов. Все цены и характеристики проверены на апрель 2026.

← Исследование Rated Brokers Content Gen AI Detection + Architecture

Содержание

1. Бенчмарк: GPTZero vs ZeroGPT vs Grammarly 2. Trustpilot: рейтинги и отзывы 3. Grammarly AI Detection: полное исследование 4. Сводная таблица: 30+ параметров 5. Архитектура Writer + Checker: 6 паттернов 6. Рекомендация: поэтапная стратегия 7. Финансовая модель при масштабе
0.999
Grammarly RAID score (#1) raid-bench.xyz
~$0.15
ZeroGPT за статью (4.5K слов) rounded
$0.675
GPTZero за статью verified
6
Архитектурных паттернов проанализировано

Бенчмарк: GPTZero vs ZeroGPT vs Grammarly

Итоговый рейтинг для broker reviews (YMYL/finance)

Веса: API Accessibility 25% | Accuracy 25% | Cost Efficiency 20% | Output Granularity 15% | Integration Ease 15%. Рейтинг — editorial assessment для нашего конкретного use case (10-50 broker reviews/мес, финансовый контент). editorial

RankСервисAPI AccessAccuracyCost (4.5K слов)OutputBest For
1 GPTZero Public REST 99.3% recall Chicago Booth $0.675 3-class + confidence + per-sentence + Relevant Sources API Production quality gate
2 ZeroGPT Public REST 70-85% independent $0.15 % score + per-sentence highlighting Дешёвый старт, калибровка
3 Grammarly Enterprise only 0.999 RAID benchmark Custom % score only (no per-sentence) Если уже есть Enterprise подписка

Почему GPTZero #1, а не Grammarly (несмотря на RAID score)?

  • API доступность: GPTZero API открыт для любого разработчика с $45/мес. Grammarly API доступен только Enterprise клиентам (custom pricing, sales call). Для стартапа/indie проекта Grammarly API недоступен
  • Output granularity: GPTZero возвращает 3-class classification (HUMAN/MIXED/AI) + confidence level + per-sentence scores + Relevant Sources API (fact-check). Grammarly — только общий процент, без подсветки предложений
  • RAID vs real-world: На RAID benchmark Grammarly лидирует (0.999). Но в тесте, проведённом конкурентом GPTZero, тот же ChatGPT-текст Grammarly оценил как "50% AI", тогда как GPTZero дал более высокий AI score. competitor-sourced, not independent Требуется независимая верификация.
  • Finance-specific: Relevant Sources API GPTZero может проверять factual claims — критично для YMYL/broker контента

Визуальное сравнение по ключевым метрикам

МетрикаGPTZeroZeroGPTGrammarly
Benchmark score
99.3% recall
Chicago Booth (recall @ 0.1% FPR)
~77%
independent reviews (mixed metric)
0.999 RAID
RAID aggregate score (не accuracy %)
Cost / article
$0.675
$0.15
Custom
API Openness
Public, documented
Public, pay-as-you-go
Enterprise only
Output detail
3-class + confidence + sentences
% + sentences
% only

* Grammarly 99.9% — результат RAID benchmark (контролируемый датасет). В real-world тестах accuracy значительно ниже. GPTZero 99.3% — Chicago Booth 2026 (academic study). ZeroGPT ~77% — среднее из independent reviews.

Trustpilot: рейтинги и отзывы

Данные собраны 2 апреля 2026. Распределение по звёздам — оценка по первой странице отзывов, точные процентные разбивки по всем отзывам approximate. Количество отзывов и TrustScore verified с trustpilot.com.

1.3/5
ZeroGPT — "Bad"
105 отзывов | Профиль не заявлен
2.5/5
GPTZero — "Poor"
122 отзыва | Профиль заявлен
3.5/5
Grammarly — "Average"
10,399 отзывов | Writing tool, не AI detector

Ключевой вывод

Оба специализированных AI-детектора (GPTZero и ZeroGPT) имеют крайне негативные рейтинги на Trustpilot. Доминирующая жалоба — false positives: человеческий текст помечается как AI. ZeroGPT (1.3/5) — особенно плохо, профиль даже не заявлен компанией. Grammarly (3.5/5) — принципиально другой продукт (writing assistant), большинство отзывов не связаны с AI detection.

Подробное сравнение

ПараметрGPTZeroZeroGPTGrammarly
TrustScore 2.5 / 5 1.3 / 5 3.5 / 5
Категория Poor Bad Average
Кол-во отзывов 122 105 10,399
Профиль заявлен Да Нет Да (Paid)
Распределение (оценка) ~65-70% 1-star, ~25% 5-star approx ~85-90% 1-star, ~8% 5-star approx Распределённое (17-25-7-17-16 на первой стр.) approx
Основная функция AI Detection AI Detection Writing Assistant
URL trustpilot.com trustpilot.com trustpilot.com

Жалобы и похвалы по темам

GPTZero (2.5/5)

Жалобы:

  • False positives — тексты 10-летней давности, написанные до ChatGPT, помечены как AI
  • Академический вред — студенты обвинены в плагиате по ошибочным результатам
  • Непоследовательность — результаты меняются при повторных проверках
  • Проблемы с отпиской — сложность отмены подписки

Похвалы:

  • Полезен для учителей (проверка работ)
  • Хороший free plan
  • Подробная статистика в платном плане

ZeroGPT (1.3/5)

Жалобы:

  • Экстремальные false positives — эссе на 100% помечены как AI
  • False negatives — текст из ChatGPT показывает "0% AI"
  • Непоследовательность — 27%, потом 75% за один текст
  • Billing scam — годовая подписка вместо месячной
  • Половина класса — ложные обвинения

Похвалы:

  • Простой интерфейс
  • Подсветка конкретных предложений

Grammarly (3.5/5)

Жалобы:

  • Billing-проблемы — доминирующая жалоба (не AI detection)
  • Навязчивый UI — overlay блокирует текст
  • Upselling — постоянные push в Premium

Похвалы:

  • Отличная проверка грамматики
  • Экономия времени
  • Универсальность (академия, бизнес)

Большинство отзывов о writing assistant, не об AI detection

Характерные цитаты из отзывов

"I tested it by pasting a chapter from a novel I wrote before any launch of AI chat bots, and it flagged it as AI! This is ridiculous."

— Christopher Burton, GPTZero, январь 2026

"Please, PLEASE just use any other site if you're a teacher reading this. Half the class fell victim to false claims while every other AI detector proved our work to be original."

— Jake, ZeroGPT, август 2025

"Fake checker. I copy and pasted an entire poem from ChatGPT and it said it was 0% ChatGPT."

— Kaiya Amin, ZeroGPT, июнь 2025

Что это значит для нашего проекта

Trustpilot подтверждает findings из технического бенчмарка: ни один AI-детектор не является надёжным standalone gate. Все три сервиса имеют серьёзные проблемы с false positives. Стратегия "используем как сигнал, не как gatekeeper" — единственно разумная. AI detection score = advisory input для human review, не автоматическое reject/approve решение.

Рекомендация по Trustpilot: GPTZero (2.5/5) > ZeroGPT (1.3/5) по пользовательскому доверию, хотя оба плохие. Grammarly (3.5/5) нерелевантен — отзывы не об AI detection.

Grammarly AI Detection: полное исследование

Обзор

Grammarly запустил AI detection в августе 2024 как часть writing suite. RAID benchmark score: 0.999 (#1, tied с GiantMelon и Veredict Labs). Дополнительно: Grammarly Authorship (отслеживание происхождения текста) и AI Humanizer (сент. 2025).

Grammarly Authorship — отдельный продукт

В отличие от AI detection (анализ лингвистических паттернов), Authorship отслеживает происхождение каждого фрагмента текста в реальном времени: что напечатано, что скопировано, что сгенерировано AI. Это provenance tracking, не detection. Доступен в Pro+. Генерирует shareable report.

API (Beta) Enterprise only

ПараметрЗначениеИсточник
Base URLhttps://api.grammarly.com/ecosystem/api/v1/ai-detectiondeveloper.grammarly.com
AuthOAuth 2.0 (Bearer token). Scopes: ai-detection-api:read, ai-detection-api:writedocs
ДоступEnterprise / Education institution-wide only. Free и Pro — без APIdocs
Форматы.doc, .docx, .odt, .txt, .rtfdocs
Rate limitsPOST: 10 req/sec, GET: 50 req/secdocs
Max file4 MB / 100,000 символовdocs
Min text30 словdocs
RetentionScores: 30 дней. Documents: max 24 часаdocs
SDKНет. Только cURL / raw RESTdocs

API workflow (3 шага)

1. POST /ai-detection          → получить score_request_id + pre-signed S3 URL
2. PUT  {pre-signed URL}        → загрузить документ (120 сек timeout)
3. GET  /ai-detection/{id}      → poll результата (PENDING / COMPLETED / FAILED)

Пример ответа API

{
  "score_request_id": "...",
  "status": "COMPLETED",
  "score": {
    "average_confidence": 0.89,
    "ai_generated_percentage": 0.5
  }
}

Обратите внимание: ai_generated_percentage = decimal 0-1 (не 0-100). Нет per-sentence breakdown. Нет classification (human/mixed/ai). Нет confidence level per sentence.

Ценообразование

ПланЦенаAI DetectionAPI
Free$0Web tool (paste text)Нет
Pro$12/месIn-app detection + AuthorshipНет
EnterpriseCustom (sales call)Full suite + APIДа (Beta)

Проблема для нашего use case: API pricing не публичен. Для доступа к API нужно Enterprise соглашение (минимум ~$15/user/мес при 150+ пользователях estimate). Для одного разработчика / небольшой команды API недоступен.

Accuracy: RAID vs Reality

RAID Benchmark

0.999

#1 (tied). 11 моделей протестировано. Perfect 1.000 на GPT-4, GPT-3, GPT-2, LLaMA-chat, MPT.

Источник: raid-bench.xyz

Independent Tests

50-94%

GPTZero's test: 100% AI текст оценён как "50% AI". Один и тот же текст: 0% → 35% → 90% в разные дни. Humanized текст: пропускает ~22%.

Источники: gptzero.me, originality.ai, aichecker.pro

False Positive Rate

~6%

Человеческий текст ошибочно помечен как AI. Decent, но не лучший (GPTZero: ~2% at high-confidence estimate).

Ограничения (критичные для нас)

  1. Только английский для AI detection (grammar check поддерживает 22 языка)
  2. Нет per-sentence highlighting — только общий % документа. Невозможно понять, какие именно абзацы вызвали flag
  3. Непоследовательность: один и тот же текст может показать 0%, 35%, 90% в разные дни
  4. Собственные AI-suggestions могут вызвать собственный detector — парадокс для пользователей Grammarly
  5. Слабость на mixed content: тексты с human + AI editing — основной real-world сценарий
  6. API в Beta — может измениться, нет SLA, нет SDK

Сводная таблица: 30+ параметров

ПараметрGPTZeroZeroGPTGrammarly
API & Integration
APIREST, publicREST, publicREST, Enterprise only (Beta)
Base URLapi.gptzero.meapi.zerogpt.comapi.grammarly.com/ecosystem/api/v1
AuthHeader x-api-keyJWT Bearer tokenOAuth 2.0 Bearer
DocsStoplight (хорошие)Swagger (средние)developer.grammarly.com (Beta)
SDKНет офиц. (PyPI v0.1.2 устаревший)GitHub: JS + PHP примерыНет
Rate limit (quota, не SLA)30,000 req/hr documentedНе задокументирован10 POST/sec, 50 GET/sec
Batch50 файлов / request40-150 файлов1 файл / request
File formats.txt, .docx, .pdfТекст (JSON).doc, .docx, .odt, .txt, .rtf
Accuracy
RAID benchmark (aggregate score)0.984 (#9)Not listed0.999 (#1)
Academic validationChicago Booth 2026: 99.3% recall @ 0.1% FPR incomplete citationНет peer-reviewedRAID (controlled dataset)
Real-world accuracy (independent tests)~85-99% (depends on content)70-85%50-94% (highly variable)
False positive rate5-15% (real-world) / <1% (high-conf)15-25%~6%
Mixed contentBetterWeakWeak
Humanized textDrops after 3+ passesVery weakMisses ~22%
Non-native EnglishFPR increases (Yale lawsuit)19%+ FPR60-70% accuracy unverified
Output Format
Classification3-class (HUMAN / MIXED / AI)Binary % (0-100)Binary % (0-1)
Confidence levelhigh / medium / lowНетaverage_confidence (0-1)
Per-sentence scoresДа (ai_probability)Да (highlighted sentences)Нет
Fact-check / SourcesRelevant Sources API (unique)НетНет
Pricing
Free tierWeb only15K chars webWeb tool
Min API plan$45/мес (300K слов)Pay-as-you-goEnterprise (custom)
Cost / article (4.5K слов)~$0.675~$0.15 roundedUnknown
Cost / 10 articles$45 (min plan)$1.50Custom
Cost / 100 articles$135 (1M plan)$15Custom
Trustpilot (апрель 2026)
TrustScore2.5/5 ("Poor")1.3/5 ("Bad")3.5/5 ("Average")
Кол-во отзывов12210510,399
Профиль заявленДаНетДа (Paid)
Главная жалобаFalse positives на человеческом текстеFalse positives + false negatives + billingBilling/подписки (не AI detection)
Unique Features
SOC 2ДаНетНе заявлен для AI detection
Hallucination detectionRelevant Sources APIНетНет
Writing assistanceНетAI Humanizer, ParaphraserFull writing suite (500K+ apps)
Authorship trackingНетНетДа (Authorship)
AI HumanizerНетВстроенВстроен (Pro+)

Архитектура Writer + Checker: 6 паттернов

Анализ различных подходов к организации двух скиллов: /broker-writer (генерация) и /broker-checker (проверка). Исследованы практики CI/CD, multi-agent frameworks (LangGraph, CrewAI, Google ADK), и production content pipelines.

01

Shared File System Рекомендуется

Оба скилла читают/пишут в одну директорию. State в manifest.json. Git-коммиты как audit trail.

Человек /broker-writer draft-v1.md Человек /broker-checker review-v1.md
State managementmanifest.json — единый JSON со статусами всех артефактов. Git-native.
Feedback loopСекция "Required Changes" в review-v{N}.md. Writer при --revise читает последний review.
Human reviewЧеловек = оркестратор. Вызывает каждый скилл вручную.
Scale1-50 статей: отлично. 50-500: работает, manifest может стать неудобным. 500+: миграция на SQLite.
СложностьНизкая — два SKILL.md + шаблоны + manifest.json. Zero infrastructure.
Error recoveryManifest не обновлён = state не изменился = безопасный перезапуск.

Плюсы

  • Максимальная прозрачность (git log = полная история)
  • Zero infrastructure — ничего не нужно настраивать
  • LLM-friendly — скилл читает JSON + файлы
  • Уже спроектировано в content-pipeline-spec.md
  • Audit trail через git-коммиты

Минусы

  • Нет автоматического запуска checker после writer
  • Человек = bottleneck (оркестрирует вручную)
  • Manifest merge conflicts при параллельной работе
  • Нет retry logic
02

Queue-Based / Message Passing

Writer публикует сообщение в очередь (Redis / n8n). Checker подписан и автоматически забирает задачи.

/writer Queue /checker Result Queue
Передача данныхMessage payload (path + metadata). State в queue attributes или отдельно.
АвтоматизацияПолная — checker trigger-ится автоматически при появлении в очереди.
МасштабОтлично масштабируется. Параллельные consumers, backpressure, retry.
СложностьСредне-высокая — нужен n8n/Redis, message schema, consumer logic, мониторинг.
Best for100+ статей/мес, async processing, multiple workers.

Вердикт: Overkill для 10-50 статей/мес. Infrastructure overhead не оправдан. Рассмотреть при масштабировании до 100+.

03

Monolithic Single Skill Не рекомендуется

Один скилл /broker-review делает всё: генерирует, проверяет, итерирует внутри одного prompt context.

Человек /broker-review (всё внутри) Финальный артефакт
СложностьСамая низкая — один SKILL.md файл.
Критический недостатокSelf-review ≠ review. Подтверждено практикой review-channel-egor/: независимый Codex ловит ошибки, которые Claude-writer пропускает.
Audit trailМинимальный — нет промежуточных версий.
Context pressure4-5K слов статья + criteria + feedback = 15K+ токенов в одном prompt.

Вердикт: Скилл, проверяющий собственный output — не проверка. Исследования и практический опыт подтверждают: независимый reviewer критичен для quality.

04

Pipeline / Chain Pattern

Скиллы соединены в цепочку. Output writer-а автоматически подаётся checker-у. Оркестратор (shell script / n8n / master skill) управляет порядком.

writer checker ZeroGPT human QA
АвтоматизацияЧеловек запускает один раз — pipeline делает остальное.
Skill chainingClaude Code поддерживает skill chaining через Skill tool. third-party
ОграничениеЛинейный — нет feedback loop. Если NEEDS_CHANGES, pipeline останавливается.
СложностьСредняя — нужен orchestrator skill.

Вердикт: Хороший паттерн для batch processing без revision loops. Используется как основа для Pattern 5.

05

Review Loop (Reflection Pattern) Этап 2

Writer и checker в автоматическом цикле: write → check → if NEEDS_CHANGES → revise → check → ... → APPROVED или max iterations. Это Reflection Pattern — один из самых документированных agentic patterns.

writer checker NEEDS_CHANGES? loop (max 3) APPROVED
ImplementationsGoogle ADK: LoopAgent. LangGraph: conditional edges. CrewAI: task delegation loops. Claude Code: orchestrator skill.
Typical iterations2-3 итерации до APPROVED industry observation
Token cost3 iterations = 3x writer + 3x checker. При 50 статей: ~300 вызовов скиллов.
Diminishing returnsПосле 2-3 итераций improvement marginal. Risk: oscillation (фиксим одно, ломаем другое).
СложностьСредняя — orchestrator skill с loop logic + max iteration cap.

Вердикт: Самый высокий quality output. Итеративное улучшение доказано эффективным. Рекомендуется как этап 2 (после стабилизации Pattern 1).

Пример orchestrator skill

/broker-pipeline {slug}
  1. Invoke /broker-writer {slug}
  2. Invoke /broker-checker {slug}
  3. If NEEDS_CHANGES and iteration < 3:
     → Invoke /broker-writer {slug} --revise
     → Goto step 2
  4. If APPROVED or max_iterations:
     → Invoke ZeroGPT API check
     → Notify human for final QA
06

Event-Driven / Webhook

Полностью decoupled. Действия генерируют события. n8n webhooks / file watchers ловят и запускают consumers.

МасштабОтличный — горизонтальное масштабирование, event replay.
СложностьВысокая — event schema, routing, ordering, DLQ, мониторинг.
Claude Code native?Нет — skills синхронные по природе, event-driven требует внешней инфраструктуры.

Вердикт: Massive overkill для 10-50 статей/мес. 10x complexity, zero выигрыш при текущем масштабе. Рассмотреть только при 500+ статей/мес.

Сводная матрица паттернов

Критерий1. Shared FS2. Queue3. Monolith4. Pipeline5. Loop6. Events
Сложность Low Med-High Lowest Medium Medium High
Quality output Medium Medium Low* Medium High Medium
Автоматизация Manual Full Full Full Full Full
Git audit trail Full Partial Minimal Full Full Event log
10 стат./мес +++++ +++ +++++ ++++ ++++ +
100 стат./мес +++ +++++ +++ ++++ +++ +++++
Claude Code native Yes No Yes Partial Partial No
Независимый review Yes Yes No* Yes Yes Yes

* Monolith: self-review не является genuine review. Подтверждено практикой review-channel-egor/ — Codex (independent reviewer) ловит ошибки, которые Claude (writer) пропускает.

Рекомендация: поэтапная стратегия

Стратегия: 3 этапа эволюции

editorial recommendation Основано на анализе 6 паттернов, опыте review-channel-egor/, и практике production content pipelines. Не является единственно верным решением.

Этап 1: Shared File System (сейчас) Start here

Два отдельных скилла + manifest.json + git. Человек = оркестратор.

  • Реализация: два SKILL.md файла, manifest, файловые конвенции
  • AI detection: ZeroGPT API (дешёвый старт, $0.15/статья)
  • Цель: первые 5-10 статей, сбор данных (сколько iterations, типичные findings, token cost)
  • Zero infrastructure — только git и Claude Code

Этап 2: Review Loop (после 5-10 статей)

Orchestrator skill /broker-pipeline с автоматическим writer ↔ checker loop (max 3 iterations).

  • Реализация: один master SKILL.md, вызывающий writer + checker через skill chaining
  • AI detection: upgrade на GPTZero если FPR ZeroGPT >20% или нужен Relevant Sources API
  • Цель: автоматизация до human QA, batch processing

Этап 3: n8n Scale (если 100+ статей/мес)

Перенос orchestration в n8n. Manifest → SQLite. Параллельная обработка.

  • Реализация: n8n workflows + Claude API + webhook triggers
  • AI detection: GPTZero API + Ahrefs post-publish monitoring
  • Цель: полная автоматизация, enterprise scale

AI Detection: поэтапный выбор

ЭтапToolПочемуСтоимость
Start (0-20 статей) ZeroGPT Pay-as-you-go, $0.15/статья, достаточно для калибровки порогов $1.50-3/мес
Scale (20+ статей) GPTZero 3-class confidence, Relevant Sources API, лучшая accuracy, SOC 2 $45-135/мес
Post-publish (всегда) Ahrefs Незаменим для SEO + Site Audit AI levels + Brand Radar Подписка

Grammarly — когда использовать

Grammarly AI Detection не подходит как automated pre-publish gate для нашего use case:

  • API доступен только Enterprise (custom pricing, sales call)
  • Нет per-sentence highlighting — невозможно точечно исправить flagged content
  • Непоследовательные результаты в real-world тестах

Когда подходит: если у Егора уже есть Grammarly Enterprise подписка (для других целей) — тогда AI detection = бесплатный бонус. Использовать как дополнительный сигнал, не основной gate.

Финансовая модель при масштабе

Все расчёты — estimate. Учтены re-checks (2x среднее), не учтены Claude API costs (зависит от модели подписки).

МасштабZeroGPTGPTZeroGrammarly*Рекомендация
5 статей/мес $1.50 $45 (min plan) Unknown ZeroGPT
10 статей/мес $3 $45 (min plan) Unknown ZeroGPT
20 статей/мес $6 $45 Unknown ZeroGPT или GPTZero (зависит от FPR)
50 статей/мес $15 $55-60 Unknown GPTZero (Relevant Sources окупается)
100 статей/мес $30 $135 Unknown GPTZero (accuracy критична при объёме)

* Grammarly Enterprise pricing не публичен. Требует sales call. Минимум ~$15/user/мес при 150+ пользователях. Для малых команд — экономически не оправдан только ради AI detection.

Break-even: ZeroGPT → GPTZero

При каком объёме переключаться на GPTZero?

  • По cost: ZeroGPT всегда дешевле. Переключение не по цене, а по quality.
  • По quality triggers:
    • ZeroGPT FPR > 20% (каждый 5-й хороший текст отклоняется) → переключаться
    • Нужен Relevant Sources API для fact-check → переключаться
    • 20+ статей/мес (operations overhead от false positives дороже $45/мес) → переключаться

Источники

ТемаИсточникТип
RAID Benchmarkraid-bench.xyz/leaderboardverified
GPTZero APIgptzero.stoplight.ioverified
GPTZero Pricinggptzero.me/pricingverified
ZeroGPT APIapi.zerogpt.com/docs + GitHubverified
ZeroGPT Pricingzerogpt.com/pricingverified
Grammarly APIdeveloper.grammarly.comverified
Grammarly Plansgrammarly.com/plansverified
Grammarly vs GPTZerogptzero.me/news/grammarly-ai-reviewthird-party
Chicago Booth GPTZero StudyAcademic benchmark, 2026. Incomplete citation: no URL, DOI, or author list found. Cited by GPTZero marketing; independent access not confirmed.incomplete citation
Agentic Design PatternsGoogle Cloud Architectureverified
Reflection Patternagentic-patterns.comthird-party
Claude Code Skill ChainingMindStudio Blogthird-party
LangGraph vs CrewAImarkaicode.comthird-party