AI Detection Benchmark + Skill Architecture

Содержание

1. Бенчмарк: GPTZero vs ZeroGPT vs Grammarly 2. Trustpilot: рейтинги и отзывы 3. Grammarly AI Detection: полное исследование 4. Сводная таблица: 30+ параметров 5. Архитектура Writer + Checker: 6 паттернов 6. Рекомендация: поэтапная стратегия 7. Финансовая модель при масштабе

0.999

Grammarly RAID score (#1) raid-bench.xyz

~$0.15

ZeroGPT за статью (4.5K слов) rounded

$0.675

GPTZero за статью verified

Архитектурных паттернов проанализировано

Бенчмарк: GPTZero vs ZeroGPT vs Grammarly

Итоговый рейтинг для broker reviews (YMYL/finance)

Веса: API Accessibility 25% | Accuracy 25% | Cost Efficiency 20% | Output Granularity 15% | Integration Ease 15%. Рейтинг — editorial assessment для нашего конкретного use case (10-50 broker reviews/мес, финансовый контент). editorial

Rank	Сервис	API Access	Accuracy	Cost (4.5K слов)	Output	Best For
1	GPTZero	Public REST	99.3% recall Chicago Booth	$0.675	3-class + confidence + per-sentence + Relevant Sources API	Production quality gate
2	ZeroGPT	Public REST	70-85% independent	$0.15	% score + per-sentence highlighting	Дешёвый старт, калибровка
3	Grammarly	Enterprise only	0.999 RAID benchmark	Custom	% score only (no per-sentence)	Если уже есть Enterprise подписка

    Почему GPTZero #1, а не Grammarly (несмотря на RAID score)?
    API доступность: GPTZero API открыт для любого разработчика с $45/мес. Grammarly API доступен только Enterprise клиентам (custom pricing, sales call). Для стартапа/indie проекта Grammarly API недоступен
Output granularity: GPTZero возвращает 3-class classification (HUMAN/MIXED/AI) + confidence level + per-sentence scores + Relevant Sources API (fact-check). Grammarly — только общий процент, без подсветки предложений
RAID vs real-world: На RAID benchmark Grammarly лидирует (0.999). Но в тесте, проведённом конкурентом GPTZero, тот же ChatGPT-текст Grammarly оценил как "50% AI", тогда как GPTZero дал более высокий AI score. competitor-sourced, not independent Требуется независимая верификация.
Finance-specific: Relevant Sources API GPTZero может проверять factual claims — критично для YMYL/broker контента

  

Визуальное сравнение по ключевым метрикам

Метрика	GPTZero	ZeroGPT	Grammarly
Benchmark score	99.3% recall Chicago Booth (recall @ 0.1% FPR)	~77% independent reviews (mixed metric)	0.999 RAID RAID aggregate score (не accuracy %)
Cost / article	$0.675	$0.15	Custom
API Openness	Public, documented	Public, pay-as-you-go	Enterprise only
Output detail	3-class + confidence + sentences	% + sentences	% only

* Grammarly 99.9% — результат RAID benchmark (контролируемый датасет). В real-world тестах accuracy значительно ниже. GPTZero 99.3% — Chicago Booth 2026 (academic study). ZeroGPT ~77% — среднее из independent reviews.

Trustpilot: рейтинги и отзывы

Данные собраны 2 апреля 2026. Распределение по звёздам — оценка по первой странице отзывов, точные процентные разбивки по всем отзывам approximate. Количество отзывов и TrustScore verified с trustpilot.com.

1.3/5

ZeroGPT — "Bad"

105 отзывов | Профиль не заявлен

2.5/5

GPTZero — "Poor"

122 отзыва | Профиль заявлен

3.5/5

Grammarly — "Average"

10,399 отзывов | Writing tool, не AI detector

Ключевой вывод

Оба специализированных AI-детектора (GPTZero и ZeroGPT) имеют крайне негативные рейтинги на Trustpilot. Доминирующая жалоба — false positives: человеческий текст помечается как AI. ZeroGPT (1.3/5) — особенно плохо, профиль даже не заявлен компанией. Grammarly (3.5/5) — принципиально другой продукт (writing assistant), большинство отзывов не связаны с AI detection.

Подробное сравнение

Параметр	GPTZero	ZeroGPT	Grammarly
TrustScore	2.5 / 5	1.3 / 5	3.5 / 5
Категория	Poor	Bad	Average
Кол-во отзывов	122	105	10,399
Профиль заявлен	Да	Нет	Да (Paid)
Распределение (оценка)	~65-70% 1-star, ~25% 5-star approx	~85-90% 1-star, ~8% 5-star approx	Распределённое (17-25-7-17-16 на первой стр.) approx
Основная функция	AI Detection	AI Detection	Writing Assistant
URL	trustpilot.com	trustpilot.com	trustpilot.com

Жалобы и похвалы по темам

GPTZero (2.5/5)

Жалобы:

False positives — тексты 10-летней давности, написанные до ChatGPT, помечены как AI
Академический вред — студенты обвинены в плагиате по ошибочным результатам
Непоследовательность — результаты меняются при повторных проверках
Проблемы с отпиской — сложность отмены подписки

Похвалы:

Полезен для учителей (проверка работ)
Хороший free plan
Подробная статистика в платном плане

ZeroGPT (1.3/5)

Жалобы:

Экстремальные false positives — эссе на 100% помечены как AI
False negatives — текст из ChatGPT показывает "0% AI"
Непоследовательность — 27%, потом 75% за один текст
Billing scam — годовая подписка вместо месячной
Половина класса — ложные обвинения

Похвалы:

Простой интерфейс
Подсветка конкретных предложений

Grammarly (3.5/5)

Жалобы:

Billing-проблемы — доминирующая жалоба (не AI detection)
Навязчивый UI — overlay блокирует текст
Upselling — постоянные push в Premium

Похвалы:

Отличная проверка грамматики
Экономия времени
Универсальность (академия, бизнес)

Большинство отзывов о writing assistant, не об AI detection

Характерные цитаты из отзывов

"I tested it by pasting a chapter from a novel I wrote before any launch of AI chat bots, and it flagged it as AI! This is ridiculous."

— Christopher Burton, GPTZero, январь 2026

"Please, PLEASE just use any other site if you're a teacher reading this. Half the class fell victim to false claims while every other AI detector proved our work to be original."

— Jake, ZeroGPT, август 2025

"Fake checker. I copy and pasted an entire poem from ChatGPT and it said it was 0% ChatGPT."

— Kaiya Amin, ZeroGPT, июнь 2025

Что это значит для нашего проекта

Trustpilot подтверждает findings из технического бенчмарка: ни один AI-детектор не является надёжным standalone gate. Все три сервиса имеют серьёзные проблемы с false positives. Стратегия "используем как сигнал, не как gatekeeper" — единственно разумная. AI detection score = advisory input для human review, не автоматическое reject/approve решение.

Рекомендация по Trustpilot: GPTZero (2.5/5) > ZeroGPT (1.3/5) по пользовательскому доверию, хотя оба плохие. Grammarly (3.5/5) нерелевантен — отзывы не об AI detection.

Grammarly AI Detection: полное исследование

Обзор

Grammarly запустил AI detection в августе 2024 как часть writing suite. RAID benchmark score: 0.999 (#1, tied с GiantMelon и Veredict Labs). Дополнительно: Grammarly Authorship (отслеживание происхождения текста) и AI Humanizer (сент. 2025).

Grammarly Authorship — отдельный продукт

В отличие от AI detection (анализ лингвистических паттернов), Authorship отслеживает происхождение каждого фрагмента текста в реальном времени: что напечатано, что скопировано, что сгенерировано AI. Это provenance tracking, не detection. Доступен в Pro+. Генерирует shareable report.

API (Beta) Enterprise only

Параметр	Значение	Источник
Base URL	`https://api.grammarly.com/ecosystem/api/v1/ai-detection`	developer.grammarly.com
Auth	OAuth 2.0 (Bearer token). Scopes: `ai-detection-api:read`, `ai-detection-api:write`	docs
Доступ	Enterprise / Education institution-wide only. Free и Pro — без API	docs
Форматы	.doc, .docx, .odt, .txt, .rtf	docs
Rate limits	POST: 10 req/sec, GET: 50 req/sec	docs
Max file	4 MB / 100,000 символов	docs
Min text	30 слов	docs
Retention	Scores: 30 дней. Documents: max 24 часа	docs
SDK	Нет. Только cURL / raw REST	docs

API workflow (3 шага)

1. POST /ai-detection          → получить score_request_id + pre-signed S3 URL
2. PUT  {pre-signed URL}        → загрузить документ (120 сек timeout)
3. GET  /ai-detection/{id}      → poll результата (PENDING / COMPLETED / FAILED)

Пример ответа API

{
  "score_request_id": "...",
  "status": "COMPLETED",
  "score": {
    "average_confidence": 0.89,
    "ai_generated_percentage": 0.5
  }
}

Обратите внимание: ai_generated_percentage = decimal 0-1 (не 0-100). Нет per-sentence breakdown. Нет classification (human/mixed/ai). Нет confidence level per sentence.

Ценообразование

План	Цена	AI Detection	API
Free	$0	Web tool (paste text)	Нет
Pro	$12/мес	In-app detection + Authorship	Нет
Enterprise	Custom (sales call)	Full suite + API	Да (Beta)

Проблема для нашего use case: API pricing не публичен. Для доступа к API нужно Enterprise соглашение (минимум ~$15/user/мес при 150+ пользователях estimate). Для одного разработчика / небольшой команды API недоступен.

Accuracy: RAID vs Reality

RAID Benchmark

0.999

#1 (tied). 11 моделей протестировано. Perfect 1.000 на GPT-4, GPT-3, GPT-2, LLaMA-chat, MPT.

Источник: raid-bench.xyz

Independent Tests

50-94%

GPTZero's test: 100% AI текст оценён как "50% AI". Один и тот же текст: 0% → 35% → 90% в разные дни. Humanized текст: пропускает ~22%.

Источники: gptzero.me, originality.ai, aichecker.pro

False Positive Rate

~6%

Человеческий текст ошибочно помечен как AI. Decent, но не лучший (GPTZero: ~2% at high-confidence estimate).

Ограничения (критичные для нас)

Только английский для AI detection (grammar check поддерживает 22 языка)
Нет per-sentence highlighting — только общий % документа. Невозможно понять, какие именно абзацы вызвали flag
Непоследовательность: один и тот же текст может показать 0%, 35%, 90% в разные дни
Собственные AI-suggestions могут вызвать собственный detector — парадокс для пользователей Grammarly
Слабость на mixed content: тексты с human + AI editing — основной real-world сценарий
API в Beta — может измениться, нет SLA, нет SDK

Сводная таблица: 30+ параметров

Параметр	GPTZero	ZeroGPT	Grammarly
API & Integration
API	REST, public	REST, public	REST, Enterprise only (Beta)
Base URL	`api.gptzero.me`	`api.zerogpt.com`	`api.grammarly.com/ecosystem/api/v1`
Auth	Header `x-api-key`	JWT Bearer token	OAuth 2.0 Bearer
Docs	Stoplight (хорошие)	Swagger (средние)	developer.grammarly.com (Beta)
SDK	Нет офиц. (PyPI v0.1.2 устаревший)	GitHub: JS + PHP примеры	Нет
Rate limit (quota, не SLA)	30,000 req/hr documented	Не задокументирован	10 POST/sec, 50 GET/sec
Batch	50 файлов / request	40-150 файлов	1 файл / request
File formats	.txt, .docx, .pdf	Текст (JSON)	.doc, .docx, .odt, .txt, .rtf
Accuracy
RAID benchmark (aggregate score)	0.984 (#9)	Not listed	0.999 (#1)
Academic validation	Chicago Booth 2026: 99.3% recall @ 0.1% FPR incomplete citation	Нет peer-reviewed	RAID (controlled dataset)
Real-world accuracy (independent tests)	~85-99% (depends on content)	70-85%	50-94% (highly variable)
False positive rate	5-15% (real-world) / <1% (high-conf)	15-25%	~6%
Mixed content	Better	Weak	Weak
Humanized text	Drops after 3+ passes	Very weak	Misses ~22%
Non-native English	FPR increases (Yale lawsuit)	19%+ FPR	60-70% accuracy unverified
Output Format
Classification	3-class (HUMAN / MIXED / AI)	Binary % (0-100)	Binary % (0-1)
Confidence level	high / medium / low	Нет	average_confidence (0-1)
Per-sentence scores	Да (ai_probability)	Да (highlighted sentences)	Нет
Fact-check / Sources	Relevant Sources API (unique)	Нет	Нет
Pricing
Free tier	Web only	15K chars web	Web tool
Min API plan	$45/мес (300K слов)	Pay-as-you-go	Enterprise (custom)
Cost / article (4.5K слов)	~$0.675	~$0.15 rounded	Unknown
Cost / 10 articles	$45 (min plan)	$1.50	Custom
Cost / 100 articles	$135 (1M plan)	$15	Custom
Trustpilot (апрель 2026)
TrustScore	2.5/5 ("Poor")	1.3/5 ("Bad")	3.5/5 ("Average")
Кол-во отзывов	122	105	10,399
Профиль заявлен	Да	Нет	Да (Paid)
Главная жалоба	False positives на человеческом тексте	False positives + false negatives + billing	Billing/подписки (не AI detection)
Unique Features
SOC 2	Да	Нет	Не заявлен для AI detection
Hallucination detection	Relevant Sources API	Нет	Нет
Writing assistance	Нет	AI Humanizer, Paraphraser	Full writing suite (500K+ apps)
Authorship tracking	Нет	Нет	Да (Authorship)
AI Humanizer	Нет	Встроен	Встроен (Pro+)

Архитектура Writer + Checker: 6 паттернов

Анализ различных подходов к организации двух скиллов: /broker-writer (генерация) и /broker-checker (проверка). Исследованы практики CI/CD, multi-agent frameworks (LangGraph, CrewAI, Google ADK), и production content pipelines.

Shared File System Рекомендуется

Оба скилла читают/пишут в одну директорию. State в manifest.json. Git-коммиты как audit trail.

Человек → /broker-writer → draft-v1.md → Человек → /broker-checker → review-v1.md

State management	`manifest.json` — единый JSON со статусами всех артефактов. Git-native.
Feedback loop	Секция "Required Changes" в `review-v{N}.md`. Writer при `--revise` читает последний review.
Human review	Человек = оркестратор. Вызывает каждый скилл вручную.
Scale	1-50 статей: отлично. 50-500: работает, manifest может стать неудобным. 500+: миграция на SQLite.
Сложность	Низкая — два SKILL.md + шаблоны + manifest.json. Zero infrastructure.
Error recovery	Manifest не обновлён = state не изменился = безопасный перезапуск.

Плюсы

Максимальная прозрачность (git log = полная история)
Zero infrastructure — ничего не нужно настраивать
LLM-friendly — скилл читает JSON + файлы
Уже спроектировано в content-pipeline-spec.md
Audit trail через git-коммиты

Минусы

Нет автоматического запуска checker после writer
Человек = bottleneck (оркестрирует вручную)
Manifest merge conflicts при параллельной работе
Нет retry logic

Queue-Based / Message Passing

Writer публикует сообщение в очередь (Redis / n8n). Checker подписан и автоматически забирает задачи.

/writer → Queue → /checker → Result Queue

Передача данных	Message payload (path + metadata). State в queue attributes или отдельно.
Автоматизация	Полная — checker trigger-ится автоматически при появлении в очереди.
Масштаб	Отлично масштабируется. Параллельные consumers, backpressure, retry.
Сложность	Средне-высокая — нужен n8n/Redis, message schema, consumer logic, мониторинг.
Best for	100+ статей/мес, async processing, multiple workers.

Вердикт: Overkill для 10-50 статей/мес. Infrastructure overhead не оправдан. Рассмотреть при масштабировании до 100+.

Monolithic Single Skill Не рекомендуется

Один скилл /broker-review делает всё: генерирует, проверяет, итерирует внутри одного prompt context.

Человек → /broker-review (всё внутри) → Финальный артефакт

Сложность	Самая низкая — один SKILL.md файл.
Критический недостаток	Self-review ≠ review. Подтверждено практикой review-channel-egor/: независимый Codex ловит ошибки, которые Claude-writer пропускает.
Audit trail	Минимальный — нет промежуточных версий.
Context pressure	4-5K слов статья + criteria + feedback = 15K+ токенов в одном prompt.

Вердикт: Скилл, проверяющий собственный output — не проверка. Исследования и практический опыт подтверждают: независимый reviewer критичен для quality.

Pipeline / Chain Pattern

Скиллы соединены в цепочку. Output writer-а автоматически подаётся checker-у. Оркестратор (shell script / n8n / master skill) управляет порядком.

writer → checker → ZeroGPT → human QA

Автоматизация	Человек запускает один раз — pipeline делает остальное.
Skill chaining	Claude Code поддерживает skill chaining через Skill tool. third-party
Ограничение	Линейный — нет feedback loop. Если NEEDS_CHANGES, pipeline останавливается.
Сложность	Средняя — нужен orchestrator skill.

Вердикт: Хороший паттерн для batch processing без revision loops. Используется как основа для Pattern 5.

Review Loop (Reflection Pattern) Этап 2

Writer и checker в автоматическом цикле: write → check → if NEEDS_CHANGES → revise → check → ... → APPROVED или max iterations. Это Reflection Pattern — один из самых документированных agentic patterns.

writer → checker → NEEDS_CHANGES? → loop (max 3) → APPROVED

Implementations	Google ADK: `LoopAgent`. LangGraph: conditional edges. CrewAI: task delegation loops. Claude Code: orchestrator skill.
Typical iterations	2-3 итерации до APPROVED industry observation
Token cost	3 iterations = 3x writer + 3x checker. При 50 статей: ~300 вызовов скиллов.
Diminishing returns	После 2-3 итераций improvement marginal. Risk: oscillation (фиксим одно, ломаем другое).
Сложность	Средняя — orchestrator skill с loop logic + max iteration cap.

Вердикт: Самый высокий quality output. Итеративное улучшение доказано эффективным. Рекомендуется как этап 2 (после стабилизации Pattern 1).

Пример orchestrator skill

/broker-pipeline {slug}
  1. Invoke /broker-writer {slug}
  2. Invoke /broker-checker {slug}
  3. If NEEDS_CHANGES and iteration < 3:
     → Invoke /broker-writer {slug} --revise
     → Goto step 2
  4. If APPROVED or max_iterations:
     → Invoke ZeroGPT API check
     → Notify human for final QA

Event-Driven / Webhook

Полностью decoupled. Действия генерируют события. n8n webhooks / file watchers ловят и запускают consumers.

Масштаб	Отличный — горизонтальное масштабирование, event replay.
Сложность	Высокая — event schema, routing, ordering, DLQ, мониторинг.
Claude Code native?	Нет — skills синхронные по природе, event-driven требует внешней инфраструктуры.

Вердикт: Massive overkill для 10-50 статей/мес. 10x complexity, zero выигрыш при текущем масштабе. Рассмотреть только при 500+ статей/мес.

Сводная матрица паттернов

Критерий	1. Shared FS	2. Queue	3. Monolith	4. Pipeline	5. Loop	6. Events
Сложность	Low	Med-High	Lowest	Medium	Medium	High
Quality output	Medium	Medium	Low*	Medium	High	Medium
Автоматизация	Manual	Full	Full	Full	Full	Full
Git audit trail	Full	Partial	Minimal	Full	Full	Event log
10 стат./мес	+++++	+++	+++++	++++	++++	+
100 стат./мес	+++	+++++	+++	++++	+++	+++++
Claude Code native	Yes	No	Yes	Partial	Partial	No
Независимый review	Yes	Yes	No*	Yes	Yes	Yes

* Monolith: self-review не является genuine review. Подтверждено практикой review-channel-egor/ — Codex (independent reviewer) ловит ошибки, которые Claude (writer) пропускает.

Рекомендация: поэтапная стратегия

Стратегия: 3 этапа эволюции

editorial recommendation Основано на анализе 6 паттернов, опыте review-channel-egor/, и практике production content pipelines. Не является единственно верным решением.

Этап 1: Shared File System (сейчас) Start here

Два отдельных скилла + manifest.json + git. Человек = оркестратор.

Реализация: два SKILL.md файла, manifest, файловые конвенции
AI detection: ZeroGPT API (дешёвый старт, $0.15/статья)
Цель: первые 5-10 статей, сбор данных (сколько iterations, типичные findings, token cost)
Zero infrastructure — только git и Claude Code

Этап 2: Review Loop (после 5-10 статей)

Orchestrator skill /broker-pipeline с автоматическим writer ↔ checker loop (max 3 iterations).

Реализация: один master SKILL.md, вызывающий writer + checker через skill chaining
AI detection: upgrade на GPTZero если FPR ZeroGPT >20% или нужен Relevant Sources API
Цель: автоматизация до human QA, batch processing

Этап 3: n8n Scale (если 100+ статей/мес)

Перенос orchestration в n8n. Manifest → SQLite. Параллельная обработка.

Реализация: n8n workflows + Claude API + webhook triggers
AI detection: GPTZero API + Ahrefs post-publish monitoring
Цель: полная автоматизация, enterprise scale

AI Detection: поэтапный выбор

Этап	Tool	Почему	Стоимость
Start (0-20 статей)	ZeroGPT	Pay-as-you-go, $0.15/статья, достаточно для калибровки порогов	$1.50-3/мес
Scale (20+ статей)	GPTZero	3-class confidence, Relevant Sources API, лучшая accuracy, SOC 2	$45-135/мес
Post-publish (всегда)	Ahrefs	Незаменим для SEO + Site Audit AI levels + Brand Radar	Подписка

Grammarly — когда использовать

Grammarly AI Detection не подходит как automated pre-publish gate для нашего use case:

API доступен только Enterprise (custom pricing, sales call)
Нет per-sentence highlighting — невозможно точечно исправить flagged content
Непоследовательные результаты в real-world тестах

Когда подходит: если у Егора уже есть Grammarly Enterprise подписка (для других целей) — тогда AI detection = бесплатный бонус. Использовать как дополнительный сигнал, не основной gate.

Финансовая модель при масштабе

Все расчёты — estimate. Учтены re-checks (2x среднее), не учтены Claude API costs (зависит от модели подписки).

Масштаб	ZeroGPT	GPTZero	Grammarly*	Рекомендация
5 статей/мес	$1.50	$45 (min plan)	Unknown	ZeroGPT
10 статей/мес	$3	$45 (min plan)	Unknown	ZeroGPT
20 статей/мес	$6	$45	Unknown	ZeroGPT или GPTZero (зависит от FPR)
50 статей/мес	$15	$55-60	Unknown	GPTZero (Relevant Sources окупается)
100 статей/мес	$30	$135	Unknown	GPTZero (accuracy критична при объёме)

* Grammarly Enterprise pricing не публичен. Требует sales call. Минимум ~$15/user/мес при 150+ пользователях. Для малых команд — экономически не оправдан только ради AI detection.

Break-even: ZeroGPT → GPTZero

При каком объёме переключаться на GPTZero?

По cost: ZeroGPT всегда дешевле. Переключение не по цене, а по quality.
По quality triggers:

ZeroGPT FPR > 20% (каждый 5-й хороший текст отклоняется) → переключаться
Нужен Relevant Sources API для fact-check → переключаться
20+ статей/мес (operations overhead от false positives дороже $45/мес) → переключаться

Источники

Тема	Источник	Тип
RAID Benchmark	raid-bench.xyz/leaderboard	verified
GPTZero API	gptzero.stoplight.io	verified
GPTZero Pricing	gptzero.me/pricing	verified
ZeroGPT API	api.zerogpt.com/docs + GitHub	verified
ZeroGPT Pricing	zerogpt.com/pricing	verified
Grammarly API	developer.grammarly.com	verified
Grammarly Plans	grammarly.com/plans	verified
Grammarly vs GPTZero	gptzero.me/news/grammarly-ai-review	third-party
Chicago Booth GPTZero Study	Academic benchmark, 2026. Incomplete citation: no URL, DOI, or author list found. Cited by GPTZero marketing; independent access not confirmed.	incomplete citation
Agentic Design Patterns	Google Cloud Architecture	verified
Reflection Pattern	agentic-patterns.com	third-party
Claude Code Skill Chaining	MindStudio Blog	third-party
LangGraph vs CrewAI	markaicode.com	third-party