Як швидко та масово перевірити тексти на сайті на унікальність?

Описаний нижче метод не є єдиним вірним, але видався мені цікавим для того, щоб задокументувати.

Етап – 1 витягуємо тексти з сайту та автоматично зберігаємо в окремі документи

Для початку вискористовуємо Screming Frog + xpath в Custom Extraction для того, щоб отримати необхідний текстовий контент.

В результаті вигрузки custom extraction парсингу у вас буде приблизно такий документ:

Вигружаємо наш документ в google sheets.

Далі нам необхідно зберегти текст в окремі документи. Швидке рішення яке мені вдалось відшукати – https://zapier.com/

Реєструємось на сайті в 1 клік через Google-аканут на якому лежить наш файл. Обираємо сервіси з якими будемо працювати, в даному випадку це Google Sheets та Google Docs

Далі обираємо готове рішення

Далі проходимо всі етапи створення завдання. Тут все інтуітивно зрозуміло не будемо вдаватись в деталі.

Далі в папці Transfers ми знайдеом створені нами завдання

Заходимо в наше завдання і натискаємо кнопку Run

Обираємо всі екстрактори, ну або якщо у вас вибіркова вигрузка то ті які потрібні вам

Натискаємо Next і в наступному вікні Send Data

Далі, якщо натиснути View Progress побачимо процес трансферу наших текстів в окремі документи

Тексти додаються автоматично в обрану нами папку. Якщо при налаштуванні проекту ви обрали генерацію назви з рядка url то відповідно й називатимуться документи

На момент написання цієї інструкції сервіс дозволяє безкоштовно виконувати до 1000 завдань на місяць.
Також якщо при переносі текстів трапилась помилка їх можна точково перезапустити.

Етап – 2 автоматична перевірка пачки текстів

Скачуємо нашу папку з текстами з гугл-диска та зберігаємо в 1 папку.

Запускаємо eTxt Antiplagiat, обираємо пакетну перевірку

Обираємо папку де лежать наші тексти, підкориговуємо налаштування під свої потреби (виключаємо домен, коригуємо пошукові системи які нам потрібні) і запускаємо.
Далі програма працює, а ми займаємось своїми справами.

Етап – 1 витягуємо тексти з сайту та автоматично зберігаємо в окремі документи

Етап – 2 автоматична перевірка пачки текстів

Автор Марко Федоренко