Группировщик Семантического Ядра

Загрузка файла

Описание

Подготовка файла с ключевыми словами

  • Ключевые фразы должны находиться в текстовом файле в кодировке windows-1251
  • Каждая ключевая фраза должна начинаться с новой строки
  • Значение wordstat необходимо указывать через запятую, после ключевой фразы (если значение wordstat не указано, то оно будет приравнено к нулю)
  • Размер файла с ключевыми фразами не должен быть меньше 100 байт или больше 1 мегабайта
  • Количество ключевых фраз в файле не должно превышать 20 000
  • Пример файла

Описание методов сравнения

Для всех методов сравнения порядок слов в ключевой фразе не учитывается.

Точное вхождение - группировка происходит, если все слова одной ключевой фразы точно содержатся в другой (напр. "счетчик воды" и "установить счетчик воды").

Нечеткий поиск - группировка происходит, если слова одной ключевой фразы содержатся в другой. При этом точное соответствие слов не обязательно, вместо этого используется расстояние Джаро-Винклера для поиска сходства между словами (напр. "устОновка счетчика воды" и "устАновка счетчика воды").

Морфология - группировка происходит, если слова одной ключевой фразы содержатся в другой, но, в отличии от других методов, все слова перед сравнением приводятся к их базовой форме (напр. "установка счетчиков воды" и "установка счетчика на воду").

Функция игнорирования предлогов

При сравнении ключевых фраз не будут учитываться предлоги. Например, для морфологического метода сортировки фразы "установка счетчика для воды" и "установка счетчика на воду" будут считаться равнозначными.