11.1. Морфология

Морфологический анализ - механизм, который распознает отдельные слова и словосочетания на веб-сайте. Если в тексте содержится достаточное для блокировки количество указанных слов и словосочетаний, то доступ к сайту блокируется.

Морфологический анализ выполняется как при проверке запроса пользователя, так и при получении ответа от веб-сервера и до его передачи пользователю. Получив ответ от веб-сервера, UserGate просматривает текст на странице и подсчитывает его суммарный «вес», исходя из «весов» слов, указанных в морфологических категориях. Если «вес» страницы превышает «вес» морфологической категории, правило срабатывает. При подсчете «веса» страницы учитываются все словоформы (леммы) запрещенных слов. Для поиска словоформ UserGate использует встроенные словари русского, английского, японского, арабского и немецкого языков.

Существует возможность подписки на словари, предоставляемые UserGate. Данные словари нельзя редактировать. Для использования этих словарей необходима соответствующая лицензия. Более подробно о лицензии на продукт вы можете прочитать в главе Лицензирование UserGate.

Наименование

Описание

Соответствие списку запрещенных материалов Министерством Юстиции Российской Федерации

Морфологический словарь, содержащий перечень слов и фраз, запрещенных Министерством Юстиции Российской Федерации.

Соответствие списку запрещенных материалов республики Казахстан

Морфологический словарь, содержащий перечень слов и фраз, запрещенных Министерством Юстиции республики Казахстан.

Суицид

Морфологический словарь, содержащий перечень слов и фраз суицидальной направленности.

Терроризм

Морфологический словарь, содержащий перечень слов и фраз террористической направленности.

Нецензурная лексика

Морфологический словарь, содержащий перечень слов и фраз, относящихся к нецензурной лексике.

Азартные игры

Морфологический словарь, содержащий перечень слов и фраз, относящихся к азартным играм.

Наркотики

Морфологический словарь, содержащий перечень слов и фраз наркотической направленности.

Соответствие ФЗ-436 (Защита детей)

Морфологический словарь, содержащий перечень слов и фраз тематик, нежелательных для детей.

Порнография

Морфологический словарь, содержащий перечень слов и фраз порнографической направленности.

Бухгалтерия (DLP)

Морфологический словарь, содержащий перечень терминов, слов и фраз, используемых в бухгалтерии.

Маркетинг (DLP)

Морфологический словарь, содержащий перечень терминов, слов и фраз, используемых в маркетинге.

Персональные данные (DLP)

Морфологический словарь, содержащий перечень терминов, слов и фраз, встречающихся в персональных данных.

Финансы (DLP)

Морфологический словарь, содержащий перечень терминов, слов и фраз, используемых в финансах.

Юридический (DLP)

Морфологический словарь, содержащий перечень терминов, слов и фраз, используемых в юриспруденции.

Для фильтрации по морфологическому содержанию страницы требуется:

Наименование

Описание

Шаг 1. Создать одну или несколько морфологических категорий и указать вес каждой категории.

Нажать на кнопку Добавить, задать название новой категории и ее вес.

Шаг 2. Указать список запрещенных фраз с весами.

Нажать на кнопку Добавить и указать необходимые слова или фразы. При добавлении слова в морфологический словарь можно использовать модификатор «!» перед словом, например, «!bassterd». В данном случае жаргонное слово не будет преобразовываться в словоформы, что может серьезно уменьшить вероятность ложной блокировки.

Шаг 3. Создать правило фильтрации контента, содержащее одну или несколько морфологических категорий.

Смотрите раздел Фильтрация контента.

Администратор имеет возможность создать свой словарь и централизованно распространять его на все устройства UserGate имеющиеся в организации. Для создания такой морфологической базы необходимо выполнить следующие действия:

Наименование

Описание

Шаг 1. Создать файл с необходимыми фразами.

создать файл list.txt со списком слов в следующем формате:

!word1 !word2

!word3

word4 50

...

Lastword

Вес словаря в таком случае равен 100, вес слова можно указать. По умолчанию он равен 100.

Шаг 2. Создать архив, содержащий этот файл.

Поместить файл в архив zip с именем list.zip.

Шаг 3. Создать файл с версией словаря.

Создать файл version.txt, внутри него указать номер версии базы, например, 3. Необходимо инкрементировать данное значение при каждом обновлении морфологического словаря.

Шаг 4. Разместить файлы на веб-сервере.

Разместить у себя на сайте list.zip и version.txt, чтобы они были доступны для скачивания.

Шаг 5. Создать морфологическую категорию указать URL для обновления словаря.

На каждом UserGate создать морфологическую базу. При создании указать тип списка Обновляемый и адрес, откуда необходимо загружать обновления. UserGate будет проверять наличие новой версии на вашем сайте в соответствии с настроенным расписанием скачивания обновлений. Расписание можно настроить в свойствах списка; возможно указать следующие варианты:

  • Отключено. Проверка наличия обновлений для выбранного элемента производиться не будет.

  • Ежедневно.

  • Еженедельно.

  • Ежемесячно.

  • Каждые ... часов.

  • Каждые ... минут.

  • Задать вручную.

При задании вручную необходимо использовать crontab-подобный формат, при котором строка выглядит как шесть полей, разделенных пробелами. Поля задают время в следующем виде: (минуты: 0-59) (часы: 0-23) (дни месяца: 1-31) (месяц: 1-12) (день недели: 0-6, 0-воскресенье). Каждое из первых пяти полей может быть задано следующим образом:

  • Звездочка (*) - обозначает весь диапазон (от первого до последнего).

  • Дефис (-) - обозначает диапазон чисел. Например, "5-7" будет означать 5,6 и 7.

  • Списки. Это числа (или диапазоны), разделенные запятыми. Например, "1,5,10,11" или "1-11,19-23".

  • Звездочка или диапазон с шагом. Используется для пропусков в диапазонах. Шаг указывается после косой черты. Например, "2-10/2" будет значить "2,4,6,8,10", а выражение "*/2" в поле "часы" будет означать "каждые два часа".

Примечание

При создании морфологических словарей не рекомендуется добавлять фразы, содержащие более трех слов, без использования символа «!» перед словами. Необходимо помнить, что при построении морфологической базы каждое из слов будет преобразовано во все существующие формы (склонения, спряжения, множественные числа, времена и т.д.), и результирующее количество фраз будет достаточно большим. При добавлении длинных фраз необходимо использовать модификатор «!» перед словами, модификация которых не нужна, как правило, это различные предлоги и союзы. Например, фразу «как уйти из жизни безболезненно» правильно добавить в виде «!как уйти !из !жизни безболезненно». Это сократит количество возможных вариантов фраз, но при этом оставит все фразы с требуемым смыслом.