Морфология

Морфологический анализ - механизм, который распознает отдельные слова и словосочетания на веб-сайте. Если в тексте содержится достаточное для блокировки количество указанных слов и словосочетаний, то доступ к сайту блокируется.

Морфологический анализ выполняется как при проверке запроса пользователя, так и при получении ответа от веб-сервера и до его передачи пользователю. Получив ответ от веб-сервера, UserGate просматривает текст на странице и подсчитывает его суммарный «вес», исходя из «весов» слов, указанных в морфологических категориях. Если «вес» страницы превышает «вес» морфологической категории, правило срабатывает. При подсчете «веса» страницы учитываются все словоформы (леммы) запрещенных слов. Для поиска словоформ UserGate использует встроенные словари русского, английского, японского, арабского и немецкого языков.

Существует возможность подписки на словари, предоставляемые UserGate. Данные словари нельзя редактировать. Для использования этих словарей необходима соответствующая лицензия. Более подробно о лицензии на продукт вы можете прочитать в главе Лицензирование UserGate.

Наименование

Описание

Список материалов, запрещенных Министерством Юстиции Российской Федерации

Морфологический словарь, содержащий перечень слов и фраз, запрещенных Министерством Юстиции Российской Федерации.

Суицид

Морфологический словарь, содержащий перечень слов и фраз суицидальной направленности.

Терроризм

Морфологический словарь, содержащий перечень слов и фраз террористической направленности.

Нецензурные выражения

Морфологический словарь, содержащий перечень слов и фраз, относящихся к нецензурной лексике.

Азартные игры

Морфологический словарь, содержащий перечень слов и фраз, относящихся к азартным играм.

Наркотики

Морфологический словарь, содержащий перечень слов и фраз наркотической направленности.

Защита детей ФЗ-436

Морфологический словарь, содержащий перечень слов и фраз тематик, нежелательных для детей.

Порнография

Морфологический словарь, содержащий перечень слов и фраз порнографической направленности.

Для фильтрации по морфологическому содержанию страницы требуется:

Наименование

Описание

Шаг 1. Создать одну или несколько морфологических категорий и указать вес каждой категории

Нажать на кнопку Добавить, задать название новой категории и ее вес.

Шаг 2. Указать список запрещенных фраз с весами

Нажать на кнопку Добавить и указать необходимые слова или фразы. При добавлении слова в морфологический словарь можно использовать модификатор «!» перед словом, например, «!bassterd». В данном случае жаргонное слово не будет преобразовываться в словоформы, что может серьезно уменьшить вероятность ложной блокировки.

Шаг 3. Создать правило фильтрации контента, содержащее одну или несколько морфологических категорий

Смотрите раздел Настроить фильтрацию HTTP-контента, например, запретить некоторым пользователям доступ к определенным категориям сайтов в заданное время или настроить антивирусную проверку веб-контента.

* Настроить опции веб-безопасности, например, включить принудительный безопасный поиск и блокировку рекламы.

* Настроить правила инспектирования SSL, например, для всех пользователей расшифровывать HTTPS для категории "Форумы" и для определенной группы - "Социальные сети". После того как HTTPS расшифрован, к нему могут быть применены политики фильтрации контента и веб-безопасности.

* Включить и настроить параметры СОВ.

* Настроить проверку почтовых протоколов SMTP и POP3 на проверку на наличие спама и вирусов.

* Настроить журналирование или блокировку определенных команд АСУ ТП.

* Настроить выборочную передачу трафика на анализ на внешние серверы ICAP, например, на DLP-системы.

* Настроить публикацию HTTP/HTTPS серверов.

Фильтрация контента.

Администратор имеет возможность создать свой словарь и централизованно распространять его на все компьютеры с установленным UserGate. Для создания такой морфологической базы необходимо выполнить следующие действия:

Наименование

Описание

Шаг 1. Создать файл с необходимыми фразами

создать файл list.txt со списком слов в следующем формате:

!word1 !word2

!word3

word4 50

...

Lastword

Вес словаря в таком случае равен 100, вес слова можно указать. По умолчанию он равен 100.

Шаг 2. Создать архив, содержащий этот файл

Поместить файл в архив zip с именем list.zip.

Шаг 3. Создать файл с версией словаря

Создать файл version.txt, внутри него указать номер версии базы, например, 3. Необходимо инкрементировать данное значение при каждом обновлении морфологического словаря

Шаг 4. Разместить файлы на веб-сервере

Разместить у себя на сайте list.zip и version.txt, чтобы они были доступны для скачивания.

Шаг 5. Создать морфологическую категорию указать URL для обновления словаря

На каждом UserGate создать морфологическую базу. При создании указать адрес, откуда необходимо загружать обновления. UserGate будет проверять наличие новой версии на вашем сайте каждые 4 часа и обновлять словарь при наличии новой версии.

Важно! При создании морфологических словарей не рекомендуется добавлять фразы, содержащие более трех слов, без использования символа «!» перед словами. Необходимо помнить, что при построении морфологической базы каждое из слов будет преобразовано во все существующие формы (склонения, спряжения, множественные числа, времена и т.д.), и результирующее количество фраз будет достаточно большим. При добавлении длинных фраз необходимо использовать модификатор «!» перед словами, модификация которых не нужна, как правило это различные предлоги и союзы. Например, фразу «как уйти из жизни безболезненно» правильно добавить в виде «!как уйти !из !жизни безболезненно». Это сократит количество возможных вариантов фраз, но при этом оставит все фразы с требуемым смыслом.