Что такое байесовская фильтрация спама?

Байесовские фильтры спама рассчитывают вероятность того, что сообщение является спамом, основываясь на его содержимом. В отличие от простых текстовых фильтров, байесовские фильтры спама учатся на входящем спаме и хорошей электронной почте, что дает очень надежный, адаптивный и эффективный антиспам-подход, который редко возвращает ложные срабатывания.

Сообщения электронной почты, которые не считаются спамом, иногда называют «ветчиной».

Байесовские фильтры продолжают улучшаться

Простые фильтры спама на основе слов не учитывают то, что можно считать необычными словами (один признак того, что данное сообщение может быть спамом) для каждого пользователя электронной почты. Кроме того, у них нет возможности изменять правила, которые они используют для выявления спама с течением времени. Байесовские фильтры спама отличаются тем, что они делают оба.

Байесовские спам-фильтры со временем создают список нежелательных слов. Они анализируют как спам-сообщения, так и хорошие сообщения, чтобы рассчитать вероятность появления различных характеристик в спаме и в хорошей почте. Затем новые, нежелательные слова добавляются в список.

Если слово никогда не появляется в спаме, но часто в законном электронном письме, которое вы получаете, вероятность того, что слово указывает на спам, близка к нулю. Например, скажем, вы получаете много законных сообщений, которые содержат слово декартово. Этот факт снижает вероятность того, что полученные вами электронные письма, содержащие слово Cartesian, являются спамом. С другой стороны, скажем, вы редко или когда-либо получаете законные сообщения, содержащие слово «тонер». Если вы получили сообщение, содержащее слово «тонер», скорее всего, это спам.

Как байесовский фильтр проверяет почтовое сообщение

Характеристики сообщения, на которые смотрит байесовский фильтр спама, включают:

  • Слова в теле сообщения
  • Слова в заголовке сообщения (например, отправитель и путь к сообщению)
  • Другие элементы, такие как HTML / CSS-код (например, цвета и другое форматирование)
  • Пары слов и фразы
  • Мета-информация (например, где появляется конкретная фраза)

Когда приходит новое сообщение, байесовский фильтр спама анализирует его и вычисляет вероятность того, что оно является спамом, в соответствии с этими атрибутами.

Продолжая приведенные выше примеры, предположим, что сообщение содержит оба слова, декартово и тонер. Только из этих слов не ясно, является ли сообщение спамом или законным письмом. Но если в сообщении также содержится заголовок «ВЫГОДНЫЕ СДЕЛКИ НА ТОНЕР !!!!!» тогда вероятность того, что это будет спамом, увеличится.

Байесовские фильтры автоматически учатся 

Следуя классификации на «спам» или «законную электронную почту», фильтр может использовать это определение для дальнейшего обучения. В нашем примере фильтр должен либо снизить вероятность декартовой индикации хорошей почты, либо повысить вероятность появления тонера, указывающего на спам. Учитывая дополнительные данные заголовка спама в этом сообщении (и, возможно, также другие факторы), он будет делать последнее и оценивать следующее входящее сообщение на основе новой вероятности.

Используя эту автоадаптивную технику, байесовские фильтры могут учиться как на собственных, так и на пользовательских (если они вручную исправляют ошибочно оцененные сообщения) решениях. Адаптируемость этой системы гарантирует, что эти фильтры наиболее эффективны для отдельных пользователей электронной почты, поскольку, хотя спам большинства людей может иметь схожие характеристики, допустимая почта для каждого человека характерно различна.

Могут ли спаммеры получать прошлые байесовские фильтры?

Характеристики законной электронной почты так же важны для байесовской фильтрации спама, как и характеристики спама. Поскольку фильтры обучаются специально для каждого пользователя, спамерам труднее обходить их, и фильтры могут адаптироваться практически ко всем попыткам спамеров.

Спаммерские сообщения проходят через хорошо обученные байесовские фильтры только в том случае, если обманщики заставляют свой спам выглядеть совершенно обычным письмом. Но спаммеры обычно не отправляют такие обычные сообщения, потому что они плохо работают, чтобы служить их целям (то есть убедить вас купить что-то или перейти по ссылке).

Каким бы хорошим ни был байесовский фильтр, одно слово или характеристика, которые часто встречаются в хорошем письме, могут быть настолько значительными, что препятствуют тому, чтобы сообщение, содержащее его, было оценено как спам. Поэтому, если спаммеры могут найти способ определить ваши надежные добрые письма, они могут включить одно из них в нежелательную почту и связаться с вами даже через хорошо обученный байесовский фильтр. Но, по словам исследователей, которые попробовали этот метод, он отнимает много времени и достаточно сложен, поэтому его вряд ли можно будет использовать очень часто.

Ссылка на основную публикацию