Суббота, 5 октября, 2024

16+

Спам не пройдет: как работают спам-фильтры

Время на чтение 4 мин.

3 мая 1978 года считается днем рождения спама — массовой рассылки корреспонденции лицам, не выражавшим желания её получить. В этот день было отправлено первое официально зарегистрированное нежелательное рекламное сообщение, хотя еще в 1864 году, когда Western Union разрешило отправлять в своих сетях одну телеграмму нескольких абонентам, одна стоматологическая клиника воспользовалась возможностью прорекламировать свои услуги. Таким образом, спам начал свою историю как нежелательная коммерческая телеграмма, а уже в ХХ веке перешел в электронную почту и другие средства коммуникации.

Вам, гурманы

Слово SPAM изначально являлось товарным знаком для мясных консервов компании Hormel Foods Corporation, вышедшим на рынок в 1937 году. Настоящим звездным часом свинины в жестяной банке стала Вторая мировая война, когда Hormel Foods буквально озолотилась, поставляя SPAM не только американским военным, но и по ленд-лизу союзникам. Однако всему наступает конец: так и война закончилась, оставив на складах огромные запасы теперь не нужных консервов.

И тогда производитель начал массированную рекламную кампанию. Слово SPAM звучало по радио, им оклеили автобусы и трамваи, из-за каждого угла торчал билборд или рекламный плакат с четырьмя надоевшими буквами. Всемирную известность этой назойливой рекламе принесла британская комик-группа «Летающий цирк Монти-Пайтона». Главный герой их скетча зашел с женой в кафе, в котором все блюда так или иначе содержали SPAM. В общей сложности это слово прозвучало в видео 108 раз.

А вот спам как явление появился благодаря производителю компьютеров DEC. Сейчас компания уже не существует, но в 1970-е и 1980-е она была крупным разработчиком электроники. В 1978 году она выпустила свой первый суперминикомпьютер PDP-11/780. Чтобы рассказать потенциальным покупателям о новинке, DEC разослала сообщение по сети ARPANET — прототипе Интернета, — которая на тот момент объединяла несколько десятков университетов в США, а также Великобритании и Норвегии.

Так спам стал неотъемлемой частью нашей цифровой жизни, а борьба с ним продолжается до сих пор.

Ты не пройдешь!

Спам-фильтры используют множество методов для эффективной борьбы с нежелательной почтой. Они проверяют заголовки сообщений на соответствие стандартам и наличие признаков спама, анализируют тексты сообщений на наличие известных спамовых фраз или подозрительных слов, а также сверяют адрес, с которого пришло письмо, со списком разрешенных и запрещенных отправителей. Пользователи могут сами создавать белые и черные списки, чтобы контролировать, от кого они хотят получать сообщения.

Если в тексте письма есть ссылки, то фильтр анализирует URL-адреса в сообщении на предмет их принадлежности к известным вредоносным или спамовым сайтам. Фильтры также отслеживают активность отправителей для выявления подозрительных паттернов в их поведении, таких как массовая рассылка писем.

Байес, помоги

В большинстве спам-фильтров основная методика вычисления нежелательных сообщений — байесовская фильтрация спама. Это метод для фильтрации спама, основанный на применении наивного байесовского классификатора, который использует теорему Байеса.

Теорема Байеса — это способ вычисления вероятности события, основываясь на знании условий, которые могут повлиять на это событие. Проще говоря, она помогает нам обновлять наши предположения о вероятности события по мере поступления новой информации.

Допустим, у вас есть карманный фонарик, который иногда не работает. Вы предполагаете, что проблема может быть в батарейках или в самом фонарике. Если вы замените батарейки и фонарик заработает, теорема Байеса поможет вам обновить вашу оценку вероятности того, что проблема была именно в батарейках.

Таким образом, теорема Байеса позволяет нам делать обоснованные предположения о мире, учитывая новую информацию и изменяя наши убеждения соответственно

Первая известная программа, фильтрующая почту с использованием байесовского классификатора, — iFile Джейсона Ренни, выпущенная в 1996 году. В последующие годы были разработаны коммерческие фильтры спама, и байесовский фильтр стал использоваться в качестве основного фильтра спама.

При обучении байесовского фильтра для каждого слова, встреченного в письмах, вычисляется и сохраняется его «вес» — оценка вероятности того, что письмо с этим словом является спамом. В простейшем случае в качестве оценки используется частота появлений в спаме к появлениям всего.

Для более точных результатов возможна предварительная обработка текста, такая как приведение слов в начальную форму, удаление служебных слов и вычисление веса для целых фраз. При проверке вновь пришедшего письма вероятность «спамовости» вычисляется на основе всех слов в письме.

Байесовская фильтрация спама позволяет идентифицировать нежелательные сообщения с высокой точностью, она может быть настроена для каждого пользователя отдельно. Даже среди более продвинутых методов фильтрации спама наивный байесовский классификатор продолжает показывать хорошие результаты.

С развитием технологий спам-фильтры становятся все более продвинутыми. Используя машинное обучение и искусственный интеллект, они постоянно обновляют свои алгоритмы, чтобы быть на шаг впереди спамеров, и обучаются для более эффективной защиты в будущем. Спам-фильтры неустанно работают в фоновом режиме, чтобы мы могли сосредоточиться на том, что действительно важно.

Оставьте ответ

Пожалуйста, введите свой комментарий!
Пожалуйста, введите ваше имя здесь