«Лаборатория Касперского» нашла новый метод борьбы со спамом

Текст: Иван Панин/Infox.ru

«Лаборатория Касперского» запатентовала технологию, позволяющую обнаруживать нежелательные сообщения в изображениях. Это поможет в борьбе со спамом.

«Лаборатория Касперского» сообщила об успешном патентовании технологии в области борьбы со спамом. Технология, запатентованная в России, обеспечивает быстроту и высокий уровень обнаружения нежелательных сообщений в изображениях.

Современные системы фильтрации спама легко находят текстовый спам, поэтому спамеры часто используют метод представления нежданных и нежеланных интернет-пользователями текстов в изображениях. Задача фильтрации графического спама значительно сложнее, чем текстового -- в данном случае антиспам-система должна не только установить, является ли текст спамом, но и предварительно зафиксировать наличие самого текста в изображении.

Большинство методов выявления текста в изображениях основаны на машинном распознавании графических образов. Однако качественное машинное распознавание требует единообразия размеров, стилей и расположения считываемых символов. Данное ограничение используется спамерами, которые намеренно искажают изображения, чтобы затруднить и замедлить процесс распознования текстов.

Технология «Лаборатории Касперского» предназначена для эффективного обнаружения текстов и спама в растровых изображениях без необходимости машинного распознавания графических образов. Такой подход обеспечивает высокую скорость детектирования и позволяет находить тексты практически на любом языке, отмечено в пресс-релизе компании.

Новая антиспам-технология «Лаборатории Касперского» разработана Евгением Смирновым. Выдача патента на нее одобрена Федеральной службой по интеллектуальной собственности, патентам и товарным знакам 13 января 2009 года.

Суть метода

В основе запатентованной технологии лежит вероятностно-статистический метод, согласно которому решение о том, содержит ли изображение текст, принимается на основании характера расположения вероятных графических образов слов и строк, а также содержания в них выявленных образов букв и слов. Наличие специальных фильтров обеспечивает устойчивость системы к шумовым элементам и разбиению текста рамками и линиями, а использование особого способа выявления строк -- к таким встречающимся в графическом спаме искажениям, как повороты текста и написание его волной.

Также система способна сравнивать его сигнатуру текста с шаблонами спама, хранящимися в базе данных.

«С одной стороны, новый метод неплохо детектирует текст, который может быть написан почти на любом языке, -- рассказывает руководитель группы развития антиспам-технологий «Лаборатории Касперского» и создатель технологии Евгений Смирнов. -- С другой стороны, мы не пытаемся прочитать текст машинным образом, что позволяет данному методу оставаться достаточно быстрым для возможности его применения в высокопроизводительном антиспам-фильтре «Лаборатории Касперского».