Том Стоки: «дополненная реальность» больше обещает, чем умеет
Компания Google недавно внедрила новую систему поисковой индексации Caffeine, которая заметно «освежила» результаты поисковых запросов. Об особенностях работы новой технологии, а также о том, почему компьютеру сложно объяснить, что такое стул, и почему технологии «дополненной реальности» обещают больше, чем умеют, в интервью Infox.ru рассказал директор по продуктам Google Том Стоки.
-- Чем новая система индексации сайтов отличается от старой?
-- Вот как работал поиск Google раньше: боты просматривали все интернет-страницы, проходили по ссылкам с этих страниц. Процесс индексации был и остается непрерывным, но чем текущая ситуация отличается от того, что было раньше, так это тем, что ранее процесс был довольно длительным и многоэтапным. В понятие индексации входит просмотр страницы, создание ее копии, выявление и анализ 200 с лишним признаков этой страницы (основные ключевые слова, частота их использования, входящие и исходящие ссылки и т. д.). Когда все это осуществляется, можно сказать, что страница проиндексирована. Потом мы делаем так называемую обратную индексацию. Технически это то же самое, но уже не со страницами, а с ключевыми словами: на какие ключевые слова лучше всего «откликается» та или иная веб-страница.
Раньше на все это уходило примерно 3-4 недели. Теперь иногда это может происходить за считанные минуты. Все описанные выше процессы исполняются одновременно и обновляют информацию постоянно. Конечный результат для пользователя в данном случае заключается в том, что страницы, которые они получают в ответе на поисковый запрос, как минимум на 50% свежее.
-- Сколько времени ушло на разработку Caffeine?
-- Насколько я знаю, самое последнее до недавнего времени изменение в системе поисковой индексации Google произошло где-то в 2005-2006 годах. Не думаю, что Caffeine разрабатывался все эти пять лет, но все же, на мой взгляд, это показатель того, как редко в поисковых системах происходят изменения и, соответственно, насколько они масштабны.
-- Каким образом работает социальный поиск? В чем его преимущество перед классическим, основанным на поисковых алгоритмах? Дает ли социальный поиск новые возможности для монетизации?
-- Думая над разработкой социального поиска, мы отталкивались от того, что, например, если пользователь ищет информацию о кино, книге или музыкальном альбоме, которые он хотел бы купить, наиболее ценную для него информацию могут предоставить его друзья, а не официальные пресс-релизы или обзоры в СМИ. Как это работает: пользователь входит на личную страничку, набирает поисковый запрос и получает результаты не только из официальных источников и блогов незнакомых ему людей, но и из своего «социального круга». Если кто-то из друзей пользователя в какой-либо социальной сети написал об искомом предмете и имеет заполненную учетную запись в Google, функция социального поиска обязательно найдет эту запись.
Польза от социального поиска заключается еще и в том, что он позволяет теснее контактировать с друзьями и узнавать то, чего в обычной ситуации, скорее всего, пользователь мог бы и не узнать. Например, я сейчас в Москве, мне интересно узнать о соборе Василия Блаженного. Я набираю поисковый запрос и вижу, например, что один из моих друзей, побывав в Москве, сфотографировал его и выложил снимок в своем профиле на Flickr. Я не каждый день захожу к нему в профиль, у меня вообще нет аккаунта на Flickr, а тут я узнаю, что мой друг неплохо фотографирует, да и вообще, оказывается, тоже бывал в Москве.
Социальная поисковая система ориентируется на контакты в gmail, а также на персональные данные, указанные в личном профиле пользователя: ссылки на блоги, странички в социальных сетях и прочее.
По поводу монетизации: мы, конечно, надеемся, что социальный поиск подвигнет пользователей на то, чтобы делать больше поисковых запросов через Google. В этом смысле каждый поисковый запрос имеет рекламный потенциал, но никаких специальных моделей монетизации для социального поиска мы не придумывали.
-- Голосовой поиск -- это крайне удобная технология для мобильного телефона, а есть ли планы по реализации его на десктопе?
-- Вообще, печатать на мобильных устройствах крайне неудобно, поэтому голосовой поиск там крайне уместен. В случае с компьютером преимуществ гораздо меньше, потому что есть более или менее устройство ввода. Но это интересная идея, потому что большинство ПО для реализации функции Text to Speech, которые мне встречались ранее, обрабатывают все данные, используя вычислительные мощности компьютера. У нас же обработка происходит на сервере: мы передаем запись голоса на сервер, там она обрабатывается и возвращается в виде ответа на поисковый запрос. Таким образом, пользователь десктопа мог бы иметь гораздо большие вычислительные мощности и запросы могли бы обрабатываться корректнее. Технически мы можем реализовать эту идею на десктопе. Но насколько я знаю, таких планов нет.
-- Когда начнется адаптация сервисов, использующих голосовой поиск в России? И будете ли вы привлекать для этого российские технологии? Российских специалистов?
-- Безусловно, цель команды, которая занимается голосовым поиском, -- это сделать данную технологию максимально работоспособной и полезной для носителя любого языка. Однако создание каждой голосовой модели требует очень много времени. Как мы это делаем: мы берем тысячи людей, помещаем их в акустические условия разного типа, в ванную, на улицу, на лестницу -- в самые разные места. Так мы обучаем систему распознавать голос в самых разных средах. Самая сложная часть всего этого -- нам необходимо действительно очень много данных, чтобы получить хорошую голосовую модель. Однако программное обеспечение само по себе не требует большого количества изменений. Поэтому нам тут главное побольше русскоговорящих людей набрать и записать их. Когда появится русская версия? Пока мы ничего объявлять не можем.
-- То, что умеет Google Goggles, уже сейчас поражает воображение, но ведь она пока не умеет распознавать многие объекты. Над чем вы работаете сейчас?
-- На мой взгляд, самая интересная возможность Google Goggles из появившихся в последнее время -- это перевод. Например, меню в ресторане в Германии. Я живу в Цюрихе, и там в ресторанных меню почему-то все по-немецки. Google Goggles реально помогает мне понять, что я заказываю на обед. Основные вещи, которые технология умеет распознавать сейчас, -- это знаменитые ландшафты (памятники архитектуры, туристические места), знаменитые произведения искусства, текст, логотипы, штрихкоды и прочие простые с точки зрения точности поисковых результатов объекты. Я думаю, что особых границ нет у того, что может распознавать эта технология. Сегодня она использует все, что есть в системе поиска изображений Google. Но сложности все же есть: например, с какими-то слишком обыденными вещами. Со стулом, например. Если сфотографировать стул под углом, при котором он уже не будет выглядеть как стул на двухмерном изображении, распознать его будет сложно. Собственно, сейчас мы работаем как раз над тем, чтобы научить нашу технологию распознавать сложные объекты.
-- А в чем основная сложность в случае с распознаванием стула?
-- Когда вы фотографируете стул, на изображении получается двухмерный объект. Представьте себе стул, развернутый к вам полубоком не в трехмерном, а в двухмерном варианте. Получится не стул, а фигура очень странной формы. То же и с «составными» объектами. Например, если попытаться распознать с помощью Google Goggles комнатное растение, которое поддерживается металлическими подпорками, технология распознает лишь отдельные объекты: листья, подпорки, горшок, но единого мнения о том, что это растение в горшке и с подпорками, технология пока выводить не умеет. Вот над этим-то мы и работаем. Однако сложные объекты с уникальными индивидуальными признаками -- уникальным контуром, цветом, какими-то мелкими деталями, как в случае, например, с зданием Исторического музея и другой архитектурой, она распознает достаточно успешно. Не скажу, что это легко, но это гораздо легче, чем со стулом или цветком в горшке.
-- А эта проблема с распознанием -- вопрос вычислительных мощностей, недостаточно большой базы визуальных образов или алгоритма распознания?
-- Это алгоритм. Нужно понять, как распознать основные аспекты стула, которые делают его стулом, и «объяснить» эти аспекты программе на понятном ей языке. В этом самая большая сложность. Нам с вами это легко, а программе -- не очень.
-- Разговаривая о различных интерфейсах Google и поисковых технологиях, в которых участвует камера, компас и GPS-приемник, можно невольно прийти к мыслям о модной сегодня концепции «дополненной реальности». Сейчас у Google есть практически все инструменты, чтобы эффективно дополнять реальность в объективе камеры мобильного телефона. Планируется ли запуск продукта, который на подобии Google Navigation объединил бы множество технологий Google в одном приложении?
-- Нет. Мы предпочитаем концентрироваться на «серверной» части проблемы внедрения дополненной реальности, то есть на сборе и обработке данных. В принципе, используя Street View, уже сейчас можно выяснить, какие автобусные маршруты ходят по той или иной улице, какие на ней достопримечательности, где находятся кафе, рестораны и магазины. То есть данные, необходимые для работы с augmented reality, у нас есть, и их станет все больше. Что же до других augmented reality-продуктов, существующих на рынке, даже хороших, то я вижу, что они пока обещают слишком много. Больше, чем могут на самом деле. Многие уже позволяют смотреть на мир через объектив мобильной камеры и видеть на дисплее стрелочку, которая указывает на, например, определенное кафе, находящееся неподалеку от вас. В теории она умеет это делать, и иногда у нее получается. Но шансы, что стрелочка укажет не в ту сторону или не на то кафе, все еще очень велики. Поэтому мы стараемся сделать стабильную платформу для AR-приложений, которая потом могла бы быть использована в смартфонах. Это происходит уже сейчас и окончательно заработает, когда мы добьемся, чтобы платформа стабильно работала с разными устройствами и имела максимально широкую географию.