Google в блоге Центра для вебмастеров объявил о том, что его робот в тестовом режиме индексирует страницы, доступ к которым возможен только через HTML-формы.
Таким образом, поисковик надеется предоставить своим пользователям доступ к Глубокому Вебу, который содержит данные специализированных баз, таких как библиотечные каталоги, базы статей, юридические базы данных, различные справочники (телефоны, адреса, цены) и др. данные, которые пользователь не может получить
Многие западные вебмастера не обрадовались эксперименту Google. Они считают, что такая работа гуглбота несет угрозу, например, корпоративным данным. В связи с этим нововведением, боятся вебмастера, IT-отделам многих компаний придется тратить деньги и время, чтобы удостовериться в сохранности своих данных от поискового робота.
Однако Google заявляет, что обрабатываться будут только GET-формы, и робот избегает форм, которые требуют любую конфиденциальную информацию (пароли, логины и пр.).
Также Google предупреждает вебмастеров, что на PageRank включение HTML-форм в поисковый индекс никак не будет влиять.
Стоит отметить, что Google не первым предложил пользователям поиск по Глубокому Вебу. Такие компании как Quigo, BrightPlanet и WhizBang Labs работают в этом направлении уже не первый год. Но Google – мировой лидер поиска, и он задает моду, поэтому возможно, открытие Глубокого Веба станет задачей и других поисковиков.
Как отмечается на Хабрахабре, вполне вероятно, что новую технологию краулинга создала команда разработчиков из маленькой компании Transformic, которую Google приобрела в 2005 году.