Бага геолокации Google Analytics

Когда еще айтишничал на различных дядей, меня люто выстегивала тема, что я, почему то, всегда должен был решать проблемы сторонних криворуких долбоебов. То есть если их сервер давал отлуп моей почте, то все что я слышал в ответ пнх – у нас все нормально. Причем по моим логам, все было как раз ненормально и приходилось придумывать какие то хитрые схемы, чтобы все таки работало.

Если же такая же ситуация происходила на нашей стороне, по причине того, что в буржуйской конторе нет сисадмина и поэтому у сервака нет обратной записи, или их сервак находится в спамлистах, или долбоеб пытается кинуть по почте 300 мегов; то это тоже почему то считалось моей проблемой, т.ч приходилось составлять исключения для криво настроенных почтарей и прочего.

Вот с проксями точно такая же ситуация – клиенты, по каким то причинам, уверены, что раз человек поставляет прокси, то он должен знать как работает каждый из 100500 присутствующих в тырнетах сервисов и скриптов. И если они работают через жопу, по причине быдлокода, то это однозначно проблема проксей. Так что продован должен скоренько их порешать.

Вот сейчас как раз возникла забавная ситуация: поставляю людям несколько сотен прокси различной географии для накрутки трафа на их сетку сайтов, с которых они продают рекламные споты. Ну такое легкое наебалаво клиентов кароч, как и у большинства площадок, живущих за счет баннеров, а не лидов.

Первый раз мне вынесли мозг еще в начале года, когда они только поюзали прокси с месяц – в Google Analytics порядка 30% трафа определялось по географии на Канзас, США. Некий штатовский мухосранск Coffeyville. Преподнеслось все, конечно, в духе чтозахуйнютынампродал, т.ч я особо не стал разбираться, а заменил всю Европу и США, хотя несколько озадачил такой таргет.

Прошло полгода и снова вопрос оттуда же, только теперь на Coffeyville приходилось чуть ли не 40%. Вспомнив, что про этот город я уже слышал, объяснил клиенту что это либо глюк гугла с географией (ибо уже как то наебался в проксями под Adwords, который итальянские и германские дата центры принимал от силы на треть, определяя остальное какими то папуасиями), либо они что то не так делают. Поскольку прокси были максимально разбросаны по штатам США и странам Европы.

Чуваки ушли думать, но когда через пару дней уточнил о результатах, так ничего и не придумали. Тогда стал копать сам, решив что это либо боты, либо рефспам. Поскольку клиент отморозился по варианту – я клиент, я ничего не хочу решать, а хочу чтобы все было красиво, то пришлось ковыряться без доступа к логам.

Путем некоторого гугления по форумам, оказалось что эта проблема существует уже достаточно давно. Как минимум года 2-3. И называется она, что ни удивительно, “The Kansas Problem”. И заключается собственно в том, что гугл использует какую то неизвестную базулю, которая когда не может определить местоположение клиента, тупо присваивает ей координаты центра США, который находится аккурат в предместьях города Coffeyville Kansas USA.

То есть MaxMind все определяет четко, а кривая гуглевая база тупит и по разным, зарубежным, оценкам присваивает канзасскую географию более чем полумиллиарду айпишников (~600кк) – это где то около 40 полных а-классов или первых октетов IP адреса.

Я конечно немного охуел от такого открытия, ну и попытался донести до клиента эту ситуацию. На что получил серию очаровательных вопросов, в духе “давай что нибудь с этим сделай”. Сошлись на том, что клиента ответ про баг гугла не устраивает и он будет искать другого поставщика.

Не особо удивившись, стал ковыряться дальше и узнал, что оказывается, средствами Google Analytics можно нарисовать красивые отчеты, скормив ему через параметры внешнюю базу соответствия IP адресов и городов. Есть еще какой то вариант загрузки базы IP через Google Analytics Datasets и подгрузку IP адресов с сервера через кастомные параметры. Но подходит это, видимо, только для такого варианта накрутки пф или трафа, когда ты заведомо знаешь сетки посетителей, т.к в противном случае придется дергать базу MaxMind, ибо это порядка 2.5млн подсеток с-класса.

С клиентом, конечно, видимо придется попрощаться, но ценебага довольно занятная. Особенно если учитывать, что первые сообщения о ней идут с 2016 года, когда, вероятно, гуглеводы заменили или стали использовать какой то косячный вариант.

Немного статеек на инглише по сабжу:

Оставить комментарий