Статистики вскрыли трюки, которыми ученые резко поднимают цитируемость своих статей

Текст: Артём Тунцов/Infox.ru

Физики-практики вдвое ленивей своих коллег-теоретиков, когда речь заходит о внимании к работам коллег. А астрономы перегнали и тех, и других в самопиаре и желании пролезть наверх списка самых цитируемых ученых. Как именно ученые поднимают свой рейтинг, выяснили сотрудники Корнельского университета.

В наши дни ученых на Земле живет гораздо больше, чем когда бы то ни было, да и сама технология научного поиска изменилась до неузнаваемости. Например, практически не осталось ученых-одиночек. Их, конечно, еще можно найти в каких-нибудь дремучих уголках теории, но подавляющая часть современной науки -- творчество коллективное. Ученые активно пользуются работами друг друга, и понятно, что надо как-то поощрять тех, кто вносит больший вклад в это творчество -- как говорят, работает на сообщество.

Как оценить ученого

Как организовать такую справедливую систему поощрения, пока непонятно. Хотелось бы найти какие-то объективные, не подверженные человеческим ошибкам и предвзятости оценки работы ученого. Лучшим параметром на сегодняшний день считают цитируемость, или число цитирований -- ссылок на статьи автора в работах его коллег.

Так как к указанию источника знаний в статье ученые относятся очень ревностно, число цитирований действительно кажется показателем ценности той или иной работы. На статистику цитирований ученых обращают внимание, когда выбирают, кого из них взять на работу. Ее учитывают при выделении грантов на исследования, а в некоторых институтах от нее напрямую зависит зарплата сотрудника.

Тем не менее, как и любая формальная характеристика, статистика цитирований не застрахована от искусственных манипуляций с ее показателями -- вольных или невольных. С самыми простыми из них, вроде ссылок на себя любимого или взаимных цитирований небольших групп авторов, специалисты научились справляться. А Асиф-уль Хаке и Пол Гинзпарг из Корнельского университета попробовали разобраться в более изощренных методиках таких манипуляций. Их работа опубликована в последнем выпуске Journal of the American Society for Information Science and Technology и доступна в Архиве электронных препринтов Корнельского университета, одним из создателей которого сам Гинзпарг и стал.

Архив

Архив электронных препринтов, или просто Архив, как он известен физикам и представителям смежных наук, -- это не просто глобальное хранилище новых научных работ, а главное средство научного общения. Во многих областях науки (например в астрономии или теоретической физике) бумажные журналы сейчас мало кто читает: почти все новые работы, публикуемые в них, дублируются в Архив, а те, что не дублируются, как правило, и читать не стоит.

Архив появился как электронная почтовая рассылка почти 20 лет назад в Лос-Аламосской национальной лаборатории США. Поначалу он был посвящен лишь сугубо теоретическим вопросам физики высоких энергий. В последующие годы он разросся, и сейчас в нем более полумиллиона записей, разнесенных по различным категориям -- физика, астрономия, математика, нелинейная динамика и так далее. Архив продолжает расти -- каждый рабочий день в нем появляются новые статьи, и утро многих ученых начинается с просмотра Архива.

Как ни странно, форма публикации за долгие годы почти не изменилась. Это по-прежнему ежедневный список статей, который можно получить на электронную почту или посмотреть на экране своего браузера. Каждая запись -- это номер, заголовок, список авторов и их институтов, полная аннотация (абстракт) статьи плюс ссылки на полный текст работы. Таких записей в ежедневной рассылке, к примеру, астрономических препринтов -- более полусотни, и чтобы просмотреть их полностью, приходится пролистывать много-много страниц. От этого занятия немудрено устать, а потому статьи, которые находятся во главе списка, оказываются в преимущественном положении.

Как важно быть первым

В прошлом году Йорг Дитрих из Южной Европейской обсерватории впервые подсчитал это преимущество, и результат оказался ошеломляющим. Число цитирований для статей, оказавшихся на первом месте в ежедневной астрономической рассылке, почти вдвое превышало таковое для тех, которые находятся ближе к концу списка! Притом что в остальном они почти ничем не отличались. Число ссылок фиксировалось за несколько лет, а позиция в списке остается видимой всего один день, так что долговременный эффект этого кратковременного статуса кажется непропорционально большим.

Приглядевшись к данным, Дитрих заметил, что ученые этим преимуществом сознательно пользуются. Дело в том, что порядок статей в ежедневном списке определяется временем их поступления на сервер. Список начинает формироваться в 16.00 по времени восточного побережья США (полночь по Москве большую часть года), и те, кто успевает отправить свою статью вскоре после этого магического времени суток, имеют большие шансы оказаться среди первых.

Таких оказалось непропорционально много: в промежуток от 16.00 до 16.10 сдаются в пять раз больше статей, чем между 15.50 и 16.00 или между 16.10 и 16.20. Среднесуточную же скорость сдачи материалов астрономы в эти десять минут превышают почти в десять раз. И из ежедневной полусотни статей, который должны бы быть распределенными более или менее равномерно в течение суток, в первую минуту после 16.00 иногда сдается десяток статей.

Лень против самопиара

Такое поведение не кажется эталоном честности, однако оно позволило ученому объяснить, почему первые статьи пользуются большей популярностью. Основных причин тому могло быть две. Во-первых, это эффект видности: читатели Архива устают или отвлекаются при просмотре списка, так что у первых статей, с которых начинается просмотр, чисто позиционное преимущество. Во-вторых, это эффект самопродвижения: авторы интуитивно чувствуют, что какая-то их статья может быть интересна и полезна для сообщества, а потому намеренно выставляют ее во главу списка, чтобы ее заметили.

Случайно попавшимиво главу списка Дитрих считал все первые в списке работы, поданные не менее чем через полтора часа после 16.00. Первыми они могут оказаться, если «самопродвигателей» в этот день не было; такое то и дело случается.

Как оказалось, второй эффект сильнее -- статьи, попавшие во главу списка случайно, собирают больше цитирований, чем статьи из конца списка, но существенно меньше, чем «самопродвигаемые» статьи. А значит, при прочих равных, последние «ценнее» и нужнее научному сообществу. Для статей, намеренно размещенных во главе списка, выигрыш в цитировании составил около 110% против «средней» статьи. Для случайно попавших в число первых -- лишь 44%.

Кстати, именно этим значением, 44%, можно оценить и «лень» астрономов, внимание которых при дальнейшем просмотре списка куда-то улетучивается.

Кто всех ленивей

Хаке и Гинзпарг воспользовались несколько иной методикой подсчетов, а главное -- сравнили поведение астрофизиков, читающих архив astro-ph, и специалистов по физике высоких энергий. Последних разделили на условных «теоретиков» -- архив hep-th (High Energy Physics – THeory), посвященный сугубо математическим вопросам, и «практиков», которым ближе архив hep-ph (High Energy Physics -- PHenomenology), хотя большая часть работ, публикуемых в последней категории, также имеет лишь отдаленное отношение к эксперименту.

Как оказалось, в целом физики ведут себя пристойней -- они меньше занимаются самопиаром. Если астрономы сразу после 16.00 сдают в пять раз больше статей, чем в другое время, то физики -- лишь в два-три раза больше. При этом «практики» ведут себя более скромно, чем «теоретики», хотя самопиар у них приводит к большему выигрышу в числе цитирований, чем у астрономов или «теоретиков».

Однако именно «практики» оказались и самыми «ленивыми» из трех популяций. Если для астрономов эффект видности составляет уже указанные 44%, а для «теоретиков» 38%, то у «практиков» эта величина оценивается в 71%. Такой выигрыш в вероятности быть замеченным и прочитанным дает случайное попадание на первую строчку рассылки.

Этот результат тем более удивителен, если учесть, что в среднем ежедневном списке astro-ph вдвое больше статей, чем в hep-ph, а значит, «практикам» должно быть проще доглядеть список до конца, не растеряв внимание по дороге. Кстати, у «теоретиков» hep-th статей в 2,5-3 раза меньше, чем в astro-ph, так что их 38% еще не свидетельствуют о меньшей лени, чем у астрономов; впрочем, настоящие теоретики, как правило, не ограничиваются в своем ежедневном чтении одним лишь hep-th.

Что делать

Так как количество ссылок остается важнейшим библиографическим показателем, а также мерой качества работы и даже успешности ученого, возможность намеренно искажать эту статистику не может не беспокоить. Хаке и Гинзпарг призывают задуматься о каких-то альтернативных способах сортировки.

При этом они предлагают не спешить, а внимательно взвесить возможные варианты. Случайное перемешивание всех статей и выстраивание их в произвольном порядке, по их мнению, не самый удачный вариант. Более приемлемым они считают все большую индивидуализацию рассылок -- по именам авторов, области исследования, ключевым словам и так далее. В идеале каждый ученый должен узнавать либо лишь о тех работах, которые ему интересны гарантированно, либо обо всех работах, которые ему могут быть хоть чем-то полезны. Причем в мире, где ученых становится все больше, второй вариант вряд ли реализуем.