Страртира конкурс на Яндекс Интернет-математика 2009

I’m there

Кратко

Задача: да се ранжира множество данни за оценка спрямо предоставени признаци-фактори за ранжиране.

Тестови данни: 97 920 реда (четем — страници) от 9 124 сърча с числови значения на признаците без да се уточнява точно какви са те, без да се уточнява кейуорда, без — урл’а на страницата, но с ръчно присвоено значението в серп.

Данни за оценка: 115 643 реда, които трябва да се ранжират от състезателя спрямо подадени признаци. Максималния брой признаци са 245. Ако е равен на нула — не се взема впредвид и не се съдържа в реда на признаците. Т. е. същата информация като в тестовите данни, но без присвоено значение в серп.

Признаците са: нещо като PageRank (предполагам, се казва вИЦ;-)), «влизане» на кейуорда в текста на страницата, класификатор на потенциален спам, разни други неща, които в съвокупност трябва да дават отговор «колко добре този документ отговаря на дадено запитване» и много други неща, които не са обявени

ПС. Тези фактори (и не само те) се използват в алгоритъма на ранжиране в самия Яндекс.

Само днес научих за състезанието, в което мисля да участвам. В момента събирам тулове и софтуер за обработка на толкова данни, задаване на регресии.

Приветстват се всички мнения и особено желание за участие.