05 юни
гена в SEO, етикетки: advego, seo anchor generator, контент
Преди три месеца писах за намиране на Дублиран контент с инструмент Адвего.
Днес ще се опитам да раскажа как спинвам статии и контролирам процент уникалност на всяка една. Т.е., генерирайки 200, да ни останат десетина статии с голям процент уникалност, които да отидат по директории за статии, социални мрежи, каталози и прочие ресурси.
Четете до край, че има много интересни неща, скриншотове и социални бутони на фейсбук, туитър и Г+1 за споделяне :-)
Много колеги започнаха да се интересуват от теория, напоследък отказвам доста статии в моята директория за статии заради нисък процент уникалност на текста, което мисля да спра за да няма обидени.
Спинване на статии
Спинване идва от английската дума spin (буквално „въртене“). В наш контекст това означава, че ще „въртим“ текста, заменяйки думите с техните синоними, на изхода получаваме няколко вариант текст, в които последователно се заменя една от споменатите думи.
Инструментът, който ползвам за размножаване, е seo anchor generator (win-приложение), който е достъпен и през браузъра (http://www.seogenerator.ru/tools/).
Cloxy има Article Spinner, но е твърде суров за нашите цели.
Синтаксис, който исползва seo anchor генератора:
фигурни скоби {}
квадратни скоби []
разделител вътре в скобите[|||]
Легенда:
{} – вътре през разделител | описват синоними или фрази за замяна
[] – „разбъркване“ на думи, това са т.н. пермутации – произволна наредба на елементите описани вътре в квадратните скоби, като всеки един елемент се среща само веднъж.
Ако ви затрудних, със следващия пример ще разберете всичко.
Първият пример ще направим със следният текст (един цитат на В. Левски):
Време за помагане е сега – закъснелите не ще бъдат наши приятели
В текста може да намерим по няколко синонима към всяка от думите:
време – период, епоха, срок, час, момент
помагане – помощ, подкрепа, съдействие, сътрудничество, поддръжка, подпора, защита, подкрепление, принос
сега – в тоя час, в тоя момент, ей сега, днес, сегичка, сегинка, тозчас, веднага, в настояще време
закъснелите – изостанали, забавени
не ще бъдат – няма да бъдат, няма да станат
и т.н.
Започваме да заменяме думите с горния списък синоними във фигурни скоби.
Получаваме:
{Време|Период|Епоха|Срок|Час|Момент} за {помагане|помощ|подкрепа|съдействие|сътрудничество|поддръжка|подпора|защита|подкрепление|принос} е {сега|в тоя час|в тоя момент|ей сега|днес|сегичка|сегинка|тозчас|веднага|в настояще време} – {закъснелите|изостанали|забавени} {не ще бъдат|няма да бъдат|няма да станат} наши приятели
Генерираме и получаваме 5400 текста или 6*10*10*3*3 (произведение на брой синоними на всяка дума).
Текстовете се генерират като последователно се взима само едно значение от само един набор-редица синоними, останалият текст остава статичен
Схематично:
Нека си представим, че изречението ни е е съставено от думи накратко означени A B …Y Z в този ред.
всяка дума се заменя със синоними и преди генерация текста изглежда по следния начин:
{a1|a2|…|А} {b1|b2|…|B} … {y1|y2|…|Y} {z1|z2|…|Z}
Генерация на фигурните скоби схематично изглежда по следния начин:
a1 b1 … z1
a1 b1 … z2
…
a1 b1 … y1 z1
…
a1 b1 … Y Z
…
…
A B C … Y Z
Така се работи със синоними накратко.
Какво става с фигурните скоби?
Както стана ясно – фигурни скоби са пермутации и работят за нас по такъв начин, че пренареждат изброени елементи. Най-подходящи са за исползване, когато в текста имаме списък от: услуги (на дадена фирма), възможности и прочие – всичко което изброявате чрез запетая или някакъв друг разделителен знак.
Примерен текст:
Optimization.bg предлага следните услуги: SEO одит, консултации, SEM, поддръжка на ppc кампании, линкбилдинг, уеб анализ.
Част от текста след двоеточие до точката заграждаме в квадратните скоби, всеки елемент на отделен ред както е на картинката
и получаваме следния сорс:
Optimization.bg предлага следните услуги: [+, +SEO одит|консултации|SEM|поддръжка на ppc кампании|линкбилдинг|уеб анализ].
Не забравяме да сложим запетая с интервал между двата плюса в началото за да определим разделителния знак, който да стои между елементите при тяхното пренареждане.
Пускаме генерация и получаваме 720 значения, което е равно на 6! (6 факториел = 1*2*3*4*5*6) – точно толкова, колкото са на брой всевъзможни пермутации на 6 елемента.
За нагледност прилагам няколко значения:
Optimization.bg предлага следните услуги: SEO одит, консултации, SEM, поддръжка на ppc кампании, линкбилдинг, уеб анализ.
Optimization.bg предлага следните услуги: SEO одит, консултации, SEM, поддръжка на ppc кампании, уеб анализ, линкбилдинг.
…
Optimization.bg предлага следните услуги: линкбилдинг, поддръжка на ppc кампании, консултации, SEM, уеб анализ, SEO одит.
…
Optimization.bg предлага следните услуги: уеб анализ, линкбилдинг, поддръжка на ppc кампании, SEM, консултации, SEO одит.
Продължавам да модифицирам изходния текст, добавяйки някои синоними
Накрая имам следен сорс:
{Optimization.bg|Optimization BG} {предлага|предоставя|оферира} следните {услуги|професионални услуги}: [+, +SEO одит|консултации|SEM|поддръжка на ppc кампании|линкбилдинг|уеб анализ].
В резултат на генерация, замяна на всички синонимни фрази и пермутации на този сорс ще имам 2*3*2*6! = 8640 описателни текста, които ще уникализираме.
Тези над 8000 значения са ни много, в повечето случаи не е необходим такъв брой описания, но това не е най-големият ни проблем. Основният проблем е, че тези текстове се дублират помежду си в някаква процентова граница. Нашата задача е да изберем тези с най-малък процент дублираност или, по-правилно, с най-висок процент уникалност.
Уникален контент с метода на шинглите
През 1997 година Андрей Бродер (CTO в IBM Research, Altavista, в момента е в Yahoo!Research екипа, голям мозък в Търсенето и цял свят го мрази заради captcha :-) измисля shigles алгоритъм (или MinHash) за определяне на процент дублираност на 2 текста, което търсачките веднага започнаха да исползват за намиране и класификация на дублиран контент.
Накратко, за всеки 10 думи (или произволен брой) думи се съставя хеш-сума (шингъл). Шинглите идват един след друг, препокривайки се за да няма загуби на текста. След това от цялото множество от хеш-суми се събират само онези, които цяло се делят, примерно, на 25. Оттук вече става ясно, че ако поне една хеш-сума съвпада (10 думи), налице е част от дублирания текст. Ако повторения са повече от половината, може да се твърди, че е намерено копие, понеже само 1 дублиран шингъл съответства в наш случай на 25 откъса с по 10 думи.
Естествено, всяка търсачка модифицира този алгоритъм по-своему, но принципът е същият. Но и в крайна сметка алгоритъмът е неизвестен, търсачките обработват голям обем данни и поради това не може да дадем точен отговор, защо в серпа една под друга се намират страници с новини с едно към едно съдържание.
Как да използваме подобна информация за уникализиране на контент?
Връщаме се при seo anchor generator.
Последно генерирахме 8640 текста.
Да го уникализираме:
натискаме на „Удаление похожих“
избираме „методом шинглов“
Длина шингла – 10
Максимальный % схожести (т.е. процент дублираност) – 50%
Пускаме и получаваме 2880 текста с максимум 50% дублираност със стъпка 10.
Намаляме стъпката (шингъл) до 5, процент – 30% и на изхода имаме 245 значения, които са подходящи и предостатъчни, примерно, за събмит на анонс към статия при публикуване на url-а й в социални мрежички и букмарк сайтчета. Ако и това ви е малко – намалята стъпката и процент дублираност.
В случая работехме с доста малък текст. При по-големи текстове се изискват малко повече ресурси, време за обработка и търпение.
Лирично отклонение – пишете качествени текстове, не генерирайте глупости и спам, защото всичко това Google ни го връща тъпкано (срещу всяко действие – яко противодействие).