Главная > XRumer > Буржуи не пройдут

Буржуи не пройдут

23rd Декабрь, 2008

На различных форумах время от времени всплывает вопрос — как выбрать с огромной базы форумов только русскоязычные? Частично на него ответил dimon799 в своей статье Урок Второй. Будем фильтровать базу. , написанной для конкурса .
Димон предложил выбирать форумы с кодировками KOI-8R WINDOWS-1251 . Весьма разумное предложение, но как-же быть с форумами в кодировке UTF-8 ? На СЕОшных форумах предлагают вспомнить основы программирования и написать распознавалку языков, либо более простой путь – забить. На попытки выспросить более приемлимые пути обижаются и заводят песню про невозможность невозможного в обозримом настоящем. Народ, блин, ну проявите хоть чуток фантазии! Откройте наугад 3 рускоязычных форума… ну например
http://forum.nalog.ru/index.php
http://www.mvideo.ru/phorum/
http://forum.mgimo.ru/index.php
Догадались?
Конечно! В русскоязычных форумах названия разделов обычно состоят из русских слов :). И очень часто встречаются слова типа флейм, курилка, общий, обьявления, реклама. Достаточно прошерстить форумы по методу предложенному dimon799, добавив к кодировкам список слов, часто встречающихся в названиях разделов. Итак для начала выберем форумы с кодировкой UTF-8. используем для этого «Анализатор базы ссылок» и методику описанную dimon799.

Затем собираем список слов, встречающихся в названиях разделов. Уже начали наполнять список? Не торопитесь – ведь у нас в руках 5-я версия хрумера! Именно в ней появилась замечательная опция «Вести лог списков разделов на форумах».

Включаем эту опцию, делаем тестовый прогон нашей базы, смотрим в файл Logs/CategoriesLog id*.txt , выбираем из него русские слова и … тут нас ожидает очередная засада – нам нужен инструмент, корректно работающий с русским языком и UTF-8. Недолгие поиски результата не принесли, поэтому было решено сваять такой инструмент самому. Писалось, как обычно, на коленке пяткой левой ноги… поэтому к инструменту нужен особый подход :).
Изучаем скриншот.

Жмем кнопку Load Url и загружаем список форумов с кодировкой UTF-8. В поле паттерна вводим что-то наподобие

(Курилка|Оффтопик|Юмор|Болталка|Общий|и т.д и т.п)
Синтаксис очень простой — внутри скобок перечисляем слова или словосочетания разделенные вертикальной чертой.
Выставляем кол-во потоков и жмем Parse. Как увидим что инструмент отработал – жмем Save – список русских форумов сохранится в файл c:url.txt . Разумеется, у программы должны быть права на запись в корень диска C.
Скачать сей чудесный программный продукт можно по не менее чудесной гиперссылке. Продукту для работы нужен .NET Framework 2.0 – без него работать не будет.
Вот и все. Как оказалось не так страшен UTF, как его малюют.
Важное замечание – при этой проверке база форумов должна быть приведена к индексу. Сделать это можно Hrefer-om или инструментом «Пост-обработка ссылок».

Людям купившим Xrumer по моей ссылке я не делаю откат в размере 50 долларов… Но могу помочь советами, а это намного дороже денег!

XRumer ,

  1. Zubache
    Январь 8th, 2009 at 20:34 | #1

    охх, Вадоз, у меня такая же тема на вп :)
    по сабжу, сохраним страничку и прогу. пригодятся.

  2. admin
    Январь 8th, 2009 at 20:40 | #2

    Это фигня. Вот у нас на работе был случай (когда я еще работал) — начальник управления милиции и начальник отдела по борьбе с коррупцией приехали на работу на одинаковых меринах. Вот это было западло :)

  1. Трэкбеков пока нет.
Комментарии закрыты.