Принцып работы парсера.
Май 21, 2007 11:51 amРаботу парсера можно условно разделить на три этапа:
- Парсинг RSS
На этом этапе скрипт сохраняет в базу заголовки новостей и ссылки на html страницы. Проверяются дубликаты по заголовкам и ссылкам оригиналов, и генерируються пермалинки для новости - Парсинг HTML
Обработка страниц, адреса которых получены на первом этапе. Очистка хедера и футера. Фильтр тэгов, выделение превью текста. Сохранение картинок. Обработка ключевых слов. - Постинг статей
Определение категории статьи и вставка текстов в базу данных.
Результатом работы скрипта являеться контент в базе данных, то есть скрипт можно привязать к любой CMS, использующую базу данных для хранения контента.
Первые шаги. Настройка парсера
Январь 10, 2007 8:35 pm1. Создайте парсер для вашего сайта-источника, укажите " " (пробел) как границы парсинга.
2. Добавьте RSS или Atom ленту. Укажите раздел на сайте, куда будут вставлятся новые статьи и выберите созданный парсер. подробнее »
Первые шаги. Установка скрипта
Январь 5, 2007 7:12 pmЗаливка скрипта на сервер
Скрипт парсера новостей должен быть размещен в корневой папке выбранной CMS.
Такое расположение файлов скрипта есть обязательным, так как он использует файлы настроек, параметры подключения к базе данных. подробнее »
- 2008-03-11 / Сегментация посетителей при ...
- 2008-02-29 / Семинар - Современный интернет-маркетинг ...
- 2008-02-26 / Как перенаправить существующих ...
- 2008-02-26 / Как оптимизировать Flash-сайты
- 2008-02-25 / Купить SEO софт по выгодной цене
Возможности парсера текстов
- Простая утсановка
- Выдирание контента напрямую из RSS ленты
- Выдирание контента из html файлов
- Сохранение и изменение размеров награбленых изображений. Рисунки можно сохранять у себя на сервере или же просто оставлять как было (hotlink)
- Поддержка ArticleMS, Danneo, DataLife Engine, Seditio, Strawberry, Subdreamer, WordPress
- Модерирование уже отпарсенного контента
- Возможность автоматической замены текстовых блоков или слов
- Фильтр ключевых слов позволяет задавать обязательные или запретные ключевые слова
- Определение раздела статьи по плотности ключевых слов
- Замена ключевых слов ссылками (можно использовать маски для определения ссылок от списка ключевиков).
- Создание неограниченного количества парсеров позволяет тянуть контент с многих источников, тем самым повышая уникальность проекта.
- Нет ограничений по времени, количество сайтов зависит от выбранного пакета.
- Фильтр html тегов позволяет очистить контент от исходящих ссылок или других ненужных елементов.
- Можно изменять длину превью текста. Разумное разделение текста между абзацами.
- Возможность добавления копирайта в конец текста статьи
- Встроеный скрипт редиректа ссылок
- Простота установки и настройки
- Хорошее понимание как английского так и русского текста, благодаря наличию встроенных конвертеров кодировок (UTF-8, windows-1251)
- Работа с прокси серверами
- Отправка напарсенного контента на e-mail администратора
- Поддержка WPKeys плагина
Подробнее о возможностях парсера контента »
