Самодельный агрегатор новостей

Тема в разделе "Программирование", создана пользователем Immunology, 22.03.15.

  1. Immunology

    Immunology Активный участник

    911
    3
    В общем, есть новостные и не только новостные сайты, с которых мне нужно собирать новости по паре-тройке ключевых слов. Пока что ничего лучше, чем делать запрос в гугл вида keyword1 OR keyword2 site:www.news.com и сортировать результат по дате мне не пришло (ну или делать то же самое, но на самом сайте, если там нормальный поисковик - чаще всего, так и есть) . Осложняется проблема тем, что не на всех сайтах есть возможность подписки на новости и тем более по интересующей тематике. Поскольку сейчас уже набралось десяток таких сайтов, вручную производить поиск достаточно затратно. К тому же в идеальном случае хотелось бы автоматическую рассылку на мой e-mail. Может, кто-нибудь за скромное вознаграждение сможет написать скрипт для сайта или как-то еще решить проблему?
     
  2. Immunology

    Immunology Активный участник

    911
    3
    ЩИТО, вообще никто?
     
  3. alexaudio60

    alexaudio60 Активный участник

    23.638
    3.010
    Immunology, Тут народ попроще.
    Я в том числе.
     
  4. Immunology

    Immunology Активный участник

    911
    3
    alexaudio60, попроще - в смысле это неподъемная задача для местных программистов? На мой профанский взгляд, там должно быть всего несколько строчек кода. Видимо, я совсем ничего не понимаю...
     
  5. alexaudio60

    alexaudio60 Активный участник

    23.638
    3.010
    Не поедет эта тема на ВФ.
    Потомушто люди тут душевные.
     
  6. Hermes

    Hermes Активный участник

    11.609
    2
    RSS агрегатор спасет отца русской демократии.
     
  7. Immunology

    Immunology Активный участник

    911
    3
    Hermes, я ж указал, что не на всех сайтах есть эта возможность
     
  8. panda-34

    panda-34 Активный участник

    1.589
    2
    Попробуйте сервис Page2RSS. С его помощью можно отслеживать обновления страниц. Google Alerts опять-таки. Если же нужно делать качественный дайджест информации с сайта со сложной структурой, на такой скрипт уйдет часа 3 минимум на каждый сайт. Малейшее изменение дизайна сайта и его придется переделывать
     
  9. Immunology

    Immunology Активный участник

    911
    3
    panda-34, да, посмотрел, не подходит. Пока что я остановился на Google News - custom sections, правда это не совсем то, что мне хотелось бы. Он не отлавливает новости с тех сайтов, которые мне в первую очередь нужны.
     
  10. Hermes

    Hermes Активный участник

    11.609
    2
    Где? Не нашел в вашем первом сообщении упоминания RSS. Под "подпиской" обычно имеют в виду e-mail рассылку.

    Immunology, вы бы хоть ссылки на сайты дали, которые вас интересуют. Парсить страницы дело неблагодарное и, зачастую, затратное.
     
  11. Immunology

    Immunology Активный участник

    911
    3
    Да, виноват, действительно.
    Вот список, который имеется на сегодняшний момент:
    http://www.scientificamerican.com/
    http://www.nhs.uk/
    http://scienceblogs.com/
    nih.gov
    http://www.telegraph.co.uk/
    http://www.independent.co.uk/
    http://www.bbc.co.uk/
    http://www.newscientist.com/
    nytimes.com
     
  12. Immunology

    Immunology Активный участник

    911
    3
    Ёпта пацаны походу нереальная задача
     
  13. Hermes

    Hermes Активный участник

    11.609
    2
    Продолжим тянуть кота за овалы :d
    Огласите ваш бюджет.
     
  14. Дмитрий Н

    Дмитрий Н Активный участник

    2.204
    430
    Для данных сайтов в худшем случае придётся парсеры писать и не на пару строчек кода, т.к. может стоять защита от парсинга, желающих ведь много на такой контент. Да и геморой с отладкой под каждый ресурс => времени уйдёт уйма, поэтому ни кто и не бросается с энтузиазмом на амбразуру :)
     
  15. Immunology

    Immunology Активный участник

    911
    3
    Hermes, я когда в магазин прихожу, свою цену не называю. Вас интересует моя зарплата?

    ---------- Сообщение добавлено 25.03.2015 22:39 ----------

    Дмитрий Н, спасибо за вразумительный ответ. Буду рассматривать иные варианты
     
  16. g100m

    g100m Участник

    462
    19
    Чтобы иметь открытый список источников и не зависеть от программистов вам нужен, например Portia, фронт для Scrapy

    Можете развернуть сами, можете привлечь разработчика

    Найти программиста можно тут: https://www.odesk.com/o/profiles/browse/?q=python
    Отбирайте или devops с низким рейтом или unix, но с высоким - он вам и развернёт дроплет на digitalocean и объяснит как пользоваться этим добром
     
  17. hasslich

    hasslich Активный участник

    24.025
    2.178
    Апну тему.

    Мне не понятно как быть с плагиатом? Как отреагирует гугл с яшкой на копипаст новостей?
     
GigaByte H610M K DDR4 2.0 | конструктор стул | Интегрируй приложения вместе с Альбато: интеграция Microsoft Office 365 - синхронизация за 5 минут! | кт с брекетами | Обеденная группа плетеная 4sis Латте-140 R