В общем, есть новостные и не только новостные сайты, с которых мне нужно собирать новости по паре-тройке ключевых слов. Пока что ничего лучше, чем делать запрос в гугл вида keyword1 OR keyword2 site:www.news.com и сортировать результат по дате мне не пришло (ну или делать то же самое, но на самом сайте, если там нормальный поисковик - чаще всего, так и есть) . Осложняется проблема тем, что не на всех сайтах есть возможность подписки на новости и тем более по интересующей тематике. Поскольку сейчас уже набралось десяток таких сайтов, вручную производить поиск достаточно затратно. К тому же в идеальном случае хотелось бы автоматическую рассылку на мой e-mail. Может, кто-нибудь за скромное вознаграждение сможет написать скрипт для сайта или как-то еще решить проблему?
alexaudio60, попроще - в смысле это неподъемная задача для местных программистов? На мой профанский взгляд, там должно быть всего несколько строчек кода. Видимо, я совсем ничего не понимаю...
Попробуйте сервис Page2RSS. С его помощью можно отслеживать обновления страниц. Google Alerts опять-таки. Если же нужно делать качественный дайджест информации с сайта со сложной структурой, на такой скрипт уйдет часа 3 минимум на каждый сайт. Малейшее изменение дизайна сайта и его придется переделывать
panda-34, да, посмотрел, не подходит. Пока что я остановился на Google News - custom sections, правда это не совсем то, что мне хотелось бы. Он не отлавливает новости с тех сайтов, которые мне в первую очередь нужны.
Где? Не нашел в вашем первом сообщении упоминания RSS. Под "подпиской" обычно имеют в виду e-mail рассылку. Immunology, вы бы хоть ссылки на сайты дали, которые вас интересуют. Парсить страницы дело неблагодарное и, зачастую, затратное.
Да, виноват, действительно. Вот список, который имеется на сегодняшний момент: http://www.scientificamerican.com/ http://www.nhs.uk/ http://scienceblogs.com/ nih.gov http://www.telegraph.co.uk/ http://www.independent.co.uk/ http://www.bbc.co.uk/ http://www.newscientist.com/ nytimes.com
Для данных сайтов в худшем случае придётся парсеры писать и не на пару строчек кода, т.к. может стоять защита от парсинга, желающих ведь много на такой контент. Да и геморой с отладкой под каждый ресурс => времени уйдёт уйма, поэтому ни кто и не бросается с энтузиазмом на амбразуру
Hermes, я когда в магазин прихожу, свою цену не называю. Вас интересует моя зарплата? ---------- Сообщение добавлено 25.03.2015 22:39 ---------- Дмитрий Н, спасибо за вразумительный ответ. Буду рассматривать иные варианты
Чтобы иметь открытый список источников и не зависеть от программистов вам нужен, например Portia, фронт для Scrapy Можете развернуть сами, можете привлечь разработчика Найти программиста можно тут: https://www.odesk.com/o/profiles/browse/?q=python Отбирайте или devops с низким рейтом или unix, но с высоким - он вам и развернёт дроплет на digitalocean и объяснит как пользоваться этим добром