Самодельный агрегатор новостей

Immunology · 22.03.15

В общем, есть новостные и не только новостные сайты, с которых мне нужно собирать новости по паре-тройке ключевых слов. Пока что ничего лучше, чем делать запрос в гугл вида keyword1 OR keyword2 site:www.news.com и сортировать результат по дате мне не пришло (ну или делать то же самое, но на самом сайте, если там нормальный поисковик - чаще всего, так и есть) . Осложняется проблема тем, что не на всех сайтах есть возможность подписки на новости и тем более по интересующей тематике. Поскольку сейчас уже набралось десяток таких сайтов, вручную производить поиск достаточно затратно. К тому же в идеальном случае хотелось бы автоматическую рассылку на мой e-mail. Может, кто-нибудь за скромное вознаграждение сможет написать скрипт для сайта или как-то еще решить проблему?

Immunology · 23.03.15

ЩИТО, вообще никто?

alexaudio60 · 23.03.15

Immunology, Тут народ попроще.
Я в том числе.

Immunology · 23.03.15

alexaudio60, попроще - в смысле это неподъемная задача для местных программистов? На мой профанский взгляд, там должно быть всего несколько строчек кода. Видимо, я совсем ничего не понимаю...

alexaudio60 · 23.03.15

Не поедет эта тема на ВФ.
Потомушто люди тут душевные.

Hermes · 23.03.15

RSS агрегатор спасет отца русской демократии.

Immunology · 23.03.15

Hermes, я ж указал, что не на всех сайтах есть эта возможность

panda-34 · 23.03.15

Попробуйте сервис Page2RSS. С его помощью можно отслеживать обновления страниц. Google Alerts опять-таки. Если же нужно делать качественный дайджест информации с сайта со сложной структурой, на такой скрипт уйдет часа 3 минимум на каждый сайт. Малейшее изменение дизайна сайта и его придется переделывать

Immunology · 24.03.15

panda-34, да, посмотрел, не подходит. Пока что я остановился на Google News - custom sections, правда это не совсем то, что мне хотелось бы. Он не отлавливает новости с тех сайтов, которые мне в первую очередь нужны.

Hermes · 24.03.15

Immunology сказал(а): ↑

я ж указал, что не на всех сайтах есть эта возможность
Нажмите, чтобы раскрыть...

Где? Не нашел в вашем первом сообщении упоминания RSS. Под "подпиской" обычно имеют в виду e-mail рассылку.

Immunology, вы бы хоть ссылки на сайты дали, которые вас интересуют. Парсить страницы дело неблагодарное и, зачастую, затратное.

Immunology · 24.03.15

Hermes сказал(а): ↑

Где? Не нашел в вашем первом сообщении упоминания RSS. Под "подпиской" обычно имеют в виду e-mail рассылку.
Нажмите, чтобы раскрыть...

Да, виноват, действительно.
Вот список, который имеется на сегодняшний момент:
http://www.scientificamerican.com/
http://www.nhs.uk/
http://scienceblogs.com/
nih.gov
http://www.telegraph.co.uk/
http://www.independent.co.uk/
http://www.bbc.co.uk/
http://www.newscientist.com/
nytimes.com

Immunology · 25.03.15

Ёпта пацаны походу нереальная задача

Hermes · 25.03.15

Immunology сказал(а): ↑

Ёпта пацаны походу нереальная задача
Нажмите, чтобы раскрыть...

Продолжим тянуть кота за овалы
Огласите ваш бюджет.

Дмитрий Н · 25.03.15

Immunology сказал(а): ↑

Вот список, который имеется на сегодняшний момент: http://www.scientificamerican.com/ http://www.nhs.uk/ http://scienceblogs.com/ nih.gov http://www.telegraph.co.uk/ http://www.independent.co.uk/ http://www.bbc.co.uk/ http://www.newscientist.com/ nytimes.com
Нажмите, чтобы раскрыть...

Для данных сайтов в худшем случае придётся парсеры писать и не на пару строчек кода, т.к. может стоять защита от парсинга, желающих ведь много на такой контент. Да и геморой с отладкой под каждый ресурс => времени уйдёт уйма, поэтому ни кто и не бросается с энтузиазмом на амбразуру

Immunology · 25.03.15

Hermes, я когда в магазин прихожу, свою цену не называю. Вас интересует моя зарплата?

---------- Сообщение добавлено 25.03.2015 22:39 ----------

Дмитрий Н, спасибо за вразумительный ответ. Буду рассматривать иные варианты

g100m · 20.04.15

Immunology сказал(а): ↑

Да, виноват, действительно.
Вот список, который имеется на сегодняшний момент:
http://www.scientificamerican.com/
http://www.nhs.uk/
http://scienceblogs.com/
nih.gov
http://www.telegraph.co.uk/
http://www.independent.co.uk/
http://www.bbc.co.uk/
http://www.newscientist.com/
nytimes.com
Нажмите, чтобы раскрыть...

Чтобы иметь открытый список источников и не зависеть от программистов вам нужен, например Portia, фронт для Scrapy

Можете развернуть сами, можете привлечь разработчика

Найти программиста можно тут: https://www.odesk.com/o/profiles/browse/?q=python
Отбирайте или devops с низким рейтом или unix, но с высоким - он вам и развернёт дроплет на digitalocean и объяснит как пользоваться этим добром

hasslich · 17.05.17

Апну тему.

Мне не понятно как быть с плагиатом? Как отреагирует гугл с яшкой на копипаст новостей?

Вход / Регистрация

Самодельный агрегатор новостей

Immunology Активный участник

Immunology Активный участник

alexaudio60 Активный участник

Immunology Активный участник

alexaudio60 Активный участник

Hermes Активный участник

Immunology Активный участник

panda-34 Активный участник

Immunology Активный участник

Hermes Активный участник

Immunology Активный участник

Immunology Активный участник

Hermes Активный участник

Дмитрий Н Активный участник

Immunology Активный участник

g100m Участник

hasslich Активный участник

Вход / Регистрация

Волгоградский форум

Пользователи

Самодельный агрегатор новостей

Immunology Активный участник

Immunology Активный участник

alexaudio60 Активный участник

Immunology Активный участник

alexaudio60 Активный участник

Hermes Активный участник

Immunology Активный участник

panda-34 Активный участник

Immunology Активный участник

Hermes Активный участник

Immunology Активный участник

Immunology Активный участник

Hermes Активный участник

Дмитрий Н Активный участник

Immunology Активный участник

g100m Участник

hasslich Активный участник