1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.

Чтение и запись/html->sql

Тема в разделе "Программирование", создана пользователем fadetoblack, 23.04.08.

  1. fadetoblack

    fadetoblack Участник

    118
    0
    есть инет ресурс, нужно считать интересующие заголовки и записать их в БД sql для дальнейшей работы с ними. Мною используется asp.net в связке с SQL 2005. Пока в голову приходит лексический анализатор который будет искать интересующие теги....

    добавлено через 2 часа 53 минуты
    изъять информацию из HTML-документа. Подскажите, как это можно сделать способом отличным от чтения документа как текстового файла и его анализа по тэгам. Может есть какой-нибудь класс и соответствующие метода. Заранее благодарен, особенно за подробный ответ ))
     
  2. хочу_вот_сказать

    хочу_вот_сказать Активный участник

    8.402
    1
    учи pcre :delo:

    // или чётам в эй-ис-пи.

    реализовать -- проще некуда. либо тупо ч-з fopen при allow_open_urls = yes (ну, в похапэ такая директива есть в похапэ ини) или ч-з сокеты получить содержимое странички. потом по нему пройтись регулярками. после чего запихнуть получившийся массивчик в бд посредством примитивного запроса.

    // хотя что есть "разобрать нужные заголовки"? мож надо ещё ссылки выбирать из документа на другие документы этого сайта. тогда два массива, а не один и рекурсия.
     
  3. fadetoblack

    fadetoblack Участник

    118
    0
    хочу_вот_сказатьСпасибо большое
     
  4. The Last Winged

    The Last Winged Активный участник

    11.862
    48
    хочу_вот_сказать, не поможет, задача другого уровня. ак что лексический анализатор тут имхо.

    P.S. а вот тем, кто для bb-тэгов re юзает - наверное надо поотрывать что-то. И дать почитать талмуд об XSS и человеческом факторе.
     
  5. хочу_вот_сказать

    хочу_вот_сказать Активный участник

    8.402
    1
    The Last Winged,
    это смотря как юзать. без reg_exp не мыслю жизни. дёшево и сердито. используется в каждом проекте :)

    неоднократно используется. :)
     
  6. The Last Winged

    The Last Winged Активный участник

    11.862
    48
    хочу_вот_сказать, ну вот и видим. что популярные проекты пестрят XSS. Как следствие.