1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.

Парсер html

Тема в разделе "Программирование", создана пользователем fadetoblack, 24.04.08.

  1. fadetoblack

    fadetoblack Участник

    118
    0
    Столкнулся с проблемой разбора хтмл и извлечения нужной мне информации:
    1. написать движок, "нормализующий" html
    2. парсить его как xml
    все это геморр нездоровый.
    Вот пример парсера
    [​IMG]
    взятый от сюда http://blogs.gotdotnet.ru/personal/poigraem/PermaLink.aspx?guid=d0fd3f90-d3e4-4940-a62b-4fcfc172b85e
    есть ли еще способы разбора хтмл?
     

    Вложения:

    • 1.jpg
      1.jpg
      Размер файла:
      103,2 КБ
      Просмотров:
      755
  2. Гость

    Гость Гость



    jtidy - лучше ничего нет. сторит сразу объектную модель документа
     
  3. Philosoph

    Philosoph Участник

    194
    0
    Если для Delphi, то я использовала модуль Delphi HTMLParser:
    http://www.tiaon.com/wordpress/delphi-htmlparser/
    Парсит на ура, без всяких лишних танцев с бубном.
    Есть и другие варианты, ищи в инете.
    "Программист, помни: всё уже написано до нас!"

    Желаю удачи!
     
  4. The Last Winged

    The Last Winged Активный участник

    12.552
    375
    имхо практически никак.
    Хотя xhtml - проще некуда.
     
  5. vchesnokov

    vchesnokov Гость

    Можно взять по URL его HTML код и использовать для его анализа регулярные выражения (regular expressions).
    Для примера можно глянуть http://www.regular-expressions.info/dotnetexample.html
     
  6. fadetoblack

    fadetoblack Участник

    118
    0
    А чем регулярные выражения отличаются от парсинга?:)
     
  7. The Last Winged

    The Last Winged Активный участник

    12.552
    375
    fadetoblack, А чем задница отличается от туловища?
     
  8. Гость

    Гость Гость


    не флуди, напиши по сути вопросаЮ если можешь!!!!:writer:
     
  9. The Last Winged

    The Last Winged Активный участник

    12.552
    375
    Я написал уже. Выше.
    Человек спрашивает, чем отличается [часть предмета] от [этого же предмета, но всего]. И я лишь привел аналогию.
     
  10. Hermes

    Hermes Активный участник

    11.635
    2
    Вы абсолютно правы. Если бы весь хтмл проходил валидатор, то проблем бы не было. А т.к. хтмл допускает написание документа как бог на душу положит без соблюдения стандартов, то рано или поздно возникает ситуция, когда парсер загибается.