1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.

Автоматическое форматирование текста

Тема в разделе "Софт", создана пользователем a-res, 27.04.05.

  1. a-res

    a-res Генератор

    21.349
    0
    автоматическое форматирование текста

    нужно вот что - в тырнете очень часто текст встречается в виде узких столбцов (пример - http://build.rin.ru/articles/830.html), или, скажем, после распознавания сканированного текста который тоже по столбцам, нужно отформатировать его в нормальный по ширине страницы... конечно можно долго жать delete - space, но должен же быть другой способ!
     
  2. Евлампий

    Евлампий Наборщик

    7.762
    0
    a-res
    Загони его в html. Тогда даже абзацы исчезнут. Будет один сплошной ТЕКСТ.
     
  3. Tiamat

    Tiamat Активный участник

    1.161
    0
    Оно конечно delete-space самый просто, но самы долгий способ. Как старый плагиатор могу предположить что Ctrl-C & Ctrl-V будет значительно быстрее, что при работе с html страницами, что при работе с распознанным текстом.
    При этом html дучше открывать редактором, который не понимает разметки, а выдает все как есть с тегами. Но при этом самому желательно в тегах ориентироваться.
    При распозновании... на мой взгляд вариант копировать-вставить один из самых оптимальных.
     
  4. DirectX

    DirectX Активный участник

    1.873
    0
    Лично мне довольно редко приходится делать такие вещи (в основном по отношению к скачанным с lib.ru книжкам). Сам ненавижу такое форматирование - пережиток печатных машинок :( Но для эпизодического перевода вполне можно обойтись Вордом. Суть такая:

    Загружаю текст в Ворд. Как правило, имеются следующие отличия: 1) каждая красная строка отбивается 5 пробелами 2) любая строка заканчивается символом конца абзаца и 3) иногда для выравнивания строки между словами добавляется более 1 пробела. Что делать...

    Нужно лишь несколько раз нажать Ctrl+H (Правка->Найти-заменить)

    1. Заменяем пять пробелов на какой нибудь символ, нигде не встречающийся в тексте, например на @ $ # & или что-то в этом духе.
    2. Теперь можно заменить символ разрыва абзаца (^p или нажать в поиске-замене кнопку "Больше", а там "Специальный" и выбрать из списка) на пробел.
    3. Убрать лишние пробелы: пустое пространство (^w) заменить на простой пробел.
    4. Заменить @ $ # или & из первого пункта на символ разрыва абзаца.

    Вот и всё.

    DirectX добавил [date]1114599695[/date]:
    P.S. Да, а в приведённом примере какие сложности? По-моему там всё нормально. Единственное, что - нужно различать разрыв строки (как в этом случае) и разрыв абзаца. Иначе при выравнивании по ширине результаты будут плачевны. В HTML часто используется тэг <BR> - он соответствует тому, чтобы в Ворде нажать Alt+Enter, а тег <P> - аналогичен Enter. Если разница не улавливается, советую попрактиковаться, особенно при включённом выравнивании в Ворде.

    После практики: Ctrl+V в Ворд. После этого Ctrl+H ^l^l (два подряд идущих разрыва строки) заменить на ^p (знак абзаца) и наступит щастье ;)

    Конкретно упомянутый текст таким способом приводится в божеский вид за 7 секунд.
     
  5. Bob

    Bob Активный

    21.804
    0
    В Ворде пишем макрос, потом "лёгким движением руки брюки превращаются, превращаются брюки ... в элегантные шорты".
     
  6. a-res

    a-res Генератор

    21.349
    0
    DirectX да, конкретно в этом тексте при копировании всё нормально, просто как пример привёл
     
  7. DirectX

    DirectX Активный участник

    1.873
    0
    Ну, какой бы текст не был просто нужно прикинуть какая комбинация замен приведёт к успеху. Нужно выискивать отличительные черты и за них цепляться. Это самый общий совет. Если всё совсем плохо, а текста много, то можно попробовать найти редактор, поддерживающий регулярные выражения (в Яндексе по словам Regualr Expressions или RegEx) - думаю такие есть (сам когда-то писал на .NET на тамошнем движке) - мощнейшая вещь по поиску и замене в самых извращённых случаях.
     
  8. ZLblDEN

    ZLblDEN Новичок

    63
    0
    Есть макрос который это все лечит, устанавливается в Word. Если надо пиши в асю. Пришлю
     
  9. Hermes

    Hermes Активный участник

    11.670
    1
    a-res
    Есть такой редактор текстовый бесплатный, Hieroglyph называется. Взять можно тут. Переформатирует все очень грамотно автоматически, работает с кодировками и транслитом. Сказка просто.
     
  10. Tiamat

    Tiamat Активный участник

    1.161
    0
    Hermes
    Программа интересная, судя по описанию, но вот линки там мертвые сегодня. Жаль....
     
  11. Hermes

    Hermes Активный участник

    11.670
    1
    Tiamat
    Поищи в яндексе, он где только не валяется.
     
  12. a-res

    a-res Генератор

    21.349
    0
    Hermes спасиба, гляну
     
  13. a-res

    a-res Генератор

    21.349
    0
    вот нарыл неплохую прогу.. называется AfterScan Lite - обрабатывает сканированный текст, удаляет мусор и даже (!) может править слова (правда далеко не все)...сейчас напишу о ней в теме про мелкие программки :)
     
  14. Demon

    Demon Демовой

    9.145
    0
    a-res
    Ты бы лУчше ссылку дал... :secret:
     
  15. a-res

    a-res Генератор

    21.349
    0
    Demon блин, нашёл на старом диске - так что ссылки нету, добро пожаловать в гугл
     
  16. Kuzmich

    Kuzmich Активный участник

    1.118
    0
    Народ, вы чего?! Все же намного проще - сохранить в текстовик и открыть в ворде как "форматированный текст" или "текст ms-dos с форматированием".
    P.S. Естественно, нужно сначала поставить этот фильтр ;)