автоматическое форматирование текста нужно вот что - в тырнете очень часто текст встречается в виде узких столбцов (пример - http://build.rin.ru/articles/830.html), или, скажем, после распознавания сканированного текста который тоже по столбцам, нужно отформатировать его в нормальный по ширине страницы... конечно можно долго жать delete - space, но должен же быть другой способ!
Оно конечно delete-space самый просто, но самы долгий способ. Как старый плагиатор могу предположить что Ctrl-C & Ctrl-V будет значительно быстрее, что при работе с html страницами, что при работе с распознанным текстом. При этом html дучше открывать редактором, который не понимает разметки, а выдает все как есть с тегами. Но при этом самому желательно в тегах ориентироваться. При распозновании... на мой взгляд вариант копировать-вставить один из самых оптимальных.
Лично мне довольно редко приходится делать такие вещи (в основном по отношению к скачанным с lib.ru книжкам). Сам ненавижу такое форматирование - пережиток печатных машинок Но для эпизодического перевода вполне можно обойтись Вордом. Суть такая: Загружаю текст в Ворд. Как правило, имеются следующие отличия: 1) каждая красная строка отбивается 5 пробелами 2) любая строка заканчивается символом конца абзаца и 3) иногда для выравнивания строки между словами добавляется более 1 пробела. Что делать... Нужно лишь несколько раз нажать Ctrl+H (Правка->Найти-заменить) 1. Заменяем пять пробелов на какой нибудь символ, нигде не встречающийся в тексте, например на @ $ # & или что-то в этом духе. 2. Теперь можно заменить символ разрыва абзаца (^p или нажать в поиске-замене кнопку "Больше", а там "Специальный" и выбрать из списка) на пробел. 3. Убрать лишние пробелы: пустое пространство (^w) заменить на простой пробел. 4. Заменить @ $ # или & из первого пункта на символ разрыва абзаца. Вот и всё. DirectX добавил [date]1114599695[/date]: P.S. Да, а в приведённом примере какие сложности? По-моему там всё нормально. Единственное, что - нужно различать разрыв строки (как в этом случае) и разрыв абзаца. Иначе при выравнивании по ширине результаты будут плачевны. В HTML часто используется тэг <BR> - он соответствует тому, чтобы в Ворде нажать Alt+Enter, а тег <P> - аналогичен Enter. Если разница не улавливается, советую попрактиковаться, особенно при включённом выравнивании в Ворде. После практики: Ctrl+V в Ворд. После этого Ctrl+H ^l^l (два подряд идущих разрыва строки) заменить на ^p (знак абзаца) и наступит щастье Конкретно упомянутый текст таким способом приводится в божеский вид за 7 секунд.
В Ворде пишем макрос, потом "лёгким движением руки брюки превращаются, превращаются брюки ... в элегантные шорты".
Ну, какой бы текст не был просто нужно прикинуть какая комбинация замен приведёт к успеху. Нужно выискивать отличительные черты и за них цепляться. Это самый общий совет. Если всё совсем плохо, а текста много, то можно попробовать найти редактор, поддерживающий регулярные выражения (в Яндексе по словам Regualr Expressions или RegEx) - думаю такие есть (сам когда-то писал на .NET на тамошнем движке) - мощнейшая вещь по поиску и замене в самых извращённых случаях.
a-res Есть такой редактор текстовый бесплатный, Hieroglyph называется. Взять можно тут. Переформатирует все очень грамотно автоматически, работает с кодировками и транслитом. Сказка просто.
вот нарыл неплохую прогу.. называется AfterScan Lite - обрабатывает сканированный текст, удаляет мусор и даже (!) может править слова (правда далеко не все)...сейчас напишу о ней в теме про мелкие программки
Народ, вы чего?! Все же намного проще - сохранить в текстовик и открыть в ворде как "форматированный текст" или "текст ms-dos с форматированием". P.S. Естественно, нужно сначала поставить этот фильтр