Приветствую, снова.
Появилась тут проблема. Есть у меня html-файл. Мне нужно получить некоторое количество файлов в windows-кодировке, которые содержат в себе фрагменты html-файла, т.е. кое-какую инфу и без тэгов, и в определенном формате.
Так вот. Посоветуйте инструмент для реализации под unix. Какие-нибудь текстовые анализаторы, конверторы, и т.д. Вообщем, куда копать.
P.S. Заранее всех благодарю
[snapback]7212[/snapback]
Основные инструменты sed, perl.
В книге Perl Cookbook (Перл. Сборник рецептов). Во втором издании рецепт 20.6 "Удаление тегов HTML" посвящен этому вопросу и 20.5 Преобразование HTML в ASCII.
Нужно установить модуль HTML::FormatText.
use HTML::FormatText 2;
$plain_text = HTML::FormatText->format_string($html_text);
Для простейшего html кода работает такая конструкция
($plain_text = $html_text) =~ s/<[^>]*//gs;
Если установлен lynx, то можно делать так
lynx -dump filename.html > filename.txt
ну и полученный текстовый файл "уродовать" в соответствии со своими целями.