В html файле картинки не хранятся. Там есть ссылки на них в виде < img src= адрес картинки . Вот по адресу и нужно вытаскивать. А текст - простым копированием, убирая или трансформируя теги форматирующие текст и скрипты. Если речь идет об иконке сайта, то она тоже не хранится в файлах html, а берется из специального файла с расширением .ico
