Mail.ruПочтаМой МирОдноклассникиВКонтактеИгрыЗнакомстваНовостиКалендарьОблакоЗаметкиВсе проекты

Библиотека jsoup не позволяет парсить данные установленные JS, какие библиотеки могут это делать? АтоОна ток html читает

Хаку Ученик (32), на голосовании 1 год назад
Я слышал про Selenium и HtmlUnit, выбрал Selenium, но как я понял, ты не сможешь получать текст с html страниц не запуская сам браузер
Есть ли способ получать текст (который получен из javasctipt) не запуская браузер, или это невозможно?
Сори за тупые вопросы, но мне всего лишь нужно получить переведенный текст из translate google
Голосование за лучший ответ
Татьяна Просветленный (36374) 1 год назад
Существуют библиотеки, которые могут парсить данные, установленные с помощью JavaScript, без необходимости запуска браузера. Одна из таких библиотек - это HtmlUnit. Она позволяет эмулировать браузер и выполнять JavaScript на стороне сервера. Таким образом, вы можете получать текст, который получен из JavaScript, без необходимости запуска браузера.
Другой вариант - это использование API Google Translate. Он позволяет переводить тексты на различные языки, включая русский. Вы можете использовать этот API для получения переведенного текста без необходимости парсить данные с помощью JavaScript.
Некоторые другие библиотеки, которые могут помочь вам при парсинге данных, установленных с помощью JavaScript, включают:
  1. Selenium: Selenium может использоваться для автоматизации браузера и получения данных, установленных с помощью JavaScript. Однако, как вы уже знаете, для этого необходимо запускать браузер.
  2. Splash: Splash - это JavaScript-рендеринговый сервис, который может использоваться для получения данных, установленных с помощью JavaScript. Он может быть использован вместе с библиотекой Scrapy для парсинга веб-страниц.
Андрей Панарин Искусственный Интеллект (249316) 1 год назад
Скрипты работают с разметкой. Лучше всего это делается в браузере.
Selenium всегда запускает браузер для эмуляции страницы.

Некоторые браузеры вроде Chrome и Firefox поддерживают режим headless - когда браузер запускается в фоновом режиме и его окна не видно, но Selenium может делать с ним всё, что нужно.
Похожие вопросы