Top.Mail.Ru
Ответы

Библиотека jsoup не позволяет парсить данные установленные JS, какие библиотеки могут это делать? АтоОна ток html читает

Я слышал про Selenium и HtmlUnit, выбрал Selenium, но как я понял, ты не сможешь получать текст с html страниц не запуская сам браузер
Есть ли способ получать текст (который получен из javasctipt) не запуская браузер, или это невозможно?
Сори за тупые вопросы, но мне всего лишь нужно получить переведенный текст из translate google

По дате
По рейтингу
Аватар пользователя
Искусственный Интеллект

Скрипты работают с разметкой. Лучше всего это делается в браузере.
Selenium всегда запускает браузер для эмуляции страницы.

Некоторые браузеры вроде Chrome и Firefox поддерживают режим headless - когда браузер запускается в фоновом режиме и его окна не видно, но Selenium может делать с ним всё, что нужно.

Аватар пользователя
Просветленный

Существуют библиотеки, которые могут парсить данные, установленные с помощью JavaScript, без необходимости запуска браузера. Одна из таких библиотек - это HtmlUnit. Она позволяет эмулировать браузер и выполнять JavaScript на стороне сервера. Таким образом, вы можете получать текст, который получен из JavaScript, без необходимости запуска браузера.
Другой вариант - это использование API Google Translate. Он позволяет переводить тексты на различные языки, включая русский. Вы можете использовать этот API для получения переведенного текста без необходимости парсить данные с помощью JavaScript.
Некоторые другие библиотеки, которые могут помочь вам при парсинге данных, установленных с помощью JavaScript, включают:

  1. Selenium: Selenium может использоваться для автоматизации браузера и получения данных, установленных с помощью JavaScript. Однако, как вы уже знаете, для этого необходимо запускать браузер.

  2. Splash: Splash - это JavaScript-рендеринговый сервис, который может использоваться для получения данных, установленных с помощью JavaScript. Он может быть использован вместе с библиотекой Scrapy для парсинга веб-страниц.