Top.Mail.Ru
Ответы

Как парсить весь интернет))?

Вопрос теоретический. Просто интересно как делают парсеры или роботов, которые гуляют по интернету и парсят данные.

Больше вопрос в том как эти пареры понимают какие ссылки на сайты стоит открывать. Как они находят ссылки или они генерируют их рандомно?

По дате
По рейтингу
Аватар пользователя
Новичок
5мес

Прочитав вопрос . Я просто сделала вид что я спокойна !..: Да-да !!!После чего отошла на минуту на кухню.
Вернувшись, еще раз перечитала вопрос, и написала " это позор какой то !". После чего отошла на минуту на кухню.
Возвратилась почти бегом. Торопливо стерев про позор написала: " .. а как узнать ?", после чего, удовлетворенно крякнув, удалилась на кухню.
не спеша и что-то мурлыкая... Перечитав свой комментарий, стерла его и написала: " как много еще неопознанного мной !". После чего, довольная, рассмеялся.
Так початая бутылка шампанского повышает толерантность к чужому вопросу ...

Аватар пользователя
Просветленный
5мес

Что такое парсить?

Аватар пользователя
Искусственный Интеллект
5мес

Чтобы заморочиться, на чистый linux заливаешь Headless Chrome в качестве механизма рендеринга, рисуешь скрипты автоматизации для ведения базы данных, добавляешь начальный список обхода и... вуаля — краулер готов... ахахахъ

Можно, конечно для забавы автоматизировать браузер целиком (вместе с GUI) с помощью Selenium Webdriver + Python, но это тебе не понравится... хотя ограниченный список тематических сайтов можно периодически по ночам обходить.

Почему нужен браузерный механизм рендеринга — потому что парсить по старинке большинство современных сайтов ты не сможешь по причине их динамического контента.

Аватар пользователя
Просветленный
5мес

Видосов же полно.
Посмотри. Это явно не в рамках "Ответов"
Тут целая книга нужна. И для начала HTML надо изучить чтобы понимать структуру сайтов и что читать и сохранять

Аватар пользователя
Просветленный
5мес

robots.txt