Mail.ruПочтаМой МирОдноклассникиВКонтактеИгрыЗнакомстваНовостиКалендарьОблакоЗаметкиВсе проекты

Реально ли, и как по вашему мнению, спарсить всю веб паутину на протоколе https?

Рома Тютин Ученик (247), на голосовании 2 недели назад
Хочу много знаний из инета вывести и на выходе получить генеративную нейронку. С матчастью плохо, но кто хочет, напишите как реализовать парсер большого числа html файлов. Языки подскажите на каких писать.
Голосование за лучший ответ
Валым Заработавич Мастер (1845) 1 месяц назад
можно, но только с моего разрешения
者道 Σnigma Мыслитель (6062) 1 месяц назад
не знаю, идея мне кажется бредовой, пиши на C++
смурфеус Гуру (3438) 1 месяц назад
а какой в этом смысл если можно на нормальном коде всё сделать или у тебя фотонный пентиум
Рома ТютинУченик (247) 1 месяц назад
core i5 4 ядра\8 потоков
смурфеус Гуру (3438) Рома Тютин, удачи тебе нужна мощная видео-карта а не этот кусок хлама что бы повысить скорость обработки данных
Рома ТютинУченик (247) 1 месяц назад
А если взломать https что будет?
смурфеус Гуру (3438) Рома Тютин, что значит взломать, код на серверах а тебе просто выводится в браузере чтоб редактировать веб код нужно сначала взломать сервер который работает на ява или скресткрест или ящерский
Касьян Просветленный (22957) 1 месяц назад
  1. есть промышленный парсер на питоне , называется scrapy.
  2. дальше ищем актуальную базу доменов.
  3. ...
  4. Profit
Andrey Pak Ученик (178) 1 месяц назад
Это возможно, но очень дорого и сложно. К тому же потребуется очень мого специализированных знаний.

Можно ознакомиться со всеми нюансами в статье на хабре: https://habr.com/ru/articles/565564/
0 1 Профи (739) 1 месяц назад
Вы не сможете это сделать, даже при всем желании. Во-первых, нейросеть обучается не на обычных входных данных, как мы - люди, а на огромно дата-сете, на несколько эпох.

Это первое.

Второе, вам вычислительных мощностей не хватит, даже чтобы скормить ей пару тысяч книг нужны огромные и стабильные вычислительные мощности, чего у вас не может быть.
Похожие вопросы