Mail.ruПочтаМой МирОдноклассникиВКонтактеИгрыЗнакомстваНовостиКалендарьОблакоЗаметкиВсе проекты

Парсинг большого колличество страниц с помощью php multicurl

Валентин Кущенко Ученик (120), на голосовании 9 лет назад
С помощью Multi_Curl происходит парсинг миллионов страниц. php скрипт запускает из себя еще по 10 скриптов которые уже парсят, все было нормально, но с некоторого времени load average начал резко подниматься од 5000-6000 и тд, нет доступа к сайту, трудновато работать по SSH, в чем может быть причина, так же netstat выдает до 5000 TIME_WAIT соединений.
Голосование за лучший ответ
Сингулярность Мыслитель (5534) 9 лет назад
мультикурл фигня потому что, забивается канал элементарно, создавай потоки через фреймы и контролируй нагрузку на канал.... например 1 поток один фрейм в одном фрейме идет парсинг, нада 2 потока создавай копию скрипта или пили скрипт и делай его чтоб можно было его множить но учти понадобиться семафор контролирущий потоки... я все это написал теперь я могу создавать столько потоков сколько пожелаю, каждый поток несет в себе нагрузку как на интернет так и на процессор... а мультихерня на такое не способна...
Валентин КущенкоУченик (120) 9 лет назад
переустановил ось, пока по твоему совету не могу пойти! но, в итоге, на убунте теперь каким то образом проц не грузится! но и сетевых соединений ESTABLISHED мало, все time wait, где это ограничение снять? лимит на кол-во файлов убран, точнее поднят, но все равно как то странно все
Сингулярность Мыслитель (5534) Понятия не имею... я же говорю потому и написал свою функцию потому что это хрень неработает... так бы и я ей пользовался...
Похожие вопросы