Data parsing in Python

Question

import requests&#10;from bs4 import BeautifulSoup&#10;from openpyxl import Workbook&#10;from nltk.tokenize import word_tokenize&#10;from nltk.stem import WordNetLemmatizer&#10;from sklearn.feature_extraction.text import TfidfVectorizer&#10;from sklearn.cluster import KMeans&#10;import pandas as pd&#10;&#10;# Загрузка лемматизатора&#10;import nltk&#10;nltk.download('punkt')&#10;nltk.download('wordnet')&#10;lemmatizer = WordNetLemmatizer()&#10;&#10;# Функция для предобработки текста&#10;def preprocess_text(text):&#10;    return ' '.join([lemmatizer.lemmatize(word.lower()) for word in word_tokenize(text) if len(word) > 2 and word.isalnum()])&#10;&#10;# URL страниц с вакансиями&#10;urls = [&#10;    "https://nn.hh.ru/vacancy/91993250?query=Bi+аналитик&hhtmFrom=vacancy_search_list",&#10;    "https://nn.hh.ru/vacancy/94508889?query=bi-анализ&hhtmFrom=vacancy_search_list"&#10;]&#10;&#10;data = []&#10;&#10;# Отправляем GET-запросы с указанием заголовков User-Agent&#10;headers = {&#10;    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'&#10;}&#10;&#10;for url in urls:&#10;    response = requests.get(url, headers=headers)&#10;    if response.status_code == 200:&#10;        soup = BeautifulSoup(response.text, 'html.parser')&#10;        vacancy_title = soup.find('h1', {'data-qa': 'vacancy-title'}).text.strip()&#10;        vacancy_description = soup.find('div', {'class': 'vacancy-description'}).text.strip()&#10;        vacancy_requirements = soup.find('div', {'data-qa': 'vacancy-description'}).text.strip()&#10;&#10;        # Предобработка текста&#10;        vacancy_description = preprocess_text(vacancy_description)&#10;        vacancy_requirements = preprocess_text(vacancy_requirements)&#10;&#10;        data.append([vacancy_title, vacancy_description, vacancy_requirements])&#10;&#10;# Построение и отбор признаков&#10;preprocessed_texts = [item[2] for item in data if item[2]]&#10;vectorizer = TfidfVectorizer()&#10;if preprocessed_texts:&#10;    X = vectorizer.fit_transform(preprocessed_texts)&#10;&#10;    # Кластеризация навыков&#10;    kmeans = KMeans(n_clusters=2, random_state=0)  # Изменено количество кластеров на 2&#10;    clusters = kmeans.fit_predict(X)&#10;&#10;    # Добавляем информацию о кластерах в данные&#10;    for idx, item in enumerate(data):&#10;        if item[2]:&#10;            item.append(clusters[idx])&#10;&#10;    # Сохраняем данные в DataFrame&#10;    df = pd.DataFrame(data, columns=['Vacancy Title', 'Description', 'Requirements', 'Cluster'])&#10;&#10;    # Сохраняем результаты в файл Excel&#10;    df.to_excel('C:\User\User\Document\vacancieees_data.xlsx', index=False)&#10;    print("Данные сохранены в файл vacancies_data.xlsx")&#10;

roman_danilov_75 · Accepted Answer

Вот что бывает, когда для такой задачи вместо perl5 используется python3.

lywshk_ntywfyf · Answer

всё просто и понятно

terr_ontal · Answer

Все понятно