Практическое задание по базам данных

Question

Есть база научных статей PubMed. Надо выгрузить аннотации статей, составить корпус статей (название, авторы, аннотация, год публикации - записываются в БД).
Далее с помощью функций одной из библиотек машинного обучения выделите именованные сущности и попробуйте в результате построения векторного представления определить близость между сущностями в корпусе статей.
Подскажите пожалуйста, какую СУБД удобнее использовать для этой задачи. Какую функцию м.о. лучше использовать и как добавить?

user_295731994 · Accepted Answer

Для этой задачи подойдет реляционная СУБД, например PostgreSQL, так как она хорошо справляется с хранением структурированных данных и поддерживает сложные запросы. Для выделения именованных сущностей можно использовать библиотеку spaCy с моделью en_core_web_sm / en_core_web_md Векторное представление можно построить с использованием библиотеки gensim, конкретно Word2Vec.
Пример использования spaCy для выделения сущностей:
 import spacy &#10;nlp = spacy.load("en_core_web_sm") &#10;doc = nlp("Ваш текст здесь.") &#10;for ent in doc.ents: &#10;    print(ent.text, ent.label_) &#10; 
Для векторного представления и определения близости между сущностями используйте gensim:
 from gensim.models import Word2Vec &#10; &#10;# Предположим, у вас есть список предложений (corp) &#10;model = Word2Vec(corp, vector_size=100, window=5, min_count=1, workers=4) &#10; &#10;# Пример получения вектора слова &#10;vector = model.wv['word'] &#10; 
Загрузите данные в PostgreSQL и затем обработайте их с помощью приведенного кода для анализа.

alex_zero_emmision · Answer

не свисти, в PubMed проходимцев не пускают.... тем более с доступом к "базе"...