Этот скрипт собирает вакансии с сайта HH.ru по ключевым запросам (например, "DataScience", "ML Engineer"), извлекает из них технические навыки, и строит столбчатую диаграмму самых популярных навыков.
- Использует API HH.ru для получения вакансий.
- Фильтрация по whitelist навыков.
- Поддержка сохранения прогресса — если скрипт прервётся, при перезапуске он продолжит с места остановки.
- Построение графика с помощью
matplotlibиseaborn. - Сохранение графика в формате PNG и CSV-файл с полным списком навыков для анализа.
-
Клонируйте репозиторий:
git clone https://github.com/valeksan/hh-skills-parser.git cd hh-skills-parser -
Создайте виртуальное окружение и активируйте его:
python -m venv .venv source .venv/bin/activate # Linux/Mac # или .venv\Scripts\activate # Windows
-
Установите зависимости:
pip install -r requirements.txt
queries.txt— список ключевых запросов для поиска вакансий.skills_whitelist.txt— список навыков для анализа.progress.json— файл прогресса (создаётся автоматически!).
Запустите скрипт:
python parse_skills.pyРезультат будет сохранён в файл hh_skills_bar_chart.png.
Можно добавить свои навыки в skills_whitelist.txt.
Список поисковых запросов (по одному на строку). Строки, начинающиеся с #, игнорируются. Пример:
# Вакансии Data Science
Data Scientist
Machine Learning
ML EngineerСписок навыков для анализа (по одному на строку). Строки, начинающиеся с #, игнорируются. Пример:
python
sql
pandas
...- requests
- beautifulsoup4
- matplotlib
- seaborn
- pandas
- numpy
- График:
hh_skills_bar_chart.png - Полный список навыков:
top_skills_all_data.csv - Прогресс:
progress.json
График показывает самые популярные навыки, извлечённые из вакансий
This project is licensed under the MIT License - see the LICENSE file for details.
