УСЫ (urban science)

Description
Все о больших данных и геоаналитике в России и мире

Ведущий: @dorozhnij
Advertising
We recommend to visit
HAYZON
HAYZON
6,053,581 @hayzonn

لا اله الا الله محمد رسول الله

👤 𝐅𝐨𝐮𝐧𝐝𝐞𝐫: @Tg_Syprion
🗓 ᴀᴅᴠᴇʀᴛɪsɪɴɢ: @SEO_Fam
Мои каналы: @mazzafam

Last updated 3 weeks, 2 days ago

Architec.Ton is a ecosystem on the TON chain with non-custodial wallet, swap, apps catalog and launchpad.

Main app: @architec_ton_bot
Our Chat: @architec_ton
EU Channel: @architecton_eu
Twitter: x.com/architec_ton
Support: @architecton_support

Last updated 2 weeks, 3 days ago

Канал для поиска исполнителей для разных задач и организации мини конкурсов

Last updated 1 month ago

2 months, 1 week ago
***📈*****Упорядоченные данные о муниципалитетах РФ**Аналитики «Сбериндекса» …

📈Упорядоченные данные о муниципалитетах РФАналитики «Сбериндекса» провели колоссальную работу по наведению порядка с границами и версионностями муниципалитетов. Внутри — геопэкэдж для удобной работы.

Аналитики свели вместе данные ОСМ, ПКК, БДМО и сделали из них понятный единый справочник.

Эти данные в сыром виде — настоящий ад для аналитики, потому что там вас ждут: муниципальные районы и округа, городские и внутригородские округа. И эти границы меняются почти каждый год!

Почет и уважение аналитикам за их труд и за публикацию в открытом доступе. Буду пользоваться.📍

Ссылка на файлыСтатья на хабре

3 months, 1 week ago
4 months, 3 weeks ago
9 months, 3 weeks ago

*? Как спарсить любой сайт? (ч.2)*

В первой части поста мы разбирали что такое API, как с ним работать и примеры сервисов, использующих данную технологию. В этом посте мы познакомимся с таким понятием как веб-скрапинг.

Веб-скрапинг, или парсинг, представляет собой процесс автоматизированного извлечения данных с веб-страниц. Данный метод позволяет извлекать информацию с различных веб-сайтов для анализа рынка, мониторинга конкурентов и других целей. Кроме того, веб-скрапинг автоматизирует процесс сбора данных, что экономит время и усилия, а также автоматизирует рутинную работу.

Как вы уже могли заметить, здесь используется два термина, но какой из них «правильнее»? Чаще всего в русскоязычном сообществе используется термин парсинг (от англ. parsing - проведение грамматического разбора слова). В англоязычном же сообществе используются термин скрапинг (от англ. scraping - соскабливание/выскабливание).

Давайте рассмотрим несколько популярных инструментов для веб-скрапинга на Python:

? Beautiful Soup (bs4)
Это мощная библиотека Python, предназначенная для парсинга HTML и XML документов. С её помощью можно легко и удобно извлекать данные из HTML-страниц, что делает её идеальным выбором для многих задач по анализу данных и мониторингу веб-ресурсов.

? Requests
Хотя Requests широко известна как библиотека для работы с API, она также может быть использована для загрузки веб-страниц и извлечения данных из них. Она особенно удобна для работы с сайтами, не предоставляющих API, и позволяет быстро и эффективно получать необходимую информацию.

? Selenium
Эта библиотека предназначена для автоматизации веб-браузера и управления им из кода Python. С помощью Selenium можно выполнять различные действия на веб-страницах, такие как нажатие на кнопки, заполнение форм и многое другое. Это особенно полезно, когда требуется взаимодействие с веб-сайтами, которые используют динамическую загрузку контента или требуют ввода пользовательских данных для доступа к информации.

? Некоторые веб-сайты могут применять различные методы для блокировки веб-скрапинга, такие как CAPTCHA, ограничение доступа для незарегистрированных пользователей или динамическая генерация контента. Для обхода таких блокировок существуют различные методы, включая изменение заголовков запросов, использование прокси-серверов или обращение к специализированным сервисам для обхода CAPTCHA. Также инструменты, такие как Selenium, предоставляют возможность эмулировать работу пользователя с сайтом, что позволяет обойти многие виды блокировок.

⚖️ Возникает вопрос о законности использования веб-скрапинга. Фактически, этот метод не противоречит законодательству, и за него не предусмотрена юридическая ответственность. Однако существуют ограничения, установленные законодательством. Например, запрет на сбор данных из личных кабинетов пользователей и на DDOS-атаки. Также копирование контента, включая изображения и тексты, без разрешения владельца может быть признано нарушением авторских прав. Важно помнить, что сам процесс парсинга не является незаконным, когда данные собираются из открытого доступа, и парсеры лишь ускоряют этот процесс и уменьшают вероятность ошибок человеческого фактора.

Как спарсить любой сайт?

We recommend to visit
HAYZON
HAYZON
6,053,581 @hayzonn

لا اله الا الله محمد رسول الله

👤 𝐅𝐨𝐮𝐧𝐝𝐞𝐫: @Tg_Syprion
🗓 ᴀᴅᴠᴇʀᴛɪsɪɴɢ: @SEO_Fam
Мои каналы: @mazzafam

Last updated 3 weeks, 2 days ago

Architec.Ton is a ecosystem on the TON chain with non-custodial wallet, swap, apps catalog and launchpad.

Main app: @architec_ton_bot
Our Chat: @architec_ton
EU Channel: @architecton_eu
Twitter: x.com/architec_ton
Support: @architecton_support

Last updated 2 weeks, 3 days ago

Канал для поиска исполнителей для разных задач и организации мини конкурсов

Last updated 1 month ago