🍄 Дон Шампиньон [aka Lord_Alfred]

Description
Хитрожопый дорвейщик. Сборник мыслей о Black SEO и иже с ним.
Делаю говно-сайты (doorways), паразитирую на чужих ресурсах, пилю софт для всего этого и зарабатываю так себе на безбедную жизнь.

Блог в vk: https://vk.com/lord.alfred
Advertising
We recommend to visit
HAYZON
HAYZON
5,992,507 @hayzonn

لا اله الا الله محمد رسول الله

👤 𝐅𝐨𝐮𝐧𝐝𝐞𝐫: @Tg_Syprion
🗓 ᴀᴅᴠᴇʀᴛɪsɪɴɢ: @SEO_Fam
Мои каналы: @mazzafam

Last updated 4 weeks ago

Architec.Ton is a ecosystem on the TON chain with non-custodial wallet, swap, apps catalog and launchpad.

Main app: @architec_ton_bot
Our Chat: @architec_ton
EU Channel: @architecton_eu
Twitter: x.com/architec_ton
Support: @architecton_support

Last updated 3 weeks, 1 day ago

Канал для поиска исполнителей для разных задач и организации мини конкурсов

Last updated 1 month, 1 week ago

1 year, 10 months ago

? Спарсил все популярные порно-домены из базы theporndude_com

? Пригодится тем, кто парсит контент и не хочет видеть там ещё и адалт. Проще скипать домены, чем собирать базы адалт-ключей под каждый язык)

? Забрать можно отсюда: https://gist.github.com/lord-alfred/9235861756400b9dd2593d727c31b0b1

1 year, 10 months ago

? Как-то пару лет назад заопенсорсил свой небольшой сборник утилит для NLP (Natural Language Processing), завернутых в docker-контейнер в виде API, и вот наконец дошли руки обновить его!

? Раньше там уже было «Определение языка текста» (детектит 176 языков) и «Разделение текста на предложения», а сейчас добавил «Получение основного содержимого из html документа» – чтобы можно было получить корректный контент любой страницы (без менюшек, футеров и прочего говна) при парсинге.

? Понакидал там ещё сверху немного фиксов: увеличил размер входящего запроса до 25МБ, обновил readme, добавил токенизацию одного из языков Индии, апнул пайтон и зависимости до 3.11.

? Всё это добро вместе с инструкцией лежит всё там же: https://github.com/lord-alfred/dnlp

? Думаю, многим братьям-дорвейщикам и сёстрам-сеошницам будет полезно заюзать это у себя ?

by @Lord_Alfred

1 year, 11 months ago

???? Раскопал коэффициенты для факторов в ранжировании Y.

? https://gist.github.com/lord-alfred/97400a79f10f3bb13bb4bcd42268b1f8

Потратил уже больше 10 часов на изучение исходников, но благодаря коллегам, опубликовавшим найденные факторы – наткнулся на формулу с коэффциентами, прогнал её в удобочитаемый вид и дополнил описанием факторов. Очень интересно посмотреть на ранжирование изнутри, особенно обладая такими знаниями ?
Но хочется поделиться и небольшим огорчением от увиденного. Т.к. Y изнутри по большому счёту – это огромное хранилище данных, всё что есть в исходниках – это безграничные кучи разрозненных скриптов. Судя по всему – бОльшая часть задач у них сводится к получению+трансформации полученных данных из одного источника и перекладыванию результата в другой. Эдакий подход Map-Reduce.

Но я не отчаиваюсь, и копаю дальше ? Подписывайтесь, дальше ещё планирую выкладывать интересное из того, что найду)

by @Lord_Alfred

2 years, 1 month ago

✌️ Добавил списки IP адресов Facebook, Twitter и GitHub в свою репу: https://github.com/lord-alfred/ipranges

? Кого ещё вам не хватает? GoogleBot и BingBot там уже давно есть ?

? PS: Последнее время (особенно после апа в прошлом месяце) нет времени сюда писать, но канал я не забрасываю. Всё будет, просто чуть реже, но зато полезнее)

3 years, 1 month ago

? На днях по сеошным каналам пролетела ссылка на json файлик от Google, где перечислены все IP гуглобота. Официальный список, да. Всплыл он в англоязычной доке по валидации бота. Сам офигел что гугл решил быть таким щедрым) Видимо, смешарики довели ?

? Я не смог пройти мимо этого добра. Конечно же добавил его в свой автообновляемый репозиторий со всеми диапазонами IP для: Google, Amazon, DigitalOcean, Microsoft, Oracle - https://github.com/lord-alfred/ipranges

Скорее всего вы знаете об этом репе из предыдущего поста) Но я решил на всякий случай отметить этот прекрасный факт, что теперь список IP гугла расширился и его можно клоачить ещё эффективнее!
Велкам! ?

3 years, 5 months ago

? Списки IP адресов Google, Amazon и Microsoft? Их есть у меня ?

Недавно закинули интересную ссылку на публичный список CIDR от Google Cloud (среди которых были IP, откуда ходил гуглобот), я покопался в теме и нашел ещё и диапазоны Amazon (AWS) и Microsoft (Azure) ?

Запилил на гитхабе репозиторий, где прикрутил использование GitHub Workflow (GH Actions), с помощью которых по крону раз в 8 часов будут скачиваться и добавляться новые списки IP адресов (при их появлении) ? В репе есть несколько ссылок: IPv4 / IPv6 и merged (список, сокращенный до максимально наименьшего CIDR), брать можно любой - все они обновляются автоматом как появятся какие-то изменения.

? Вообщем, хватайте ссылки из README и засовывайте в свои TDS/клоаки/доргены/CMS: https://github.com/lord-alfred/ipranges
? Но не забудьте поделиться этим постом с друзьями, старичку будет приятно )

3 years, 6 months ago

? Доткомы по $4! У namecheap лютая акция, можно урвать 20 .com по промокоду SBM2021.

? Налетай! Скоро акция закончится: https://www.namecheap.com/promos/small-business-month-sale/

3 years, 6 months ago

? Заделюсь пресетом для получения PTR записи по IP адресу (выполнение обратного DNS запроса).

Он был собран чтоб проверить по куче IP из логов что ко мне ходили в гости именно гуглоботы, а не кто-то подменил UA и парсил ?

? https://gist.github.com/lord-alfred/08eadba59509924c65d661bff60f9fae

3 years, 8 months ago

? Решил заопнесорсить свой небольшой контейнер с парой полезных в хозяйстве ручек:

1️⃣ Определение языка текста (с помощью fastText);
2️⃣ Разделение текста на предложения (не тупо по точкам, а нормальная токенизация из NLTK).

Эдакая вводная в NLP для дорвейщиков ? Когда-то запилил для себя, юзаю по сей день, но (к сожалению) не нашел сил туда напичкать чего-то ещё. Возможно, братья-змееусты зашлют PR с нужной фичей. Все тогда будут вдвойне рады и довольны ?

✌️ Рассказывать как/зачем/почему нет смысла, тем кто парсит тексты – будет и так понятно. А остальное можно узнать в самом репе:
? https://github.com/lord-alfred/dnlp

PS: память не жрёт, работает даже на 1-м ядре, отвечает мгновенно ?

We recommend to visit
HAYZON
HAYZON
5,992,507 @hayzonn

لا اله الا الله محمد رسول الله

👤 𝐅𝐨𝐮𝐧𝐝𝐞𝐫: @Tg_Syprion
🗓 ᴀᴅᴠᴇʀᴛɪsɪɴɢ: @SEO_Fam
Мои каналы: @mazzafam

Last updated 4 weeks ago

Architec.Ton is a ecosystem on the TON chain with non-custodial wallet, swap, apps catalog and launchpad.

Main app: @architec_ton_bot
Our Chat: @architec_ton
EU Channel: @architecton_eu
Twitter: x.com/architec_ton
Support: @architecton_support

Last updated 3 weeks, 1 day ago

Канал для поиска исполнителей для разных задач и организации мини конкурсов

Last updated 1 month, 1 week ago