Канал для поиска исполнителей для разных задач и организации мини конкурсов
Last updated 3 months ago
Новые и перспективные Web3 игры с добычей токенов.
Чат: https://t.me/Crypto_Wolf_Chat
Правила чата смотрите в описании чата.
Все свои вопросы направляйте в чат или главному модератору чата: @Exudna_118
По теме сотрудничества: @Zombini
Last updated 2 months, 2 weeks ago
? Спарсил все популярные порно-домены из базы theporndude_com
? Пригодится тем, кто парсит контент и не хочет видеть там ещё и адалт. Проще скипать домены, чем собирать базы адалт-ключей под каждый язык)
? Забрать можно отсюда: https://gist.github.com/lord-alfred/9235861756400b9dd2593d727c31b0b1
? Как-то пару лет назад заопенсорсил свой небольшой сборник утилит для NLP (Natural Language Processing), завернутых в docker-контейнер в виде API, и вот наконец дошли руки обновить его!
? Раньше там уже было «Определение языка текста» (детектит 176 языков) и «Разделение текста на предложения», а сейчас добавил «Получение основного содержимого из html документа» – чтобы можно было получить корректный контент любой страницы (без менюшек, футеров и прочего говна) при парсинге.
? Понакидал там ещё сверху немного фиксов: увеличил размер входящего запроса до 25МБ, обновил readme, добавил токенизацию одного из языков Индии, апнул пайтон и зависимости до 3.11.
? Всё это добро вместе с инструкцией лежит всё там же: https://github.com/lord-alfred/dnlp
? Думаю, многим братьям-дорвейщикам и сёстрам-сеошницам будет полезно заюзать это у себя ?
by @Lord_Alfred
???? Раскопал коэффициенты для факторов в ранжировании Y.
? https://gist.github.com/lord-alfred/97400a79f10f3bb13bb4bcd42268b1f8
⏳ Потратил уже больше 10 часов на изучение исходников, но благодаря коллегам, опубликовавшим найденные факторы – наткнулся на формулу с коэффциентами, прогнал её в удобочитаемый вид и дополнил описанием факторов. Очень интересно посмотреть на ранжирование изнутри, особенно обладая такими знаниями ?
Но хочется поделиться и небольшим огорчением от увиденного. Т.к. Y изнутри по большому счёту – это огромное хранилище данных, всё что есть в исходниках – это безграничные кучи разрозненных скриптов. Судя по всему – бОльшая часть задач у них сводится к получению+трансформации полученных данных из одного источника и перекладыванию результата в другой. Эдакий подход Map-Reduce.
⛏ Но я не отчаиваюсь, и копаю дальше ? Подписывайтесь, дальше ещё планирую выкладывать интересное из того, что найду)
by @Lord_Alfred
✌️ Добавил списки IP адресов Facebook, Twitter и GitHub в свою репу: https://github.com/lord-alfred/ipranges
? Кого ещё вам не хватает? GoogleBot и BingBot там уже давно есть ?
? PS: Последнее время (особенно после апа в прошлом месяце) нет времени сюда писать, но канал я не забрасываю. Всё будет, просто чуть реже, но зато полезнее)
? Написал подробную пошаговую инструкцию по настройке резервного копирования данных с серверов в S3.
? https://github.com/lord-alfred/s3_backup
? На днях по сеошным каналам пролетела ссылка на json файлик от Google, где перечислены все IP гуглобота. Официальный список, да. Всплыл он в англоязычной доке по валидации бота. Сам офигел что гугл решил быть таким щедрым) Видимо, смешарики довели ?
? Я не смог пройти мимо этого добра. Конечно же добавил его в свой автообновляемый репозиторий со всеми диапазонами IP для: Google, Amazon, DigitalOcean, Microsoft, Oracle - https://github.com/lord-alfred/ipranges
Скорее всего вы знаете об этом репе из предыдущего поста) Но я решил на всякий случай отметить этот прекрасный факт, что теперь список IP гугла расширился и его можно клоачить ещё эффективнее!
Велкам! ?
? Списки IP адресов Google, Amazon и Microsoft? Их есть у меня ?
Недавно закинули интересную ссылку на публичный список CIDR от Google Cloud (среди которых были IP, откуда ходил гуглобот), я покопался в теме и нашел ещё и диапазоны Amazon (AWS) и Microsoft (Azure) ?
Запилил на гитхабе репозиторий, где прикрутил использование GitHub Workflow (GH Actions), с помощью которых по крону раз в 8 часов будут скачиваться и добавляться новые списки IP адресов (при их появлении) ? В репе есть несколько ссылок: IPv4
/ IPv6
и merged
(список, сокращенный до максимально наименьшего CIDR), брать можно любой - все они обновляются автоматом как появятся какие-то изменения.
? Вообщем, хватайте ссылки из README и засовывайте в свои TDS/клоаки/доргены/CMS: https://github.com/lord-alfred/ipranges
? Но не забудьте поделиться этим постом с друзьями, старичку будет приятно )
? Доткомы по $4! У namecheap лютая акция, можно урвать 20 .com
по промокоду SBM2021.
? Налетай! Скоро акция закончится: https://www.namecheap.com/promos/small-business-month-sale/
? Заделюсь пресетом для получения PTR записи по IP адресу (выполнение обратного DNS запроса).
Он был собран чтоб проверить по куче IP из логов что ко мне ходили в гости именно гуглоботы, а не кто-то подменил UA и парсил ?
? https://gist.github.com/lord-alfred/08eadba59509924c65d661bff60f9fae
? Решил заопнесорсить свой небольшой контейнер с парой полезных в хозяйстве ручек:
1️⃣ Определение языка текста (с помощью fastText);
2️⃣ Разделение текста на предложения (не тупо по точкам, а нормальная токенизация из NLTK).
Эдакая вводная в NLP для дорвейщиков ? Когда-то запилил для себя, юзаю по сей день, но (к сожалению) не нашел сил туда напичкать чего-то ещё. Возможно, братья-змееусты зашлют PR с нужной фичей. Все тогда будут вдвойне рады и довольны ?
✌️ Рассказывать как/зачем/почему нет смысла, тем кто парсит тексты – будет и так понятно. А остальное можно узнать в самом репе:
? https://github.com/lord-alfred/dnlp
PS: память не жрёт, работает даже на 1-м ядре, отвечает мгновенно ?
Канал для поиска исполнителей для разных задач и организации мини конкурсов
Last updated 3 months ago
Новые и перспективные Web3 игры с добычей токенов.
Чат: https://t.me/Crypto_Wolf_Chat
Правила чата смотрите в описании чата.
Все свои вопросы направляйте в чат или главному модератору чата: @Exudna_118
По теме сотрудничества: @Zombini
Last updated 2 months, 2 weeks ago