вторник, 13 ноября 2018 г.

Парсер email с Мой Мир

 ​


Программа Мой Мир собирает email-ы из  социальной сети . Работат в 6 режимах (описание смотри ниже).   На выходе создаются файлы Online.txt и Offline.txt либо общие для всех групп, либо для каждой группы в отдельной папке (см скрин настройки).

по названию
Вводим название группы, которое берётся из ссылки в браузере. Например, из ссылки https://my.mail.ru/community/do.nice/ получится название do.nice.


по ключевой фразе
Вводим фразу для поиска, например, «лучшие рецепты» (вводить без кавычек). На первом этапе программа сформирует список  групп, взятых из поисковой выдачи (метод аналогичен этому https://my.mail.ru/my/communities-search?q=лучшие рецепты&st=search&head=1). Следующий шаг - это сбор с них участников (не более 2000 с каждой).

по списку групп из файла
Файл с расширением txt (кодировка UTF-8) должен содержать в себе список названий, например:
For-man
do.nice
wichuga
etc
Режим аналогичен предыдущему. Отличие в том, что этап сбора групп пропускается так как список групп загружается из файла.

Собрать друзей по списку почт
Файл  с  расширением txt (кодировка UTF-8) должен содержать в себе список почт, например:
pochta1@mail.ru
pochta2@mail.ru
pochta3@mail.ru
Парсер заходит в профиль Мой Мир каждой из почт (если он существует и не скрыт) и собирает почты друзей.  (не более 2000 с каждой)
Рекомендуется разбивать большие файлы с базой не более чем на 50 000. В среднем с файла с 50к почт - получается 1кк email.

Собрать активных участников
Для работы этого режима необходимо загрузить список групп (формат файла был описан выше). Далее указать необходимый временной интервал: "За сутки", "За неделю"...Программа будет заходить в каждую из групп, собирать посты, удовлетворяющие условиям. После чего парсить email-ы из комментариев и лайкнувших. В результирующем файле будут только почты и имя/фамилия (если отмечена опция "Собирать доп. инфо").


Парсинг списка групп по ключевой фразе
Этот режим входит во второй. Но по просьбам вынесен еще и отдельно. Вводим фразу для поиска и нажимаем старт. Получившийся список можно использовать также и в режиме «По списку групп из файла».

Основные возможности:
  • Многопоточная реализация
  • Использование аккаунтов mail.ru по желанию (без них выдача с одной группы будет не более 500 участников )
  • Работа в 6 режимах.
  • Разбиение по папкам (да/нет)
  • Разбиение участников на онлайн/оффлайн
  • Применение фильтра к списку найденных групп
  • Сохранение доп. инфы об участниках в csv-файл (имя/возраст/город/последняя активность на сайте)


Максимальное количество потоков 4. В некоторых случаях программа управляет ими автоматически, в зависимости от количества участников или друзей, чтобы лишний раз не расходовать ресурсы системы.  Продажа с привязкой к железу. Переустановка ОС не повлияет на лицензию. Перепривязка до 2 раз в месяц бесплатно, далее 100 р.










Бонусом отдам мини-программку по определению пола через словарь имен, который можно самим пополнять. Принцип такой: собрали базу почт через парсер (обязательно с опцией "Парсить информацию об участниках"), после чего загрузили ее в программку.

Отзывы можно почитать тут
Связьskype: vebposter, telegram: @Vebposter


Всем привет. Чтобы не выделятся из толпы сделал свой шаблон-парсер для Мой Мир и обычную desktop-версию. За основу взял пулемёт Максим и искусственный интеллект:-)).
По функционалу ничего нового, выгребает всех участников из группы/ групп (в зависимости от настроек). На выходе создаются файлы OnlineUsers.txt и OfflineUsers.txt либо общие для всех групп, либо для каждой группы в отдельной папке (см скрин настройки). 

Основные возможности:
  • Многопоток
  • Аккаунты mail.ru не нужны
  • Обход ограничений по выдаче количества страниц с участниками групп
  • Парсинг в трех режимах: по названию группы, по ключевой фразе, по списку групп из файла
  • Разбиение по папкам (да/нет)
  • Разбиение участников на онлайн/оффлайн
  • Применение фильтра к списку найденных групп
  • Возможность  работы через прокси ( как доп. фича, обычно не требуется)-только в шаблоне
  • Сохранение доп. инфы об участниках в csv-файл (имя/возраст/город/последняя активность на сайте)-только в программе
Шаблон


На скринах ниже работа шаба на стареньком ноуте и соседском wi-fi. За 7,5 часов работы в один поток 580 101 почт, средняя скорость ~1260 e-mail/мин


[SPOILER="пример файла с результатом"] [/SPOILER]

Цена: 25$ (~1400р) (с привязкой к почте, на которую зарегистрирована Зенка).

Программа

Оптимальное количество потоков каждый найдет для себя сам. Сделал ограничение 10.  Я использую 4-5 потоков, так стабильнее выдача от mail-а.  Продажа с привязкой к железу. Если нужна будет доп. инфо об участниках (имя, возраст, город), добавлю в обновлениях...

[MEDIA=youtube]bc9Vb7TmXFI[/MEDIA]




Цена: 25$ (~1400р)

Связь: ЛС,skype: vebposter, telegram: @Vebposter

Комментариев нет:

Отправить комментарий