Парсинг txt и парсинг сайтов.

Discussion in 'Общие вопросы программирования' started by Drax, 29 Jul 2020.

  1. Drax

    Drax New Member

    Joined:
    29 Jul 2020
    Messages:
    1
    Likes Received:
    0
    Reputations:
    0
    Ну начну с малого, сам проф. кодером не являюсь, но основы программирования знаю.
    Прошу помочь выбрать язык программирования для среднего ума который хорошо бы выполнял задачу парсинга и обращения к сайтам. Нужны примеры ну и может кто поможет простеньким кодом. Я собираюсь начать учить данный язык с практикой.
    Приведу примеры того что я хочу:
    1. Допустим в txt файле есть следующая строка(фраза) "id=%", программа последовательно считывая строки(или фразы) указанного формата, при этом игнорируя все прочие, из файла обращается к сайту.
    www.site.com/id=%
    ну и делает скажем xpath запрос /html/body/div[1]/table[4]/tbody/tr[2]/td/table/tbody/tr[2]/td/table/tbody/tr/td/table/tbody/tr[4]/td[2], после чего пишет результат вида "id=/html/body/div[1]/table[4]/tbody/tr[2]/td/table/tbody/tr[2]/td/table/tbody/tr/td/table/tbody/tr[4]/td[2]" в другой Txt файл.

    2. Второй вариант чисто по парсингу txt, допустим в txt файле есть строки вида "text1 {text2} - text3" и другие строки которые не нужны но они там есть прога должна найти все строки указанного вида игнорируя весь мусор и записать в txt:
    1.{text2}
    2.{text2}
    3.{text2}
    n.{text2}

    3. отдельно хочу спросить, может кто знает конторы которые предлагают готовые решения?(хотя я понимаю лучше учить язык самому и писать самому так как это будет плюсом в дальнейшем).

    4. Так же хотел спросить существует ли способ получать письма с почтового сервера в txt с сортировкой? Ну или может кто может подсказать хороший конвертер из pst в txt пусть даже платный.
     
  2. lifescore

    lifescore Elder - Старейшина

    Joined:
    27 Aug 2011
    Messages:
    602
    Likes Received:
    459
    Reputations:
    65
    1. bash - костыльный, медленный зато универсально

    Code:
    $ cat file.txt
    ..1
    id=17
    id-1
    
    $ cat file.txt | grep "id=" | xargs -n1 -P4 -I{} curl "http://site.com/{}"
    Ну и в таком духе xmlint если xpath нужен или регулярными

    2. опять же регулярными или cut/awk/sed
    Code:
    $ cat file.txt
    1, http://ya.ru, Russia
    2.,https://ay.ru/, Error
    
    $ cut -d "," -f 2 file.txt
     http://ya.ru
    https://ay.ru/
    
    $ awk '{print $2}' file.txt
    http://ya.ru
    https://ay.ru/
    
    $ grep -Eo "https?://\w+\.\w+" file.txt
    http://ya.ru
    https://ay.ru
    3. A-parser, zennoposter, scrape и тд

    4. curl умеет работать с imap pop https://debian-administration.org/article/726/Performing_IMAP_queries_via_curl
     
Loading...
Similar Threads - Парсинг парсинг сайтов
  1. Freddy
    Replies:
    5
    Views:
    6,647