Top.Mail.Ru
Ответы

Регулярное выражение для notepad++?

Есть массив текстовых документов с парсингом содержимого файла robots.txt от различных сайтов. В каждом текстовом файле парсинг robots.txt для многих сайтов. Пример как выглядит привел внизу.
Помогите совместить строчку Host со строчками Disallow, чтобы получились полноценные ссылки по типу:

123
 4access.com/note/ 
4access.com/search.php  
и т.д.  



Повторяюсь, в файле парсинг содержимого robots.txt для многих доменов.

1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071
 WARC/1.0 
    WARC-Type: request 
    WARC-Date: 2022-05-16T04:43:30Z 
    WARC-Record-ID: <urn:uuid:3e478981-ef3c-4844-ace5-6f7bc9684897> 
    Content-Length: 257 
    Content-Type: application/http; msgtype=request 
    WARC-Warcinfo-ID: <urn:uuid:c255f12d-e3dc-4c89-a898-05bf14769d8c> 
    WARC-IP-Address: 52.128.23.153 
    WARC-Target-URI: http://4access.com/robots.txt 
     
    GET /robots.txt HTTP/1.1 
    User-Agent: CCBot/2.0 (https://site.com/faq/) 
    Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 
    Accept-Language: en-US,en;q=0.5 
    Accept-Encoding: br,gzip 
    Host: 4access.com 
    Connection: Keep-Alive 
     
     
     
    WARC/1.0 
    WARC-Type: response 
    WARC-Date: 2022-05-16T04:43:30Z 
    WARC-Record-ID: <urn:uuid:f8ed653e-f908-49ae-83f9-646c4667babf> 
    Content-Length: 699 
    Content-Type: application/http; msgtype=response 
    WARC-Warcinfo-ID: <urn:uuid:c255f12d-e3dc-4c89-a898-05bf14769d8c> 
    WARC-Concurrent-To: <urn:uuid:3e478981-ef3c-4844-ace5-6f7bc9684897> 
    WARC-IP-Address: 52.128.23.153 
    WARC-Target-URI: http://4access.com/robots.txt 
    WARC-Payload-Digest: sha1:EU3CP6WDJEGMWQXTBODU75HXRBT66EAZ 
    WARC-Block-Digest: sha1:XDMHBNLPSO2QP5VI7CIZTYT7EJP5SFD5 
    WARC-Identified-Payload-Type: text/x-robots 
     
    HTTP/1.1 200 OK 
    Server: nginx 
    Date: Mon, 16 May 2022 04:43:30 GMT 
    Content-Type: text/plain;charset=UTF-8 
    X-Crawler-Content-Length: 148 
    Content-Length: 274 
    Connection: keep-alive 
    Keep-Alive: timeout=20 
    X-Powered-By: PHP/5.6.33-0+deb8u1 
    Vary: Accept-Encoding 
    X-Crawler-Content-Encoding: gzip 
    Set-Cookie: SRV=lander05|YoHWX|YoHWX; path=/ 
    Cache-control: private 
    X-DIS-Request-ID: c665d4acd9c913449f9e6bdbdf06ed26 
     
     
     
    User-Agent: ia_archiver 
    Disallow: 
      
    User-Agent: * 
    Disallow: /note/ 
    Disallow: /search.php 
    Disallow: /click.php 
    Disallow: /search_caf.php 
    Disallow: /t.php 
    Disallow: /exitpage/ 
    Disallow: /popup/ 
    Disallow: /r.php 
    Disallow: /secondary_feed/ 
     
    User-agent: MJ12bot 
    Disallow: / 
     
    Allow: /sitemap.xml 
    Allow: /upload/ 
    Allow: /download/ 
По дате
По рейтингу
Аватар пользователя
Просветленный

А виндосовского блокнота не хватает?

Аватар пользователя
Мудрец

стандартными средствами notepad++ у тебя врят ли выйдет так как для этого нужно 2 регулярки первая цепляет хост а вторая заменяет уже с первой регулярки