Chrome Web Scraper სამეურვეო პროგრამა Semalt Expert- სგან

თუ იყენებთ Google Chrome- ს, თქვენს ბრაუზერს აქვს გაფართოება, რომლის საშუალებითაც შეგიძლიათ ვებ – გვერდების გაფანტვა. იგი ცნობილია როგორც '' Scrapper '' და მისი გამოყენება უპრობლემოდ შეიძლება. Scrapper დაგეხმარებათ ვებ – გვერდის შინაარსის გადაკვრაში და შედეგების Google დოკუმენტებში ატვირთვაში.

როგორ გადავაწეროთ ვებ – გვერდი Scraper გაფართოების გამოყენებით?

1. აირჩიეთ Chrome ვებ – მაღაზია Google Chrome– ში;

2. გაფართოებებისას, განახორციელეთ ძიება '' Scrapper '';

3. პირველი ძებნის შედეგია გაფართოება, რომელიც ცნობილია როგორც '' Scrapper '';

4. შეარჩიეთ ღილაკი, რომელიც ჩამოთვლილია '' Chrome- ში დამატება ”;

5. დაუბრუნდით გაერთიანებული სამეფოს დეპუტატთა სიას;

6. დააჭირეთ შემდეგ ბმულს ;

7. ახლა მოძებნეთ ერთი დეპუტატი და დარწმუნდით, რომ ჩანაწერი აღინიშნება;

8. დააჭირეთ ღილაკს, რომ აირჩიოთ "Scrape Same ..." ვარიანტი;

9. სკაფერის სკამი გამოჩნდება სხვა ფანჯარაში;

10. დაათვალიერეთ დაცული შინაარსი scraper კონსოლში;

11. იმისთვის, რომ შინაარსი შეინახოს Google Spreadsheet, აირჩიეთ "შენახვა Google Docs ..."

გაფართოებული ჯართი

სანამ ამ რეცეპტს შეასრულებთ, სასარგებლოა HTML– ის საფუძვლების გაგება. მაგალითად, შეგიძლიათ წაიკითხოთ მოკლე შესავალი HTML– ზე ამ ბმულის საშუალებით

წარმოვიდგინოთ, რომ ჩვენ დაინტერესებული ვართ ყველა ფილმით, რომელზეც ითამაშა ცნობილი იტალიელი მსახიობი აზია არგენტომ.

1. IMDB- ში მსახიობების ძალიან დეტალური არქივი არსებობს. აზიის არგენტინოს საიტია: http://www.imdb.com/name/nm0000782/;

2. აქ, თქვენ შეგიძლიათ ნახოთ მსახიობის ყველა როლი. დავიწყოთ ჩვენთვის საინტერესო ინფორმაციის გაფანტვა;

3. შეეცადეთ შეცვალოთ იგი ისე, როგორც ეს ზემოთ იყო აღწერილი;

4. ნახავთ, რომ სია ოდნავ დამახინჯებულია. ეს იმის გამო ხდება, რომ აქ ჩამონათვალის სხვაგვარად სტრუქტურა შეიძლება;

5. მიჰყევით სკაწერის კონსოლს. მარცხნივ, თქვენ დაინახავთ პატარა ყუთს, რომელიც ამბობს XPath;

6. Xpath არის ერთგვარი შეკითხვის ენა, რომელიც მუშაობს XML და HTML;

7. XPath დაგეხმარებათ დაადგინოთ თქვენთვის საინტერესო გვერდის ნაწილები. შემდეგი რამ არის შესაბამისი ელემენტის პოვნა და მასში ჩაწერის XPath;

8. ახლა მოდით მოაწყოთ ჩვენი მაგიდა;

9. თქვენ ნახავთ, რომ ჩვენი არსებული XPath, რომელსაც აქვს ყველა საჭირო მონაცემი არის "// div [3] / div [3] / div [2] / div";

10. XPath აცნობებს სისტემას, რომ ნახოთ HTML Doc და აირჩიონ მესამე ელემენტი, შემდეგ მეორე ელემენტი და შემდეგ ყველა მათგანი;

11. მაგრამ გვსურს, რომ ჩვენი მონაცემები გამოვყოთ;

12. გამოიყენეთ სვეტების სექცია კონსოლში სკაფერისთვის, რომ ეს მოხდეს;

13. მოდით, პირველ რიგში მოვძებნოთ ჩვენი სათაური ЂЂ“ გამოიყენეთ Inspect Element სათაურის სანახავად;

14. შეამოწმეთ სათაური ტეგის შიგნით. დაამატეთ ჩანართი XPath;

15. გამოთქმა, როგორც ჩანს, სათანადო ფუნქციონირებს, ასე რომ გახადეთ იგი ჩვენს პირველ სვეტად;

16. სვეტში "სვეტები", შეცვალეთ პირველი სვეტის სახელი "სათაური";

17. დაამატეთ XPath მას;

18. სვეტის განყოფილებაში, XPath- ები ნათესავია და ეს ნიშნავს, რომ "./b" შეარჩევს <b> ელემენტს

19. სათაურის სვეტისთვის XPath- ში დაამატეთ "./b" და შეარჩიეთ "ჯართი";

20. ახლა მოდით გავაგრძელოთ ერთი წელი. წლები შეგიძლიათ ნახოთ ერთი პერიოდის განმავლობაში;

21. შექმენით ახალი სვეტი თქვენი სათაურისთვის სვეტის გვერდით პატარა პლუსის არჩევით;

22. XPath- ის გამოყენებით ./span ”შექმენით სვეტი” წლისთვის ”;

23. დააჭირეთ სკრიპტს და ნახეთ თუ როგორ დაემატა წელს;

24. შესრულებულია!