دروس مكشطة ويب كروم من Semalt Expert

إذا كنت تستخدم Google Chrome ، فهناك امتداد لمتصفحك يمكن أن يساعد في اكتشاف صفحات الويب. يُعرف باسم "Scrapper" ويمكن استخدامه دون مشاكل. سيساعد Scrapper في إلغاء محتوى موقع الويب وتحميل النتائج إلى مستندات Google.

كيفية إلغاء موقع على شبكة الإنترنت باستخدام ملحق Scraper؟

1. حدد سوق Chrome الإلكتروني في Google Chrome ؛

2. في الامتدادات ، قم بإجراء بحث عن "Scrapper" ؛

3. نتيجة البحث الأولى هي الامتداد المعروف باسم "Scrapper"؛

4. حدد الزر المدرج كـ "إضافة إلى Chrome" ؛

5. عد إلى قائمة نواب المملكة المتحدة ؛

6. انقر على الرابط التالي ؛

7. ابحث الآن عن MP واحد وتأكد من وضع علامة على الإدخال ؛

8. انقر بزر الماوس الأيمن لاختيار خيار "Scrape مشابه ..." ؛

9. سوف تنبثق وحدة التحكم الخاصة بالمزيل في نافذة أخرى ؛

10. عرض المحتوى المسروق في لوحة الكاشطة.

11. لضمان حفظ المحتوى كجدول بيانات Google ، حدد "حفظ في مستندات Google ..."

كشط ممتد

قبل الالتزام بهذه الوصفة ، من المفيد فهم أساسيات HTML. على سبيل المثال ، يمكنك قراءة مقدمة قصيرة عن HTML عبر هذا الرابط

دعنا نتخيل أننا مهتمون بجميع الأفلام التي قامت ببطولة آسيا أرجينتو ، الممثلة الإيطالية الشهيرة.

1. هناك أرشيف مفصل للغاية للجهات الفاعلة في IMDB. موقع Asia Argento هو: http://www.imdb.com/name/nm0000782/؛

2. هنا ، يمكنك عرض جميع الأدوار التي لعبتها الممثلة. لنبدأ في التخلص من المعلومات التي نهتم بها ؛

3. حاول كشطها بالطريقة التي تم وصفها أعلاه.

4. سترى أن القائمة مشوهة قليلاً. هذا يرجع إلى حقيقة أن القائمة هنا يمكن تنظيمها بشكل مختلف ؛

5. توجه إلى وحدة الكشط. أعلى اليسار ، سترى المربع الصغير الذي يقول XPath ؛

6. Xpath هي نوع من لغة الاستعلام التي تعمل مع XML و HTML.

7. يمكن أن يساعد XPath في تحديد أجزاء الصفحة التي تهمك. والشيء التالي هو العثور على عنصر مناسب وكتابة XPath له ؛

8. الآن دعنا نرتب طاولتنا.

9. سترى أن XPath الموجود لدينا ، والذي يحتوي على جميع البيانات المطلوبة هو "// div [3] / div [3] / div [2] / div" ؛

10. يقوم XPath بإعلام النظام بعرض مستند HTML واختيار العنصر الثالث ، ثم العنصر الثاني ثم جميع العناصر ؛

11. لكننا نرغب في فصل بياناتنا ؛

12. استخدام قسم الأعمدة في وحدة التحكم للمزيل لإنجاز ذلك ؛

13. دعونا أولاً نجد عنواننا – استخدم Inspect Element لعرض العنوان ؛

14. تحقق من العنوان داخل علامة. أضف العلامة إلى XPath ؛

15. يبدو أن التعبير يعمل بشكل مناسب ، لذا اجعله العمود الأول ؛

16- في القسم "الأعمدة" ، يستعاض عن اسم العمود الأول "العنوان" ؛

17. إضافة XPath إليها ؛

18. في قسم العمود ، تكون نقاط XPath نسبية وهذا يعني أن "./b" ستختار العنصر <b>

19. في XPath لعمود العنوان ، أضف ". / b" وحدد "scrape" ؛

20. الآن دعونا نستمر لمدة عام. يمكن العثور على سنوات في فترة واحدة ؛

21. قم بإنشاء عمود جديد عن طريق تحديد علامة الجمع الصغيرة بجوار العمود الخاص بعنوانك ؛

22. باستخدام XPath "./span" قم بإنشاء عمود لـ "year" ؛

23. انقر فوق scrape وعرض كيفية إضافة السنة ؛

24- انتهى!