வலை பக்கங்களை துடைக்க 5 படிகளை செமால்ட் பரிந்துரைக்கிறது

ஸ்க்ராபி என்பது ஒரு திறந்த மூல மற்றும் வெவ்வேறு வலைத்தளத்திலிருந்து தகவல்களைப் பெறுவதற்கான கட்டமைப்பாகும். இது API களைப் பயன்படுத்துகிறது மற்றும் பைத்தானில் எழுதப்பட்டுள்ளது. ஸ்கிராப்பிங் தற்போது ஸ்கிராப்பிங்ஹப் லிமிடெட் என்ற வலை ஸ்கிராப்பிங் நிறுவனத்தால் பராமரிக்கப்படுகிறது.

ஸ்க்ராப்பியைப் பயன்படுத்தி வலை கிராலரை எவ்வாறு எழுதுவது, கிரெய்க்ஸ்லிஸ்ட்டை அலசுவது மற்றும் சி.எஸ்.வி வடிவத்தில் தகவல்களை சேமிப்பது பற்றிய எளிய பயிற்சி இது. இந்த டுடோரியலின் ஐந்து முக்கிய படிகள் கீழே குறிப்பிடப்பட்டுள்ளன:

1. புதிய ஸ்கிராபி திட்டத்தை உருவாக்கவும்

2. ஒரு வலைத்தளத்தை வலம் வரவும் தரவைப் பிரித்தெடுக்கவும் சிலந்தியை எழுதுங்கள்

3. கட்டளை வரியைப் பயன்படுத்தி ஸ்கிராப் செய்யப்பட்ட தரவை ஏற்றுமதி செய்யுங்கள்

4. இணைப்புகளைப் பின்பற்ற சிலந்தியை மாற்றவும்

5. சிலந்தி வாதங்களைப் பயன்படுத்துங்கள்

1. ஒரு திட்டத்தை உருவாக்கவும்

முதல் படி ஒரு திட்டத்தை உருவாக்குவது. நீங்கள் ஸ்க்ராபியை பதிவிறக்கம் செய்து நிறுவ வேண்டும். அதன் தேடல் பட்டியில், நீங்கள் தரவை சேமிக்க விரும்பும் அடைவு பெயரை உள்ளிட வேண்டும். ஸ்க்ராபி தகவல்களைப் பிரித்தெடுக்க வெவ்வேறு சிலந்திகளைப் பயன்படுத்துகிறது, மேலும் இந்த சிலந்திகள் கோப்பகங்களை உருவாக்க ஆரம்பக் கோரிக்கைகளைச் செய்கின்றன. வேலை செய்ய ஒரு சிலந்தியை வைக்க, நீங்கள் கோப்பகங்களின் பட்டியலைப் பார்வையிட வேண்டும் மற்றும் ஒரு குறிப்பிட்ட குறியீட்டை அங்கு செருக வேண்டும். உங்கள் தற்போதைய கோப்பகத்தில் உள்ள கோப்புகளை கவனித்து, இரண்டு புதிய கோப்புகளை கவனிக்கவும்: மேற்கோள்கள்- a.html மற்றும் மேற்கோள்கள்- b.html.

2. ஒரு வலைத்தளத்தை வலம் வரவும் தரவைப் பிரித்தெடுக்கவும் சிலந்தியை எழுதுங்கள்:

ஒரு சிலந்தி எழுத மற்றும் தரவைப் பிரித்தெடுப்பதற்கான சிறந்த வழி ஸ்க்ராபியின் ஷெல்லில் வெவ்வேறு தேர்வாளர்களை உருவாக்குவதாகும். நீங்கள் எப்போதும் URL களை மேற்கோள்களில் இணைக்க வேண்டும்; இல்லையெனில், ஸ்க்ராபி அந்த URL களின் தன்மை அல்லது பெயர்களை உடனடியாக மாற்றும். ஒரு சிலந்தியை சரியான முறையில் எழுத URL ஐச் சுற்றி இரட்டை மேற்கோள்களைப் பயன்படுத்த வேண்டும். நீங்கள் .extract_first () ஐப் பயன்படுத்த வேண்டும் மற்றும் குறியீட்டு பிழையைத் தவிர்க்கவும்.

3. கட்டளை வரியைப் பயன்படுத்தி ஸ்கிராப் செய்யப்பட்ட தரவை ஏற்றுமதி செய்யுங்கள்:

கட்டளை வரியைப் பயன்படுத்தி ஸ்கிராப் செய்யப்பட்ட தரவை ஏற்றுமதி செய்வது முக்கியம். நீங்கள் அதை ஏற்றுமதி செய்யாவிட்டால், நீங்கள் துல்லியமான முடிவுகளைப் பெற மாட்டீர்கள். சிலந்தி பயனுள்ள தகவல்களைக் கொண்ட வெவ்வேறு கோப்பகங்களை உருவாக்கும். இந்த தகவலை சிறந்த முறையில் ஏற்றுமதி செய்ய நீங்கள் மகசூல் பைதான் முக்கிய வார்த்தைகளைப் பயன்படுத்த வேண்டும். JSON கோப்புகளுக்கு தரவை இறக்குமதி செய்வது சாத்தியமாகும். JSON கோப்புகள் புரோகிராமர்களுக்கு பயனுள்ளதாக இருக்கும். ஸ்கிராப் செய்யப்பட்ட தரவை எந்த பிரச்சனையும் இல்லாமல் ஏற்றுமதி செய்ய JQ போன்ற கருவிகள் உதவுகின்றன.

4. இணைப்புகளைப் பின்பற்ற சிலந்தியை மாற்றவும்:

சிறிய திட்டங்களில், சரியான முறையில் இணைப்புகளைப் பின்பற்ற சிலந்திகளை மாற்றலாம். ஆனால் பெரிய அளவிலான தரவு ஸ்கிராப்பிங் திட்டங்களுடன் இது தேவையில்லை. நீங்கள் சிலந்தியை மாற்றும்போது உருப்படி பைப்லைன்களுக்கான ஒரு ஒதுக்கிட கோப்பு அமைக்கப்படும். இந்த கோப்பை டுடோரியல் / பைப்லைன்ஸ்.பி பிரிவில் காணலாம். ஸ்க்ராபி மூலம், நீங்கள் எப்போது வேண்டுமானாலும் அதிநவீன சிலந்திகளை உருவாக்கலாம் மற்றும் அவற்றின் இருப்பிடத்தை மாற்றலாம். நீங்கள் ஒரு நேரத்தில் பல தளங்களை பிரித்தெடுக்கலாம் மற்றும் பல்வேறு தரவு பிரித்தெடுக்கும் திட்டங்களை மேற்கொள்ளலாம்.

5. சிலந்தி வாதங்களைப் பயன்படுத்தவும்:

Parse_author callback என்பது ஒரு சிலந்தி வாதமாகும், இது மாறும் வலைத்தளங்களிலிருந்து தரவைப் பிரித்தெடுக்கப் பயன்படுகிறது. ஒரு குறிப்பிட்ட குறியீட்டைக் கொண்டு சிலந்திகளுக்கு கட்டளை வரி வாதங்களையும் வழங்கலாம். சிலந்தி வாதங்கள் எந்த நேரத்திலும் சிலந்தி பண்புகளாக மாறி உங்கள் தரவின் ஒட்டுமொத்த தோற்றத்தை மாற்றும்.

இந்த டுடோரியலில், ஸ்க்ராபியின் அடிப்படைகளை மட்டுமே நாங்கள் உள்ளடக்கியுள்ளோம். இந்த கருவிக்கு நிறைய அம்சங்கள் மற்றும் விருப்பங்கள் உள்ளன. ஸ்க்ராபியின் விவரக்குறிப்புகளைப் பற்றி மேலும் அறிய நீங்கள் பதிவிறக்கம் செய்து செயல்படுத்த வேண்டும்.