एचटीएमएल एक्सट्रैक्टर एपीआई एक उन्नत उपकरण है जिसे वेब पृष्ठों से डेटा की निकासी और विश्लेषण को सुविधाजनक बनाने के लिए डिज़ाइन किया गया है, जो उन पृष्ठों की पूरी एचटीएमएल सामग्री को पुनः प्राप्त करता है। यह एपीआई उन उपयोगकर्ताओं के लिए उपयोगी है, जिन्हें विभिन्न उद्देश्यों के लिए वेब साइटों में निहित जानकारी तक पहुँचने की आवश्यकता होती है, जैसे कि बाजार अनुसंधान, प्रतियोगिता निगरानी, या वेब एप्लिकेशन विकास।
मुख्य विशेषताएँ:
पूर्ण एचटीएमएल कोड पुनः प्राप्त करना: एचटीएमएल एक्सट्रैक्टर एपीआई का मुख्य कार्य एक विशिष्ट वेब पृष्ठ का संपूर्ण एचटीएमएल कोड पकड़ना है। इसमें पृष्ठ की पूरी संरचनात्मक सामग्री शामिल होती है, जैसे कि टैग, विशेषताएँ और अंतर्निहित तत्व। पूर्ण एचटीएमएल प्राप्त करके, उपयोगकर्ता पृष्ठ पर सभी दृश्य और छिपी हुई जानकारी तक पहुँच सकते हैं, जो सामग्री का व्यापक विश्लेषण करने की अनुमति देती है।
विभिन्न प्रकार के वेब पृष्ठों के लिए समर्थन: यह एपीआई बहुपरकारी है और स्थिर पृष्ठों से लेकर उन गतिशील साइटों तक व्यापक वेब साइटों की एक श्रृंखला का समर्थन करता है जो जावास्क्रिप्ट का उपयोग करके सामग्री उत्पन्न करते हैं। विभिन्न प्रकार की सामग्री को संभालने की क्षमता एपीआई को विभिन्न अनुप्रयोगों के लिए उपयुक्त बनाती है, जैसे कि समाचार डेटा संग्रह, सोशल नेटवर्क निगरानी, और जटिल वेब पृष्ठ संरचना विश्लेषण।
विशिष्ट डेटा निकासी: हालांकि एपीआई पूर्ण एचटीएमएल प्रदान करता है, इसे विशिष्ट पृष्ठ डेटा निकालने के लिए भी उपयोग किया जा सकता है। उपयोगकर्ता एचटीएमएल पार्सिंग तकनीकों के साथ एपीआई को संयोजित कर सकते हैं, जैसे नियमित अभिव्यक्तियों या एचटीएमएल प्रोसेसिंग लाइब्रेरी का उपयोग, विशेष जानकारी जैसे उत्पाद की कीमतें, संपर्क विवरण या अन्य प्रासंगिक डेटा निकालने के लिए।
संक्षेप में, एचटीएमएल एक्सट्रैक्टर एपीआई वेब पृष्ठों से एचटीएमएल सामग्री निकालने के लिए एक शक्तिशाली और लचीला उपकरण है। यह विश्लेषण, अनुसंधान या विकास के लिए वेब पृष्ठ सामग्री तक पूर्ण पहुंच की आवश्यकता वाले लोगों के लिए एक प्रभावी समाधान प्रदान करता है। इसका विभिन्न प्रकार के पृष्ठों को संभालने की क्षमता और आसान एकीकरण इसे वेब डेटा प्रबंधन और विश्लेषण में अनेक उपयोग मामलों के लिए एक मूल्यवान विकल्प बनाती है।
एपीआई एक वेब पृष्ठ का यूआरएल प्राप्त करता है और उस पृष्ठ की पूरी एचटीएमएल सामग्री को विश्लेषण और डेटा निकासी के लिए प्रदान करता है।
प्रतिस्पर्धी अनुसंधान: प्रतिस्पर्धियों की वेबसाइटों से सामग्री एकत्र करें ताकि कीमतों, उत्पादों, प्रचार और विपणन रणनीतियों का विश्लेषण किया जा सके।
समाचार निगरानी: समाचार साइटों से सामग्री निकालें ताकि वास्तविक समय में नवीनतम घटनाओं और अपडेट के साथ बने रहें।
शैक्षिक अनुसंधान के लिए डेटा संग्रह: शैक्षिक अनुसंधान या केस स्टडीज के लिए कई वेबसाइटों से सामग्री प्राप्त करें और उसका विश्लेषण करें।
वेब एप्लिकेशन विकास: विकास और परीक्षण के दौरान स्वयं वेब एप्लिकेशनों से एचटीएमएल निकालने और पार्स करने के लिए एपीआई का उपयोग करें।
एसईओ विश्लेषण: महत्वपूर्ण एसईओ तत्वों जैसे मेटा टैग, शीर्षक, और लिंक संरचना का विश्लेषण करने के लिए वेब पृष्ठों से एचटीएमएल निकालें।
प्रति माह अनुमत एपीआई कॉल की संख्या के अलावा, कोई अन्य सीमाएँ नहीं हैं।
{"method":"GET","urlSupplier":"https:\/\/www.reuters.com\/article\/us-usa-economy-idUSKBN2A40BO","redirectedUrlSupplier":"https:\/\/www.reuters.com\/article\/us-usa-economy-idUSKBN2A40BO\/","_note":"Response truncated for documentation purposes"}
curl --location --request GET 'https://zylalabs.com/api/5079/html+extractor+api/6470/source+url?urlSupplier=https://www.reuters.com/article/us-usa-economy-idUSKBN2A40BO&forceCache=True' --header 'Authorization: Bearer YOUR_API_KEY'
| हेडर | विवरण |
|---|---|
Authorization
|
[आवश्यक] होना चाहिए Bearer access_key. जब आप सब्सक्राइब हों तो ऊपर "Your API Access Key" देखें। |
कोई लंबी अवधि की प्रतिबद्धता नहीं। कभी भी अपग्रेड, डाउनग्रेड या कैंसल करें। फ्री ट्रायल में 50 रिक्वेस्ट तक शामिल हैं।
इस एपीआई का प्रयोग करने के लिए, आप एक अनुरोध भेजते हैं जिसमें वेब पृष्ठ का यूआरएल होता है और पूर्ण HTML सामग्री प्राप्त करते हैं जिसे पार्स और निकालने के लिए प्रयोग किया जाता है
HTML एक्सट्रैक्टर एपीआई एक वेब पृष्ठ से पूरा HTML कोड लाता है जिससे सामग्री से डेटा पार्स और निकालना आसान हो जाता है
विभिन्न योजनाएँ हैं जो प्रत्येक के लिए उपयुक्त हैं जिसमें छोटे अनुरोधों के लिए एक मुफ़्त परीक्षण शामिल है लेकिन इसकी दर का सीमित करना सेवा के दुरुपयोग को रोकने के लिए है
Zyla लगभग सभी प्रोग्रामिंग भाषाओं के लिए एक विस्तृत रेंज के एकीकरण विधियों की पेशकश करता है आप अपनी आवश्यकता के अनुसार इन कोड का उपयोग करके अपने प्रोजेक्ट के साथ एकीकृत कर सकते हैं
एपीआई एक डोमेन की उम्र और इतिहास के बारे में विस्तृत जानकारी लौटाता है जिसमें इसके निर्माण से लेकर वर्षों, महीनों और दिनों के अलावा समाप्ति और अद्यतन तिथियाँ भी शामिल हैं
एपीआई निर्दिष्ट वेब पृष्ठ का संपूर्ण एचटीएमएल सामग्री लौटाता है जिसमें सभी टैग, विशेषताएँ और अंतर्निहित तत्व शामिल होते हैं यह उपयोगकर्ताओं को विश्लेषण के लिए दृश्य और अदृश्य जानकारी दोनों तक पहुँचने की अनुमति देता है
प्रतिक्रिया में "पद्धति" (उपयोग की गई HTTP पद्धति), "urlSupplier" (मांग की गई मूल URL), "redirectedUrlSupplier" (पुनर्निर्देशन के बाद का अंतिम URL), और "pageSource" (पृष्ठ की संपूर्ण HTML सामग्री) जैसे क्षेत्र शामिल हैं
प्रतिक्रिया JSON प्रारूप में संरचित है जिसमें कुंजी-मूल्य जोड़े हैं जो HTTP विधि URLs और पूर्ण HTML स्रोत प्रदान करते हैं यह संगठन पार्सिंग और अनुप्रयोगों में समाकलन को आसान बनाता है
एपीआई वेब पृष्ठों की पूरी एचटीएमएल संरचना तक पहुंच प्रदान करता है जिससे उपयोगकर्ता पाठ सामग्री चित्र लिंक और मेटाडेटा जैसे विभिन्न प्रकार की जानकारी निकाल सकते हैं ताकि आगे के विश्लेषण के लिए
उपयोगकर्ता विभिन्न वेब पृष्ठों से HTML सामग्री प्राप्त करने के लिए अलग-अलग यूआरएल निर्दिष्ट करके अनुरोधों को कस्टमाइज़ कर सकते हैं एपीआई किसी भी मान्य यूआरएल को संसाधित करता है जो उपयोगकर्ता की आवश्यकताओं के आधार पर लचीले डेटा निष्कर्षण की अनुमति देता है
सामान्य उपयोग के मामलों में प्रतियोगी अनुसंधान समाचार मॉनिटरिंग शैक्षणिक डेटा संग्रह वेब अनुप्रयोग विकास और SEO विश्लेषण शामिल हैं जहां उपयोगकर्ताओं को वेब पृष्ठों की संरचना और सामग्री का विश्लेषण करने की आवश्यकता होती है
API निर्दिष्ट URLs से सीधे लाइव HTML सामग्री प्राप्त करता है जिससे यह सुनिश्चित होता है कि डेटा वेब पेज के सबसे वर्तमान संस्करण को दर्शाता है इस वास्तविक समय की पहुंच सटीकता बनाए रखने में मदद करती है
उपयोगकर्ता एक सुसंगत JSON प्रतिक्रिया संरचना की उम्मीद कर सकते हैं जिसमें विधि, URLs और HTML सामग्री के लिए फ़ील्ड होंगे HTML पृष्ठ के डिज़ाइन के आधार पर भिन्न होगा लेकिन प्रतिक्रिया प्रारूप अनुरोधों में समान रहता है
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
173ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
2,429ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
17ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
105ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
3,869ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
299ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
219ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
935ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
546ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
83ms