software1

Presentación de la API REST de scrapestack en tiempo real, proxy escalable y web scraping


Bienvenido al tutorial de hoy sobre Scrapestack, un poderoso servicio API de Scraping Web en tiempo real utilizado por más de 2,000 compañías. Y es gratis eliminar hasta 10,000 páginas por mes antes de que se requiera un plan pagado.

Si no está familiarizado con el término raspado web, significa descargar una página web vinculada a una URL como lo haría un navegador. excepto que captura el código fuente HTML de la página.

¿Por qué deberías buscar en la web? Hay una variedad de usos, tales. Por ejemplo, identificación de noticias actuales, resumen de contenido, recopilación de datos de aprendizaje automático, análisis de mercado, gestión de SEO y extracción de datos, etc.

  API de REST escalable en tiempo real del proxy y web scraping scrappack API CAPTCHAs y representación de JavaScript.

La página de inicio del proxy escalable en tiempo real del API de un apilayer y la API REST de raspado web, maneja CAPTCHA y la representación de JavaScript.

Scrapestack no solo es rápido y fácil de iniciar, sino que también ofrece funciones avanzadas que garantizan resultados de desecho consistentemente de alta calidad.

  • Representación de JavaScript: dado que muchos sitios cargan contenido dinámicamente, Scrapestack puede simular a un usuario real que busca en la página para entregar el contenido dinámico.
  • CAPTCHA: Scrapestack puede responder dinámicamente a CAPTCHA para eliminar el contenido subyacente.
  • Global Web Scraping: Scrapestack puede entregar páginas como si estuviera llamando a una página web desde cualquier parte del mundo. [1 9659008] Direcciones IP de proxy para un raspado más exitoso, un raspado web geolocalizado y un anonimato virtual.

Scrapestack es altamente escalable y puede manejar millones de solicitudes de página por día.

Scrapestack se puede utilizar como API REST desde cualquier lenguaje de programación. Para ayudarlo a comenzar rápidamente, incluye ejemplos de código para PHP, Python, Node.js, jQuery, Go y Ruby.

En la página de estado puede leer casi el 100%. Tiempo de funcionamiento del servicio.

La compañía detrás de scrapestack es apilayer . Este es mi octavo artículo sobre sus servicios, y soy un gran admirador de la simplicidad y accesibilidad de sus servicios. apilayer ofrece modelos de precios similares, reservas, guías rápidas y documentación claramente estructurada.

Estos son algunos de los servicios de apilayer sobre los que escribí anteriormente en ProgrammableWeb :

Si ha utilizado Todos los servicios que se iniciaron previamente con la API Scrapestack le son familiares. La documentación y la estructura API REST son las mismas para todos los productos. La mayoría de ellos son perfectos para fortalecer su aplicación o sitio web.

Si usted es un desarrollador de inicio o independiente, un programador siempre ofrece un generoso plan gratuito con todas sus características para servicios como la API Scrapestack.

¡Comencemos buscando en la web!

Comenzando con la API Scrapestack

Para explorar Scrapestack, debe registrarse para obtener una cuenta, el nivel de cuenta gratuita es excelente para explorar la API y comenzar.

Obtenga su clave API Weatherstack gratuita

  Captura de pantalla de la página de precios de Scrapestack Regístrese de forma gratuita o elija entre cuatro ofertas pagas: Básica, Profesional, Comercial o Empresarial.

Captura de pantalla de la página de precios de la bolsa de recortes. Regístrese gratis o elija entre cuatro servicios pagos: básico, profesional, comercial o empresarial.

El plan gratuito incluye 10,000 solicitudes de raspado de páginas con servidores proxy estándar. Otros planes ofrecen funciones avanzadas, que se describen a continuación.

Si paga anualmente, puede ahorrar un 20 por ciento en cada plan (con la excepción del plan gratuito, jaja).

El formulario de registro

Una vez que haya seleccionado un plan. Se le pedirá que complete un formulario de solicitud. Es muy simple:

  Registro de Scrapestack y formulario de registro. El ejemplo que se muestra es la tarifa gratuita con información sobre correo electrónico, contraseña, nombre y dirección. La imagen muestra el área de desplazamiento inferior del formulario Detalles de la empresa y Google CAPTCHA a la derecha.

Registro de Scrapestack y formulario de registro. El ejemplo que se muestra es la tarifa gratuita con información sobre correo electrónico, contraseña, nombre y dirección. La imagen muestra el área de desplazamiento inferior del formulario de datos de la empresa y Google CAPTCHA a la derecha.

Una vez que haga clic en Iniciar sesión, su correo electrónico incluirá una carta de bienvenida con enlaces a la documentación .

  El correo electrónico de bienvenida del correo de desecho en la API de Scraping Web Escalable en tiempo real incluye un enlace a la documentación del API y su correo electrónico de soporte al cliente.

El correo electrónico de bienvenida del correo electrónico de desecho de la API de Scraping Web escalable en tiempo real de Scalestack incluye un enlace a la documentación de la API y su correo electrónico de soporte al cliente.

Echemos un vistazo al tablero que los clientes de otros servicios de apiladores reconocen de inmediato. Cuando usa un servicio de apilayer, entrar en otro es bastante fácil.

Tablero API de scrapestack

Tablero API de scrapestack contiene su clave API y una sencilla Guía de inicio rápido de 3 pasos :

Paso 1 – Su clave de acceso API [19659027] Su clave de acceso a la API proporciona acceso a la API Scrapestack. Debe incluirse como parámetro en cada llamada. También puede restablecer la clave para guardar una nueva cuando lo desee.

  La Guía de inicio rápido de 3 pasos de Scrapestack API para comenzar a usar la API de desguace web en tiempo real.

Introducción a la Guía de inicio rápido de 3 pasos de Scrapestack API Comience a usar la API de desguace web en tiempo real.

Paso 2: crea tu primera solicitud de API.

Intentemos desechar nuestro primer sitio web con Scrapestack.

  Cree una captura de pantalla de la solicitud de API de inicio rápido de Scrapestack API. Esto muestra los parámetros para una solicitud REST API al servicio.

Captura de pantalla: Inicio rápido de API Scrapestack: crear una solicitud de API. Esto muestra los parámetros para una solicitud REST API al servicio.

Primero, puede intentar acceder a la siguiente URL sin ningún parámetro opcional. Debe reemplazar las letras x a continuación con su clave de acceso API.

  https://api.scrapestack.com/scrape?access_key=xxxx&url=https://apple.com 

En mis navegadores Safari y Opera La solicitud anterior proporciona una página HTML sin procesar de Apple. com de vuelta. Sin embargo, cuando cambié al código fuente, pude ver el código HTML devuelto por scrapestack:

  ejemplo de API de scrapestack para extraer el código HTML de Apple.com. A la izquierda está la presentación de Opera de HTML parcialmente renderizado. En el lado derecho está el código fuente HTML para la vista.

Ejemplo de la API Scrap para extraer HTML de Apple.com. A la izquierda está la presentación de Opera de HTML parcialmente renderizado. A la derecha está el código fuente HTML de la vista.

En la versión de desarrollador de Safari, hice clic en Desarrollar => Mostrar fuente de la página y en Opera utilicé el prefijo "view-source:" antes de que mi llamada API regrese directamente desde Scrapestack en HTML desde el sitio web que estoy solicitando. Simplemente pegue la siguiente línea en Opera para aterrizar en la fuente HTML:

  view-source: https: //api.scrapestack.com/scrape? Access_key = xxx & url = https: //www.nytimes.com /2019/10/01/us/politics/trump-impeachment-pompeo.html[19659047<EstopuedenofuncionarenotrosnavegadoresqueOpera

Usualmente use la API Scrapestack programáticamente y no encontrarán uno de los elementos visuales parcialmente representados. Y probablemente usará Scrapestack de un servidor de fondo.

Sin embargo, si a menudo usa estas API en front-end de JavaScript, es una buena idea cambiar su clave de acceso periódicamente. Puede restablecer su clave utilizando el Panel de la cuenta haciendo clic en el botón de restablecimiento negro al lado de su clave API.

Paso 3 - Integre con su aplicación

Para finalizar el inicio rápido y continuar, pasemos a

  Captura de pantalla del último paso de la Guía de inicio rápido de API Scrapestack, Integración en su aplicación.

Captura de pantalla del último paso de la Guía de inicio rápido de API Scrapestack, que se integra en su aplicación.

Scrapestack contiene ejemplos de codificación para seis idiomas: PHP, Python, Node.js, jQuery, Go y Ruby. Aquí hay un ejemplo de Python para ver cómo puede usar Scrapestack del código:

  Requisitos de importación
params = 
& # 39; tecla_acceso & # 39;: YOUR_ACCESS_KEY & # 39;,
& # 39 ;: & # 39 ;: http: //scrapestack.com&#39;

api_result = orders.get (& # 39; http: //api.scrapestack.com/scrape&#39;, params)
website_content = api_result.content
print (website_content) 

Para más información, ver más abajo.

Como se mencionó anteriormente, este ejemplo de Python muestra un escenario programático basado en servidor en el que la salida se elimina como código HTML y se imprime como código fuente en la pantalla. Nunca se mostrará en el navegador.

Más allá de lo básico, el scrapestack ofrece una serie de características avanzadas importantes para crear un motor de raspado web más potente y confiable. Echemos un vistazo.

Uso de las funciones avanzadas de scrapestack

Ha pasado mucho tiempo desde que la mayoría de los sitios web se han operado con HTML estático relativamente simple. Las cucarachas no son tan fáciles como solían ser. Muchos sitios web usan JavaScript para mostrar contenido dinámico basado en la ubicación o la dirección IP. Y los sitios web utilizan muchas funciones de protección integradas para filtrar qué personas pueden ver diferentes tipos de contenido. Las características avanzadas de Scrapestack brindan un poderoso soporte para trabajar con estas barreras y rascar sitios web dinámicos más complejos. Simplemente configure el parámetro render_js en 1 para habilitar la representación de JavaScript de la siguiente manera:

  https://api.scrapestack.com/scrape?access_key=xxxx&url=https://apple.com&render_js=1 

Por ejemplo, si alguien tiene un widget de línea de tiempo de Twitter en la barra lateral de su blog. Un raspador normal puede hacer que aparezcan los DIV vacíos. Sin embargo, el uso de la representación de JavaScript mostrará los últimos tweets.

La función de representación de JavaScript requiere la línea base o superior.

Encabezados HTTP

Los sitios web de hoy en día utilizan métodos cada vez más complejos para bloquear bots y piratas informáticos. Un raspador simple a menudo está cubierto por estas herramientas. Los encabezados HTTP scrapestack le permiten configurar algunos argumentos de solicitud comunes que evitarán con éxito las pruebas de validación del sitio.

No puede usar parámetros de URL para enviar encabezados HTTP. En su lugar, puede realizar una solicitud de rizo con una cadena de encabezado siempre que incluya keep_headers = 1 en su solicitud de URL.

  curl --header "X-AnyHeader: Test" "https://api.scrapestack.com/ scrape? Access_key = xxx & url = https: //apple.com&keep_headers=1" 

A continuación se muestra Algunos encabezados de muestra que puede incluir en sus requisitos para extraer las páginas web de mejor rendimiento:

1. User-Agent que proporciona al sitio web información sobre su computadora y su navegador web, así como el procesador utilizado por el navegador. Ejemplo:

Mozilla / 5.0 (Macintosh, Intel Mac OS X 10_14_6) AppleWebKit / 605.1.15 (KHTML, como Gecko) Versión / 13.0.1 Safari / 605.1.15

2. Accept-Language le dice al sitio el idioma de su elección. Por ejemplo:

Aceptar-Idioma: en-US;

3. Accept-Encoding le dice al sitio qué algoritmos de compresión admite su navegador. Por ejemplo:

Aceptar-Codificación: Deflación, gzip; q = 1.0, *; q = 0.5

4. Aceptar indica qué formatos puede aceptar su navegador. Por ejemplo:

Aceptar: texto / html

5. Referer especifica una URL desde la cual tuvo lugar la llegada a este sitio web. Ejemplo:

Referer: https://scrapestack.com/documentation

El uso de encabezados HTTP está disponible para todos los planes. scrapestack no es compatible con la codificación de contenido y los encabezados de longitud de contenido.

Usando Proxies para Web Scraping

scrapestack proporciona dos funciones diferentes para usar servidores proxy.

Proxy basado en ubicación

El parámetro proxy_location le permite rascar una página web con un servidor web proxy en uno de los 77 países (19459012). Un ejemplo de Francia:

https: //api.scrapestack.com/scrape? Access_key = xxx & url = https: //google.com ...

En mis pruebas rudimentarias en sitios populares, no he encontrado diferencias en el raspado por ubicación, incluso si se utilizó render_js. Sin embargo, es probable que ciertos sitios web sean muy diferentes según su procedencia.

Uso de estos sitios basados ​​en sitios Los servidores proxy estándar están disponibles en la línea de base y más adelante.

scrapestack también ofrece servidores proxy más exclusivos para el raspado web crítico para la empresa, conocidos como servidores proxy premium.

Servidor proxy premium

Usando el proxy predeterminado del servidor scrapestack, sus intentos de bloquearlo pueden ser bloqueados. Algunos sitios web bloquean regularmente a los carroñeros si sospechan que se están utilizando de manera incorrecta. Las direcciones IP que utilizan regularmente los servidores proxy de ubicación pueden ser conocidas por los sitios a auditar.

scrapestack ofrece servidores proxy premium, que en realidad son servidores proxy privados con direcciones IP privadas reales. Es mucho menos probable que sean bloqueados. Los servidores proxy premium están disponibles en 38 geolocalizaciones .

En este ejemplo, el parámetro premium_proxy se establece en 1 y el parámetro proxy_location se establece en Dinamarca:

  https://api.scrapestack.com/scrape?access_key= xxx & url = https: //slashdot.com&premium_proxy=1&proxy_location = dk 

El uso de la función premium_proxy está restringido al Plan profesional o niveles superiores. Las solicitudes se calculan con 25 solicitudes API, mientras que todas las demás solicitudes se calculan con 1 solicitud.

Solicitudes HTTP POST / PUT

Scrapestack también incluye soporte POST y PUT. Por ejemplo, debe iniciar sesión o enviar información para llegar a la página que desea buscar. Aquí hay un ejemplo de envío de datos de formulario usando POST:

  curl -H & # 39; tipo de contenido: application / x-www-form-urlencoded & # 39;
-F # username = Reifman_abc & # 39; -F & # 39; Contraseña = escritor_7! & # 39;
-X POST
"https://api.scrapestack.com/scrape?access_key=xxx&url=https://google.com/login"[19659047ImportanteparaasegurarsedequeestáutilizandoPUTparaelraspadowebobtendrá[199659002] HTTP-POST / PUT para todos los planes. 

Ejemplos de lenguajes de programación

Como se mencionó anteriormente, scrapestack incluye ejemplos de programación para seis de los lenguajes más populares: PHP, Python, Node.js, jQuery, Go y Ruby.

] Aquí hay un ejemplo de jQuery:

  .get (& # 39; https: //api.scrapestack.com/scrape&#39;,

tecla de acceso: & # 39; YOUR_ACCESS_KEY & # 39;,
URL: "http://scrapestack.com"
,
Función (contenido del sitio web) 
console.log (websiteContent);

); 

Y aquí hay un ejemplo de PHP con curl:

   & # 39; YOUR_ACCESS_KEY & # 39;
& # 39; URL & # 39; => & # 39; http: //scrapestack.com&#39;,
]);
$ ch = curl_init (sprintf (& # 39;% s?% s & # 39;, http: //api.scrapestack.com/scrape&#39;, $ queryString));
curl_setopt ($ ch, CURLOPT_RETURNTRANSFER, verdadero);
$ website_content = curl_exec ($ ch);
curl_close ($ ch);
echo $ website_content;
?> 

Y aquí hay un ejemplo con Go:

  paquete principal
importar (
"Fmt"
"io / ioutil"
"net / http"
)
func main () 
httpClient: = http.Client 
req, err: = http.NewRequest ("GET", "http://api.scrapestack.com/scrape", nil)
si err! = nulo 
pánico

q: = req.URL.Query ()
q.Agregar ("clave_acceso", "TU_ACCESO_CLAVE")
q.Add ("url", "http://scrapestack.com")
req.URL.RawQuery = q.Encode ()
res, err: = httpClient.Do (req)
si err! = nulo 
pánico

mover res.Body.Close ()
if res.StatusCode == http.StatusOK 
bodyBytes, err: = ioutil.ReadAll (res.Body)
si err! = nulo 
pánico

contenido del sitio web: = cadena (bodyBytes)
fmt.Println (contenido del sitio web)

 

Estos ejemplos facilitan la integración rápida de scrapestack en su plataforma de desarrollo. Es una especialidad del apilayer simplificar la entrada en un servicio API

.

Hablemos sobre los niveles de uso y su cuenta.

Actualice su cuenta

scrapestack es un servicio basado en suscripción que usted selecciona. El plan se renueva automáticamente cada mes. Puede actualizar, degradar o cancelar en cualquier momento.

Puede actualizar su cuenta por los siguientes motivos:

  • Necesita cifrado HTTPS para sus solicitudes de API REST. Esto requiere el nivel base o superior.
  • Necesita solicitudes concurrentes, se requiere nivel base o superior
  • Necesita la función de representación de JavaScript, se requiere nivel base o superior
  • Necesita la función proxy_location, nivel base o posterior requerida
  • Necesita usar premium_proxy , desde el nivel profesional
  • Necesita un volumen muy alto, escalabilidad y funciones personalizadas, póngase en contacto con scrapestack para obtener una solución empresarial personalizada y una cotización de precios.

Para realizar cambios, visite Plan de suscripción a través del Tablero:

  Plan Scrapestack y planes de precios de actualización o rebaja para el uso de API de Scraping Web en tiempo real.

Plan Scrapestack y Planes de actualización de Web-S en tiempo real o planes de precios de rebaja Uso de API craping.

En la imagen de arriba, puede ver que estoy en el plan de negocios, pero puedo degradar a los otros planes. Si necesito una solución empresarial personalizada, también puedo hacer clic en el botón Solicitar cotización.

scrapestack también proporciona una página para calcular sus estadísticas de uso para el período actual y a lo largo del tiempo. Simplemente visite su tablero y haga clic en Uso de API (Acabo de usar mi cuenta para ejecutarlo durante un corto período de tiempo):

  En la página de Uso de API Scrapestack El número se muestra en los paneles de control La página de uso de API del panel de control de Scrapack muestra el número de solicitudes de API de scraping web y un registro diario estadístico para su seguimiento interno. </p>
</div>
<p>  Utilice este registro para decidir si desea actualizar o degradar los niveles de suscripción. Por ejemplo, se permiten 10,000 llamadas por mes para tarifas gratuitas, 1,000,000 para tarifas profesionales y 3,000,000 para empresas. Si esto no es suficiente para satisfacer sus necesidades, póngase en contacto con scrapestack para obtener un plan comercial personalizado. </p>
<h2>  Conclusión </h2>
<p>  Espero que disfrutes aprendiendo Web Scraping y la API Scrapestack. Es una nueva API REST simple que le permite comenzar con los requisitos básicos de raspado. También se puede escalar desde cualquier lugar hasta el raspado web proxy proxy distribuido simultáneamente a nivel empresarial. Es increíblemente poderoso. </p>
<p>  Me gusta escribir para las personas detrás de scrapestack, el equipo de apiladores, y compartir sus nuevos proyectos. Son tecnólogos calificados que brindan servicios potentes a precios asequibles con API fáciles de integrar y rendimiento y capacidad escalables. </p>
<p>  Echa un vistazo a <a href= su conjunto de productos y probablemente encontrarás más que te interese. [19659002] apilayer y scrapestack agradecen sus preguntas, comentarios y comentarios. También puede seguirlos en Twitter @apilayer y la página de Facebook apilayer .

Acerca de Apilayer

scrapestack es el último servicio de apilayer un líder establecido en API de servicio. Está diseñado para ayudar a los desarrolladores y las empresas a automatizar y externalizar procesos complejos al proporcionarles interfaces de programación dedicadas y convenientes.

Otros dos productos de apilayer incluyen Weatherstack los datos meteorológicos gratuitos en tiempo real y la API de pronóstico, y userstack la API gratuita para buscar agentes de usuario y descubrimiento de dispositivos que utilicé anteriormente para ProgrammableWeb .





Software alquiler maquinaria de Cea Ordenadores

Comentarios desactivados en Presentación de la API REST de scrapestack en tiempo real, proxy escalable y web scraping