如何配合代理使用cURL?

本文将分步骤介绍如何配合代理服务器使用cURL或curl。从安装到设置代理的各种选项,面面俱到。

本教程适用于所有代理服务器。您只需要知道服务器详细信息和凭据即可。

这是一门技术性很强的教程,希望读者能对代理是什么有一个基本的了解。对于那些从网络抓取开始学习的人来说,这将是特别有趣和有用的一门教程。

什么是cURL?

cURL是用于使用url发送和接收数据的命令行工具。让我们看一下使用curl的最简单的例子。打开terminal或命令提示符,然后键入以下命令,然后按Enter:

curl https://www.google.com

这将获取页面的HTML并将其打印在控制台上。

curl https://www.google.com -I

这将打印文档信息。

HTTP/1.1 200 OK

Content-Type:text/html; charset=ISO-8859-1

安装cURL

许多Linux发行版和MacOS都提供了cURL。现在Windows 10也都提供了cURL。

  • 如果Linux里没有提供cURL:可以通过运行install命令来进行安装。例如,在Ubuntu上,打开Terminal并运行以下命令:
    sudo apt install curl
  • 如果您正在运行Windows的旧版本,或者要安装备用版本:可以从官方下载页面下载curl 。官方下载页面:https://curl.se/download.html

连接到代理所需的内容


无论使用哪种代理服务,您都需要以下信息才能使用:

  • 代理服务器地址
  • 端口
  • 协议
  • 用户名(如果需要进行身份验证)
  • 密码(如果需要进行身份验证)

在本教程中,我们假设代理服务器为127.0.0.1,端口为1234,用户名为user,密码为pwd。我们将列举涵盖各种协议的多个例子。

注意:如果您在使用NTLM身份验证的网络,则可以在运行curl时使用proxy-ntlm开关。同样,–proxy-digest可用于摘要身份验证。您可以通过运行curl –help查看所有可用选项。本教程将为需要指定用户名和密码的情况进行举例说明。

下一部分将介绍第一个curl代理场景,这恰好是最常见的场景-——配合curl使用的HTTP和HTTPS代理。

将cURL与HTTP/HTTPS代理一起使用

如果您还记得的话,我们研究了如何在不使用代理的情况下使用curl,例如:

curl https://httpbin.org/ip

这个特定的网站对于测试代理服务器特别有用,因为此页面的输出是原始IP地址。如果正确使用了代理,则页面将返回与您的计算机不同的IP地址,即代理的IP地址。

有多种使用proxy命令运行curl的方法。下一部分将介绍如何将代理详细信息作为命令行参数发送。

注意:所有命令行选项或开关均区分大小写。例如,-f指示curl静默失败,而-F指示要提交的表单。

在cURL中设置代理的命令行参数


打开terminal并输入以下命令,然后按Enter:

curl --help

输出将是大量的选项列表。其中之一将如下所示:

-x, --proxy [protocol://]host[:port]

请注意,x是小写的,记得区分大小写。可以使用-x或–proxy开关提供代理详细信息。两者都是同一回事。带有代理命令的curl的指令效果是相同的:

curl -x "http://user:pwd@127.0.0.1:1234" "http://httpbin.org/ip"

或者

curl --proxy "http://user:pwd@127.0.0.1:1234" "http://httpbin.org/ip"

注意:如果存在SSL证书错误,请在curl命令中添加-k(注意是小写k)。使用SSL时,这将允许不安全的服务器连接。

curl --proxy "http://user:pwd@127.0.0.1:1234" "http://httpbin.org/ip" -k

您可能已经注意到代理URL和目标URL都用双引号引起来。建议使用此方法来处理url中的特殊字符。

这里要注意的另一件有趣的事情是,默认的代理协议是http。因此,以下两个命令将完全相同:

curl --proxy "http://user:pwd@127.0.0.1:1234" "http://httpbin.org/ip"
curl --proxy "user:pwd@127.0.0.1:1234" "http://httpbin.org/ip"

使用环境变量


将curl与proxy一起使用的另一种方法是设置环境变量http_proxyhttps_proxy。 

请注意,使用环境变量设置代理仅适用于MacOS和Linux。对于Windows,请参阅下一部分,下一部分将说明如何使用_curlrc文件。

大家可以看一下这些变量名的第一部分,它清楚地显示将使用这些代理的协议。它与用于代理服务器本身的协议无关。

  • http_proxy –代理将用于访问使用http协议的地址
  • https_proxy –代理将用于访问使用https协议的地址

只需将变量http_proxy设置为http代理地址,并将https_proxy设置为https代理地址。打开terminal并运行这两个命令。

export http_proxy=”http://user:pwd@127.0.0.1:1234″

export https_proxy=”http://user:pwd@127.0.0.1:1234″

运行这两个命令后,请正常运行curl

curl "http://httpbin.org/ip"

如果看到SSL证书错误,请添加-k以忽略这些错误。

这里要注意的另一件事是,这些变量适用于整个系统。如果不需要此行为,请通过取消设置以下两个变量来关闭全局代理:

unset http_proxy

unset https_proxy

接下来请参阅下一部分:仅针对curl设置默认代理,而不针对系统范围设置默认代理。

配置cURL始终使用代理

如果您要curl而不是其他程序配合代理使用,则可以通过创建curl配置文件(地址:https://everything.curl.dev/cmdline/cmdline-configfile)来实现。

对于Linux和MacOS,打开terminal并引导到您的主目录。如果已经有一个.curlrc文件,请打开它。如果没有,请创建一个新文件。这是可以运行的命令集:

cd ~

nano .curlrc

在此文件中,添加以下行:

proxy=”http://user:pwd@127.0.0.1:1234″

保存文件。现在可以使用带有代理的curl了。只需正常运行curl,它将从.curlrc文件读取代理。

curl “http://httpbin.org/ip”

在Windows上,该文件名为_curlrc。该文件一般放在%APPDATA%目录中。

要找到%APPDATA%的确切路径,请打开命令提示符并运行以下命令:

echo %APPDATA%

该目录类似于C:\ Users \ <您的用户> \ AppData \ Roaming。现在转到此目录,并创建一个新文件_curlrc,并通过添加以下行来设置代理:

proxy=”http://user:pwd@127.0.0.1:1234″

在Linux,MacOS和Windows中,均有效。

忽略或覆盖单请求的代理

如果代理是全局设置的,或者通过修改.curlrc文件设置,则仍然可以覆盖该代理以设置另一个代理,甚至绕过它。

要覆盖单请求的代理,请照常使用-x–proxy开关设置新代理:

curl –proxy “http://user:pwd@1.0.0.1:8090” “http://httpbin.org/ip”如果您想完全绕过请求的代理,则可以在–noproxy后跟“*”。这指示curl不要对所有URL使用代理。

curl –noproxy “*” “http://httpbin.org/ip”

如果您有许多不使用代理即可执行的curl请求,但又不更改系统范围的代理设置,则下一部分将向您确切说明如何执行此操作。

额外提示-快速开启和关闭代理

本技巧仅适用于高级用户。如果您不知道什么是bashrc文件,您可以跳过本节。

您可以在.bashrc文件中创建别名以设置代理和取消设置代理。例如,使用任何编辑器打开.bashrc文件并添加以下行:

alias proxyon=”export http_proxy=’ http://user:pwd@127.0.0.1:1234′;export https_proxy=’ http://user:pwd@127.0.0.1:1234′”

alias proxyoff=”unset http_proxy;unset https_proxy”

添加这些行之后,保存.bashrc并更新外壳程序以读取此.bashrc。为此,请在terminal中运行以下命令:

. ~/.bashrc

现在,无论何时需要打开代理,都可以随时快速打开代理,运行一个或多个curl命令,然后关闭代理,如下所示:

proxyon

curl “http://httpbin.org/ip”

curl “http://google.com”

proxyoff

cURL Socks代理


如果代理服务器使用的是socks协议,则语法保持不变:

curl -x “socks5://user:pwd@127.0.0.1:1234” “http://httpbin.org/ip”同样,根据socks的版本,可以使用socks4://,socks4a://,socks5://或socks5h://。

另外,也可以使用–socks5而不是-x开关来设置curl socks代理。您可以使用相同的命令,但使用不同的开关:可以使用–proxy-user开关发送用户名和密码。

curl –socks5 “127.0.0.1:1234” “http://httpbin.org/ip” –proxy-user user:pwd

同样,可以使用–socks4–socks4a–socks5,具体取决于版本。

总结

cURL是非常强大的自动化工具,可以说拥有代理支持方面最好的命令行界面。最后,由于libcurl与php配合得很好,因此许多网络应用程序都将其用于网络抓取项目,这使其成为任何网络抓取工具的必备工具。