豆子喜欢看小说 但是很多小说网页的爬虫很不给力,更新不及时。本来想看看Powershell有没有类似Python scarpy的能力,结果很失望,不过意外的发现很多搜索引擎都提供了API 可以通过PowerShell直接调用。
下面以微软的BING为例。
首先需要在azure的datamarket申请一个账号
https://datamarket.azure.com/dataset/bing/search#terms
用windows live账号登录,然后选择第一个就行了,这个每个月可以免费查询5000次,做个测试够用了。
切换到My Account ->My Data,这里可以直接使用一个在线版的API
比如说,我可以搜索不同的内容,网页,图像,视频,新闻等等~
注意有个Primary Account Key, 这个就是我的主账号,调用API的时候需要通过这个ID来验证的
下面看看怎么在PowerShell里面调用。
我在网上搜索了一些,大部分是旧版的语法和例子,具体的语法也语焉不详 要不然就是一个链接直接执行MSDN,这个对于非专业的码农来说很难找到合适的例子,幸好找到一篇参考文章
http://www.powershelladmin.com/wiki/Accessing_the_Bing_Search_API_v2_using_PowerShell
首先根据主账号生成对应的access token, 大概可以参考这个链接
https://msdn.microsoft.com/en-AU/library/azure/dn798668.aspx#ManuallyCreateToken
然后比着上面那个GUI的自动生成的query格式写个function转换成需要的语法结构,因为他的返回值可以是xml或者json,因此直接用invoke-restmethod 调用就行了
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
|
$Key
=
'2rNmeyElCeWRJ1DLvRl5ReJ0l85R/klsdjlskfs'
#这个ID我改了一下,不是真的
$Base64KeyBytes
=
[byte[]]
[Text.Encoding]
::ASCII.GetBytes(
"ignored:$Key"
)
$Base64Key
=
[Convert]
::ToBase64String(
$Base64KeyBytes
)
function
Get-BingQuery
{
param
(
[string[]]
$Query
)
Add-Type
-Assembly System.Web
$Query
=
'%27'
+ ((
$Query
| %{
[Web.HttpUtility]
::UrlEncode(
$_
) }) -join
'+'
) +
'%27'
# Return the proper string.
$Query
}
$QueryString
=
Get-BingQuery
'music'
$Uri
=
'https://api.datamarket.azure.com/Bing/Search/Web?$format=json&$top=5&Query='
+
$QueryString
$Results
=
Invoke-RestMethod
-Uri
$Uri
-Headers @{ Authorization =
"Basic $Base64Key"
}
$Results
.d.results | Select Title, Description, DisplayUrl, Url | fl
|
结果如下:
成功