百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术分类 > 正文

Python网络爬虫:老板,需要特殊服务吗?

ztj100 2024-11-27 23:33 11 浏览 0 评论

大家好,我是大爆炸。

网络爬虫,爬天爬地爬空气。


除了常规的下载文字、图片、音频这些,还能干啥?


还能干的有很多,比如一些「多种多样」的特殊服务

2


特殊服务


特殊服务,就是那些定制化的 API。


API 的概念也很好理解:


比如你想爬一个网站的数据,你需要分析这个网站,要向哪个 url 发起请求,要向服务器传递哪些数据,拿到服务器的返回数据又要怎么解析出想要的数据。


其实,这个过程,就是在「抽象化」出一个 API。


例如,上篇文章的视频下载实战。


对于写好的「视频下载程序」而言,输入就是视频名,输出就是下载好的视频文件。


你可以把「视频下载程序」叫做一个 API,本质上就是一个完成特定任务的接口


当然,这些所谓的 API,并非网站管理者提供给你的,而是你自己通过写程序实现的。


这些 API 是需要自己去挖掘,去发现,属于野生的,可以略带调侃地称呼它们为野生 API。


特殊服务,那可就了不得了


它们不是野生的,而是网站官方提供的官方 API。


这些网站明码标价,提供着各式各样定制化服务



比如,这是「聚合数据」提供的一些查询类 API。


这些常规 API 今天不做讨论,咱们玩一些好玩的。


只会网络爬虫,也能玩转所谓的人工智能算法

3


AI 开放平台


人工智能开放平台,很多家都有。


比较熟知的,腾讯、百度、京东、Face++ 都提供了 AI 开放平台。


腾讯 AI 开放平台:

https://ai.qq.com/


百度 AI 开放平台:

https://ai.baidu.com/


京东 AI 开放平台:

http://neuhub.jd.com/


旷视 AI 开放平台:

https://www.faceplusplus.com.cn/


常见的图像技术、语音技术、文字识别,这些网站都有提供。


单看服务数量,百度提供的接口最丰富。



单看图像技术,就眼花缭乱,这么多服务。


如果看服务质量,那应该各有千秋。比如旷视,人脸相关的技术,应该是比较好,毕竟早些年支付宝的人脸识别技术,都是旷视提供技术支持的,底子在那呢。

4


API 的使用方法


API 使用方法很简单,只要有爬虫基础,完全可以轻松应对。


咱们以旷视科技的人脸技术为例进行测试。


首先,创建一个账号


然后,找一个想体验的服务,咱先试试美颜。这年头,没有美颜还真不敢上镜。


旷视科技提供了现成的功能体验。


美颜美型:

https://www.faceplusplus.com.cn/face-beautify/


分为美颜和美型,我的理解就是磨皮滤镜加瘦脸,看一下美颜效果。



左边是美颜前,右边是美颜后,拖拽中间的竖栏,可以调节查看。


下面有很多备选图片,你可以挨个翻牌子,看效果。都不喜欢,也可以点击自定义,上传自己想测试的图片。


这是通过 web 体验服务,如果想嵌入自己的程序里,那就需要学习如何使用这个 API 了。


登录账号,选择控制台,然后创建一个应用,选择「试用」类型。



填写一些信息后,就会生成一个 API KeyAPI Secret,这两个是使用 API 接口要用到的参数。


相当于你的个人账号和密码。


在控制台,有各种服务的使用说明,比如人脸美颜。


Beautify API v2:

https://console.faceplusplus.com.cn/documents/134252584


这个文档,有详细的接口描述,根据这些描述,就可以写代码。



可以看到请求 POST 请求,图片可以是以 URL、二进制文件或 base64 编码上传。


瞧,这就是我之前提到过的,POST 请求的内容,除了是一些文字内容,还可以是一张图片。


根据手册编写代码:


import requests
import base64
import json
import cv2
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline


beautify_url = "https://api-cn.faceplusplus.com/facepp/v2/beautify"
# 你创建的应用的 API Key 和 API Secret(也叫 Secret Key)
AK = ''
SK = ''


# 可选参数,不填写,默认50
# 美白程度 0 - 100
whitening = 80
# 磨皮程度 0 - 100
smoothing = 80
# 瘦脸程度 0 - 100
thinface = 20
# 小脸程度 0 - 100
shrink_face = 50
# 大眼程度 0 - 100
enlarge_eye = 50
# 去眉毛程度 0 - 100
remove_eyebrow = 50
# 滤镜名称,不填写,默认无滤镜
filter_type = ''


# 二进制方式打开图片
img_name = 'test_1.png'
f = open(img_name, 'rb')
# 转 base64
img_base64 = base64.b64encode(f.read())


# 使用 whitening、smoothing、thinface 三个可选参数,其他用默认值
data = {
    'api_key': AK,
    'api_secret': SK,
    'image_base64': img_base64,
    'whitening': whitening,
    'smoothing': smoothing,
    'thinface': thinface,
    }


r = requests.post(url=beautify_url, data=data)
html = json.loads(r.text)


# 解析base64图片
base64_data = html['result']
imgData = base64.b64decode(base64_data)
nparr = np.frombuffer(imgData, np.uint8)
img_res = cv2.imdecode(nparr, cv2.IMREAD_COLOR)
img_res_BGR = cv2.cvtColor(img_res, cv2.COLOR_RGB2BGR)


# 原始图片
img = cv2.imread(img_name)
img_BGR = cv2.cvtColor(img, cv2.COLOR_RGB2BGR)


# 显示图片
fig, axs = plt.subplots(nrows=1, ncols=2, sharex=False, sharey=False, figsize=(10,10))
axs[0].imshow(img_BGR)
axs[1].imshow(img_res_BGR)
plt.show()


你需要填写自己的 AK 和 SK,并下载一张图片。


图片地址:

https://cuijiahua.com/wp-content/uploads/2020/05/test_1.png


API 接口返回的数据是 base64 的二进制文件,需要解码,运行结果:



效果还不错吧!


除了美颜,还有很多服务,人脸检测、人脸识别、人脸关键点等等。



人脸关键点就是在脸上画一堆点,这有什么用?


一个比较成熟的例子就是虚拟主播。



看着还不错吧?


AI 开放平台提供了丰富的 AI 领域的基础能力,怎么用,用来干什么,就看自己的想象力了。


当然,这些免费使用的 API 接口有很多限制,比如不能请求太快等等。


想要 API 提供性能更好,QPS 更大的优质服务,那就得充钱了。


老板,加个钟

相关推荐

Whoosh,纯python编写轻量级搜索工具

引言在许多应用程序中,搜索功能是至关重要的。Whoosh是一个纯Python编写的轻量级搜索引擎库,可以帮助我们快速构建搜索功能。无论是在网站、博客还是本地应用程序中,Whoosh都能提供高效的全文搜...

如何用Python实现二分搜索算法(python二分法查找代码)

如何用Python实现二分搜索算法二分搜索(BinarySearch)是一种高效的查找算法,适用于在有序数组中快速定位目标值。其核心思想是通过不断缩小搜索范围,每次将问题规模减半,时间复杂度为(O...

路径扫描 -- dirsearch(路径查找器怎么使用)

外表干净是尊重别人,内心干净是尊重自己,干净,在今天这个时代,应该是一种极高的赞美和珍贵。。。----网易云热评一、软件介绍Dirsearch是一种命令行工具,可以强制获取web服务器中的目录和文件...

78行Python代码帮你复现微信撤回消息!

来源:悟空智能科技本文约700字,建议阅读5分钟。本文基于python的微信开源库itchat,教你如何收集私聊撤回的信息。...

从零开始学习 Python!2《进阶知识》 Python进阶之路

欢迎来到Python学习的进阶篇章!如果你说已经掌握了基础语法,那么这篇就是你开启高手之路的大门。我们将一起探讨面向对象编程...

白帽黑客如何通过dirsearch脚本工具扫描和收集网站敏感文件

一、背景介绍...

Python之txt数据预定替换word预定义定位标记生成word报告(四)

续接Python之txt数据预定替换word预定义定位标记生成word报告(一)https://mp.toutiao.com/profile_v4/graphic/preview?pgc_id=748...

假期苦短,我用Python!这有个自动回复拜年信息的小程序

...

Python——字符串和正则表达式中的反斜杠('\')问题详解

在本篇文章里小编给大家整理的是关于Python字符串和正则表达式中的反斜杠('\')问题以及相关知识点,有需要的朋友们可以学习下。在Python普通字符串中在Python中,我们用'\'来转义某些普通...

Python re模块:正则表达式综合指南

Python...

Python中re模块详解(rem python)

在《...

python之re模块(python re模块sub)

re模块一.re模块的介绍1.什么是正则表达式"定义:正则表达式是一种对字符和特殊字符操作的一种逻辑公式,从特定的字符中,用正则表达字符来过滤的逻辑。(也是一种文本模式;)2、正则表达式可以帮助我们...

MySQL、PostgreSQL、SQL Server 数据库导入导出实操全解

在数字化时代,数据是关键资产,数据库的导入导出操作则是连接数据与应用场景的桥梁。以下是常见数据库导入导出的实用方法及代码,包含更多细节和特殊情况处理,助你应对各种实际场景。一、MySQL数据库...

Zabbix监控系统系列之六:监控 mysql

zabbix监控mysql1、监控规划在创建监控项之前要尽量考虑清楚要监控什么,怎么监控,监控数据如何存储,监控数据如何展现,如何处理报警等。要进行监控的系统规划需要对Zabbix很了解,这里只是...

mysql系列之一文详解Navicat工具的使用(二)

本章内容是系列内容的第二部分,主要介绍Navicat工具的使用。若查看第一部分请见:...

取消回复欢迎 发表评论: