使用Puppeteer高效抓取TripAdvisor景点数据：完整指南-创客网

使用Puppeteer高效抓取TripAdvisor景点数据：完整指南

本教程旨在指导读者如何使用Node.js的Puppeteer库从TripAdvisor网站抓取景点信息，包括标题、链接、图片和描述。文章将详细阐述如何识别和构建稳定的CSS选择器，避免常见的抓取错误，并提供一个完整的代码示例，帮助开发者构建高效且可靠的网页爬虫。

1. 理解Puppeteer与网页抓取基础

puppeteer是一个node库，它提供了一个高级api来通过devtools协议控制chrome或chromium。这意味着你可以像人类用户一样，通过代码模拟浏览器行为，例如导航页面、点击按钮、填写表单，以及最重要的——从动态加载的网页中提取数据。对于像tripadvisor这样大量使用javascript渲染内容的网站，puppeteer是进行网页抓取的理想工具。

在开始之前，请确保你已安装Node.js，并通过npm安装了Puppeteer：

npm init -y
npm install puppeteer

2. 识别目标元素与构建CSS选择器

网页抓取的核心挑战在于准确地识别和定位目标数据所在的HTML元素。许多网站，特别是动态内容网站，会频繁更新其HTML结构或使用动态生成的类名，这使得选择器容易失效。因此，构建稳定且具有韧性的CSS选择器至关重要。

以TripAdvisor的景点列表页为例，我们需要抓取每个景点卡片的标题、链接、图片和描述。

初始错误与修正：

初学者常犯的错误是使用过于泛化或依赖动态类名的选择器。例如，尝试使用#lithium-root .jemSU或.VLKGO等类名作为主选择器，但这些类名可能随时改变，或者在DOM中并非唯一标识。

正确的策略是寻找更稳定的HTML结构。观察TripAdvisor页面，每个景点通常被包裹在一个<article>标签内。这是一个语义化的标签，通常用于表示独立的、可分发的内容单元，因此它是一个相对稳定的容器。

获取标题和链接：

在<article>内部，标题通常位于一个链接（<a>标签）内，并且这个链接可能没有额外的类名，或者其父元素有一个稳定的类名，例如.VLKGO。

AlibabaWOOD

阿里巴巴打造的多元电商视频智能创作平台

查看详情
AlibabaWOOD

不推荐的简单选择器： ‘.VLKGO’ (可能选中多个不相关的元素)
推荐的稳定选择器： ‘.VLKGO a:not([class])’ (选中.VLKGO内部的，且没有class属性的<a>标签，这通常是标题链接)
另一种获取标题文本的方式： ‘.VLKGO span > div’ (选中.VLKGO内部span的直接子div，通常包含标题文本)

代码示例：获取标题

以下代码片段演示了如何使用page.$$eval或page.evaluate来获取页面上所有景点卡片的标题。

const puppeteer = require("puppeteer");
(async () => {
const browser = await puppeteer.launch({ headless: true }); // 生产环境建议设置为true
const page = await browser.newPage();
const url = 'https://www.tripadvisor.com/Attractions-g297476-Activities-c42-Cartagena_Cartagena_District_Bolivar_Department.html';
await page.goto(url, { waitUntil: 'load', timeout: 30000 });
await page.waitForSelector('main', { timeout: 10000 }); // 等待主内容区加载
// 方法一：使用page.evaluate和querySelectorAll
const titles1 = await page.evaluate(() =>
Array.from(document.querySelectorAll('article .VLKGO a:not([class])'), (e) => ({
title: e.innerText.split('.').pop().trim() // 移除序号，清理文本
}))
);
console.log('Titles (Method 1):', titles1);
// 方法二：使用page.$$eval
const titles2 = await page.$$eval('article .VLKGO span > div', el =>
el.map(x => x.textContent.split('.').pop().trim())
);
console.log('Titles (Method 2):', titles2);
await browser.close();
})().catch(err => console.error(err));

3. 抓取多字段信息：标题、链接、图片、描述及更多

为了获取每个景点卡片的完整信息，我们将采用更细致的策略：首先定位所有景点卡片的容器（<article>），然后遍历每个容器，在其内部提取所需的各个字段。

完整抓取流程：

启动浏览器并导航： 初始化Puppeteer，打开新页面，并导航到目标URL。
等待页面加载： 使用waitUntil: ‘load’和waitForSelector确保页面内容完全加载。
定位所有卡片： 使用page.$$(‘article’)获取所有景点卡片的元素句柄。
遍历并提取数据： 循环遍历每个卡片句柄，使用elementHandle.$eval在其内部提取特定字段。$eval在元素句柄的上下文中执行，效率更高。
数据清洗与结构化： 对提取到的文本进行清洗（如移除序号、多余空格），并将数据存储为结构化的对象数组。

示例代码：抓取标题、链接、图片、描述、价格等

const puppeteer = require("puppeteer");
let browser; // 声明浏览器实例以便在finally块中关闭
(async () => {
browser = await puppeteer.launch({ headless: true }); // 建议生产环境设为true
const page = await browser.newPage();
const url = 'https://www.tripadvisor.com/Attractions-g297476-Activities-c42-Cartagena_Cartagena_District_Bolivar_Department.html';
await page.goto(url, { waitUntil: 'load', timeout: 30000 });
await page.waitForSelector('main', { timeout: 10000 }); // 等待主要内容区加载
// 获取所有景点卡片的元素句柄
let places = await page.$$('article');
let data = [];
for (let place of places) {
let header = {};
let image = '';
let desc = '';
let by = {};
let price = '';
let priceTxt = '';
try {
// 提取标题和链接
header = await place.$eval('.VLKGO a:not([class])', el => {
// 移除标题前的序号（如 "1."）
const name = el.textContent.split('.').pop().trim();
const link = el.getAttribute('href');
return { name, link: `https://www.tripadvisor.com${link}` }; // 拼接完整链接
});
} catch (e) {
console.warn("Title/Link not found for a card:", e.message);
// 可以选择跳过或赋予默认值
}
try {
// 提取图片URL，通常在srcset中包含多尺寸图片，取最大的
image = await place.$eval('picture > img[srcset]', el => {
const srcset = el.getAttribute('srcset');
if (srcset) {
// 获取最后一个（通常是最大尺寸）的图片URL，并移除' 2x'等描述
return srcset.split(',').pop().replace(/2x/gi, '').trim();
}
return '';
});
} catch (e) {
console.warn("Image not found for a card:", e.message);
}
try {
// 提取描述
desc = await place.$eval('a:not([class]) > div > span', el => el.textContent.trim());
} catch (e) {
console.warn("Description not found for a card:", e.message);
}
try {
// 提取提供者/作者信息
by = await place.$eval('.VLKGO div > div > div > a', el => {
const name = el.textContent.replace('By ', '').trim();
const link = el.getAttribute('href');
return { name, link: `https://www.tripadvisor.com${link}` };
});
} catch (e) {
// 提供者信息可能不是所有卡片都有
// console.warn("Provider info not found for a card:", e.message);
}
try {
// 提取价格（如果存在）
price = await place.$eval('[data-automation=cardPrice]', el => el.textContent.trim());
} catch (e) {
// 价格信息可能不是所有卡片都有
}
try {
// 提取价格文本（如 "起" 或 "每人"）
priceTxt = await place.$eval('div:nth-child(1) > div:nth-child(3):not([class])', el => el.textContent.trim());
} catch (e) {
// 价格文本可能不是所有卡片都有
}
// 将提取到的数据添加到结果数组
data.push({
name: header.name || 'N/A',
link: header.link || 'N/A',
desc: desc || 'N/A',
image: image || 'N/A',
price: price || 'N/A',
priceTxt: priceTxt || 'N/A',
by: by.name ? by : { name: 'N/A', link: 'N/A' }
});
}
console.log(JSON.stringify(data, null, 2)); // 打印结构化的JSON数据
})().catch(err => console.error("An error occurred:", err)).finally(() => {
// 确保浏览器在任何情况下都被关闭
if (browser) {
browser.close();
}
});

4. 注意事项与最佳实践

选择器稳定性： 网页结构随时可能更新，导致选择器失效。定期检查并更新选择器是维护爬虫的必要工作。
错误处理： 使用try…catch块包裹可能失败的选择器，以防止因某个元素缺失而导致整个爬虫崩溃。
等待机制： 对于动态加载的页面，使用page.waitForSelector()或page.waitForNavigation()等方法确保元素在尝试抓取之前已经加载完成。
无头模式（Headless Mode）： 在开发和调试阶段，可以将headless设置为false，以便观察浏览器行为。在生产环境中，应将其设置为true以提高性能和效率。
负责任的抓取： 遵守网站的robots.txt协议，不要对网站造成过大负载。考虑添加延迟（page.waitForTimeout()）来模拟人类行为，避免被封禁IP。
IP限制与代理： 频繁的请求可能会导致IP被网站封禁。在生产环境中，可能需要结合代理IP池来规避此问题。
API优先： 尽管本教程专注于网页抓取，但如果目标网站提供官方API，始终优先考虑使用API，因为这通常更稳定、合法且高效。

总结

通过本教程，我们学习了如何使用Puppeteer从TripAdvisor这样的动态网站抓取结构化数据。关键在于理解Puppeteer的工作原理，构建稳定的CSS选择器，并采用分步遍历的方式提取多字段信息。掌握这些技术，你将能够应对各种复杂的网页抓取挑战，为数据分析、市场研究等提供有力支持。记住，在进行任何网页抓取活动时，始终要遵守道德规范和法律法规。

大家都在看：

Tailwind CSS top 属性值自定义指南
解决使用CSS变量实现实时拖拽调整元素大小的延迟问题
解决CSS变量控制面板实时拖拽缩放延迟的性能优化指南
解决CSS变量控制元素拖拽调整尺寸时的延迟问题
掌握 position: sticky：解决吸顶失效的CSS语法与布局冲突

温馨提示： 本文最后更新于2025-09-19 10:39:39，某些文章具有时效性，若有错误或已失效，请在下方留言或联系在线客服。

文章版权声明 1 本网站名称： 创客网
2 本站永久网址：https://new.ie310.com
1 本文采用非商业性使用-相同方式共享 4.0 国际许可协议[CC BY-NC-SA]进行授权
2 本站所有内容仅供参考，分享出来是为了可以给大家提供新的思路。
3 互联网转载资源会有一些其他联系方式，请大家不要盲目相信，被骗本站概不负责！
4 本网站只做项目揭秘，无法一对一教学指导，每篇文章内都含项目全套的教程讲解，请仔细阅读。
5 本站分享的所有平台仅供展示，本站不对平台真实性负责，站长建议大家自己根据项目关键词自己选择平台。
6 因为文章发布时间和您阅读文章时间存在时间差，所以有些项目红利期可能已经过了，能不能赚钱需要自己判断。
7 本网站仅做资源分享，不做任何收益保障，创业公司上收费几百上千的项目我免费分享出来的，希望大家可以认真学习。
8 本站所有资料均来自互联网公开分享，并不代表本站立场，如不慎侵犯到您的版权利益，请联系79283999@qq.com删除。

本站资料仅供学习交流使用请勿商业运营，严禁从事违法，侵权等任何非法活动，否则后果自负！

THE END

前端教程建站教程
# css # java # html # javascript # js

文字广告位招租中	文字广告位招租中	文字广告位招租中	文字广告位招租中	文字广告位招租中
文字广告位招租中	文字广告位招租中	文字广告位招租中	文字广告位招租中	文字广告位招租中
文字广告位招租中	文字广告位招租中	文字广告位招租中	文字广告位招租中	文字广告位招租中

1PySide6中QLabel显示QMovie时保持宽高比的动态缩放教程

220:46 玩具五折奍补了

318:43 感觉嗓子有点干马上要感冒的感觉咋办

419:49 生鲜馆20点补券蹲点页面领农补四选一券（番茄/软籽石榴/香梨/软柿）

523:28 给孩子做了一个滑梯

618:40 玩具5折，有娃的上

热门广告位

使用Puppeteer高效抓取TripAdvisor景点数据：完整指南

1. 理解Puppeteer与网页抓取基础

2. 识别目标元素与构建CSS选择器

3. 抓取多字段信息：标题、链接、图片、描述及更多

4. 注意事项与最佳实践

总结

大家都在看：

请登录后发表评论

1PySide6中QLabel显示QMovie时保持宽高比的动态缩放教程

220:46 玩具五折奍补了

318:43 感觉嗓子有点干 马上要感冒的感觉咋办

419:49 生鲜馆20点补券蹲点页面领农补四选一券（番茄/软籽石榴/香梨/软柿）

523:28 给孩子做了一个滑梯

618:40 玩具5折，有娃的上

热门广告位

使用Puppeteer高效抓取TripAdvisor景点数据：完整指南

1. 理解Puppeteer与网页抓取基础

2. 识别目标元素与构建CSS选择器

3. 抓取多字段信息：标题、链接、图片、描述及更多

4. 注意事项与最佳实践

总结

大家都在看：

请登录后发表评论

318:43 感觉嗓子有点干马上要感冒的感觉咋办