وب‌اسکرپینگ با پایتون: چگونه داده‌ها را از وب استخراج کنیم؟

(0 نقد)

python
web

https://sinajalalvandi.ir/blog/programming/%D9%88%D8%A8%E2%80%8C%D8%A7%D8%B3%DA%A9%D8%B1%D9%BE%DB%8C%D9%86%DA%AF-%D8%A8%D8%A7-%D9%BE%D8%A7%DB%8C%D8%AA%D9%88%D9%86-%DA%86%DA%AF%D9%88%D9%86%D9%87-%D8%AF%D8%A7%D8%AF%D9%87%E2%80%8C%D9%87%D8%A7-%D8%B1%D8%A7-%D8%A7%D8%B2-%D9%88%D8%A8-%D8%A7%D8%B3%D8%AA%D8%AE%D8%B1%D8%A7%D8%AC-%DA%A9%D9%86%DB%8C%D9%85%D8%9F-r5/

دنبال کنندگان

زمان مطالعه : 7 دقیقه

در دنیای امروز که داده‌ها حرف اول رو می‌زنن، توانایی استخراج اطلاعات از وب یه مهارت فوق‌العاده ارزشمنده. چه بخواهید قیمت محصولات یه فروشگاه آنلاین رو جمع‌آوری کنید، چه اخبار رو تحلیل کنید یا داده‌های تحقیقاتی رو از سایت‌ها بکشید بیرون، وب‌اسکرپینگ (Web Scraping) راه‌حل شماست. توی این مقاله قراره با وب‌اسکرپینگ، ابزارهای پایتون برای این کار و مراحل انجامش آشنا بشید. اگه به پایتون و داده علاقه دارید، تا آخر با من همراه باشید!

وب‌اسکرپینگ چیه؟

وب‌اسکرپینگ به فرآیند خودکار جمع‌آوری داده‌ها از صفحات وب گفته می‌شه. به جای اینکه دستی برید و اطلاعات رو کپی کنید، یه برنامه می‌نویسید که این کار رو براتون انجام بده. پایتون به خاطر سادگی، کتابخانه‌های قدرتمند و انعطاف‌پذیریش، یکی از بهترین زبان‌ها برای وب‌اسکرپینگه.

چرا پایتون؟

کتابخانه‌های آماده: ابزارهایی مثل Beautiful Soup، Requests و Scrapy کار رو خیلی راحت می‌کنن.
خوانایی کد: حتی اگه تازه‌کار باشید، می‌تونید با چند خط کد شروع کنید.
جامعه بزرگ: هر سوالی داشته باشید، جوابش توی انجمن‌های پایتون پیدا می‌شه.

ابزارهای اصلی وب‌اسکرپینگ با پایتون

بیاید با چند ابزار کلیدی که توی این مسیر نیاز دارید آشنا بشیم:

Requests: برای ارسال درخواست HTTP و دریافت محتوای صفحه وب.
Beautiful Soup: برای تجزیه (parse) کردن HTML و پیدا کردن داده‌های مورد نظر.
Scrapy: یه فریم‌ورک کامل برای پروژه‌های بزرگ‌تر و پیچیده‌تر (اختیاری).

یه مثال ساده: استخراج عنوان صفحه

بیاید با یه مثال عملی شروع کنیم. فرض کنید می‌خواهیم عنوان یه صفحه وب رو بگیریم:

import requests
from bs4 import BeautifulSoup

# آدرس صفحه‌ای که می‌خواهیم اسکرپ کنیم
url = "https://example.com"

# درخواست به صفحه
response = requests.get(url)

# چک کردن اینکه درخواست موفق بوده
if response.status_code == 200:
    # تجزیه HTML
    soup = BeautifulSoup(response.text, "html.parser")
    # پیدا کردن تگ عنوان
    title = soup.find("title").text
    print(f"عنوان صفحه: {title}")
else:
    print("خطا در اتصال به صفحه")

خروجی چیزی شبیه اینه:

عنوان صفحه: Example Domain

اینجا با requests محتوای صفحه رو گرفتیم و با BeautifulSoup تگ <title> رو پیدا کردیم. ساده بود، نه؟

مراحل وب‌اسکرپینگ

برای یه پروژه وب‌اسکرپینگ موفق، این مراحل رو دنبال کنید:

شناسایی هدف: اول مشخص کنید چه داده‌ای می‌خواهید (مثلاً قیمت‌ها، نظرات کاربران، یا لینک‌ها).
بررسی ساختار صفحه: ابزار توسعه‌دهنده مرورگر (Inspector) رو باز کنید و HTML صفحه رو نگاه کنید تا بفهمید داده‌ها کجا هستن.
نوشتن کد: با پایتون درخواست بفرستید و داده‌ها رو استخراج کنید.
ذخیره داده‌ها: اطلاعات رو توی فایل CSV، JSON یا دیتابیس ذخیره کنید.
اتوماسیون (اختیاری): اگه نیازه، کدتون رو طوری تنظیم کنید کi (مثلاً روزانه) اجرا بشه.

یه پروژه واقعی: استخراج قیمت محصولات

فرض کنید می‌خواهید قیمت یه محصول رو از یه سایت فروشگاهی بکشید بیرون:

import requests
from bs4 import BeautifulSoup

url = "https://fake-shop.com/product/sample"  # آدرس فرضی
response = requests.get(url)

if response.status_code == 200:
    soup = BeautifulSoup(response.text, "html.parser")
    price = soup.find("span", class_="price").text  # فرض بر اینکه قیمت توی این تگ هست
    print(f"قیمت محصول: {price}")
else:
    print("اتصال ناموفق")

توی این کد، ما دنبال تگ <span> با کلاس price گشتیم. اگه سایت واقعی باشه، باید کلاس یا تگ دقیق رو از HTMLش پیدا کنید.

نکات مهم و چالش‌ها

وب‌اسکرپینگ به همین سادگیا هم نیست! یه سری نکته و چالش هست که باید حواستون باشه:

قوانین سایت: قبل از اسکرپ کردن، فایل robots.txt سایت رو چک کنید و مطمئن شید که اجازه این کار رو دارید. بعضی سایت‌ها اسکرپینگ رو ممنوع کردن.
بلاک شدن: اگه درخواست‌های زیادی بفرستید، ممکنه IPتون بلاک بشه. برای این کار می‌تونید از تأخیر (delay) بین درخواست‌ها یا پراکسی استفاده کنید.
تغییر ساختار سایت: اگه سایت HTMLش رو عوض کنه، کدهاتون ممکنه خراب بشه. باید آماده به‌روزرسانی باشید.
داده‌های پویا: بعضی سایت‌ها با جاوا اسکریپت لود می‌شن. توی این موارد، ابزارهایی مثل Selenium یا Playwright که مرورگر رو شبیه‌سازی می‌کنن، به کارتون میاد.

ذخیره داده‌ها توی فایل

بعد از استخراج، می‌تونید داده‌ها رو توی یه فایل CSV ذخیره کنید:

import csv

data = {"title": "محصول نمونه", "price": "100,000 تومان"}
with open("products.csv", "w", newline="", encoding="utf-8") as file:
    writer = csv.DictWriter(file, fieldnames=["title", "price"])
    writer.writeheader()
    writer.writerow(data)

حالا داده‌هاتون توی یه فایل مرتب ذخیره شدن!

چرا وب‌اسکرپینگ یاد بگیریم؟

تحلیل بازار: قیمت‌ها و محصولات رقبا رو مقایسه کنید.
تحقیقات: داده‌های علمی یا خبری رو جمع‌آوری کنید.
اتوماسیون: کارای تکراری مثل چک کردن موجودی انبار رو خودکار کنید.

جمع‌بندی

وب‌اسکرپینگ با پایتون یه مهارت قدرتمنده که با چند خط کد ساده شروع می‌شه، اما می‌تونه به پروژه‌های پیچیده و حرفه‌ای تبدیل بشه. ابزارهایی مثل Requests و Beautiful Soup نقطه شروع عالی‌ای هستن و اگه بخواهید حرفه‌ای‌تر بشید، می‌تونید سراغ Scrapy یا Selenium برید. فقط یادتون باشه با مسئولیت‌پذیری و رعایت قوانین پیش برید.

دنبال کنندگان

بازخورد کاربر

0 نقد و بررسی 0 دیدگاه

هیچ امتیازی برای نمایش وجود ندارد.

...

سینا هستم، نویسنده‌ی این وبلاگ؛ برنامه‌نویس سیستم و وب با علاقه‌ی ویژه به زبان‌های C و Rust. در اینجا مقالات آموزشی، موضوعاتی که به آن‌ها علاقه دارم و گاهی هم یادداشت‌های روزمره‌ام را می‌نویسم..

سیستم های کامپیوتری F-14 Tomcat: مغز دیجیتال یک جنگنده افسانه‌ای
سیستم های کامپیوتری F-14 Tomcat: مغز دیجیتال یک جنگنده افسانه‌ای

در دنیای هواپیماهای جنگنده، جایی که سرعت، دقت و فناوری با هم حرکت می‌کنند، F-14 Tomcat نامی است که هنوز هم لرزه بر اندام طرفداران هوانوردی می‌اندازد. این جنگنده آمریکایی، که در دهه ۱۹۷۰ میلادی به خدمت نیروی دریایی ایالات متحده درآمد، نه تنها به خاطر بال‌های متغیر و ظاهر سینمایی‌اش در فیلم‌هایی مثل Top Gun معروف شد، بلکه به دلیل سیستم‌های کامپیوتری پیشرفته‌اش، که در آن زمان مرزهای فناوری را جابه‌جا کرد، شهرت یافت. کامپیوترهای onboard F-14، از سیستم کنترل داده‌های هوایی (CADC) گرفته تا رادار AWG-9، این هواپیما را به یک ماشین جنگی هوشمند تبدیل کردند. در این مقاله، به بررسی دقیق و جامع این سیستم‌ها می‌پردازیم – از تاریخچه توسعه‌شان تا نقش‌شان در عملیات واقعی و تأثیرشان بر فناوری‌های امروزی. اگر به دنبال درک عمیق‌تری از چگونگی ادغام کامپیوترها در یک پلتفرم نظامی هستید، این مطلب را دنبال کنید
- 0 پاسخ
sina

September 21Sep 21
انتخاب شده توسط sina

September 21Sep 21
Parsidate -کامل ترین کتابخانه کار با تاریخ و ساعت شمسی در اکوسیستم Rust
Parsidate -کامل ترین کتابخانه کار با تاریخ و ساعت شمسی در اکوسیستم Rust

اگر تاکنون با زبان Rust کار کرده باشید و خواسته باشید تاریخ‌های شمسی (Jalali/Shamsi) را مدیریت کنید، احتمالاً متوجه شده‌اید که امکانات استاندارد Rust و حتی کرِیت‌های معروف مانند chrono بیشتر بر روی تاریخ میلادی تمرکز دارند. اینجاست که به کتابخانه ParsiDate به عنوان یک راه‌حل جامع برای مدیریت تاریخ و زمان فارسی نیاز پیدا میکنید.
ParsiDate یک کتابخانه Rust است که امکانات گسترده‌ای برای کار با تاریخ و زمان شمسی ارائه می‌دهد. این کتابخانه نه تنها می‌تواند تاریخ‌های ساده را مدیریت کند، بلکه تبدیل بین تاریخ میلادی و شمسی، محاسبات زمانی، اعتبارسنجی و پشتیبانی از زمان‌های با منطقه زمانی را نیز فراهم می‌کند.
- 0 پاسخ
sina

March 28Mar 28
انتخاب شده توسط sina

September 15Sep 15
وب‌اسکرپینگ با پایتون: چگونه داده‌ها را از وب استخراج کنیم؟
وب‌اسکرپینگ با پایتون: چگونه داده‌ها را از وب استخراج کنیم؟

در دنیای امروز که داده‌ها حرف اول رو می‌زنن، توانایی استخراج اطلاعات از وب یه مهارت فوق‌العاده ارزشمنده. چه بخواهید قیمت محصولات یه فروشگاه آنلاین رو جمع‌آوری کنید، چه اخبار رو تحلیل کنید یا داده‌های تحقیقاتی رو از سایت‌ها بکشید بیرون، وب‌اسکرپینگ (Web Scraping) راه‌حل شماست. توی این مقاله قراره با وب‌اسکرپینگ، ابزارهای پایتون برای این کار و مراحل انجامش آشنا بشید. اگه به پایتون و داده علاقه دارید، تا آخر با من همراه باشید!
وب‌اسکرپینگ چیه؟
وب‌اسکرپینگ به فرآیند خودکار جمع‌آوری داده‌ها از صفحات وب گفته می‌شه. به جای اینکه دستی برید و اطلاعات رو کپی کنید، یه برنامه می‌نویسید که این کار رو براتون انجام بده. پایتون به خاطر سادگی، کتابخانه‌های قدرتمند و انعطاف‌پذیریش، یکی از بهترین زبان‌ها برای وب‌اسکرپینگه.
- 0 پاسخ
sina

October 28, 20241 سال
انتخاب شده توسط sina

September 7Sep 7
چرا اینترنت طبقاتی و محدودیت‌های اینترنتی به ضرر همه ماست؟
چرا اینترنت طبقاتی و محدودیت‌های اینترنتی به ضرر همه ماست؟

موضوع اینترنت طبقاتی و محدودیت‌های دسترسی به اینترنت در سال‌های اخیر به یکی از مسائل مورد بحث در جامعه تبدیل شده است. اینترنت طبقاتی به معنای ارائه دسترسی متفاوت به اینترنت بر اساس جایگاه شغلی، اجتماعی یا معیارهای دیگر است که در آن گروهی خاص از دسترسی آزاد و بدون محدودیت برخوردار می‌شوند، در حالی که دیگران با موانعی مانند فیلترینگ یا سرعت پایین مواجه‌اند. این رویکرد، همراه با محدودیت‌های اینترنتی، نه تنها حقوق کاربران عادی را تضعیف می‌کند، بلکه به اقتصاد، آموزش و پیشرفت کلی جامعه آسیب می‌رساند. در این نوشتار، دلایلی برای مخالفت با این سیاست‌ها ارائه می‌شود و بر ضرورت دسترسی برابر به اینترنت تأکید می‌گردد
- 0 پاسخ
sina

July 17Jul 17
انتخاب شده توسط sina

September 7Sep 7
مغز شاتل‌های فضایی: نگاهی عمیق به سیستم‌های نرم‌افزاری و کامپیوتری ناسا - بخش اول
مغز شاتل‌های فضایی: نگاهی عمیق به سیستم‌های نرم‌افزاری و کامپیوتری ناسا - بخش اول

شاتل‌های فضایی ناسا، از کلمبیا تا آتلانتیس، فقط ماشین‌های عظیم آهنی نبودن؛ اونا یه شاهکار تکنولوژیک بودن که با قدرت ذهن بشر و چند خط کد به فضا پرواز کردن. تصور کن یه شاتل با سرعت ۲۸٬۰۰۰ کیلومتر بر ساعت دور زمین می‌گرده، توی جو مانور می‌ده و بعد با دقت روی باند فرود میاد. حالا فکر کن همه اینا با کامپیوتری انجام شده که حافظه‌اش از یه فلش USB امروزی هم کمتر بود! اینجاست که سیستم‌های نرم‌افزاری و کامپیوتری شاتل‌ها وارد داستان می‌شن: یه دنیای پیچیده از کد، سخت‌افزار و هوشمندی که هر خطاش می‌تونست یه مأموریت رو به فاجعه بکشونه.
- 0 پاسخ
sina

January 14Jan 14
انتخاب شده توسط sina

March 13Mar 13

مشاهده همه

وب‌اسکرپینگ با پایتون: چگونه داده‌ها را از وب استخراج کنیم؟

وب‌اسکرپینگ چیه؟

چرا پایتون؟

ابزارهای اصلی وب‌اسکرپینگ با پایتون

یه مثال ساده: استخراج عنوان صفحه

مراحل وب‌اسکرپینگ

یه پروژه واقعی: استخراج قیمت محصولات

نکات مهم و چالش‌ها

ذخیره داده‌ها توی فایل

چرا وب‌اسکرپینگ یاد بگیریم؟

جمع‌بندی

بازخورد کاربر

دسته ها

پیشنهادی

سیستم های کامپیوتری F-14 Tomcat: مغز دیجیتال یک جنگنده افسانه‌ای

Parsidate -کامل ترین کتابخانه کار با تاریخ و ساعت شمسی در اکوسیستم Rust

وب‌اسکرپینگ با پایتون: چگونه داده‌ها را از وب استخراج کنیم؟

چرا اینترنت طبقاتی و محدودیت‌های اینترنتی به ضرر همه ماست؟

مغز شاتل‌های فضایی: نگاهی عمیق به سیستم‌های نرم‌افزاری و کامپیوتری ناسا - بخش اول

حساب

‏ناوبری‏

جستجو

Configure browser push notifications

Chrome (Android)

Chrome (Desktop)

Safari (iOS 16.4+)

Safari (macOS)

Edge (Android)

Edge (Desktop)

Firefox (Android)

Firefox (Desktop)