Webスクレイピングってなに?

date_range 2023/06/02
日々の活動日記エンジニアインターン
istockphoto-1290864946-612x612

みなさん、こんにちは!
京都事業所受託プロダクトチームインターン生の肖かえいです😆


今日は最近勉強したWebスクレイピングについて書いていこうと思います。
WebスクレイピングとはWebサイトから特定の情報を自動的に抽出するコンピュータソフトウェア技術のことです。
例えばどこかのサイトの画像全部を一括ダンロードしたいなと思ったときいちいち手作業でダンロードするのはめんどくさいですよね?

そんなときプログラムでWebの情報を読み取って自動でダンロードしちゃおうというのがWebスクレイピングです。


こんな便利なWebスクレイピングですが使う際にはかなりの注意が必要です。
なぜならかなりのサイトでこのWebスクレイピング、規約で禁止されているんです。
有名どころならAmazon,楽天,Twitterなどです。


規約で禁止されていなくとも防御策をとっているところもあります。
例えば、何かにログインするとき「私はロボットではありません」というチェックが入ることがあると思いますが
あれは実はスクレイピング防止策なんですよね!
こうした禁止の背景にはスクレイピングツールによるサーバーへの過重な負荷を防ぐ目的があります。


Webスクレイピングはかなり奥が深いので興味がある方は是非調べてみてください!
---------------------------------------------------------------------------------------------
インターン募集ページ: https://guardian.jpn.com/recruit/intern/
メンバー紹介ページ:https://guardian.jpn.com/member/Xiao_Kaei/
---------------------------------------------------------------------------------------------


*COMMENT*

  • 谷口 かなこ

    谷口 かなこ

    更新日:2023-06-02 22:17

    *コメント*

    「私はロボットではありません」にチェックを付けると共に、セットである画像パズルや画像選択にイライラしているのは私です。

    *コメント*

  • 紀井 斎

    紀井 斎

    更新日:2023-06-02 23:41

    *コメント*

    スクレイピングって、ニュースまとめのサイトで
    使うのが流行った時代があるのですが
    ユーザの使い勝手を上げるためにスクレイピング機能を実装してて
    それが、著作権的な問題を引き起こしたり、
    実体のないサイトを生み出したり。。。

    総合的によろしくないよねってことで
    ネガ機能なったと記憶してます。
    全てが悪ではなく、要は使いどころだと思われます。

    *コメント*

*コメント*

*ログイン*

メールアドレス
パスワード