본문 바로가기
일상다반사/C# 스터디

Python, 파이썬으로 구글 이미지 Crawling 크롤링 하기

by 도리R 2020. 7. 1.

 

인터넷에 알려져 있는 방법을 찾아보면서 구글 이미지 crawling을 하였다.

가장 잘 알려진 방법은 google_images_download 라이브러리를 이용하는 방법인데 아래와 같은 오류가 뜬다.

(라이브러리 링크 :  https://pypi.org/project/google_images_download/)

Unfortunately all 10 could not be downloaded because some images were not downloadable. 0 is all we got for this search filter!

 

구글에서 다양한 서비스를 제공하지만 crawling과 같은 데이터 수집의 경우, 사용자가 원하는 데이터와 정보를 편하게 수집하는 목적으로 이용해서, 오류가 나는 것에 대해 구글에서 책임은 없다. 개발자들은 알아서 우회해서 데이터를 받는 방법을 알아내던가, 누군가가 그 방법을 만들어 주길 기다려야 한다.

 

2020년 6월 30일 오늘 기준으로 업데이트된 새로운 방법을 이용하여 크롤링 하는 데 성공하였다.

 

크롤링을 이용해서 인공지능 얼굴점수를 만들어보았다.

제발 이것 좀 한번씩 해주세요...

http://dorydory.net/archives/248

 

인공지능 얼굴점수 – TIKTIKEURO

--> 인공지능 얼굴점수 내 얼굴의 성적은 얼마? 성별을 선택하세요 여자 남자 Loading… AI가 얼굴을 분석중입니다. 다른 사진으로 재시도 구글 AI를 활용하였습니다. [Google Teachable Machine 2.0]

dorydory.net

 

아래 3 단계를 순서대로 따라 하면 된다.

 

1 단계 - 기존 라이브러리 삭제

우선 기존에 google_images_download 라이브러리를 설치를 했다면 지우자.

만약 처음 시도하는 것이라면, 이 단계는 건너뛰면 된다.

지우는 방법은 cmd에서 아래를 입력하면 된다.

pip uninstall google_images_download

2 단계 - 업데이트된 라이브러리 실행

아래에 업데이트된 라이브러리를 설치한다. (한 줄 한 줄 복사해서 입력)

라이브러리의 경우 Joeclinton1이 기존의 라이브러리를 현재 실행 가능하도록 일부 수정했다.

(https://github.com/Joeclinton1/google-images-download)

git clone https://github.com/Joeclinton1/google-images-download.git
cd google-images-download && sudo python setup.py install #'sudo'의 경우, 윈도우 아나콘다 사용자는 필요 없음

또는 아래와 같이 pip를 이용하여 install 해도 된다.

pip install git+https://github.com/Joeclinton1/google-images-download.git

둘 중 편한 방법을 이용하여 설치하면 되는데, 중요한 건 1단계, 꼭 기존 라이브러리를 삭제해야 한다는 것이다.

설치를 하면 된다.

참고로 난 게임 개발 중이다.

2020/06/16 - [일상다반사/C# 스터디] - [게임 소개] 신현준 찾기, 넌센스 퀴즈 모바일 게임 <노브레인퀴즈>

 

3 단계 - Crawling 실행

아래와 같은 python 스크립트 파일을 작성한 후 실행하면 crawling이 작동한다.

 

현재 키워드당 최대 100개의 사진까지 다운로드가 된다.

from google_images_download import google_images_download   

response = google_images_download.googleimagesdownload()   

arguments = {"keywords":"Polar bears,baloons,Beaches","limit":20,"print_urls":True} 
paths = response.download(arguments)   
print(paths)  

 

crawling이 실제로 실행이 잘 되는 것을 볼 수 있다.

주의 점

한 가지 주의해야 할 사항은, 실행시킬 python 스크립트 파일을 아래와 같이 google-images-download 디렉토리에 넣어두고 실행해야 한다는 점이다. 나 같은 경우 google.py 스크립트 파일이 아래 경로에 있는 것을 알 수 있다.

디렉토리

 

나는 결론적으로 인공지능 얼굴점수를 만들어보았다.

조코딩의 큰 도움으로 만들 수 있었다. 다들 좀 해주세요!

http://dorydory.net/archives/248

 

인공지능 얼굴점수 - TIKTIKEURO

인공지능 얼굴점수 내 얼굴의 성적은 얼마? TIKTIKEURO 게임 모음 성별을 선택하세요 여자 남자 클릭해서 사진올리기 Loading… AI가 얼굴을 분석중입니다. 다른 사진으로 재시도 구글 AI를 활용하였��

dorydory.net

 

 

 

2020/06/15 - [일상다반사/C# 스터디] - [게임 소개] 넌센스퀴즈 모바일게임 노브레인 퀴즈, NoBrain Quiz

 

[게임 소개] 넌센스퀴즈 모바일게임 노브레인 퀴즈, NoBrain Quiz

넌센스퀴즈를 소재로 한 게임들이 다양하게 등장하고 있다. Brain Out 브레인 아웃, Brain Test 브레인 테스트 등등.. 그중에서도 한국인에 입맛에 맞춰 좀 각색을 한 노브레인 퀴즈를 소개하려고 한��

tiktikeuro.tistory.com

이 글이 도움이 됐다면, 좋아요 부탁드립니다!

댓글