출처 : http://nulonge.tistory.com/63?srchid=BR1http%3A%2F%2Fnulonge.tistory.com%2F63
Google 검색창에 사용자가 입력한 검색 요청은 URL로 변환되어 Google로 전달됩니다. 검색창에 검색어를 입력하는 것과 같이 URL을 조작함으로써 검색창에서 활용할 수 없는 조건을 달아 검색할 수 있습니다. 뭐, Google을 이용한 해킹을 준비하는 과정이죠...
알 아둘 것은, 검색 질의어는 q라는 URL 파라미터에 할당된다는 점입니다다. 사파리에서 “누렁이”를 검색창에 입력하면 다음과 같은 URL로 변환됩니다: http://www.google.com/search?client=safari&rls=en-us&q=누렁이& ie=UTF-8&oe=UTF-8
URL 문법
- www.google.com/search --> Google 검색 스크립트의 위치
- ?를 포함한 나머지 부분 --> URL 또는 URI라고 한다.
- ?는 파라미터가 검색 스크립트에 전달된다는 뜻이다.
- 파라미터는 변수와 변수에 할당된 값으로 구성되며, “variable=value” 형태로 표시한다.
- & --> 파라미터와 파라미터 사이에서 사용된다.
- 여러개의 파라미터가 사용될 때 순서는 아무 의미 없다. Google은 파라미터의 변수명에 따라 값을 할당받아 사용자를 대신에 인터넷에서 검색을 수행해준다.
- URL의 구성: www.google.com/search?variable1=value1&variable2=value2&variable3=value3
URL에 한국어와 같은 2바이트 문자를 입력하거나, 특수문자, 공백 등을 입력하려면 16진수로 변환해야 합니다. 웹 브라우저에 따라 16진수로 변환되지 않은 값을 URL 창에 입력해도 무방합니다. 제가 몇가지 테스트를 해봤습니다.
- Mac OS X에서 Safari를 사용하는 경우, 그냥 한글을 입력해도 한글을 인식하고, 검색이 정상적으로 이루어진다.
- Windows에서는 IE를 사용하면 정상적으로 인식하지 못하기 때문에 정상적인 검색이 되지 않는다.
- Windows에서 Chrome을 사용하면 URL 창에서 한글을 인식하고, 검색도 정상적으로 된다.
- Windows에서 Firefox를 사용하는 경우, q에 한글로 검색어를 입력하면 자동으로 16진수로 변환하여 전송하고, 검색된다.
- Linux에서 Firefox를 사용하는 경우, 검색어에 입력된 한글을 인식하고, 검색도 정상적으로 이루어진다.
URL 문법에 따라 검색 질의문을 작성한 예입니다:
- www.google.com/search?q=”헐랭이와 IT보안”
- www.google.com/search?q=헐랭이와+IT보안
- www.google.com/search?q=hack+stuff+johnny // 이때 사용되는 +는 AND 연산자처럼 보인다. 확실치는 않다. 어차피 기본 검색 설정은 AND임...
- www.google.com/search?q=hack+stuff+-johnny // 질의문에 NOT 연산자 -를 함께 사용할 때는 앞에 +를 붙여준다.
- www.google.com/search?q=stuff|johnny // 질의문에 OR 연산자 |를 함께 사용할 때는 +를 붙여주지 않는다. 검색어 사이를 띄지 말고 |를 사용한다.
결 국, Google 검색 URL을 레고 블록을 쌓듯이 구성할 수 있습니다. Google 검색에서 사용할 수 있는 파라미터 변수들은 너무나 많고, 이걸 다 정리하기란 불가능해 보여서.... -_-; 그중에서 많이 쓰일 만한 몇개만 정리해봅니다.
- q=검색어 - 가장 기본적인 검색 변수: 별다른 옵션을 사용하지 않았다면 검색어는 q에 할당된다. 기본적으로 AND 옵션이 적용되므로, 2개 이상의 단어를 입력하면, 2개의 단어가 모두 있는 페이지만 찾아준다: www.google.com/search?q=hack+stuff
- as_oq=검색어 - 값으로 할당된 단어 중 적어도 한 단어가 있으면 모두 찾는다. 검색창에 OR 연산자인 |를 이용하여 “단어1 | 단어2”를 입력한 것과 같다: www.google.com/search/?as_oq=hack+stuff
- as_epq=검색 문자열 값으로 할당된 단어의 묶음을 “구”로 간주해서 정확히 모든 단어가 일치하는 구가 있는 웹 페이지를 찾아서 보여준다. 검색 창에 큰 따옴표로 둘러싼 “hack stuff”를 이용하는 것과 동일하다: www.google.com/search?as_epq=hack+stuff
- as_eq=검색어+검색어 - 값으로 할당된 단어를 검색에서 제외한다. 검색창에서 NOT 연산자인 -를 이용하여 ‘-단어’를 입력한 것과 같다. 검색에서 제외할 단어를 지정하는 것이기 때문에 q, as_oq와 같은 검색 대상을 지정하는 파라미터와 함께 사용해야 한다: www.google.co.kr/search?q=hack+stuff&as_eq=johnny
- start=숫자 - 결과 페이지를 출력할 때 검색된 웹 페이지중에서 보여줄 페이지를 지정한다. 첫 페이지는 0이다. 예를 들어, ‘hack +stuff’로 검색했을 때 100개의 페이지가 150개일 때, start 옵션값으로 9를 지정하면, Google은 검색된 대상중 10번째부터 검색 결과를 보여준다. (왜 그랬을까? 누가 만들었을까?)
- as_filetype=확장자 - 지정된 파일확장자로 된 웹 페이지를 찾는다. mp3, pdf, xls 등 다양한 파일 확장자를 인식한다. 이 파라미터는 혼자 쓰면 검색이 무의미하고, as_ft와 함께 사용된다. (as_ft를 사용하지 않으면 기본값으로 as_ft=i가 적용된다.) q와 같은 다른 파라미터와 함께 사용하는 것이 좋다. 검색창에 고급 연산자 filetype를 지정하는 것과 동일한 결과를 보여준다: www.google.com/search?q=matrix&as_filetype=avi&as_ft=i 또는 www.google.com/search?q=matrix+filetype:avi
- as_ft=[i|e] - as_filetype으로 지정된 파일 유형을 검색에서 포함(i)시킬 것인지 제외(e)할 것인지 지정한다.
- as_sitesearch=도메인 또는 사이트 - 특정 도메인 또는 사이트를 검색 대상에 포함하거나 제외 시킬 때 사용한다. as_df와 함께 사용한다.
- as_df=[i|e] - as_sitesearch로 지정된 특정 도메인이나 사이트를 검색 대상에 포함(i)하거나 제외(e)한다.
- as_occt=[any|title|body|url|link] - 검색어를 웹 페이지의 특정 위치에서 찾도록 지정한다. 파라미터의 성격상 다른 것들과 섞어 쓸 때는 주의가 요구된다: www.google.com/search?q=nulonge&as_occt=link
- any - 웹 페이지의 어느 위치든 상관없이 검색어를 찾는다.
- title - 웹 페이지의 타이틀, html 파일의 헤더 부분에서 검색어를 찾는다. 고급 연산자 allintitle과 동일하다.
- body - 웹 페이지 본문에서 검색어를 찾는다. 고급연산자 allintext와 동일하다.
- url - URL에서 검색어를 찾는다. 고급연산자 allinurl과 동일하다.
- link - 웹 페이지에서 검색어가 링크에 있으면 찾는다. 고급연산자 allinanchor와 동일하다.
- safe=[active|off] - SafeSearch 기능을 끄거나 켠다. SafeSearch는 구글 검색걸과에서 성인물을 알아서 걸러주는 역할을 한다. Google Korea에서도 기본으로 Active 상태로 적용된다.
- hl=언어코드 - 검색결과를 출력할 때 사용되는 Google 웹 인터페이스에서 사용되는 언어를 지정한다. 보통 모국어로 지정되어 있기 때문에, Google Korea에서 검색하면 hl=ko로 나타난다. 검색 화면을 영어로 변경하려면 hl=en으로 변경한다. hl로 언어코드를 지정하면 Google이 사용자 PC에 저장하는 쿠키에 값이 저장되기 때문에 이후 Google 화면은 해당 언어로 표시된다. 언어코드는 다음과 같다: ar (아라비아어), zh-CN (중국어 간체), zh-TW (중국어 번체), en (영어), el (그리스어), iw (히브리어), ja (일본어), ko (한글), ru (러시어어)... 이외에도 매우 많음.
- lr=언어코드 - 검색 결과를 특정 언어로 제한한다. hl과 달리, 다른 언어코드를 사용한다: lang_en (영어), lang_zh-CN (중국어 간체), lang_zh-TW (중국어 번체), lang_ko (한글), lang_ja (일본어)...
- restrict=제한코드 - 검색 결과를 특정 국가로 제한한다. 검색 결과를 최상위 도메인이나 서버의 IP 주소가 갖는 지리적 위치에 근거해 하나 또느 몇개 국가 페이지로 제한한다. 이 검색 결과는 완전하지 않을 수 있는데, Google이 제한코드를 적용하는 기준은 host와 whois 명령을 사용해서 확인해볼 수 있다(host www.naver.com을 입력한 다음, 검색결과에서 ip 주소를 찾아서 whois 명령으로 조회해보면 국가명을 알 수 있다.) : 제한 코드는 매우 많다: countryAU (호주), countryCN (중국), countryDO (도미니카 공화국), countryES (스페인), countryUK (영국), countryGU (괌), countryJP (일본), countryKP (북한), counryKR (한국), countryUS (미국)...
- as_qdr=[m3|m6|y] - 지정한 시간 내에 갱신된 웹 페이지를 찾는다.
- m3 - 3달 이내에 갱신된 페이지
- m6 - 6개월 이내에 갱신된 페이지
- y - 1년 이내에 갱신된 페이지