トップ «前の日記(Fri Apr 21 2006) 最新 次の日記(Mon Apr 24 2006)» 編集

よこいまさる日記



Sun Apr 23 2006 [長年日記]

Google From Scratch

技術力がすごいとかいうことで有名な Google なのですが、Googleによく似たシステムをスクラッチから作れるのかっていうことに興味があったのでやってみることに。 作るきっかけなのですが、「GoogleやYahoo!って、ホゲホゲって感じのindex張ってくれないのかなぁ。張ってくれないのなら自分で興味本位で作ってみるか」とか思って。 まずはWebページのクローラからだなぁ。

ってことでクローラーを書いてみたり。 とってくるデータがHTMLだったりPDFだったりするので、それぞれに応じた parser を作らなければならないんだなぁと気づく。 HTMLの場合、リンク先の調べ方に <a href="..."> 以外にも <link><meta> などのタグにも対応しなければならないことに気づいた瞬間に WWW::Mechanize を使うのをヤメ。 HTML::TokeParser とか使って今後の拡張性も意識しつつコーディング中。

ある程度 crawler ができたら、そいつの scheduler や storage, indexer など作るのか。 あぁ Google Filesystem みたいなのが必要なのか。

道のりは果てしなさそうだけど、飽きなければ続けるネタが尽きることなさそうだ。

本日のツッコミ(全3件) [ツッコミを入れる]
いけだ (Mon Apr 24 2006 02:36)

技術力ってより、そこにかけられる工数もはんぱないってことだし。

まさる (Mon Apr 24 2006 10:43)

かけられる工数も半端じゃないけど、仲のプレーヤーの質も半端じゃないのです Google は。 足りない分は外注したりM&Aすればいいなんていう中途半端なことしませんから。

いけだ (Wed Apr 26 2006 10:12)

どく。。。(w


2000|10|
2002|01|02|03|04|05|06|07|08|09|10|11|12|
2003|01|02|03|04|05|06|07|08|09|10|11|12|
2004|01|02|03|04|05|06|07|08|09|10|11|12|
2005|01|02|03|04|05|06|07|08|09|10|11|12|
2006|01|02|03|04|05|06|07|08|09|10|11|12|
2007|01|02|03|04|05|06|07|08|09|10|11|12|
2008|01|02|03|04|05|06|07|08|09|10|11|12|
2009|01|02|03|04|05|06|07|08|09|10|11|12|
2010|01|02|03|04|05|06|07|08|09|10|11|12|
2011|01|02|03|04|05|06|07|08|09|10|11|12|
2012|01|02|