วันจันทร์ที่ 12 ตุลาคม พ.ศ. 2552

จุดกำเนิดของ Google(the birth of google) 3/4

หน้าที่ 3 - จอมไต่เว็บ Crawler และ PageRank

**หมายเหตุ (1บทความนี้เขียนเพื่อ วิชาการ.คอม โดยเฉพาะ (VCharkarn.com's exclusive article) )


ผศ.ดร.บุญญฤทธิ์ อุยยานนวาระ สถาบันเทคโนโลยีนานาชาติสิรินธร (SIIT) มหาวิทยาลัยธรรมศาสตร์ นักเขียนประจำ วิชาการ.คอม

Page เริ่มที่จะคิดว่า เราจะทำไงถึงจะรู้ว่า ลิงค์ใดบ้างที่ลิงค์มาัยังเว็บหนึ่งๆ หลังจากที่ศึกษาเกี่ยวกับเรื่องนี้ได้ไม่นาน(ไม่กี่เดือน) Page ก็พบว่า จริงๆแล้ว เรื่องของการลิงค์ไปลิงค์มาของเอกสารนี่ มีกันมานานแล้วในวงการวิชาการ ก็คือเรื่องของ ผลงานวิชาการ นั่นเอง คือโดยปกติแล้ว หากนักวิชาการท่านใด คิดทฤษฎีอะไรออกมาได้ใหม่ๆ หรือค้นพบอะไรใหม่ หรือต้องการจะแก้ไขสิ่งที่มีอยู่แล้ว ก็จะทำการตีพิมพ์ผลงานของตนเองในวารสารวิชาการ (Journal) โดยจะต้องอ้างอิงถึงที่มาของความรู้ หรือ ผลงานที่มีมาก่อนของคนอื่น หรือที่ใกล้เคียง ก็เพื่อให้องค์ความรู้ใหม่ที่ตีพิมพ์ มีรากฐานจากองค์ความรู้ ที่ได้รับการพิสูจน์แล้ว (ตีพิมพ์แล้ว) นั่นเอง ดังนั้น ผลงานวิชาการ ไหนที่ได้รับการอ้างถึง (Citation) บ่อยๆ จาก นักวิชาการคนอื่นๆ แสดงว่า ผลงานวิชาการชิ้นนั้นได้รับการยอมรับอย่างจริง ในวงการวิชาการเรามีตัวชี้วัดกันเลยว่า ผลงานหนึ่งๆ มีการถูกอ้างถึงมากน้อยเพียงใด เราเรียกดัชนีตัวนี้ว่า Citation index ซึ่งการอ้างอิงด้านวิชาการถือเป็นเรื่องใหญ่ ใหญ่ขนาดไหนครับ ก็ใหญ่พอที่จะมีิวิชาที่ว่าด้วยเรื่องนี้โดยเฉพาะเลย คือวิชา bibliometrics (ผมเองก็ไม่เคยเรียนครับ แต่เข้าใจว่าน่าจะเป็นทางกลุ่มนักศึกษา วารสาร หรือ บรรณารักษ์ หรือ สารสนเทศ - เดี๋ยวจะค้นมาให้ว่าที่ไหนสอนบ้างในเมืองไทย)


Quote:

Kiattisin Kanjanawanishkul and Bunyarit Uyyanonvara, Novel fast color reduction algorithm for time-constrained applications, Journal of Visual Communication and Image Representation, Volume 16, Issue 3, June 2005, pp. 311-332 (2005) Y. Sirisathitkula, S. Auwatanamongkola and Bunyarit Uyyanonvara, Color Image Quantization using Adjacent Colors Line Segments. Pattern Recognition Letters, Vol 25/9 pp 1025-1043. (2004) Lloyd Bender, David J. Spalton, Bunyarit Uyyanonvara, James Boyce, Catherine Heatley, Romina Jose and Jaheed Khan, POCOman: New system for quantifying posterior capsule opacification, Journal of Cataract & Refractive Surgery, Volume 30, Issue 10, October 2004, Pages 2058-2063 (2004)


ตัวอย่างของการอ้างอิงทางวิชาการ

ตอนที่ Tim Berners-Lee (ตอนนี้ได้รับการแต่งตั้ง เป็น Sir Tim Berners-Lee เรียบร้อยแล้ว) วิศวกรอิสระของ CERN คิดค้น World Wide Web ขึ้นเป็นครั้งแรกของโลก (ไว้วันหลังค่อยเขียนเรื่อง จุดกำเนิดของ WWW อีกทีแล้วกัน) คุณ Tim แกก็คิดว่า เราน่าจะมีวิธีที่ละลิงค์ผลงานวิชาการของนักวิชาการเข้าด้วยกันเลย ไม่ต้องมานั่งกำหนดรูปแบบที่ยุ่งยาก (เหมือนที่เห็นในกรอบด้านบน) คุณ Tim ก็เลย คิดเรื่องของ Hypertext ขึ้นมา แต่สิ่งที่ Page กำลังทำเป็นการ Reverse Engineer ของ WWW เพราะเค้าต้องการค้นหาถึงที่มา ต้นตอของเอกสารที่ิลิงค์กันนั่นเอง ด้วยความรู้นี้ งานของเค้าก็ง่ายขึ้นเยอะครับ (แม้ที่เหลือก็จะยังสุดหินก็ตาม) ที่เหลือก็คือว่าเค้าจะต้องหาให้ได้ ว่า ใคร อ้างอิงจาก ใคร โดยอัตโนมัติ พูดง่ายๆ ว่าเค้าต้องวาด กราฟของอินเตอร์เน็ต ขึ้นมา บนเครื่องคอมพิวเตอร์ของเค้านั้นเอง แน่นอนว่า กราฟที่เค้าจะสร้างขึ้น จะมีความซับซ้อนสูง และการคำนวนจำนวนลิงค์ ที่เชื่อมหากันก็ทำได้ยาก เนื่องจากกราฟมีการเจริญเติบโตเรื่่อยๆ เพราะความซับซ้อนของข้อมูลสูง ดังนั้นสูตรการคำนวณเพื่อให้คะแนนแต่ละหน้า ก็จะมีความซับซ้อนด้วย ตรงนี้นี่เอง ที่ทำให้ Brin กระโดดเข้ามาในโปรเจ็คนี้




Page และ Brin ในช่วงเริ่มต้นโปรเจ็ค google ที่หอพักนักศึกษาของมหาวิทยาลัย (ภาพจากวารสาร WIRED )

ด้วยพื้นเพ back ground เดิมของ Brin ที่เป็นนักคณิตศาสตร์ ที่จัดว่าเข้าขั้นเป็นอัจฉริยะคนหนึ่ง มีเชื้อสายเป็นคนรัสเซีย เกิดที่รัสเซีย มีพ่อเป็นนักวิทยาศาสตร์ชาวรัสเซีย ที่ทำงานที่องค์การ NASA และ เป็นอาจารย์สอนคณิตศาสตร์ ที่มหาวิทยาลัยแมรี่แลนด์ (University of Maryland) โดยครอบครัวเค้าอพยบ มาอยู่ทีอเมริกา ตอนที่ Brin อายุแค่ 6 ขวบ Brin เรียนจบ ม.ปลาย 1 ปีก่อนชาวบ้าน และหลังจากจบปริญญาตรี ที่แมรี่แลนด์ Brin ก็มาต่อเอกทันทีที่ Stanford ตัว Brin เองก็ต้องมองหาโปรเจ็คปริญญาเอก ด้วยเช่นกัน แต่เค้าเลือกไปเลือกมา่เกือบ 2 ปีแล้ว ก็ยังหาหัวข้อลงตัวไม่ได้ จนได้เข้ามคลุกคลีกับโปรเจ็คของ Page ก็เกิดความสนใจ ที่จะเข้ามาทำในส่วนคณิตศาสตร์ ของโปรเจ็คนี้ และอีกสาเหตุก็คือเค้าชอบ Page (ฮั่นแน่! กะแล้ว เหมือนหนังไทยไม่มีผิด)

การ สร้างกราฟของอินเตอร์เน็ตโดยอัตโนมัติ เป็นจุดเริ่มให้ Page เขียนโปรแกรมเล็กๆ ประเภท Crawler ขึ้นมาตัวหนึ่ง ในห้องนอน ตอนที่ Page เริ่มเขียน crawler นี่ จำนวนหน้าเว็บทั่วโลกก็มีอยู่ประมาณ 10 ล้านหน้าเห็นจะได้ แต่จำนวนลิงค์ที่เชื่อมกันอยู่นี่คงนับไม่ถ้วน โดยหวังจะให้เจ้า Crawler ไต่ไปเก็บข้อมูลมาสร้างเป็นกราฟโดยอัตโนมัติ ใน ตอนนั้น เค้าอาจจะยังไม่รู้หรอก ว่าโปรแกรมเล็กๆที่เค้าเริ่มเขียนในห้องนอน จะเป็นสิ่งที่ประสบความสำเร็จที่สุดในโลก ต่อจาก Internet ....

หลาย คนคงอาจจะยังไม่คุ้นกับคำว่า Crawler ผมขยายความให้อีกนิด Crawler เป็นโปรแกรมเล็กๆโปรแกรมนึง ที่ทำหน้าที่ไปดึงเว็บเพจต่างๆมา ซึ่งปกติแล้วข้อมูลแสดงหน้าเว็บไซท์ที่เราเห็นนี่ เป็นแค่ text file หรือ ข้อมูลตัวอักษรธรรมดาๆนี่เอง (ลองกดที่เมนู view->source ดูนะครับ นั่นแหละคือข้อมูลของหน้าเว็บที่แท้จริง) พอโปรแกรมประเภท บราวเซอร์ เช่น IE หรือ FireFox ได้รับข้อมูลพวกนี้แล้วมันก็ทำการแปล และแสดงให้เป็นสิ่งที่คุณเห็นบนหน้าจอตอนนี้อีกที)

หลังจากที่โปรแกรมประเภท crawlwer ได้รับข้อมูลมาแล้ว มันก็จะทำการแยกข้อมูล และลิงค์(ที่จะไปหน้าอื่น) ออกมา

สมมุติ ว่าหน้าที่คุณอ่านอยู่ตอนนี้นี่ มีลิงค์ออกจากมันไป อีกประมาณ 30 ลิงค์ เจ้าตัว crawler ก็จะทำการจัดการเอาลิงค์เหล่านี้มาเข้าคิวเรียงกันไว้ แล้วก็ไล่ไต่ไปทีละลิงค์ตามคิว แล้วก็ไปดึงข้อมูลหน้านั้นมา แล้วแยกลิงค์แบบเดิมอีก แล้วลิงค์ที่ได้จากหน้าถัดไปนี้ก็จะเอามาเข้าคิว เรียงต่อกันไป เรื่อยๆ เพื่อจะทำการไปดึงข้อมูลมาในเวลาถัดๆไป เพราะฉะนั้นมันก็เลยให้ความรู้สึกคล้ายๆกับว่า เจ้า crawler มันค่อยๆคืบคลานออกจากจุดเริ่มต้นไปทีละน้อย ทีละน้อย

และแล้ว ในเดือนมีนาคม 1996 (เพียงแค่ไม่ถึงปีจากที่เค้าเริ่มศึกษา) Page ก็ปล่อยเจ้า crawler ตัวแรกให้เริ่มทำงาน โดยไต่จากหน้าเว็บเพจของเค้าเอง ที่อยู่บนเว็บไซท์มหาวิทยาลัยสแตนฟอร์ด เจ้า crawler เวอร์ชั่นแรกของ Page ไต่ไปตามเว็บเพื่อเก็บแค่ ชื่อเว็บ และ ข้อมูลใน header เท่านั้นเอง แต่ก็ถือว่าเป็นจุดเิริ่มอย่างเป็นรูปธรรมของ Google (ที่ในปัจจุบันกลายเป็น ซุปเปอร์อภิมหาอมตะนิรันดร์กาล crawler ไปแล้ว เพราะมันไต่ไปเก็บข้อมูลทุกอย่าง ของทุกหน้าเว็บ) เพราะตอนนั้นขืนเก็บทุกอย่าง ทรัพยากรของระบบ เช่น memory หรือ ฮาร์ดดิสต์ ที่จะต้องใช้ในการจัดการกับข้อมูลเหล่านี้ ก็คงต้องมีขนาดใหญ่มหึมา และมันก็มากเกินกว่าจะเป็นโปรเจ็คของเด็กนักเรียนคนนึง

โปรแกรมเล็กๆ ที่ถูกปล่อยออกจากห้องนอนที่หอพักนักศึกษาคนนึง ได้กลายเป็นปรากฏการณ์ ที่ใหญ่ที่สุด รองจากการคิดค้นอินเตอร์เน็ต ได้อย่างไร อ่านหน้าถัดไปนะครับ...

ที่มา http://www.vcharkarn.com/varticle/317

ไม่มีความคิดเห็น:

แสดงความคิดเห็น