วันอาทิตย์ที่ 23 สิงหาคม พ.ศ. 2563

วิทยาการข้อมูล(Data science)

 

วิทยาการข้อมูล (Data Science)

 

ขณะนี้การเติบโตของวิทยาการข้อมูล (Data Sciences) และการวิเคราะห์ธุรกิจ (Business Analytics) เป็นไปอย่างรวดเร็ว หลายๆ บริษัทต่างพากันคิดว่าจะนำข้อมูลซึ่งคือขุมทองหรือบ่อน้ำมันของบริษัทมาใช้งานให้ได้มากที่สุดเพื่อให้เกิดความได้เปรียบในการแข่งขัน (Competitive advantage) วิทยาการข้อมูลหรือ Business Analytics นั้นเมื่อวาดออกมาเป็น Venn-Euler Diagram หรือแผนภาพเวนน์-ออยเลอร์นั้นประกอบด้วยสามสาขาวิชาเป็นการบูรณาการของสามสาขาวิชา คือ

1. วิทยาการคอมพิวเตอร์ (Computer Sciences)

2. คณิตศาสตร์และสถิติศาสตร์

3. ความเชี่ยวชาญในเนื้อหาวิชาแต่ละสาขาวิชา ซึ่งถ้าเป็น Business Analytics แล้วก็จะเป็นเนื้อหาในส่วนของการบริหารธุรกิจ

 

ความรู้ทางวิทยาการคอมพิวเตอร์ล้วนๆ ถือว่าเป็น Hacking Skills ความรู้ทางสถิติและคณิตศาสตร์เพื่อนำมารวมกับ Hacking Skills ที่ว่าก็เป็นเรื่องของการเรียนรู้ของเครื่องจักร (Machine learning) ส่วน Hacking Skills บวกกับความเชี่ยวชาญเฉพาะเนื้อหาถือว่าเป็น dangerous zone โดยเฉพาะอย่างยิ่งมีความรู้ในเนื้อหานั้นๆ แล้วเอาความรู้ทางวิทยาการคอมพิวเตอร์มาบิดข้อมูลไปมา จนเกิดอันตรายได้ เรียกว่า มีความรู้เพียงพอที่จะก่อให้เกิดอันตรายหรือ know enough to be dangerous ในขณะที่ถ้ารู้สถิติและคณิตศาสตร์รวมกับความเชี่ยวชาญในเนื้อหาก็จะเป็น Traditional research เช่น รู้สถิติและการตลาด เป็นวิจัยตลาด รู้เรื่องบริหารธุรกิจและสถิติกับคณิตศาสตร์ก็จะเป็นวิจัยธุรกิจ เป็นต้น หากมีความรู้ทั้งสามอย่างคือรู้ทั้งสถิติและคณิตศาสตร์ วิทยาการคอมพิวเตอร์ และเนื้อหาที่ตนเชี่ยวชาญก็จะเป็นวิทยาการข้อมูล

ความแตกต่างหลักระหว่างวิทยาการข้อมูลกับวิจัยแบบดั้งเดิม เช่น ความแตกต่างระหว่างการวิจัยการตลาดแบบดั้งเดิม (Traditional marketing research) และการวิเคราะห์การตลาด (Marketing Analytics) นั้นแตกต่างกันตรงที่ความรู้ทางวิทยาการคอมพิวเตอร์ ความรู้ทางวิทยาการคอมพิวเตอร์นั้นหมายรวมถึงการใช้ข้อมูลจากระบบสารสนเทศที่หลากหลายขึ้น Big data, ข้อมูลโลกออนไลน์, social network and media, Barcode scanner, Biocensor, และ Internet of Things และหากจะต้องการเป็น Business Analytics หรือ Marketing Analytics ได้ แตกต่างจาก Traditional Business Research หรือ Traditional Marketing Research ต้องบูรณาการความรู้ทางวิทยาการคอมพิวเตอร์ เข้ามา

การนำความรู้ทางวิทยาการคอมพิวเตอร์เข้ามานั้น มาในสองรูปแบบหลัก อย่างแรกคือ ช่องทางในการเข้าถึงข้อมูล ข้อมูลขนาดใหญ่ในโลกปัจจุบันเป็นข้อมูลแบบไม่มีโครงสร้าง ต(Unstructured data) เช่น พฤติกรรมการท่องเว็บไซท์ทางอินเตอร์เน็ต จะเอามาใส่ตารางแบบแต่ก่อนในรูปแบบของ Relational database ก็ทำไม่ได้ เราเป็นเพื่อนกับใคร เราแชร์ เราคอมเมนต์ เรากดไลค์ เรา retweet ให้ใครใคร retweet ต่อจากเราบ้าง เราซื้อสินค้าอะไรบนโลกออนไลน์ มันเชื่อมโยงกันแบบวุ่นวายไปหมด ไม่มี pattern ที่แน่นอน หรือกระทั่งการซื้อของแล้ว Scan barcode ในร้านสะดวกซื้อหรือร้านค้าปลีก ก็มี format ที่กระจุยกระจายมาก เพราะในร้านมี stock keeping unit: SKU เยอะมาก และมีรายการสินค้าเพิ่มหรือลดตลอดเวลา ข้อมูลเหล่านี้ เป็นบ่อน้ำมันให้เราขุดมาใช้งาน ซึ่งการวิจัยธุรกิจหรือการวิจัยตลาดแบบดั้งเดิมนั้นทำไม่ได้พอ แค่จะดึงข้อมูลก็ลำบากกว่า ข้อมูลพฤติกรรมการใช้อินเตอร์เน็ทของประเทศไทยก็ไม่มีความจำเป็นที่ต้องทำสำรวจด้วยตัวอย่าง (Sample survey) อย่างที่สำนักงานสถิติแห่งชาติทำแบบดั้งเดิม เพราะสามารถไปเก็บข้อมูล log file จาก gateway ของ กสทช ซึ่งเป็น hard data และไม่ใช่คำรายงานด้วยตนเองจึงไม่มีการโกหกเพราะ track ได้จากพฤติกรรมที่คนไทยใช้อินเตอร์เน็ตจริงๆ ไม่มีความคลาดเคลื่อนจากการสุ่มตัวอย่าง (Sampling error) เพราะเก็บมาจากประชากรทั้งหมดคือคนไทยทั้งประเทศ จึงมีความแม่นยำมากกว่า มีต้นทุนที่ถูกกว่า ใช้เวลาน้อยกว่าเพราะเป็น secondary data จะเห็นว่าในกรณีนี้การสำรวจด้วยตัวอย่างไม่มีความจำเป็น การใช้สถิติเชิงอนุมาน (Statistical inference) ที่เราเรียนมากันมากมายก็ไม่มีความจำเป็นเช่นกัน แต่ความรู้เรื่อง Big Data Architecture นั้นจำเป็น

ประการที่สองเนื่องจากข้อมูลขนาดใหญ่สมัยใหม่ มีความรวดเร็ว (Velocity) และมีความหลากหลาย (Variety) ข้อมูลวิจัยธุรกิจและวิจัยตลาดแบบเดิมๆ ส่วนใหญ่เป็นข้อมูลตัวเลขหรือข้อความ (ในสัดส่วนที่ไม่มากนัก) และวิธีการทางสถิติศาสตร์ก็พัฒนามาเพื่อการวิเคราะห์ได้เฉพาะข้อมูลที่มีโครงสร้าง (Structured data) ที่เป็นข้อมูลตัวเลขเป็นหลัก แต่ข้อมูลขนาดใหญ่ มีข้อความ มี social network behavior มีภาพ มีเสียง มีวีดีโอ มีภาพสามมติ มีวีดีโออนิเมชั่นสามมิติ ข้อมูลมีความซับซ้อนเกินกว่าความสามารถของสถิติศาสตร์แบบดั้งเดิมจะวิเคราะห์ได้ ในขณะที่การเรียนรู้ของเครื่องจักร ปัญญาประดิษฐ์ (Artificial Intelligence) และ deep learning ถูกออกแบบมาให้วิเคราะห์ข้อมูลไม่มีโครงสร้าง (Unstructured data) ที่ซับซ้อนกว่าได้ หากสถิติศาสตร์ไม่ปรับตัวพัฒนาตัวเองให้ตามทันก็อาจจะล้าหลังกว่าได้ในอนาคตอันใกล้ มองในอีกแง่หนึ่ง Machine learning หรือ deep learning เหล่านั้นทำหน้าที่เสมือนหนึ่งสถิติเชิงบรรยาย (Descriptive statistics) เพราะไม่ได้คำนึงถึงความคลาดเคลื่อนจากการสุ่มและการแจกแจง (Distribution) ของตัวแปรมากนัก


 คำถามสำคัญประการหนึ่งคือเมื่อมีข้อมูลขนาดใหญ่มาให้ใช้ ทำให้สามารถตอบปัญหาหลายปัญหาที่การวิจัยตลาดหรือวิจัยธุรกิจแบบดั้งเดิมตอบได้ยาก เช่น จากข้อมูล Barcode ที่แสกนเมื่อจ่ายเงินทำให้สามารถจัดกลุ่มลูกค้าตามพฤติกรรมการซื้อ (Buying Behavior) ได้ง่ายมากขึ้น ไม่จำเป็นต้องทำการสำรวจตลาด (Market Survey) แบบดั้งเดิม การวิเคราะห์ตะกร้าทางการตลาด (Market Basket Analysis) เพื่อให้ทราบว่าเมื่อลูกค้าซื้อสินค้าหนึ่งจะมีแนวโน้มจะซื้อสินค้าอะไรด้วย ซึ่งช่วยในการทำ Recommendation System เพื่อจะได้นำเสนอโฆษณาสินค้าและบริการที่ลูกค้าคนเดิมมีแนวโน้มจะซื่อเพิ่มเติมเกิด Cross-sell หรือนำเสนอขายสินค้าที่แพงขึ้นหรือได้กำไรมากขึ้นเรียกว่า up-sell คำถามแบบนี้ถ้าไม่มี Barcode scanner และ marketing analytics นั้นตอบได้ยาก หรืออาจจะตอบไม่ได้เลยด้วย market survey

          ในขณะที่อีกด้านการใช้ความรู้ด้าน Business analytics และ Marketing analytics ได้ค้นพบพฤติกรรมหรือ pattern ต่างๆ ของผู้บริโภคแล้วก็ไม่สามารถอธิบายหรือเข้าใจเหตุผลได้ว่าทำไมผู้บริโภคจึงแสดงพฤติกรรมเช่นนั้น เช่น ในสหรัฐอเมริกานั้นค้นพบว่าในวันหยุดสุดสัปดาห์ผู้ชายวันเริ่มต้นมีครอบครัวและวัยกลางคนนิยมซื้อเบียร์และผ้าอ้อมกลับบ้านคู่กัน เมื่อไปศึกษาเชิงคุณภาพจึงทราบว่าภรรยาใช้มาซื้อผ้าอ้อมเลยถือโอกาสซื้อเบียร์ไปนั่งซดหน้าทีวีด้วย ในประเทศไทยมีการค้นพบว่าผู้ชายไทยนิยมซื้อหมากฝรั่ง ลูกอมดับกลิ่นปากควบคู่กับถุงยางอนามัย (ทำให้ space management ของร้านสะดวกซื้อต้องวางถุงยางอนามัยไว้ข้างหนึ่งของเคาน์เตอร์จ่ายเงินและอีกข้างวางหมากฝรั่งและลูกอมดับกลิ่นปาก)

ใน Silicon Valley ที่สหรัฐอเมริกา ไม่ว่าจะ Google Amazon หรือ Facebook เมื่อจ้าง Computer Scientist มาช่วยกัน mine หา pattern หรือพฤติกรรมทางการตลาดบนโลกออนไลน์กันมากมายแล้ว สุดท้ายก็ไม่เข้าใจเหตุผล เมื่อไม่เข้าใจเหตุผลทำให้วางแผนกลยุทธ์ธุรกิจ/การตลาด ไม่ได้เต็มที่สุดท้ายก็ต้องมาจ้างนักจิตวิทยา/นักสังคมวิทยามาช่วยวิจัยเชิงคุณภาพเช่น การสัมภาษณ์เชิงลึก หรือการสนทนากลุ่ม เพื่อค้นหาเหตุผลการแสดงพฤติกรรมต่างๆ บนโลกออนไลน์ ทำให้นำผลการค้นพบด้วย marketing analytics ไปใช้งานได้จริง

ในอีกด้านคำถามทางธุรกิจ/การตลาด ที่ต้องการค้นพบโอกาสทางธุรกิจ/การตลาด การพัฒนาผลิตภัณฑ์ใหม่ การออกแบบส่วนประสมทางการตลาด อาจจะยังมีความจำเป็นที่ต้องใช้การวิจัยธุรกิจ/ตลาดแบบดั้งเดิม ทั้งนี้สินค้าใหม่ ไอเดียใหม่ โอกาสใหม่ทางธุรกิจ/การตลาดอาจจะไม่ได้มีอยู่แล้วในข้อมูลขนาดใหญ่ เพราะยังไม่เคยมีขายหรือให้บริการ จำเป็นต้องมีการทดลอง การสำรวจ หรือการศึกษาความสัมพันธ์ด้วยการเก็บข้อมูลใหม่ เพราะเป็นเรื่องใหม่ที่ไม่มีมาก่อน จะไปค้นข้อมูลจาก Barcode scanner ก็เป็นไปไม่ได้ และแน่นอนว่าโลกของธุรกิจ/การตลาดยุคใหม่ต้องการอะไรใหม่ๆ มากเช่นกัน ต้องการนวัตกรรมและความคิดสร้างสรรค์ ข้อมูลเดิมที่มีอยู่แล้วอาจจะไม่เป็นน้ำมันที่เพียงพอในการขับเคลื่อนธุรกิจและการตลาด

Thomas Waller ผู้เขียนหนังสือ Marketing Data Sceince ได้ให้ข้อคิดว่า

Marketing Data Sciences
หรือ Marketing Analytics ในปัจจุบัน ไม่ได้ขาดจากการวิจัยตลาดแบบดั้งเดิม ข้อมูลจาก provider เช่น บริษัทวิจัยตลาด หรือบริษัทที่ขายข้อมูลเคยใช้อย่างไรในปี 1995 ก็ยังใช้เหมือนเดิมและมากกว่าเดิม ข้อมูลจากภายนอกรวมไปถึงข้อมูลจาก website นั้นมีการใช้มากขึ้นและมีความเชื่อมโยงกับข้อมูลจาก provider เช่นมีผู้รวบรวมข้อมูลภายนอกมากขาย และส่วนนี้ใช้เพิ่มขึ้นมากกว่าเดิมเป็นเท่าตัว วนข้อมูลภายในเช่น ข้อมูลจาก Barcode Scanner ข้อมูลของลูกค้า ก็มีการใช้มากขึ้นเป็นเท่าตัวเช่นกัน การวิจัยธุรกิจ/การวิจัยตลาดแบบดั้งเดิม จึงไม่ได้แยกขาดจากการวิเคราะห์ธุรกิจ/การวิเคราะห์ตลาด สมัยใหม่ที่เน้นการใช้ข้อมูลจาก external หรือ internal จากข้อมูลออนไลน์หรือข้อมูล barcode แต่อย่างใด ยังจำเป็นต้องใช้ควบคู่กันอยู่ ทั้งนี้จุดแข็งของการวิจัยตลาดแบบดั้งเดิมคือการออกแบบการเก็บข้อมูล การสุ่มตัวอย่าง การัดตัวแปร ให้มีคุณภาพเพียงพอที่จะนำมาวิเคราะห์ โดยเฉพาะข้อมูลที่ไม่เคยมีไม่เคยทราบมาก่อนผ่านการทดลอง และการสำรวจ ส่วน Business/Marketing analytics นั้นมีจุดเด่นที่การรวบรวมข้อมูลหลากหลายประเภทบนโลกออนไลน์และสามารถวิเคราะห์ข้อมูลที่ไม่มีโครงสร้างได้ดีกว่า


คำถามที่เราต้องตอบคือจะใช้อะไรเมื่อไหร่ นั้นขึ้นกับโจทย์ว่าเรามีโจทย์ทางธุรกิจ/การตลาดที่ต้องการตอบว่าเป็นอะไรกันแน่ ดังที่ Albert Einstein พูดเสมอว่า การตั้งคำถามที่ดียากกว่าการตอบคำถามได้