สวัสดีครับ กลับมาพบกันอีกครั้ง วันนี้ผมจะขอมาเฉลยโจทย์ข้อสอบ Data Engineer สำหรับเข้าทำงานที่บริษัท Credit OK จากที่ได้ทราบไปกันว่าเมื่อประมาณต้นปีเราได้เปิดรับ Data Engineer กันไป ก็มีผู้สนใจสมัครเข้ามากันประมาณหนึ่ง และแน่นอนเหมือนเดิมทุกๆ ครั้ง ผมก็จะตั้งโจทย์มาคัดเลือกผู้สมัคร แต่ครั้งนี้พิเศษ ผมจะเอามาเฉลยแนวทางให้ทุกท่านได้ศึกษากัน ซึ่งน่าจะมีประโยชน์สำหรับผู้ที่กำลังสนใจงานทางด้าน Data Engineer กันอยู่ ขอเน้นว่าเฉลยเป็นแนวนะครับ ไม่ใช่เฉลยเป็น Code ตัวอย่าง ดังนั้นถ้าใครไม่เคยสัมผัส GCP มาก่อนเลยอาจจะรู้สึกว่าผมพูดภาษาต่างดาวอยู่หรือเปล่า แต่ชาว GCP เขาเข้าใจกันแหละ 😋
Continue readingTag Archives: Data Pipeline
Data Engineer ทักษะที่ต้องมี โจทย์ เครื่องมือ และความท้าทายที่ต้องเจอ
สวัสดีครับ กลับมาพบกันอีกครั้งกับบทความยาวๆ แบบที่อ่านจบรู้เล่าเอาไปโม้ต่อได้เลย วันนี้ผมจะมาแนะนำให้รู้จักกับสายอาชีพวิศวกรข้อมูล หรือ Data Engineer กัน แต่เราจะไปไกลกันมากกว่านั้น ผมจะพาไปรู้จักกับที่มาที่ไปของสายอาชีพนี้ด้วยว่ามันเกิดขึ้นมาได้อย่างไร งานปรกติทำอะไรกัน มีเครื่องมืออะไรต้องรู้จักบ้าง และปิดท้ายที่ตัวอย่างโจทย์ทางฝั่ง Data Engineer จากบริษัท Credit OK ที่ผมทำงานอยู่
บทความนี้อาจจะยาวๆ หน่อย เพราะเขียนขึ้นมาเพื่อตกผลึกความคิดสำหรับไปบรรยายให้นักศึกษามหาวิทยาลัยเทคโนโลยีพระจอมเกล้าธนบุรีฟังในหัวข้อ Introduction to Data Engineer and Data Pipeline at Credit OK และงาน CodeMania 1010 ในหัวข้อ Serverless Big Data Architecture with Google Cloud Platform ท่านผู้อ่านสามารถเข้าไปดู Slides ได้จากลิงค์นะครับ อ่อ แล้วก็มี Video ด้วยนะ เข้าไปดูได้ที่นี่ครับถ้าสนใจ https://www.youtube.com/watch?v=BAeo0FcF6f8 ขอขอบคุณอาจารย์และทีมงานผู้จัดงานดังกล่าวที่ให้โอกาสผมให้ได้สร้างผลงานนี้ออกมาด้วยครับ
คำเตือน บทความนี้จะเริ่มจากปูความรู้พื้นๆ แล้วค่อยลึกขึ้นเรื่อยๆ โดยเฉพาะในฝั่ง Technical เพราะการตกผลึกความรู้ที่เกิดจากการใช้งานจริง ผมต้องกราบขออภัยท่านผู้อ่านที่พื้นฐานไม่แข็งแรงด้วยนะครับ ผมไม่สามารถลงลึกเล่าในทุกๆ ประเด็นได้จริงๆ เพราะเท่านี้ก็ยืดยาวมากแล้ว แต่ก็อยากให้ลองอ่านกันก่อนนะ อย่าเพิ่งรีบปิดหนีไปกันซะก่อน 555
เอาล่ะ เราอย่ามัวรีรอกันอยู่เลย มาเข้าเรื่องกันดีกว่าครับ 🙂
Continue readingทำ Data Pipeline กับ SFTP Server ด้วย GitLab และ Google Cloud Platform
เมื่อวานลองทำ Data Pipeline ท่าใหม่ที่ไม่เคยทำมาก่อน โดยลูกค้าจะเอาไฟล์มา Drop ไว้ให้บน SFTP แล้วเราจะต้องดูดจาก SFTP ส่งไปหา BigQuery คิดไปคิดมาได้ Solution แปลกใหม่น่าสนใจ เลยเอามาแชร์ให้อ่านกันเล่นๆ
Concept โดยคร่าวคือ เราจะต้อง Sync ข้อมูลจาก SFTP ลงมาใน Local ให้ได้ก่อน แล้วก็เลือกเฉพาะไฟล์ที่มีการเปลี่ยนแปลงส่งขึ้นไปบน Google Cloud Function (GCF) แล้วไปรัน Data Pipeline ต่อบนนั้น ซึ่งข้างบน GCloud นี่ไม่น่าเห็นห่วง เครื่องมือเขาพร้อมอยู่แล้ว แล้วน้องๆ ก็ช่วยกันดำเนินการจนสำเร็จสวยงามไปแล้ว เหลือแต่ส่วนที่เรารับผิดชอบเนี่ยแหละยังไม่ได้ทำ ทุกคนรออยู่ 555 สิ่งที่ต้องคิดเพราะยังไม่เคยทำมาก่อนคือ เรา Sync ไฟล์ลงมาจาก SFTP ได้ยังไงนี่ล่ะ แล้วจะเลือกส่งเฉพาะไฟล์ที่มีการอัพเดทได้อย่างไร
Continue reading