What do you think?
Rate this book
Feature engineering is a crucial step in the machine-learning pipeline, yet this topic is rarely examined on its own. With this practical book, you’ll learn techniques for extracting and transforming features—the numeric representations of raw data—into formats for machine-learning models. Each chapter guides you through a single data problem, such as how to represent text or image data. Together, these examples illustrate the main principles of feature engineering.
Rather than simply teach these principles, authors Alice Zheng and Amanda Casari focus on practical application with exercises throughout the book. The closing chapter brings everything together by tackling a real-world, structured dataset with several feature-engineering techniques. Python packages including numpy, Pandas, Scikit-learn, and Matplotlib are used in code examples.
You’ll examine:
Feature engineering for numeric data: filtering, binning, scaling, log transforms, and power transforms Natural text techniques: bag-of-words, n-grams, and phrase detection Frequency-based filtering and feature scaling for eliminating uninformative features Encoding techniques of categorical variables, including feature hashing and bin-counting Model-based feature engineering with principal component analysis The concept of model stacking, using k-means as a featurization technique Image feature extraction with manual and deep-learning techniques360 pages, Kindle Edition
Published March 23, 2018
الكتاب بيتكلم عن فكرة الـ Feature Engineering، يعني إزاي تاخد بيانات زي النصوص أو الأرقام أو الصور، وتظبطها عشان تبقى جاهزة للموديل.
الفصول اللي عجبتني في الكتاب:
* الفصل التالت: بيتكلم عن النصوص، إزاي تحول كلام عادي لـ Bag-of-Words أو n-Grams، وتنضف الكلام من الزيادة زي Stopwords.
* الفصل الرابع: هنا بيخش على tf-idf، ودي طريقة تخلّيك تعرف الكلمات المهمة في النص بدل ما تسيب كل حاجة زي بعضها.
* الفصل التامن: بيدخل في الصور، وإزاي تستخرج منها ميزات زي SIFT و HOG، أو تستخدم الشبكات العصبية زي AlexNet.
سلبيات:
* الفصل الأخير: ده اللي الكتاب مركز عليه، بيتكلم عن إزاي أبني نظام توصية للأوراق الأبحاث حجمه 2.5 جيجا. المفروض إن الفصل ده هو المثال العملي بتاع الكتاب، لكن مكنش مكتمل بشكل نهائي. يعني نتيجة الموديل في النهاية مكنتش كويسة، وكان ممكن يعملوا تعديلات عليه عشان يحسنوا نتيجة التوصيات.
باختصار: الفصل كان مركز جدًا على التجربة خطوة بخطوة (من استيراد البيانات لتعديل الميزات)، لكن ما اداش مساحة كبيرة لتحليل النتايج أو اقتراح حلول مختلفة، لأن نتيجة النموذج مكنتش أفضل حاجة، وتحس إن أهم فصل في الكتاب مكنش مكتمل.
* أحيانًا بيخش في تفاصيل تقنية زيادة (زي PCA في الفصل السادس)، ممكن تدوخ لو مش متظبط في الرياضيات، وفي نفس الوقت كان ممكن يختصر.<