הארי לא רציונאלי: קבצים שאינם מסוג txt

בzip שלטיפולנו, אין כאלה.
אבל מה קורה אם הקבצים הם לא כולם מסוג txt?
מה אם בתיקייה יהיו קבצי תמונה בינאריים?
איך אפשר לסנן ולדעת מראש לגשת רק לקובצי טקסט בחיפוש אחר מלים מנחות?

ראשית, הקבצים בשאלה הם לא קבצי txt, אלא קבצי html שניתן לפתוח ולקרוא אותם כקבצי txt, זה אולי נשמע כמו ניטפיקינג כרגע, אבל זו אבחנה שצריך לשים לב אליה, ולפי הסילבוס נעמוד על טיבה בהמשך הקורס.

לגבי השאלה הכללית שלך, יש דבר שמבדיל בין קבצים באשר הם וזו הסיומת שלהם. עד כה נתקלנו ב-2 סוגי קבצים שניתן להתייחס אליהם כקבצי טקסט: txt, html. קבצים בינאריים הם בעלי סיומות שונות מאלה. זה אמור לכוון אותך לפי מה כדאי לסווג קבצים.

תודה
כאמור html ו txt פגשנו בתרגילים כאן,
אבל יש כאלה שהסיומת שלהם אחרת, וגם הם טקסט.
ומובן שיש גם הרבה סוגים של קבצים בינאריים.
השאלה היא האם ניתן לשאול לגבי סוג הקובץ לפני ניסיון לפתוח אותו לקריאה, ולא רק על פי הסיומת של שמו, מה גם שלא את כל הסיומות אנחנו מכירים.

מניח שכן, אבל ניתן להסתייע בסיומות בלבד באופן קל ובטוח. לא צריך להכיר את כל הסיומות, אלא רק לשים לב לקבצים שרלבנטיים ספציפית לבעיה בה את עוסקת. ולקרוא קצת על מודולים שיכולים לעזור לך.