אני מבין את התרגיל ומה הוא מבקש, אבל לא עולה לי דרך איך להגיע לשם.
כשאני קורא ומדפיס לדוגמא את הקובץ הראשון אני מקבל את כל הקשקושים של ה- html שנמצאים בהתחלה (הקישורים ולאחר מכן הרשימה של כל הפרקים).
בחיפוש בתוך המלל שהודפס לי הצלחתי למצוא את אותה הכותרת שמופיעה אם אני פותח את הקובץ בכרום (ישירות מהתיקייה), אבל מעבר לזה אני לא באמת מבין איך לפתור את המשימה.
חיפשתי באינטרנט וכל מה שמצאתי הוא על איך לפתוח את הקובץ לקריאה בפייתון, מעבר לכך כל מה שמצאתי היה איך לכתוב קובץ html בפייתון וכו’.
זה לא הפיתרון! קובץ html נכתב כקוד, וכדי לראות את הקוד ניתן לפתוח את הקובץ באמצעות “Notepad” או בשמו בעברית “פנקס רשימות”.
תרפרף על הקובץ לאחר שפתחת אותו ידנית ותראה.
כשפותחים קובץ כזה בפייתון - תנסה ותראה.
אין חכם כבעל ניסיון
פתחתי גם בפייתון וגם דרך הפנקס רשימות ואני באמת לא מצליח להבין מה לעשות עם המלל שקיבלתי.
בשני המצבים אני מקבל מלל ארוך עם מלא סימונים של ה- html.
פתחתי עכשיו דרך הפייתון עם readlines ואמנם אני כן יכול לגלול ולמצוא את השורה של הכותרת היא עדיין מלאה בסימונים של ה- html.
הדרך היחידה שהצלחתי לפתוח את הקובץ ובאמת לקבל רק את המלל בלי כל הקוד מסביב הייתה לפתוח אותו דרך הוורד.
אין ספק שזה עובד, כי אתה פותח את הקובץ txt בתור Notepad במילא. אבל אחרי זה כשאתה ניגש לקובץ עצמו (מנסה לפתוח ידנית) אתה לא נכנס לקובץ המקורי, אלא לקובץ טקסט.
תחשוב שמראש נגיד אתה אמור לעבור על אלפי קובצי html. בהצלחה עם לשנות את כולם ידנית ל-txt כשאתה מראש יודע שאתה יכול לגשת אליהם ב’אותה צורה’
תודה רבה על הטיפ עזר לי מאוד,
לבינתיים הצלחתי למצוא שבכל קובץ מופיעה פעמיים הכותרת עם התוספות של html, משם הצלחתי לפצל אותה ולמצוא את המיקום ברשימה שבו הכותרת נמצאת עם פונקציה פשוטה
עכשיו רק לשמור אותם מחדש ולבנות את הקוד
עריכה:
אני מנסה לבנות את הקוד ככה שאני קודם כל אצור רשימה של כל הקבצים שקיימים בתיקייה, ולאחר מכן עבור כל קובץ ברשימה, אשתמש בשם שלו כדי לייצר לי את ה- path שאני צריך בשביל לפתוח אותו, ומשם למצוא את השורה הנכונה לשלוף את הכותרת ולשנות את השם.
הקוד נתקע לי בשלב הפתיחה של הקובץ ואני מקבל את ההתראה הבאה: