הכוונה בהארי פוטר והאסיר מאזקבן

אני מבין את התרגיל ומה הוא מבקש, אבל לא עולה לי דרך איך להגיע לשם.
כשאני קורא ומדפיס לדוגמא את הקובץ הראשון אני מקבל את כל הקשקושים של ה- html שנמצאים בהתחלה (הקישורים ולאחר מכן הרשימה של כל הפרקים).
בחיפוש בתוך המלל שהודפס לי הצלחתי למצוא את אותה הכותרת שמופיעה אם אני פותח את הקובץ בכרום (ישירות מהתיקייה), אבל מעבר לזה אני לא באמת מבין איך לפתור את המשימה.

חיפשתי באינטרנט וכל מה שמצאתי הוא על איך לפתוח את הקובץ לקריאה בפייתון, מעבר לכך כל מה שמצאתי היה איך לכתוב קובץ html בפייתון וכו’.

אשמח להכוונה כי כרגע אין לי שמץ איך להתחיל את זה.

מציע להעזר ברמז הראשון בתרגיל. שם מופיע לך משהו שרומז לך על זה שזה בכמו לעבוד כם סוג מסווים של קבצים שכבר עבדת איתם

הכוונה בלפחות ידנית היא לפתוח ישירות מהתיקייה עם ׳פתח באמצעות - קובץ טקסט׳?
יש אפשרות לעשות את הפעולה הזאת ישירות מהפייתון?

אפשר להפוך את הקבצים מקובצי html לקובצי txt ידנית…

להיכנס קובץ קובץ ולשמור אותם כ txt?

זה לא הפיתרון! קובץ html נכתב כקוד, וכדי לראות את הקוד ניתן לפתוח את הקובץ באמצעות “Notepad” או בשמו בעברית “פנקס רשימות”.
תרפרף על הקובץ לאחר שפתחת אותו ידנית ותראה.

כשפותחים קובץ כזה בפייתון - תנסה ותראה.
אין חכם כבעל ניסיון

פתחתי גם בפייתון וגם דרך הפנקס רשימות ואני באמת לא מצליח להבין מה לעשות עם המלל שקיבלתי.
בשני המצבים אני מקבל מלל ארוך עם מלא סימונים של ה- html.
פתחתי עכשיו דרך הפייתון עם readlines ואמנם אני כן יכול לגלול ולמצוא את השורה של הכותרת היא עדיין מלאה בסימונים של ה- html.

הדרך היחידה שהצלחתי לפתוח את הקובץ ובאמת לקבל רק את המלל בלי כל הקוד מסביב הייתה לפתוח אותו דרך הוורד.

אתה מוצא אולי חוקיות כלשהי שהשם של הפרק מופיע אולי בשורה מסויימת בקובץ?

למה? כששיחקתי עם זה, אפשר…

כמובן שלא חייב…

ברור שאפשר. גם את קבצי המחברות של פייתון מסיומת ipynb אתה יכול לשנות ל-txt.

כן, זה מה שהתכוונתי ונראה לי גם הם…
כי למדנו עד עכשיו לעבוד עם קבצי csv וtxt…
אז יותר נוח להמיר את זה לtxt למרות שאין שום בעיה לפתור את ככה…

אני חושב שהעניין פה הוא לפתוח את הקובץ בתור Notepad ולא לשנות סיומות של קבצים

לייק 1

ככה או ככה, זה עובד…

אין ספק שזה עובד, כי אתה פותח את הקובץ txt בתור Notepad במילא. אבל אחרי זה כשאתה ניגש לקובץ עצמו (מנסה לפתוח ידנית) אתה לא נכנס לקובץ המקורי, אלא לקובץ טקסט.
תחשוב שמראש נגיד אתה אמור לעבור על אלפי קובצי html. בהצלחה עם לשנות את כולם ידנית ל-txt כשאתה מראש יודע שאתה יכול לגשת אליהם ב’אותה צורה’

2 לייקים

תודה רבה על הטיפ עזר לי מאוד,
לבינתיים הצלחתי למצוא שבכל קובץ מופיעה פעמיים הכותרת עם התוספות של html, משם הצלחתי לפצל אותה ולמצוא את המיקום ברשימה שבו הכותרת נמצאת עם פונקציה פשוטה
עכשיו רק לשמור אותם מחדש ולבנות את הקוד

עריכה:
אני מנסה לבנות את הקוד ככה שאני קודם כל אצור רשימה של כל הקבצים שקיימים בתיקייה, ולאחר מכן עבור כל קובץ ברשימה, אשתמש בשם שלו כדי לייצר לי את ה- path שאני צריך בשביל לפתוח אותו, ומשם למצוא את השורה הנכונה לשלוף את הכותרת ולשנות את השם.
הקוד נתקע לי בשלב הפתיחה של הקובץ ואני מקבל את ההתראה הבאה:


ומכאן אין לי שמץ איך לתקן את זה

תנסה לקרוא את הקובץ כל פעם שורה שורה עד שתגיע לשורה הרצוייה שלך

בנוגע לבעיה שנתקלת בה כאן - תנסה להיזכר מתי ראית אותה בעבר במחברות.
כבר יצא לך לתקן דבר כזה.

מצאתי את הבעיה, אבל עכשיו אני מקבל את הבעיה הבאה כשאני מנסה לשנות את השם של הקובץ:

הפונקציה os.rename מקבלת 2 פרמטרים -
הראשון הוא נתיב לקובץ כולל השם שלו, והשני הוא הנתיב כולל השם החדש

לייק 1