آمار کلمات جولای 11, 2008
Posted by محمد in وبلاگ.trackback
فکر کنم اولین بار کمانگیر، مرد آمار وب بود که ایدهی اینو داد که ببینید از چه کلماتی بیشتر استفاده کردید. این شد که منم آمار کلماتی که بیشتر تو وبلاگم ازشون استفاده شده را در آوردم. البته فعل و حرف ربط و کلماتی که تو قالب وبلاگ قرار دارند و درکل این جور چیزا رو حذف کردم. در ادامه این آمار را به صورت نمودار آوردم و در انتهای مطلب هم روش آمارگیری در وردپرس را توضیح دادم:
| وبلاگ | 197 | درس | 72 |
| فیلم | 157 | بازی | 71 |
| استاد | 106 | مورد | 70 |
| فکر | 97 | کلاس | 69 |
| کتاب | 84 | بچه | 66 |
| اول | 84 | دوست | 63 |
| البته | 78 | ماشین | 62 |
| سال | 77 | خوب | 61 |
| خودم | 76 | ساعت | 59 |
| استفاده | 74 | خلاصه | 57 |
روش در آوردن آمار:
گام اول: برای به دست آوردن آمار اول از همه به فایلی نیاز هست که کل وبلاگتون توش باشه، در وردپرس به چند روش میشه این کار را انجام داد، در ساده ترین حالت یک خروجی پشتیبان میگیرید و آن را آنالیز میکنید.(قبل از آنالیز باید یونیکدش کنید) مشکل این روش اینه که اولا کلی کد و html و این حرفا تو آنالیزتون میاد و در ثانی آنالیز شامل کلمات استفاده شده در کامنتها هم میشود که این میتونه خطای زیادی ایجاد کنه، مثلا برای همین وبلاگ وقتی از فایل پشتیبان استفاده کردم کلمهی “سلام” در صدر لیست اومده بود. اما روش دوم و دقیقتر اینه که اول باید به بخش تنظیمات وبلاگ بروید، در سربرگ “خواندن” و قسمت “بیشترین نمایش وبنامه” تعداد کل پستهای وبلاگتون را وارد کنید، تنظیمات را ذخیره کنید و سپس با IE وبلاگتون را باز کنید و پس از لود شدن آن را ذخیره کنید. حالا شما یه نسخه از مطالب وبلاگتون دارید (اگر زیاد از قابلیت “ادامه مطلب” استفاده میکنید خطای کار زیاد میشود)
گام دوم: حال باید فایل مورد نظر را آنالیز کنید. باز هم چند روش وجود دارد. روش اول: یک قلم و کاغذ میگیرید و دانه دانه کلمات را میشمارید، با اینکار به مدت چند هفته مشغول میشوید، صبر و دقتتون زیاد میشه و تو تعطیلات تابستون هم مزاحم مامان بابا و دختر (پسر) همسایه هم نمیشید!
اما روش دوم که خودم ازش استفاده کردم، استفاده از برنامه textstat هست (دانلود 2.7 مگ، لینکش را از اینجا گرفتم) برای اینکار اول برنامه را اجرا میکنید، بعد از منوی فایل گزینه new corpus را میزنید و یک نام برای پروژه انتخاب و سیو میکنید. در مرحلهی بعد باز هم به منوی فایل رفته و اینبار گزینهی add local file را انتخاب کرده و توسط آن فایل پشتیبانی که از وبلاگ تهیه کردید را انتخاب میکنید. حال به محیط برنامه آمده سربرگ word forms را انتخاب میکنید. در ستون سمت چپ روی دگمهی Frequency list کلیک میکنید و از نتیجهی آنالیز لذت میبرید.
روش سوم هم استفاده از کد نوشته شده توسط کمانگیر هست که به شخصه پس از اینکه آنالیزها انجام شد ازش مطلع شدم و برای همین باهاش کار نکردم. (اطلاعات بیشتر در مورد این کد)


همم! خوب دارم فکر می کنم به چه درد می خوره این امار! اگه حس کنم به دردی می خوره حتما از راهنمایی هات استفاده می کنم!
جالب بود. اینطوری آدم میتواند یک بیلانی از مطالبی که نوشته بگیرد و ببیند که رسالتش را درست بجای آورده یا نه!
الحق كه يك بچه فني هستي ! فني ها تا آخره يه قضيه رو بدست نيارن ولش نمي كنند .
با حال بود! حیف که وبلاگ من توی بلاگفاست!:(
راستشو بگو تو این آمارت چه کلماتی در اومد که تو حذفشون کردی :دی
این کلمه “بچه” زیاد تکرار شده ها!!!
جالبه ! آدم میتونه تیکه هایی رو که بیشتر استفاده می کنه رو بفهمه !
مثلا شما زیاد از البته و خلاصه استفاده کردی .
به چه دردی می خوره ؟
salam az mumbai – india
جالب بود.
وبلاگ من بلاگفا است. محتوياتش را توي فايل doc ذخيره كردم و آناليزش كردم.
جدا از حروف اضافه و شناسه و …. ، «تصوير» كلمهاي بود كه من بيشتر از آن استفاده كردم!
من هم دوست دارم یه آمار واسه خودم بگیرم ولی حالشو ندارم.
شاید یه روز خودم یه کد براش بنویسم.