48000408 21 98+
info@toseabnieh.ir
شنبه تا پنجشنبه 8 تا 18
مقاله از دالیان به عنوان مطالعه موردی استفاده می کند . دالیان دارای توپوگرافی تپه ای است که ارتفاع متوسط آن بین 50 تا 200 متر و شیب ملایم 5-10 درجه است. مناطق شهری با کوهها و تپههای کم ارتفاع مزین شدهاند و داراییهای سبز استثنایی را برای شهر فراهم میکنند. با توجه به محدودیت های شیب، خطوط دوچرخه کمی در داخل شهر وجود دارد. در نتیجه، حمل و نقل غیر موتوری در درجه اول متکی به سفر عابر پیاده است. دامنه این مطالعه به چهار منطقه اداری در ناحیه شهری مرکزی شامل 39 منطقه اداری، تقریباً 596 کیلومتر مربع و با جمعیت 2.58 میلیون نفر محدود می شود. با توجه به زمینه های مشابه توسعه اجتماعی-اقتصادی در میان این جوامع، این تحقیق به طور خاص در مناطق شهری مرکزی انجام شد.
این مقاله یک چارچوب محاسباتی شناختی برای استخراج اطلاعات در تحقیقات محیطی و رفتاری ارائه می دهد ( شکل 1 ). مرحله جمع آوری داده ها شامل جمع آوری حجم زیادی از داده های ساختاریافته و بدون ساختار بود. دادههای جمعآوریشده تحت استخراج اطلاعات با استفاده از تکنیکهای علوم رایانه و علم داده ، مانند بینایی رایانه و پردازش زبان طبیعی قرار گرفتند . پس از آن، اطلاعات استخراج شده با سیستم های اطلاعات جغرافیایی یکپارچه شد تا موقعیت جغرافیایی دقیق، جزئیات زمانی و ویژگی های ویژگی به دست آید. در مرحله بعد، فرضیه های تحقیق تدوین و اعتبار سنجی شدند. علاوه بر این، ما یک آزمون سازگاری کاپا بین نتایج حاصل از دادههای رسانههای اجتماعی و نتایج بهدستآمده از روشهای سنتی مبتنی بر پرسشنامه برای تعیین امکانسنجی محاسبات شناختی انجام دادیم.
داده های لازم رسانه های اجتماعی با استفاده از یک خزنده وب متمرکز که یک مرورگر شبیه سازی شده است که به طور خودکار اطلاعات مورد نیاز را بازیابی می کند، جمع آوری شد. از ژوئن 2018 تا مه 2019، تمام دادههای Weibo در منطقه مورد مطالعه انتخاب شده، از جمله مکان، زمان، محتوای Weibo و اطلاعات کاربر، جمعآوری شد. پس از حذف داده های خارج از محدوده جغرافیایی منطقه مورد مطالعه، در مجموع 116636 متن به دست آمد. این دوره زمانی خاص برای تسهیل مقایسه با نظرسنجیهای مبتنی بر پرسشنامه و حذف هرگونه تأثیر از همهگیری COVID-19 انتخاب شد. در ابتدا، اطلاعات با ساختار ضعیف و فاقد محتوا حذف شد. متعاقبا، پیوندهای صفحه وب و نمادهای بدون بیان احساسی حذف شدند تا از تداخل در پردازش داده ها و آموزش مدل جلوگیری شود.
نرم افزار Jieba مبتنی بر پایتون برای اهداف بخش بندی متن مورد استفاده قرار گرفت. دو لیست کلمات توقف، یعنی لیست Stop Word موسسه فناوری هاربین و لیست Stop Word بایدو، برای پارتیشن بندی متن استفاده شد. کلماتی که نشاندهنده تمایلات عاطفی بالقوه، چرخشهای گفتار، نفی یا عبارات درجه بودند، متعاقباً برای ادامه مرحله برداری متن حذف شدند. برای ارزیابی موثر تفاوتهای متنی در زمینه این مطالعه، رویکرد برداری n-gram برای بردار کردن اطلاعات متن اتخاذ شد. علاوه بر این، ابزار Count Vectorizer مبتنی بر Sklearn برای استخراج ویژگی های متنی از متون داده شده و تبدیل آنها به یک ماتریس بسامد کلمه استفاده شد. گزینه max_df در حداکثر مقدار خود، گزینه min_df در حداقل آستانه تنظیم شد و گزینه token_pattern حروف، اعداد و علائم نگارشی را فیلتر کرد. در نهایت، معیارهای فیلتر ارائه شده در استدلال توقف کلمات به فیلتر کردن کلمات کمکی معین و همچنین سایر اصطلاحات چینی که تأثیری بر محتوای متن نداشتند کمک کرد.
واژگان فعالیت بدنی با استفاده از پرسشنامههای فعالیت بدنی، ورزشهای سنتی چینی، روتینهای ورزشی رایج و اصطلاحات اینترنتی چینی مرتبط با ورزش ایجاد شد. نمونههایی از فعالیت بدنی شامل ورزشهایی در فضای باز مانند دویدن، فعالیتهای تفریحی مانند بادبادکبازی و تیراندازی با کمان، و همچنین فعالیتهای مرتبط با باشگاه مانند یوگا و تمرینات ماشینی بود. یک دستور Python if برای استخراج متون Weibo که به ورزش بدنی اشاره میکنند استفاده شد ، که منجر به شناسایی 8568 ورودی واقعی پس از حذف پستهای نامربوط شد.
در این مطالعه، ما از یک مدل بیزی ساده بر اساس نظرات تصادفی در ارتباط با Python SnowNLP استفاده کردیم ( شکل 2 ). برای ارزیابی کلمات کلیدی اینترنتی، رویکرد آموزشی پیچیده تری اتخاذ شد. در مجموع 2000 متن Weibo بهطور تصادفی بهعنوان دادههای آموزش یادگیری ماشین انتخاب شدند و قطبیت احساسات آنها (مثبت یا منفی) به صورت دستی بر اساس پیکره SnowNLP ارزیابی شد. نمرات احساسات بین 1 تا 100 بود که معیار کمی از احساسات را ارائه می دهد. برای کاهش سوگیریها و خطاهای احتمالی در یادگیری ماشینی، نظرات خاصی را بهدلیل غیرقابل پیشبینی بودن انتخاب دادهها که منجر به توزیع امتیاز نابرابر میشود، بهطور دستی اضافه یا حذف کردیم. مجموعه داده به یک مجموعه آموزشی 80٪ و یک مجموعه تست 20٪ تقسیم شد.
برای ارزیابی اثربخشی مدل، از ماتریسهای سردرگمی چندگانه مثبت و منفی (TP، TN، FP و FN) استفاده کردیم. در ابتدا، ما نتایج مدل را با نمرات متخصص با استفاده از یک مجموعه تست 20٪ مقایسه کردیم. پس از آن، با به هم زدن ماتریس سردرگمی در مجموعه آزمون، امتیازدهی متخصص را با امتیازدهی خودکار از مدل مقایسه کردیم. نرخ دقت نهایی به شرح زیر محاسبه شد: TP برای 72٪، FP برای 10٪، FN برای 12٪، و TN برای 6٪. با محاسبه TP/(TP + FP)، ما مشخص کردیم که دقت مدل ما 87.80٪ است.
محیط شهری شامل کاربری زمین، تراکم و کیفیت محیطی است ( جدول 1 ). شاخصهای کاربری زمین از تعداد نقاط تأسیسات درون یک سلول به دست آمد. شاخص گیاهی تفاوت عادی شده (NDVI) بر اساس باندهای طیفی تصاویر سنجش از راه دور ، با استفاده از بازتاب مشاهده شده در باندهای مادون قرمز نزدیک (NIR) و مادون قرمز (R) محاسبه شد. فرمول محاسبه NDVI (NIR – R) / (NIR + R) بود. برای تولید یک نقشه NDVI و فیلتر کردن تصاویر بدون ابر برای پوشش منطقه مورد مطالعه، از دادههای سنجش از راه دور بهدستآمده در شهر دالیان در طول دوره جامعه سالم استفاده کردیم. در نهایت، یک تصویر ماهوارهای با وضوح 30 × 30 متر که توسط Landsat 8 OLI (تصویربرگر زمین عملیاتی) در 16 ژوئیه 2018 گرفته شده بود، انتخاب شد. تصاویر سنجش از راه دور از طریق USGS Earth Explorer سرویس ملی زمین شناسی ایالات متحده به دست آمد.
میز 1 . محتوا و روش استخراج عوامل محیطی شهری.
محیط شهری | محتوای خاص | روش محاسبه | منبع اطلاعات |
---|---|---|---|
کاربری زمین | خدمات تجاری | امکانات تجاری شامل امکانات تفریحی، پذیرایی، سرگرمی و خرید است. | نقشه بایدو |
خدمات عمومی | امکانات خدمات عمومی شامل امکانات عمومی و خدماتی است. | ||
زمین مسکونی | زمین مسکونی شامل خانه و آپارتمان است. | ||
تراکم | تراکم شبکه جاده ای | تعداد تقاطع های سه طرفه یا بیشتر در منطقه حائل. | نقشه OSM |
نسبت مساحت کف | نسبت مساحت ساختمان به مساحت زمین. | نقشه OSM | |
تراکم ساخت و ساز | مجموع تعداد ساختمان ها در شبکه مطالعه. | لیانجیا | |
تراکم جمعیت | تعداد کل خانوارهای ساکن در شبکه مطالعه. | لیانجیا | |
کیفیت محیطی | قیمت مسکن | میانگین قیمت خانه در شبکه مطالعه. | لیانجیا |
فضای سبز | شاخص تفاوت نرمال شده گیاهی (NDVI). | تصویر سنجش از دور | |
دید سبز | نسبت ارزش پیکسلی پوشش گیاهی سبز در دید خیابانی | تصویر نمای خیابان | |
مبلمان خیابانی | تعداد چراغ های خیابان، چراغ های راهنمایی، علائم راهنمایی و رانندگی و صندلی ها. | تصویر نمای خیابان |
شاخص نمای سبز و عناصر زیرساخت خیابان (شامل پیادهروها، چراغهای خیابان، چراغهای راهنمایی، علائم راهنمایی و رانندگی و صندلیها) از تصاویر نمای خیابان، با تقسیمبندی معنایی و الگوریتمهای قطعهبندی نمونه استخراج شدند ( شکل 3 ). همه شاخصهای نمای خیابان با استفاده از تصاویر Tencent Street View که از نقشههای آنلاین Tencent تهیه شدهاند، با نقاط نمونهبرداری بر اساس شبکه جادهای از نقشههای OpenStreetMap (OSM) محاسبه شدند. محلهای نمونهبرداری، شامل تمام تقاطعها و نقاط انتهایی جادهها، از فاصله 100 متری انتخاب شدند. با استفاده از API نقشه نمای خیابان، مختصات نقطه نمونه برداری از 0 درجه، 90 درجه، 180 درجه و 270 درجه در چهار جهت وارد شد، که منجر به دانلود چهار تصویر 480 × 320 پیکسل در هر نقطه شد. سبز شدن منظره خیابان در هر نقطه نمونه با تعیین نسبت مجموع پیکسل های سبز در هر چهار تصویر جهت به مجموع پیکسل های سبز در هر چهار تصویر جهت محاسبه شد. در مجموع 101116 تصویر به دست آمد که تنها 24350 امتیاز پس از حذف تصاویر بدون تصویر یا کمتر از چهار تصویر نمای خیابان نمونه باقی مانده است. در این مطالعه، مدل DeepLabv3 (چن و همکاران، 2017) و مجموعه دادههای ADE20K برای آموزش مدل برای استخراج مقادیر پیکسل هر عنصر در تصاویر نمای خیابان با روش تشخیص شی مورد استفاده قرار گرفت. از مدل YOLOv3 (ردمون و فرهادی، 2018) برای نمونهبندی برای استخراج مقدار مشخصی از هر عنصر در تصویر نمای خیابان استفاده شد.
در این مطالعه، منطقه تحقیقاتی را به یک شبکه 200 متر × 200 متر ترسیم کردیم. با تخصیص دقیق هر نقطه داده رفتار رسانه اجتماعی به شبکه متناظر آن بر اساس مختصات طول و عرض جغرافیایی، ما تجزیه و تحلیل دادهها را شامل توزیع مکانی، توزیع زمانی، توزیع احساسات رفتار رسانههای اجتماعی و همچنین تأثیر محیط شهری بر چنین رفتاری انجام دادیم. تعداد پستهای رسانههای اجتماعی توسط ساکنان در هر شبکه به عنوان یک شاخص نشان دهنده سطح فعالیت در آن منطقه خاص بود. ما نابرابریهای زمانی و مکانی را در سرزندگی شهری با استفاده از اطلاعات زمانی (تاریخ و دوره زمانی خاص) استخراجشده از پستهای رسانههای اجتماعی ساکنان تحلیل کردیم. علاوه بر این، استفاده از ویژگیهای احساسی نشاندادهشده در این پستها به ما اجازه میدهد تا یک نقشه احساسات برای شهر بسازیم. تجزیه و تحلیل داده های ما شامل هر دو روش آمار توصیفی و آمار استنباطی بود. در ابتدا، تجسمها برای به تصویر کشیدن الگوهای فضایی و به دنبال آن تحلیل همبستگی ایجاد شد که رابطه بین عوامل محیط شهری و رفتار رسانههای اجتماعی را بررسی میکند. بر اساس این نتایج همبستگی، واحدهای محیطی با هم گروهبندی شدند که ما را قادر میسازد تا چگونگی تأثیر سناریوهای مختلف بر محیط شهری و ویژگیهای احساسی ناشی از رفتار رسانههای اجتماعی را بررسی کنیم. در نهایت، ما سازگاری بین نتایج محاسبات شناختی و تحقیقات سنتی را از طریق آزمون سازگاری کاپا تأیید کردیم.